JP3784474B2 - ジェスチャー認識方法および装置 - Google Patents
ジェスチャー認識方法および装置 Download PDFInfo
- Publication number
- JP3784474B2 JP3784474B2 JP30933896A JP30933896A JP3784474B2 JP 3784474 B2 JP3784474 B2 JP 3784474B2 JP 30933896 A JP30933896 A JP 30933896A JP 30933896 A JP30933896 A JP 30933896A JP 3784474 B2 JP3784474 B2 JP 3784474B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- time
- image processing
- series
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、被写体を撮像装置により撮影し、画像処理装置において上記撮影画像の特徴パターンを解析することにより被写体のジェスチャーを認識するジェスチャー認識方法および装置に関する。
【0002】
【従来の技術】
人間の身ぶり手振りを認識する技術は、柔軟なMan−Mchine Interface System(マンマシンインタフェース システム)を構築する上で重要である(黒川隆夫、ノンバーバルインターフェース、オーム社、1994)。特に、動作者にデータグローブ等の接触型センサやマーカーを装着させることなく、人間の動作を捉えた動画像を用いいたジェスチャー認識が試みられている(高橋勝彦、関進、小島浩、岡隆一、ジェスチャー動画像のスポッティング認識、信学論(D−II)、Vol.J77−D−IIno.8,pp1552−1561,1994.)。
【0003】
これまでは、1人の人物のジェスチャー認識が試みられているが、近年では複数人物と計算機のマルチモーダル対話(伊藤慶明、木山次郎、関進、小島浩、帳健新、岡隆一、同時複数対話者の会話音声およびジェスチャーのリアルタイム統合理解によるNovel Interface System、音声言語処理7―3、pp17−22、1995)が重要になっている。すなわち、複数人物間におけるジェスチャーや音声による対話を認識理解し、この対話の円滑化に必要な情報をデータベースから提供するシステムが求められている。そのためには、実時間かつ同時的に複数人物のジェスチャーと音声を認識する必要があった。複数人物間での音声と単一人物のジェスチャー認識については統合が実現されている。また長屋等(長屋茂喜、関進、岡隆一、多重解像度特徴によるジェスチャー認識、信学技報、PRU95−99、pp121−126および長屋茂喜、関進、岡隆一、ジェスチャー認識のための動作軌跡特徴の提案、信学技報、NLC95−37、PRU95ー142、pp45−50)により動作者の位置や人数を特定する手法が提案されている。しかしながら複数人物の実時間ジェスチャー認識システムの実現には現在、到っていない。
【0004】
このようなシステムの実現において第1に問題となることは、対象とされる人間の数に等しいカメラと認識システムを用意するかどうかと言うことである。なぜなら上記のジェスチャー動画像のスポッティング認識の報告にも述べられてたように、単一人物の4種類のジェスチャー認識の実時間化に汎用画像処理ボード(Imaging Tchnology Series 150/40)とワークステーション(Iris Crimson)を用いるという負担を強いられるからである。
【0005】
さらにカメラ毎に特定の人物を捉えることは極めて不便であり、対話者が互いに顔を見て話す場合に、それらを捉えることはさらに困難を増すといった状況がある。
【0006】
なお、従来技術として、単一人物のジェスチャー認識を目的とした研究についてはいくつか報告されている。大和ら(J.Yamto,J.Ohya,K.Isii,Recognizing Human Action in Time−Sequential Images Using Hidden Markov Model,Proc.CVPR、pp379―385、1992)は、テニスプレーヤーのスイング動作を対象として、Hidden Markov Modelを用いた動作認識法を提案している。この方法では、動作モデルの学習が可能であるが、動作を行っている時間空間のセグメンテーションを人手で行う必要がある。
【0007】
また、Darrellら(T.J.Darell and A.P.Pentland,Space−Time Gestures,Proc.IJCAI’93 Looking at People Workshop(Aug.1993))は手のひらの動きをその見え方の遷移系列で表し、観測された見え方系列と動作モデルとの対応付けをDynamic Time Warpingで行うことで複数のジェスチャーを認識した。しかしながらこの提案では入力画像の背景が無地である必要が有り、また、同作間の時間的セグメンテーションの方法が示されていない。
【0008】
また、石井ら(H.Ishi,K.Mochizuki and F.Kshino,A Motion Recognition Method fromStereo Images for Human Image Synthesis,The Trans.of the ETC,J76−D−II,8,pp1805−1812(1993−08))は、カラー画像処理とステレオマッチングにより手や顔などの肌色部分の3次元位置を求め、その移動量を計測している。しかし、専用の画像処理装置を用いている石井やDarellらのシステムでもビデオレートでの動作認識は実現されていない。
【0009】
【発明が解決しようとする課題】
複数人物のジェスチャーを同時に認識する場合、その使用環境を自然で良好なものとするために以下の2つの制約を満足する必要がある。
【0010】
制約1 複数人物が自然な形で対話できる環境を保証する単一カメラの使用できること
これは、例えば、複数の人物を単一のカメラで撮影しようとすると、顔を正面にして複数人物が一列にならなければならず、これは自然な形で対話できる環境ではない。例えば、3人が互いに向き合っている姿を側面から撮影しようとすると、2人のジェスチャーをカメラで撮影することはできないであろう。
【0011】
制約2 複数人物のジェスチャリングをリアルタイムでジェスチャー認識すること
これは複数人物のジェスチャー認識に限らないが、認識対象の数が複数になるほど、ジェスチャー認識処理の高速に行わないとリアルタイムで認識結果を得ることはできない。
【0012】
そこで、本発明の第1の目的は、単一カメラで互いに向き合っている複数人物のジェスチャーを撮影できるジェスチャー認識方法および装置を提供することにある。
【0013】
本発明の第2の目的は、ジェスチャー認識精度を損なうことなくその認識処理を高速化できるジェスチャー認識方法および装置を提供する事にある。
【0015】
【課題を解決するための手段】
このような目的を達成するために、本発明は、被写体を時系列的に撮像装置により撮像し、当該撮像の結果について画像処理装置において時系列的な時間差分画像を取得し、当該取得した時系列的な時間差分画像を前記画像処理装置において作成し、当該作成した時系列的な時間差分画像をビット1/0に2値化した時系列的な2値化画像を前記画像処理装置において作成し、当該作成した時系列的な2値化画像の各々を前記画像処理装置において複数の領域に分割し、当該分割した各領域の中のビット1の個数を前記画像処理装置において計数し、当該計数した個数がしきい値以上のときは前記画像処理装置においてその計数結果を前記しきい値に飽和させてその飽和結果を前記画像処理装置のビット1の計数の結果となし、前記領域の各々の時系列的なビット1の計数結果をジェスチャー認識における特徴パターンとすることを特徴とする。
【0016】
本発明は、さらに、前記被写体は複数であって、当該複数の被写体を全方位視覚センサにより撮像し、当該撮像の結果を前記画像処理装置において各々の被写体を含む画像に分割し、当該分割した画像を前記時間差分画像を取得するステップに引き渡すことを特徴とする。
【0018】
さらに、本発明は、被写体を時系列的に撮像する撮像手段と、当該撮像の結果について時系列的な時間差分画像を取得する第1の画像処理手段と、当該取得した時系列的な時間差分画像を作成する第2の画像処理手段と、当該作成した時系列的な時間差分画像をビット1/0に2値化した時系列的な2値化画像を作成する第3の画像処理手段と、当該作成した時系列的な2値化画像の各々を複数の領域に分割する第4の画像処理手段と、当該分割した各領域の中のビット1の個数を計数する第5の画像処理手段と、当該計数した個数がしきい値以上のときは前記画像処理装置おいてその計数結果を前記しきい値に飽和させてその飽和結果を前記第5の画像処理手段の計数結果とする第6の画像処理手段とを有し、前記領域の各々の時系列的なビット1の計数結果をジェスチャー認識における特徴パターンとすることを特徴とする。
【0019】
本発明は、さらに、前記被写体は複数であって、当該複数の被写体を撮像する全方位視覚センサと、当該撮像の結果を各々の被写体を含む画像に分割する分割手段とを有し、当該分割した画像を前記時間差分画像を取得する第1の画像処理手段に引き渡すことを特徴とする。
【0020】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では全方位視覚センサを使用して複数の被写体を撮像したことに第1の特徴がある。
【0021】
全方位視覚センサは双曲面ミラー(円錐形ミラー)を介してCCDカメラに全方位の画像を導く撮像装置(図13の符号106参照)であり、最近は移動ロボットに搭載することが提案されている(山沢一誠、八木康史等、移動ロボットのナビゲーションのための全方位視覚センサHyperOmni Visionの提案、信学論(D−II)、VolJ79−D−II,no5,pp698−707,1996)。この全方位視覚センサをジェスチャー認識に適用する。また、特徴パターンの抽出時に飽和処理(後述)を施すようにしたことに第2の特徴がある。
【0022】
図1に全方位視覚センサの設置例を示す。符号(a)は円卓での会議中の環境で中央に置かれた全方位視覚センサ1をが全ての出席者のジェスチャーを一つの画像中で捕捉している。符号(b)は自律走行ロボット3の上部に全方位視覚センサ1が設置され。自律走行ロボット3周辺の複数人物のジェスチャーが1つの画像中に撮影される。参考のために全方位視覚センサ1により撮影された映像を図8に示す。
【0023】
このように取得されたイメージは画像処理装置において個々の被写体毎に分割され、次に個々の被写体画像からジェスチャーの特徴パターンが抽出される。この抽出プロセスを従来手法と比較しながら説明する。図2に従来の処理プロセスを示す。図3に本実施の形態の処理プロセスを示す。撮像装置はたとえば、時刻tにおいてi×j画素の画像データを取得するものとする。
【0024】
ある時刻tの入力画像I(i,j,t)が得られると、前時刻t−1の入力画像I(i,j,t−1)との時間差分画像が作成され。この時間差分画像をしきい値と比較すると2値画像Ib (i,j,t)(0≦i,j<L,0≦t)が求められる。これを数式で表すと数1式となる。
【0025】
【数1】
【0026】
ただし、hc は画素値が変化したかを決定するしきい値である。さらに2値画像Ib(i,j,t) をN2 ×N2 に空間リダクションし、特徴ベクトルf(k,v,t)(0≦k,v<N2 )を求める。
【0027】
【数2】
【0028】
ここで、pとqはともに整数、h=N1 /N2 である。この特徴ベクトルf(k,v,t)はサイズN2 ×N2 のリダクション画像中の各領域において画素値が変化した割合、つまり、被写体の身体部分が動いた画像の割合を示す。この特徴ベクトルf(k,v,t)3フレーム分の平均をとって、その対数をとったものがジェスチャー認識に使用する特徴パターンとなる。
【0029】
図2の例では64×64画素の入力画像を16×16個のデータに圧縮する例を示している。
【0030】
これに対して、本実施の形態では、空間リダクションした各領域のデータ、すなわち、特徴ベクトルの値の内、しきい値hmより多き値を飽和させて、しきい値に押さえる。これを式で表すと次式となる。
【0031】
【数3】
f'(k,v,t) =min {f(k,v,t), hm}
このようにして時刻tの特徴パターンが得られ、次の時刻t+1でも同様の処理を行って、特徴パターンが抽出される。ジェスチャー認識に使用する標準パターンも同様の処理で特徴パターンが抽出される。
【0032】
ジェスチャー認識では上記標準パターンの時系列的な複数組の特徴パターンと認識対象の被写体の映像から抽出した複数組の特徴パターンとマッチングが行われる。このマッチング手法としては連続DPと呼ばれる手法がよく知られている。
【0033】
連続DPによるスポッティング認識では、上述のようにして入力画像から特徴抽出を行い特徴ベクトルを求める。次に、この入力された特徴ベクトル列と、各ジェスチャーに対応した標準パターンとを連続DPでマッチングする。この標準パターンは、事前に標準動作を捕らえた画像列から入力画像と同様の特徴抽出法で作成した特徴ベクトル列である。最後に、すべての標準パターンとの連続DPマッチングの結果を比較し、最も適合したものをその時点のマッチング結果として出力する。
【0034】
以下に、連続DPによる特徴ベクトル列のマッチング方法を具体的に示す。入力の特徴パターンと標準パターンのフレーム間距離をd(t,τ)として累積距離S(t,τ)を以下のように適宜する。
【0035】
初期条件:
【0036】
【数4】
S(-1,τ) =S(0,τ) ∞ (1≦τ=T)
漸化式(1≦t):
【0037】
【数5】
S(t,1)=3・d(t,1)
【0038】
【数6】
【0039】
【数7】
【0040】
ここで、tは入力の離散時刻を表し、τは標準パターンの長さに対応するパラメータで1≦τ≦T(Tはパターン長)である。連続DPの出力A(t)は
【0041】
【数8】
A(t)=1/(3T)S(t,T)
として定める。
【0042】
このようなジェスチャー認識を行うための実験装置として、SGI社のIndy(R4400 200MHz)と、付属のIndyComというカメラを用いた。実験は、オフィス内で椅子に座った1人の被験者に対して行った。カメラの視野は被験者のジェスチャーが適切に入るように設定した。また、照明は建物の天井に設置されている蛍光灯のみを用いた。
【0043】
CCDカメラの出力映像をAD変換して得られる画像は、サイズ160×120、1画素256階調のRGB画像であるが、認識には比較的輝度に強い影響を与えるグリーン成分のみを用いた。この画像を空間的リダクションしサイズN1 ×N1 の画像を特徴抽出部への入力とした。また、数3式の特徴ベクトルを飽和させるhm は0.3とした。
【0044】
実験に用いたジェスチャーは、(1)ばんざい(両手)、(2)バイバイ(右手)、(3)まる(両手)、(4)手をたたく(両手)、(5)こちらへ(右手)、(6)左へ(左手)、(7)右へ(右手)、(8)いいえ(右手)の8種類である。これを、ジェスチャーv(v=1,2,…,8)と表記する。図4に各ジェスチャーのスナップショット、図5にジェスチャー「バンザイ」の画像系列を示す。被験者は各動作を通常のスピードで行い、画像は15Hzでサンプリングした。また、数1式の閾値hc はカメラの熱雑音を考慮し10とした。
【0045】
標準パターンv(v=1,2,…,8)は、それぞれのジェスチャーを捉ええた画像系列から人手でジェスチャー部分のみを切り出し作成した。この実験で用いた標準パターンのフレーム長Tは11から15であった。また、同じジェスチャーを20回繰り返した入力画像列vを作成した。次に、入力画像列vを認識システムに入力し、1位認識率と正解候補率を求めた。
【0046】
【数9】
【0047】
【数10】
【0048】
ここで、正答ジェスチャー数vは入力画像列v中の20個のジェスチャーの内で正しく認識できたジェスチャー数である。また、3フレーム以上連続して同じ認識結果になった場合に「検出」されたとした。
【0049】
ここで、入力画像サイズN1 =64として、特徴ベクトルの次元数(N2 ×N2 )の最適な値を求めるため、N2 ={1,2,3,4,5,7,10,16}と変化させた。ここで得られた最適値を用いて入力サイズをN1 ={3,6,9,12,15,30,64}と変化させ最適値を求めた。ここで、衣服および背景の影響を調べるため、
S1 標準パターンの作成時と衣服および背景が等しい場合
S2 標準パターンの作成時と衣服および背景の明るさがともに異なる場合を設定した(図6)。衣服の色はS1のときに灰色、S2のときに黄色であった。標準パターンはS1の場合に作成し、しきい値hvはS1の1位認識率が極力大きくなるよう人手で設定した。S2にはこのS1で作成した標準パターンとしきい値を用いて認識実験を行った。
【0050】
認識実験の結果を図7に示す。衣服と背景が異なる場合(S2)でも、N2 =3,4,5で約80%と高い1位認識率が得られたため、本手法が衣服と背景の変化にロバストであることが示せた。
【0051】
約20%の誤差の原因は、衣服と背景が異なる場合に生じる。(1)服のしわのできかたの違い、(2)手の影の違い、(3)着膨れによる人物の大きさの違いが考えられる。計算量を考慮すると、N2 が3のときに今回用いた8種類のジェスチャーに対する最適な認識システムとなる。また、N2 が7以上で1位認識率が低下しているがこれはリダクションサイズが大きすぎて動作の軌跡の変動を吸収できなかったためと考えられる。
【0052】
次にN2 =3に固定してN1 を変化させたときの認識結果を表1に示す。
【0053】
【表1】
【0054】
この結果から12≦N1 において約80%の認識率があり、N1 ≦9では認識率が低下している。N2 =12のとき、特徴ベクトル値はN1 /N2 =12/3=4となり、4×4=16段階となっており、連続DPによる認識には十分であるために認識率が悪化しなかったと思われる。
【0055】
この結果からN1 =12程度と小さな人物画像からでも高い認識率でジェスチャーを認識することが示せた。
【0056】
複数人物の認識実験をも行った。実験は自律移動ロボット上に全方位視覚センサを設置し(図1(b)参照)、自律移動ロボットの周辺に椅子に座った4人の被験者を配置した。書く被験者は自律移動ロボットの方を向いて、ジェスチャーを行う。光源、画像サイズ、しきい値などの実験条件は上述の認識実験と同様とした。このときの全方位視覚センサの映像の一例を図8に模式的に示す。
【0057】
4人の人物は図9に示すように映っている。各人物のセグメンテーションは人物範囲内を3×3に等分割し、各分割領域内に重心がある画素を用いて特徴抽出を行った。この図8のように全方位視覚センサまでの距離により人物の大きさが異なるため、各人物の特徴抽出部bへの入力サイズN1 ×N1 は異なる。もっとも離れた人物(符号51)までの距離が4mであり、そのときの人物の画像サイズは18×15であった。この入力画像から上述の特徴パターンの抽出方法により3×3次元の特徴ベクトルを算出した。なお、全方位視覚センサの歪みは修正していない。
【0058】
実験に用いたジェスチャーは上述の実験と同様で8種類とした。図10にジェスチャー“ばんざい”の3フレーム毎の画像系列を示す。入力画像系列は標準パターンの撮影時と同じ服装にて4人の人物が思い思いにジェスチャーを行い撮影した。この入力画像系列のフレーム数は457、この間に4人が行ったジェスチャーは10回から13回であった。
【0059】
表2に各人物の認識率を示す。
【0060】
【表2】
【0061】
服装と背景が標準パターン作成時と同様であるものの、約80%という高い認識率で認識できており、本実施の形態のジェスチャ認識方法が有効であることが示せた。
【0062】
さらに、図11に4人の人物動作に対する連続DPの出力値例を示す。横軸はフレーム数であり、この上に描かれた横線は実際に被験者が行ったジェスチャーとその時間区間を示している。また、縦軸のCDP(連続DP)出力はそれぞれのしきい値を引いた値である。したがって、CDP出力の値が負になった場合に認識されたことになる。図11から認識もれの場合でも適切な標準パターンのCDP出力が減少していることがわかる。
【0063】
Indyを1台を用い本手法を用い本手法を用いた実時間ジェスチャー認識システムを作成した。図12にその外観を示す。
【0064】
N1 =12、N2 =3、サンプリングレートは15Hzであり、入力画像を実時間で表示、認識し結果を表示する。実時間での認識実験を行った結果、衣服、背景が異なっても約7割の認識率が得られた。
【0065】
図13に本実施の形態の一システム構成を示す。図13において、CPU100はシステムメモリ101の中のシステムプログラムに基づきシステム全体の制御を行うほか、システムメモリ101にローディングされたジェスチャー認識プログラムに従って本発明に係わるジェスチャ認識処理を実行する。
【0066】
システムメモリ101はROMおよびRAMを有し、上記システムプログラム、システム制御に使用するパラメータ、CPU100に対する入出力データおよびディスプレイ102に表示するイメージをも格納する。ディスプレイ102は全方位視覚センサ106から入力された撮影画像を表示する。また、後述の入力装置105から入力された情報、ジェスチャー認識結果等を表示する。
【0067】
ハードディスク記憶装置(HDD)103は保存用のジェスチャー認識プログラム(図14、図15)およびジェスチャー認識に使用する標準パターンを記憶する。なお、標準パターンは予め1人の被写体が動作の判明しているジェスチャーを行い、その撮影画像から上述の特徴パターン抽出方法により取得する。標準パターンはジェスチャーの異なる特徴パターンと対応のジェスチャー内容を示す識別コードとから構成される。
【0068】
入出力インタフェース(I/O)104は全方位視覚センサ106と接続し、撮影画像をCPU100に引き渡す。入力装置105はキーボードおよびマウスを有し、情報入力を行う。
【0069】
このようなシステム構成において、実行するジェスチャー認識処理を図13および図14を参照して説明する。ジェスチャー認識処理の起動が入力装置105により指示されると、CPU100はHDD103からジェスチャー認識プログラムを読み出してシステムメモリ101にローディングし、実行を開始する。
【0070】
最初に、CPU100はジェスチャー認識処理で使用する各種パラメータを初期化する(ステップS10)。CPU100はI/O104を介して1画面分の撮影画像(フレームとも称す)を取り込み、複数の被写体を画像分割してシステムメモリ101に一時記憶する(ステップS20)。
【0071】
次に2番目の撮影画像が同様に画像分割されたシステムメモリ101に格納される。CPU100は最初に取得したフレームの第1番目の被写体の画像とと2番目に取得したフレームの第1番目の被写体の時間差分画像を作成し、その作成結果をシステムメモリ101に記憶する(ステップS30→40)。
【0072】
CPU100は時間差分画像を2値化用のしきい値と比較してビット1/0のデータに変換する。1画面が16×16個の画素から構成されているとすると、次に予めパラメータとして用意されている圧縮率にしたがって、16×16の画素群を4つの領域、すなわち、縦横2分割した4つの領域に分割する。これにより1つの領域には8×8個の画素が含まれることになる。この1つの領域の中に含まれるビット1の個数をCPU100により計数する。同様にして全ての領域についてビット1の個数を計数する。この個数として仮に1、201、100、59が得られたとする。これにより16×16個の多値(たとえば16ビット)の画像データが4個の16ビットのデータに空間圧縮される(ステップS60)。
【0073】
次にCPU100は上記空間圧縮されたデータ、(1、201、100、59)をしきい値150と個々に比較する。これにより150を超える値201はしきい値と同じ値に変換され、ビット1の個数が150とみなされる。したがって、このような飽和処理の後の空間圧縮データは(1、150、100、59)となる。この空間圧縮データが第1の被写体の時刻tのジェスチャーの特徴パターンとして、システムメモリ101に格納される。
【0074】
CPU100は連続DPの手法と、取得した上記特徴パターンおよび前の時刻に取得した特徴パターンを使用して標準パターンのパターンマッチングを行う。被写体が1人の場合のジェスチャー認識のためのパターンマッチング処理は先に簡単に説明したが周知であり、詳細な説明を要しないであろう(ステップS80)。
【0075】
パターンマッチングの結果、特定の標準パターンに類似していると判定された場合には、その識別コードがディスプレイ102に表示される(ステップS90→S100)。
【0076】
以下、時刻tのフレームについて他の被写体のジェスチャー認識がステップS40〜S110のループ処理により実行される。このようにして時刻tの全被写体のジェスチャー認識処理が行われると、次に時刻t+1での全方位視覚センサ106の撮影画像が取り込まれ、上述と同様にしてジェスチャー認識処理が行われる(ステップS30〜S120のループ処理)。
【0077】
入力装置105から終了の指示に応じて図14および図15の処理手順を終了する。
【0078】
以上、述べた実施の形態の他に次の形態を実施できる。
【0079】
1)上記実施の形態では、個々の被写体に画像分割する際に、手動操作で分割位置を知らせていたが、画像処理装置において自動的に画像分割することができる。その一例としては、時間差分画像では静止画部分が除去される。その除去部分は2値化画像においてビット0となって現れる。この性質を利用すると、被写体と他の被写体の間は静止画像なので、この間隙部分は2値画像においてはビット0の集合となる。そこで、画像の中心位置から画像の外端部までビット0が連続する画素群を画像処理装置により検出する。この画素群が個々の被写体の区切り部分となるので区切り部分で区切られる画像データを取り出す。
【0080】
2)全方位視覚センサでは被写体画像をセンサに導くミラーを使用するがミラーの形状は円錐に限らずこれまでに知られている種々のものを使用することができる。
【0081】
3)図13の処理手順では、被写体ごとの画像分割処理を全方位視覚センサ106からの入力画像について行っているが2値化処理までを1画面全体で行って、2値画像について被写体ごとの画像分割を行うこともできる。
【0082】
4)本実施の形態では入力画像の画素数や空間リダクション後のデータ数を固定的に使用したが任意の値に可変設定できる。この場合には、入力装置105から所望の値を入力し、HDD103にパラメータとして保存しておけばよい。
【0083】
【発明の効果】
本発明によれば、全方位視覚センサにより複数の被写体のジェスチャー画像が重複することなく、撮像されるので、その撮像結果を分割することで個々の被写体の画像を取得できる。この結果、単一の撮像装置でも複数の被写体のジェスチャーを認識できる。
【0084】
さらに、本発明によれば、飽和処理の結果ビット1の個数が一定の数値範囲の中に収まるので、入力画像の画素の個数をたとえば、従来の64×64から16×16というように低くしても確実に特徴パターンを補足できる。この結果、入力画像のデータ量が従来より減少するので、人のジェスチャー認識時間が短くなり、複数の人間の被写体のジェスチャーを実時間(リアルタイム)で認識できる。
【0085】
以上述べた発明により、円形に並ぶ複数の人間のジェスチャーをすべて認識できることによりたとえば、手話による会話を認識したり、市場のせりの内容を認識し、その認識結果を通信することに遠隔地の人間にもその場の内容を知らせることができる。
【図面の簡単な説明】
【図1】全方位視覚センサの設置例を示す斜視図である。
【図2】飽和処理を行わない場合の画像処理プロセスを示す説明図である。
【図3】飽和処理を行う場合の画像処理プロセスを示す説明図である。
【図4】時系列的な撮像結果を示す説明図である。
【図5】時系列的な撮像結果を示す説明図である。
【図6】衣服と背景の異なる標準パターンを説明すための説明図である。
【図7】リダクションサイズと認識率の関係を示す説明図である。
【図8】コンピュータの画像処理対象となる全方位視覚センサの撮像結果を示す写真である。
【図9】全方位視覚センサの撮像結果の中の被写体の位置を模式的に示す説明図である。
【図10】ばんざいのジェスチャー画像を示す写真である。
【図11】連続DPの出力値を示す説明図である。
【図12】実時間ジェスチャー認識システムの正面外観をを示す正面図である。
【図13】実時間ジェスチャー認識システムのシステム構成を示すブロック図である。
【図14】特徴パターン抽出処理手順およびジェスチャー認識処理手順を示すフローチャートである。
【図15】特徴パターン抽出処理手順およびジェスチャー認識処理手順を示すフローチャートである。
【符号の説明】
1 全方位視覚センサ
2 対話者
3 自律走行ロボット
100 CPU
101 システムメモリ
103 HDD
104 I/O
105 入力装置
106 全方位視覚センサ
Claims (4)
- 被写体を時系列的に撮像装置により撮像し、
当該撮像の結果について画像処理装置において時系列的な時間差分画像を取得し、
当該取得した時系列的な時間差分画像を前記画像処理装置において作成し、
当該作成した時系列的な時間差分画像をビット1/0に2値化した時系列的な2値化画像を前記画像処理装置において作成し、
当該作成した時系列的な2値化画像の各々を前記画像処理装置において複数の領域に分割し、
当該分割した各領域の中のビット1の個数を前記画像処理装置において計数し、
当該計数した個数がしきい値以上のときは前記画像処理装置においてその計数結果を前記しきい値に飽和させてその飽和結果を前記画像処理装置のビット1の計数の結果となし、
前記領域の各々の時系列的なビット1の計数結果をジェスチャー認識における特徴パターンとすることを特徴とするジェスチャー認識方法。 - 請求項1に記載のジェスチャー認識方法において、前記被写体は複数であって、当該複数の被写体を全方位視覚センサにより撮像し、当該撮像の結果を前記画像処理装置において各々の被写体を含む画像に分割し、当該分割した画像を前記時間差分画像を取得するステップに引き渡すことを特徴とするジェスチャー認識方法。
- 被写体を時系列的に撮像する撮像手段と、
当該撮像の結果について時系列的な時間差分画像を取得する第1の画像処理手段と、
当該取得した時系列的な時間差分画像を作成する第2の画像処理手段と、
当該作成した時系列的な時間差分画像をビット1/0に2値化した時系列的な2値化画像を作成する第3の画像処理手段と、
当該作成した時系列的な2値化画像の各々を複数の領域に分割する第4の画像処理手段と、
当該分割した各領域の中のビット1の個数を計数する第5の画像処理手段と、
当該計数した個数がしきい値以上のときは前記画像処理装置おいてその計数結果を前記しきい値に飽和させてその飽和結果を前記第5の画像処理手段の計数結果とする第6の画像処理手段とを有し、
前記領域の各々の時系列的なビット1の計数結果をジェスチャー認識における特徴パターンとすることを特徴とするジェスチャー認識装置。 - 請求項3に記載のジェスチャー認識装置において、前記被写体は複数であって、当該複数の被写体を撮像する全方位視覚センサと、当該撮像の結果を各々の被写体を含む画像に分割する分割手段とを有し、当該分割した画像を前記時間差分画像を取得する第1の画像処理手段に引き渡すことを特徴とするジェスチャー認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30933896A JP3784474B2 (ja) | 1996-11-20 | 1996-11-20 | ジェスチャー認識方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30933896A JP3784474B2 (ja) | 1996-11-20 | 1996-11-20 | ジェスチャー認識方法および装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005352676A Division JP2006127541A (ja) | 2005-12-06 | 2005-12-06 | ジェスチャー認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10149447A JPH10149447A (ja) | 1998-06-02 |
JP3784474B2 true JP3784474B2 (ja) | 2006-06-14 |
Family
ID=17991816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30933896A Expired - Lifetime JP3784474B2 (ja) | 1996-11-20 | 1996-11-20 | ジェスチャー認識方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3784474B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ439299A0 (en) | 1999-12-01 | 1999-12-23 | Silverbrook Research Pty Ltd | Interface system |
JP4790113B2 (ja) * | 2000-12-04 | 2011-10-12 | ソニー株式会社 | 画像処理装置および方法、並びに記録媒体 |
US7852369B2 (en) * | 2002-06-27 | 2010-12-14 | Microsoft Corp. | Integrated design for omni-directional camera and microphone array |
DE602004006190T8 (de) | 2003-03-31 | 2008-04-10 | Honda Motor Co., Ltd. | Vorrichtung, Verfahren und Programm zur Gestenerkennung |
CN109697394B (zh) | 2017-10-24 | 2021-12-28 | 京东方科技集团股份有限公司 | 手势检测方法和手势检测设备 |
CN113033458B (zh) * | 2021-04-09 | 2023-11-07 | 京东科技控股股份有限公司 | 动作识别方法和装置 |
-
1996
- 1996-11-20 JP JP30933896A patent/JP3784474B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10149447A (ja) | 1998-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9396399B1 (en) | Unusual event detection in wide-angle video (based on moving object trajectories) | |
JP6316023B2 (ja) | カメラシステム及びカメラ制御装置 | |
KR100776801B1 (ko) | 화상 처리 시스템에서의 제스처 인식 장치 및 방법 | |
US8159537B2 (en) | Video surveillance equipment and video surveillance system | |
JPH10320588A (ja) | 画像処理装置および画像処理方法 | |
JP5598751B2 (ja) | 動作認識装置 | |
JP2001333422A (ja) | 監視装置 | |
JP3784474B2 (ja) | ジェスチャー認識方法および装置 | |
JP3272584B2 (ja) | 領域抽出装置及びそれを用いた方向検出装置 | |
JPH07225841A (ja) | 画像処理装置 | |
JP2006127541A (ja) | ジェスチャー認識方法 | |
JP3607440B2 (ja) | ジェスチャー認識方法 | |
Nishimura et al. | Spotting recognition of gestures performed by people from a single time-varying image | |
KR102012719B1 (ko) | 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 | |
JP3578321B2 (ja) | 画像正規化装置 | |
JPH08212327A (ja) | 身振り認識装置 | |
JP6350331B2 (ja) | 追尾装置、追尾方法及び追尾プログラム | |
JPH0746582A (ja) | 映像切り出し方法 | |
JPH0273471A (ja) | 三次元形状推定方法 | |
Hua et al. | Detection and tracking of faces in real-time environments | |
Tsang et al. | A finger-tracking virtual mouse realized in an embedded system | |
CN111199204A (zh) | 一种基于OpenGL人脸图像处理方法及装置 | |
KR20040039080A (ko) | 영상 처리를 이용한 다채널 자동 트랙킹 및 자동 줌 방법 | |
CN112395922A (zh) | 面部动作检测方法、装置及系统 | |
JP4552018B2 (ja) | 動画像処理装置及び動画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051206 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060315 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090324 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090324 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100324 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100324 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110324 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110324 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120324 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130324 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130324 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |