JP3607440B2 - ジェスチャー認識方法 - Google Patents

ジェスチャー認識方法 Download PDF

Info

Publication number
JP3607440B2
JP3607440B2 JP32283796A JP32283796A JP3607440B2 JP 3607440 B2 JP3607440 B2 JP 3607440B2 JP 32283796 A JP32283796 A JP 32283796A JP 32283796 A JP32283796 A JP 32283796A JP 3607440 B2 JP3607440 B2 JP 3607440B2
Authority
JP
Japan
Prior art keywords
gesture
time
pattern
feature
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP32283796A
Other languages
English (en)
Other versions
JPH10162151A (ja
Inventor
拓一 西村
嶐一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Sharp Corp
Original Assignee
NEC Corp
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Sharp Corp filed Critical NEC Corp
Priority to JP32283796A priority Critical patent/JP3607440B2/ja
Publication of JPH10162151A publication Critical patent/JPH10162151A/ja
Application granted granted Critical
Publication of JP3607440B2 publication Critical patent/JP3607440B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Description

【0001】
【発明の属する技術分野】
本発明は、ビデオカメラで撮影したジェスチャー映像からそのジェスチャーの意味内容をコンピュータにより認識するためのジェスチャー認識方法に関する。
【0002】
【従来の技術】
人間のジェスチャー動作を認識する技術は、柔軟なMan−Machine Interface Systemを構築する上で重要である。特に、我々は動作者にデータグルーブ等の接触型センサやマーカーを装着させることなく、人間の動作を捉えた動画像を用いたジェスチャー認識を試みている(参考文献8)。
【0003】
すでに動画像理解を目指した多くの研究がなされている。大和ら(参考文献2)は、テニスプレーヤーのスイング動作を対象として、Hidden Markov Model を用いた動作認識法を提案している。この方法では、動作モデルの学習が可能であるが、動作を行っている時間区間のセグメンテーションを人手で行う必要がある。また、Darrell ら(参考文献3)は手のひらの動きをその見え方の遷移系列で表し、観測された見え方系列と動作モデルとの対応付けをDynamic Time Warpingで行うことで複数のジェスチャーを認識した。しかし、入力画像の背景が無地である必要が有り、また、動作区間の時間的セグメンテーションの方法が示されていない。また、石井ら(参考文献4)は、カラー画像処理とステレオマッチングにより手や顔などの肌色部分の3次元位置を求め、その移動量を計測している。また、長屋ら(参考文献5,6)は、動作者の位置や人数に関わらずジェスチャー認識可能な手法を提案している。しかし、専用の画像処理装置を用いている石井らやDarrell らのシステムでもビデオレートでの動作認識は実現されていない。
【0004】
そこで我々は、スポッティング認識手法を用いるという前提で以下のような仮定を行い、ジェスチャー区間の時間的セグメンテーション問題の解決と認識のリアルタイム性に重点を置いた動作認識法を提案した(参考文献8)。
【0005】
仮定1 カメラ視野中の人物は一人、人物位置も固定 従って、複数の動作者の動作を認識させるためには、人物の切り出しが必要となる。
【0006】
仮定2 認識対象は、動作の大きなジェスチャー 手の平の向きや形などの細かい動きは認識対象としない。
【0007】
スポッティング認識手法は、時系列パターンの判別とその時間区間セグメンテーションを同時に行う。従って、動作者に動作の開始や終了を意識させないインタフェースを実現することができる。我々は、音声認識の分野で提案した連続DP(Continious Dynamic Programming)(参考文献7)によりこのスポッティング認識を実現した。連続DPは、フレームワイズ、すなわち入力画像フレームに同期して認識結果を生成するため、動作を時々刻々と認識することができる。佐川ら(参考文献1)は、この連続DPを改良した圧縮連続DPを開発し、データグローブからの情報を用いて620語という大語彙において1位認識率98.7%という高い認識率を達成している。我々は、この結果からも連続DPに期待できると考えている。
【0008】
特徴抽出法においては、先の提案(参考文献8)にて時空間エッジ画像の空間的リダクションにより特徴ベクトルを用いることでロバスト性向上を目指した。しかし、この特徴抽出法において、特徴ベクトルの次元(リダクション画像のサイズ)が16×16と多いため、連続DPでの計算負荷が大きいだけでなく動作の軌跡の変化にも弱いなどの問題があった。そこで、特徴ベクトルの次元を大幅に小さくする(例:3×3)などによりこの問題を解決する特徴抽出法を提案し、本手法を用いた連続DPによる実時間動作認識システムを実現する。さらに、3節にて標準パターン中の部分動作の認識を実現するために、連続DPの機能を拡張したNon−monotonic 連続DPを提案し、評価実験にてその有効性を示す。
【0009】
参考文献
(1)佐川浩彦、酒匂裕、大平栄三、崎山朝子、阿部正博:“圧縮連続DP照合を用いた手話認識方式”,信学論(D−II), J77−D−II, 4, pp.753−763(1994−04)
(2)J. Yamayo, J. Ohya, K. Ishii: ”Recognizing Human Action in Time−Sequential Images Using Hidden Markov Model” , Proc. CVPR, pp.379−385, 1992
(3)T. J. Darell and A. P. Pentland : ”Space−Time Ges−tures”, Proc. IJCAI’93 Looking at People Wowkshop (Aug. 1993)(4)H. Ishii, K. Mochizuki and F. Kishino, ”A Motion Recognition Method from Stereo Images for Human Image Systhesis”, The Trans. of the EIC, J76−D−II, 8, pp.1805−1812, (1993−08)(5)長屋茂喜、関 進、岡隆一:多重解像度特徴によるジェスチャ認識,信学技報,PRU95−99, pp.121−126
(6)長屋茂喜、関 進、岡隆一:ジェスチャー認識のための動作軌跡特徴の提案,信学技報,NLC95−37, PRU95−142, pp.45−50
(7)岡隆一、“連続DPを用いた連続音声認識”,音響学会音声研資料,S78−20, pp.145−152 (1978−06)
(8)高橋勝彦、関 進、小島浩、岡隆一:ジェスチャー動画像のスポッティング認識,信学論(D−II), J77−D−II, 8, pp.1552−1561 (1994)
我々は、特徴抽出法において、時空間エッジの中で時間方向のエッジの有効性を評価実験により確認している(参考文献8)。さらに、この時空間エッジ情報の内で時間方向のエッジ情報が最も有効であることを示した。従って、本報告では時間方向のエッジ情報のみに着目することとする。
【0010】
従来法では、初めにサイズが64×64の入力画像の時間差分画像を求める。次に、空間的リダクションによりサイズを16×16にし、時間方向に3フレーム分平均化する。最後に、すべてのピクセル値の対数を求めて、これを16×16次元の特徴ベクトルとして連続DPへの入力とする。しかし、この特徴抽出法において、
問題1 リダクション画像のサイズが16×16と大きいため、動作の軌跡の変化に弱い。
【0011】
問題2 時間方向のエッジの濃淡値を用いるため、衣服と背景の明るさの変化に弱い。
【0012】
という問題があった。通常、日常用いられる人物動作の空間的な軌跡は、多少の位置変動があっても同一と見なせる場合が多い。従って、リダクションサイズが大きく1画素あたりの視野が狭いと、この動作軌跡の変動を吸収しきれなくなり問題1が生じる。また、時間差分画像の濃淡値は、人物と背景の明るさの違いである。従って、この濃淡値をそのまま用いる従来法では、原理的に人物と背景の明るさの変化によって大きな影響を受ける。前回の報告(参考文献8)では衣服と背景を変化させて評価実験を行っているが、明るさの変化が小さかったために問題2は生じていなかったと思われる。
【0013】
【発明が解決しようとする課題】
このため、従来のジェスチャー認識方法は、認識対象の被写体の照明環境が変わるとジェスチャーの認識精度が下がるという解決すべき課題があった。
【0014】
なお、照明変化に対処するにはシェーディング補正のような複雑な画像処理方法も知られているが、ジェスチャー認識のように動画像を取り扱う場合に複雑な画像処理が増えることは認識処理時間が長くなり、好ましくない。
【0015】
そこで、本発明の目的は、ジェスチャー認識処理時間を長くすることなく照明変化の影響を受けないジェスチャー認識方法を提供することにある。
【0016】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、撮像装置により被写体のジェスチャーを撮像し、撮像装置から各時刻毎に得られる多値の画像データI(i,j,t)、ここで、i、jは1画面の横、縦の画素位置で、tは時刻、から特徴パターンを情報処理装置により抽出し、当該抽出した特徴パターンをジェスチャー内容が規定されている標準パターンと前記情報処理装置により比較することによりジェスチャー認識するジェスチャー認識方法において、前記情報処理装置は、前記画像データI(i,j,t)と前の時刻の画像データI(i,j,t−1)との間の時間差分画像を取得し、当該取得した時間差分画像データを2値化して、ビット“1”およびビット“0”の画像データで表される2値化画像を取得し、当該2値化した画像データの集合を複数の升目に分割し、当該分割した升目個々に含まれるビット“1”およびビット“0”のいずれかのビット値の個数を取得し、当該取得した個数を前記升目位置と時間tに関連づけた特徴ベクトルf(k,v,t)、ここでk、vは横、縦の升目位置、を前記特徴パターンまたは前記標準パターンとすることを特徴とする。
【0017】
請求項2の発明は、前記標準パターンを構成する特徴ベクトルを時間経過の逆の方向から並べた逆動作の標準パターンを想定し、該逆動作の標準パターンと前記特徴パターンとを比較してジェスチャー認識することを特徴とする。
【0018】
請求項3の発明は、請求項1に記載のジェスチャー認識方法において、前記標準パターンを構成する特徴ベクトルの中のある時間の特徴ベクトルを停止動作のパターンとみなし、該停止動作のパターンと前記特徴パターンとを比較してジェスチャー認識することを特徴とする。
【0019】
請求項1の発明では、1画面が64×64画素で構成される撮像装置により1画素256階調の輝度データが得られると仮定すると、ある時刻t−1には図13(a)に示すような64×64画素の画像データが得られる。次の時刻tにも同様の画像データが得られる。時刻t−1と時刻tの画像データの差分画像、すなわち、同一位置の輝度データの差分値を計算し、その差分値を画素位置に対応させて配列すると図13(b)のようなデータとなる。被写体の背景およびジェスチャーをしている身体部分以外は動かないので、隣接する時刻で得られる背景の輝度データはほぼ同じ値となる。加えて、隣接する画素位置では身体の輪郭線部分以外は同じ値となるので、時間差分画像を取得することによって静止部分の画像および隣接画素位置の同じ値の画像データ成分が除去される。
【0020】
ジェスチャーを行っている身体分については撮像位置が異なるので、同一位置での差分値は大きい値となる。その輪郭線画像部分は特に大きな値となる。
【0021】
この点に着目して、照明の変化による画像データの時系列的な変化分を吸収し、ジェスチャーを行っている身体の画像を強調するために2値化を行う。これにより、照明変化が生じても静止画像部分はビット“0”、ジェスチャー画像部分はビット“1”で表される時刻tでの特徴パターンのデータ集合(64×64画素に対応)が得られる。このデータ集合を例えば、16画素×16画素を図14の(a)に示すような1つの升目とする4×4の升目に分割する。各升目のビット“1”の個数を計数し、計数結果を升目の位置に対応付けると図14の(b)に示すようなデータ集合が得られる。このような処理を行うことによりジェスチャー画像の特徴を損ねることなく64×64個の画像データ集合からジェスチャー画像の特徴を示す時刻tの4×4個のデータ集合が得られる。このデータ集合をある時間範囲だけ集積したデータ集合すなわち、特徴ベクトルが特徴パターンとして扱われる。なお、予め、内容が判明しているジェスチャー動作を撮影して上述のデータ処理を行うと、標準パターンとして使用可能な特徴ベクトルが得られる。64×64個の2値化データを4×4個のデータに変換する処理を本実施の形態では空間的リダクションと呼んでおり、その処理内容が数2式により表されている。
【0022】
請求項1の発明に加えて、請求項2の発明では例えば、手をあげるジェスチャーを撮影した動画像を逆方向に再生すると手を下げるジェスチャーになることに本願発明者は気がつき、標準パターンを構成する特徴パターンの時刻毎の特徴データ(4×4)を時間の経過方向と逆の方向に並べて、換言すると、標準パターンの特徴データを逆の方向から認識対象の特徴パターンの先頭の特徴データと比較していくと、手をあげるジェスチャーの標準パターンにより手を下げるジェスチャーを認識することができる。これにより従来は手を挙げるジェスチャーと手を下げるジェスチャーの2つの標準パターンを用意しなければならないの対して、半分の標準パターンを用意すればよいことになる。
【0023】
請求項3の発明では、標準パターンの中のある特定の時刻の特徴データの示すジェスチャーは動作が停止したジェスチャーと同じなので、手を挙げて途中で手を止め、しばらくしてから手を挙げるジェスチャーをも認識できるようになる。
【0024】
請求項1、2の発明に関する処理は本実施の形態の数14式および数15式により表され、図10に特徴データの比較順序が示されている。
【0025】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0026】
上述の問題点を改善すべく、図1に示すような特徴抽出法を提案する。網掛けの部分が従来法との相違である。まず、時間差分画像の濃淡情報をそのまま用いるのではなく、2値化処理により変化領域を求めることで問題2を解決し、さらに大幅な空間的リダクション(例:3×3)により問題1を解決する。
【0027】
式を用いて説明しよう。2値画像I(i,j,t)(0≦i,j<L,0≦t)は、入力画像I(i,j,t)から次のように求められる。
【0028】
【数1】
Figure 0003607440
【0029】
このとき、特徴ベクトルf(k,v,t)(0≧k,v<N)は次のように定義する。
【0030】
【数2】
Figure 0003607440
【0031】
ここで、pとqはともに整数、h=L/Nである。また、本手法により、1フレームあたりの計算量を大幅に低減できる。例えば、空間的リダクションのサイズを3×3とすると、特徴ベクトルの次元数が約1/25になり連続DPでの計算量が概算で約1/25になる。
【0032】
連続DPによるスポッティング認識では、初めに入力画像から特徴抽出を行い特徴ベクトルを求める。次に、この入力された特徴ベクトル列と、各ジェスチャーに対応した標準パターンとを連続DPでマッチングする。この標準パターンは、事前に標準動作を捕らえた画像列から入力画像と同様の特徴抽出法で作成した特徴ベクトル列である。最後に、すべての標準パターンとの連続DPマッチングの結果を比較し、最も適合したものをその時点のマッチング結果として出力する。
【0033】
以下に、連続DPによる特徴ベクトル列のマッチング方法を具体的に示す。まず、一つの標準パターンZは特徴ベクトルzの系列
【0034】
【数3】
Figure 0003607440
【0035】
で表す。ここで、特徴ベクトルzその次元数をNとして
【0036】
【数4】
Figure 0003607440
【0037】
と表す。入力画像からも同様な特徴ベクトル系列が随時得られる。この特徴ベクトル系列をu(0≦t<∞)とし、uとzの局所距離d(t,y)を以下の式で定義する。
【0038】
【数5】
Figure 0003607440
【0039】
また、点(t,y)を終点とする標準パターンと入力系列との最適マッチングするときの累積距離をS(t,y)で表す。
【0040】
このとき、連続DPはS(t,y)を以下のように定義する。
【0041】
【数6】
Figure 0003607440
【0042】
【数7】
Figure 0003607440
【0043】
【数8】
Figure 0003607440
【0044】
【数9】
Figure 0003607440
【0045】
で与える。ここで、時刻tにおいて動作が終了したと仮定する、すなわち、y=Tとおくと、図2のようにS(t,T)は標準パターンの区間[1,T]について入力時系列に最適に整合したときの累積距離を表す。網掛けの領域はCDPの検索領域であり、1/2〜2倍の時間方向の伸縮があってもマッチング可能である。
【0046】
この累積距離S(t,T)を重みの和3・Tで正規化したもの
【0047】
【数10】
Figure 0003607440
【0048】
がその時刻での標準パターンに対する連続DPの出力値である。連続DPはこの正規化操作によって各標準パターンのフレーム数の違いを吸収する。
【0049】
さて、今I個の標準パターンがあると仮定すると、各時刻tにおいてそれと同数のA(t)が生成される。これをA(t)(v=1,2,…,I)と表現すると、被験者があるジェスチャーをしたときのA(t)の理想的な値は図3に示すようになり、入力ジェスチャーに対応するA(t)だけが動作終了時付近において極小になると期待される。故に、本手法では各時刻におけるジェスチャーを表すカテゴリー番号を
【0050】
【数11】
Figure 0003607440
【0051】
として定める。ここで、Argは引数を返す関数、hは各ジェスチャーごとに定められたしきい値、nullは空のカテゴリーを表す。
【0052】
実験装置として、SGI社のIndy(R4400 200MHz)と、付属のIndyComというカメラを用いた。実験は、オフィス内で椅子に座った1人の被験者に対して行った。カメラの視野は被験者のジェスチャーが適切に入るように設定した。また、照明は建物の天井に設置されている蛍光灯のみを用いた。
【0053】
CCDカメラの出力映像をAD変換して得られる画像は、サイズ160×120、1画素256階調のRGB画像であるが、認識には比較的輝度に強い影響を与えるグリーン成分のみを用いた。この画像を空間的リダクションしサイズ64×64の画像を特徴抽出部への入力とした。
【0054】
実験に用いたジェスチャーは、(1)ばんざい(両手)、(2)バイバイ(右手)、(3)まる(両手)、(4)手をたたく(両手)、(5)こちらへ(右手)、(6)左へ(左手)、(7)右へ(右手)、(8)いいえ(右手)の8種類である。これを、ジェスチャーv(v=1,2,…,8)と表記する。図4に各ジェスチャーのスナップショット、図5にジェスチャー「バンザイ」の画像系列を示す。被験者は各動作を通常のスピードで行い、画像は15Hzでサンプリングした。また、数1式の閾値hはカメラの熱雑音を考慮し10とした。
【0055】
標準パターンv(v=1,2,…,8)は、それぞれのジェスチャーを捕らえた画像系列から人手でジェスチャー部分のみを切り出し作成した。この実験で用いた標準パターンのフレーム長Tは11から15であった。また、同じジェスチャーを20回繰り返した入力画像列vを作成した。次に、入力画像列vを認識システムに入力し、1位認識率と正解候補率を求めた。
【0056】
【数12】
Figure 0003607440
【0057】
【数13】
Figure 0003607440
【0058】
ここで、正答ジェスチャー数vは入力画像列v中の20個のジェスチャーの内で正しく認識できたジェスチャー数である。また、3フレーム以上連続して同じ認識結果になった場合に「検出」されたとした。
【0059】
ここで、特徴ベクトルの次元数(N×N)のNの最適な値を求めるため、N=1,2,3,4,5,7,10,16と変化させた。また、衣服および背景の影響を調べるため、
S1 標準パターンの作成時と衣服および背景が等しい場合
S2 標準パターンの作成時と衣服および背景の明るさがともに異なる場合
を設定した(図6)。ここで、標準パターンはS1の場合において作成し、しきい値hはS1の場合の1位認識率が極力大きくなるよう人手で設定した。S2にはこのS1で作成した標準パターンとしきい値を用いて認識実験を行った。
【0060】
認識実験の結果を図7に示す。衣服と背景が異なる場合(S2)でも、N=3,4,5で約80%と高い1位認識率が得られたため、本手法が衣服と背景の変化にロバストであることが示せた。計算量を考慮すると、Nが3のときに今回用いた8種類のジェスチャーに対する最適な認識システムとなる。また、Nが7以上で1位認識率が低下しているが、これはリダクションサイズが大き過ぎて動作の軌跡の変動を吸収できなかったためと考えられる。
【0061】
Indyを1台を用い本手法を用い本手法を用いた実時間ジェスチャー認識システムを作成した(図8)。N=3、サンプリングレートは15Hzであり、入力画像を実時間で表示、認識し結果を表示する。実時間での認識実験を行った結果、衣服、背景が異なっても約8割の認識率が得られた。
【0062】
人間のジェスチャーは、同一動作であっても途中で戸惑ったり考えて止まったりすることがある。ところが、標準パターン全体との距離を求める連続DPでは、このような躊躇した動作は認識できない。そこで、標準パターン中の部分区間を順方向だけでなく逆方向や停止時でもマッチングできるようなNon−monotonic 連続DPを提案する。
【0063】
連続DPで用いた数3式、数4式、数5式と同様な変数を定義する。このとき、Non−monotonic 連続DPは点(t,v)での累積距離S(t,v)を以下のような漸化式で更新する。
【0064】
【数14】
Figure 0003607440
【0065】
【数15】
Figure 0003607440
【0066】
ここで、αは正規化係数(0≦α≦1)であり、式を簡単にするために、以下の2項を仮定した。
【0067】
(仮定1)標準パターンは、特徴ベクトルの1次元系列で表現できる(本手法は、分岐のある場合や2次元系列に拡張可能)。
【0068】
(仮定2)入力パターンの速度変化は、標準パターンの1倍以下
(仮定2)では、図9(a)のような傾斜パターンを採用している。しかし、数15式のmの範囲を変化させれば、入力パターンの速度変化に対して様々な制限を付加できる(図9(b)など)。
【0069】
数14式、数15式の漸化式を解くと次式のようになる。
【0070】
【数16】
Figure 0003607440
【0071】
ここでp(k)は以下のように定義する。
【0072】
【数17】
Figure 0003607440
【0073】
つまり、Non−monotonic 連続DPは、点(t,y)を終点として図10の斜線領域内において最小の累積距離となるマッチング経路を求めている。
【0074】
よく知られている「連続DP」では、終点となる点は(t,T)とされてきた。また、それへの最適パスは(t,y)平面においてt,yについて単調に増加するものとされてきた。これは、傾斜の取り方に依っている。従って、「連続DP」はその最適パスの形式においてmonotonic なものといえるものである。しかし、Non−monotonic CDPでは、図9(a)のように(t,y)において(t−1,y−1),(t−1,y),(t−1,y+1)の各点から局所最適パスがとられ、図10の実線のように(t,y)平面での最適パスがyに関して単調に増加するものとはなっていない。この意味により、ここで提案するものを「Non−monotonic 連続DP」と呼ぶこととする。
【0075】
また、数15式のd(k,p(k))に対する重みをw(k)とする、重みw(k)の和は、
【0076】
【数18】
Figure 0003607440
【0077】
となり、いかなるtにおいても重みw(k)の和が1に正規化された累積距離が得られることが分かる。これにより、各tにおいて点の集合{(t,y)|1≦y≦T}における累積距離の集合{S(t,y)|1≦y≦T}の中での比較が可能であり、また、異なる標準パターンの最短累積距離の比較も可能となる。これは、数15式の漸化式において、重みの和がα+(1−α)=1になることからも、常に重みの和が正規化がされていることが分かる(このことは、正規化係数αが、時間的に変化する場合でも同様である)。
【0078】
重みw(k)の値は、現時点に近いほど大きくなり、特に、tがある程度大きい定常状態では、数16式は
【0079】
【数19】
Figure 0003607440
【0080】
と簡略化できる。このとき、重み係数w(k)の半値幅w1/2(α)を
【0081】
【数20】
Figure 0003607440
【0082】
と定義するとき、
【0083】
【数21】
Figure 0003607440
【0084】
と、半値幅w1/2(α)からαを決定できる。
【0085】
通常、入力される特徴ベクトルの変化が小さい場合は、過去の履歴を多く持つ(w1/2(α)を大きくする)方が良い。このためには、正規化係数αを、特徴ベクトルの変化に比例するように時間的に変化させれば可能である。一例として次のようにα(t)を可変にすればよい。
【0086】
【数22】
Figure 0003607440
【0087】
ここで、u’は入力される特徴ベクトルの微分値、α,αは標準パターンの長さTを考慮して定めた定数である。
【0088】
ここで、標準パターンがL個存在するとし、各パターンの累積距離をS(t,y)(1≦v≦L)、閾値をh、標準パターンのフレーム数をTとする。Non−monotonic 連続DPの出力は、マッチングした標準パターン番号v(t)とその標準パターン内でマッチングしたフレーム番号(y(t))であり、
【0089】
【数23】
Figure 0003607440
【0090】
と表せる。ここで、Argは引数{v(t),y(t)}を返す関数、nullは空のカテゴリーを表す。この出力結果を一つの標準パターンに着目して考えると、図11のように点(t,y(t))の軌跡から様々な動作を認識できる。
【0091】
特徴抽出法において、時間差分ではなく背景画像との差分を用い、Non−monotonic 連続DPの効果を調べた。ジェスチャーは、(1)ばんざい、(2)右手を上げる、(3)左手を上げる、(4)右手を大きく振る、(5)おぎじをする、の5種類とした。標準パターンは、これらのジェスチャーの片道のみを用いた。例えば、(4)手を大きく振るでは左から右へ振り、さらに右から左へ振ることが往復の運動であるが、標準パターンでは「左から右へ振る」部分のみを用いた。
【0092】
図12に、次々にジェスチャーを行った結果を示す。ジェスチャーの順序は、(2)右手を途中まで上げて少し下げ、再び大きく上げて降ろした、(3)左手を大きく上げて降ろしてから少し上げた、(1)両手を上まで上げ降ろした、(5)おじぎをした、(2)右手を上げて下げた、(4)手を大きく左から右へ振り、少し戻して右に振り切り左に戻した、(5)おじぎをした、(1)両手を上げて下げた、(2)右手を上げて下げた、である。この結果から、標準パターンの順方向だけでなく逆方向の認識可能、停止可能、部分的なジェスチャー検出可能、であることが示せた。従って、Non−monotonic 連続DPは、5種類のうちのどのジェスチャーであるか、認識すると同時にマッチングした標準パターン中のフレーム番号の変化から、さらに細かな動きを検出できる可能性を示せた。
【0093】
さらに、Indyを1台用い実時間認識システムを作成した。認識結果はジェスチャー名を赤色、緑色、黄色で表示し、それぞれ、停止時、順方向時、逆方向時とした。このシステムを用い、2個のジェスチャーに重なりがある場合を調べた。ジェスチャー(2)右手を上げると、(4)右手を大きく振るとは、右手を上げきった状態が共通している。従って、この状態を認識しようとすると混乱が生じるはずである。そこで、この二つのジェスチャーを行い、右手を上げきった状態で停止する実験を行った。過去の情報を多く用いない場合(α=0.3)は、すぐに混乱が生じた。しかし、過去の情報を多く用いること(α=0.05)でしばらくは、前の軌跡情報を維持できた。ただし、過去の情報を多く用いることによって認識に時間遅れが生じるようになった。
【0094】
そこで、数22式で示したように、αを時間的に変化させた。ここでは、入力画像の変化が大きいとき(ジェスチャーの動きが激しいとき)には過去の情報を少なくし、変化が小さい時には過去の情報を引きずるようになっている。この結果、認識の時間遅れが小さくなり、また、混乱も生じなくなることが認識できた。
【0095】
以上述べたように本実施の形態では、入力画像の大幅な時間的リダクションにより特徴抽出を行う手法を提案し、8種類のジェスチャーを用いた評価実験にて衣服と背景の明るさの変化に対してロバストであることを示した。また、リダクションサイズは3×3のとき最適であることを示した。本手法を用いた実時間動作認識システムでは8種類のジェスチャーに対して約8割の認識率で認識できた。
【0096】
さらに、標準パターン中の部分区間の逆方向や停止時の認識を実現するために、連続DPの機能を拡張した。
【0097】
Non−monotonic 連続DPを提案し、評価実験にて逆方向の認識可能、停止可能、部分的なジェスチャー検出可能、であることを示した。
【0098】
今後の課題としては、(1)大幅リダクション画像特徴を用いた連続DPでは、ジェスチャー数を増やし本手法の限界を見極めること、(2)Non−monotonic 連続DPでは、評価実験を行い認識率を求めることが挙げられる。また、本手法では(1)原理的にジェスチャーのスピード変化に対応不可能、(2)手のひらの向きや微小な動きの違いを認識できない、という問題点がある。そこで、本手法の高いロバスト性と少ない計算量という特徴を生かしつつ、(1)空間的リダクション時のメッシュの形状や大きさを場所によって変化させる、(2)原画像のエッジ情報の効率的な利用などにより本手法の改良を行い手話認識を狙いたいと考えている。
【0099】
【発明の効果】
以上、説明したように、請求項1の発明では、被写体の照明環境に変化生じても、認識精度を損ねることはなく、また、特徴パターンおよび標準パターンのデータ量を減じることができるので、従来よりも認識処理時間が向上するという効果が得られる。
【0100】
請求項2、3の発明によれば、1つの標準パターンで、複数のジェスチャーを認識できるので、さらにジェスチャー認識性能を高めることが可能となる。
【図面の簡単な説明】
【図1】本発明の特徴パターンの抽出手順を示す説明図である。
【図2】CDPのパス探索を説明するための説明図である。
【図3】CDP出力の変化を示す説明図である。
【図4】8種類のジェスチャ画像を模式的に示す説明図である。
【図5】特徴ベクトルの作成に使用したジェスチャー画像を模式的に示す説明図である。
【図6】ばんざいのジェスチャーのフレーム画像を模式的に示す説明図である。
【図7】リダクションサイズNと認識率を示す説明図である。
【図8】ジェスチャー認識システムの外観を示す正面図である。
【図9】Non−monotonic(ノンモノトニック)連続DPでの傾斜パターン例を示す説明図である。
【図10】Non−monotonic(ノンモノトニック)連続DPでのパスの」探索範囲を示す説明図である。
【図11】Non−monotonic(ノンモノトニック)連続DPによるスポッティング認識方法を説明するための説明図である。
【図12】Non−monotonic(ノンモノトニック)連続DPによる認識結果を示す説明図である。
【図13】特徴ベクトルを作成する手順を説明するための説明図である。
【図14】特徴ベクトルを作成する手順を説明するための説明図である。
【符号の説明】
1 Input Image(入力イメージ)
2 Temporal Edge(テンポラルエッジ、時間差分画像)
3 2値化画像
4 空間リダクションを施した特徴データ

Claims (2)

  1. 撮像装置により被写体のジェスチャーを撮像し、撮像装置から各時刻毎に得られる多値の画像データI(i,j,t)、ここで、i、jは1画面の横、縦の画素位置で、tは時刻、から特徴パターンを情報処理装置により抽出し、当該抽出した特徴パターンをジェスチャー内容が規定されている標準パターンと前記情報処理装置により比較することによりジェスチャー認識するジェスチャー認識方法において、
    前記情報処理装置は、
    前記画像データI(i,j,t)と前の時刻の画像データI(i,j,t−1)との間の時間差分画像を取得し、
    当該取得した時間差分画像データを2値化して、ビット“1”およびビット“0”の画像データで表される2値化画像を取得し、
    当該2値化した画像データの集合を複数の升目に分割し、
    当該分割した升目個々に含まれるビット“1”およびビット“0”のいずれかのビット値の個数を取得し、
    当該取得した個数を前記升目位置と時間tに関連づけた特徴ベクトルf(k,v,t)、ここでk、vは横、縦の升目位置、を前記特徴パターンまたは前記標準パターンとする前記ジェスチャー認識方法であって、
    前記標準パターンと前記特徴パターンとの比較を、標準パターンの時間的逆方向にも行うことを特徴とするジェスチャー認識方法。
  2. 請求項1に記載のジェスチャー認識方法において、前記標準パターンを構成する特徴ベクトルの中のある時間の特徴ベクトルを停止動作のパターンとみなし、該停止動作のパターンと前記特徴パターンとを比較してジェスチャー認識することを特徴とするジェスチャー認識方法。
JP32283796A 1996-12-03 1996-12-03 ジェスチャー認識方法 Expired - Lifetime JP3607440B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32283796A JP3607440B2 (ja) 1996-12-03 1996-12-03 ジェスチャー認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32283796A JP3607440B2 (ja) 1996-12-03 1996-12-03 ジェスチャー認識方法

Publications (2)

Publication Number Publication Date
JPH10162151A JPH10162151A (ja) 1998-06-19
JP3607440B2 true JP3607440B2 (ja) 2005-01-05

Family

ID=18148166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32283796A Expired - Lifetime JP3607440B2 (ja) 1996-12-03 1996-12-03 ジェスチャー認識方法

Country Status (1)

Country Link
JP (1) JP3607440B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481663B2 (ja) 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
JP2009093291A (ja) * 2007-10-04 2009-04-30 Toshiba Corp ジェスチャー判定装置及び方法
JP5957844B2 (ja) * 2011-10-06 2016-07-27 富士ゼロックス株式会社 電力供給制御装置、画像処理装置、電力供給制御プログラム
US9336456B2 (en) 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
JP6977551B2 (ja) * 2017-12-26 2021-12-08 コニカミノルタ株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
CN109344755B (zh) * 2018-09-21 2024-02-13 广州市百果园信息技术有限公司 视频动作的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JPH10162151A (ja) 1998-06-19

Similar Documents

Publication Publication Date Title
Liu et al. Hand gesture recognition using depth data
US7003135B2 (en) System and method for rapidly tracking multiple faces
US5912980A (en) Target acquisition and tracking
US20080013837A1 (en) Image Comparison
US20070291991A1 (en) Unusual action detector and abnormal action detecting method
JP4597391B2 (ja) 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体
JPH07168932A (ja) ビデオ画像中の人間を探索する方法
JP4153818B2 (ja) ジェスチャ認識装置、ジェスチャ認識方法及びジェスチャ認識プログラム
KR20090037275A (ko) 인체 부분 검출 장치 및 그 방법
García-Martín et al. Robust real time moving people detection in surveillance scenarios
JP4444583B2 (ja) 物体検出装置及びプログラム
JP3607440B2 (ja) ジェスチャー認識方法
JP2001307107A (ja) 画像処理装置および方法、並びに記録媒体
JP5538781B2 (ja) 画像検索装置及び画像検索方法
Kölsch An appearance-based prior for hand tracking
JP3784474B2 (ja) ジェスチャー認識方法および装置
Nishimura et al. Spotting recognition of gestures performed by people from a single time-varying image
CN110363192A (zh) 物件影像辨识系统及物件影像辨识方法
JP5241687B2 (ja) 物体検出装置及び物体検出プログラム
JP3230509B2 (ja) 動画像処理装置
JP2005176339A (ja) 動画像処理方法、動画像処理装置、動画像処理プログラム及びそのプログラムを記録した記録媒体
Duan et al. Detection of hand-raising gestures based on body silhouette analysis
JP2002170121A (ja) 画像処理装置および方法、並びに記録媒体
Liang et al. Real-time face tracking
Hung et al. A Real-time Action Detection System for Surveillance Videos Using Template Matching.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041007

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term