JP4221681B2 - ジェスチャ認識装置 - Google Patents
ジェスチャ認識装置 Download PDFInfo
- Publication number
- JP4221681B2 JP4221681B2 JP10472598A JP10472598A JP4221681B2 JP 4221681 B2 JP4221681 B2 JP 4221681B2 JP 10472598 A JP10472598 A JP 10472598A JP 10472598 A JP10472598 A JP 10472598A JP 4221681 B2 JP4221681 B2 JP 4221681B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- gesture
- person
- model
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Description
【産業上の利用分野】
この発明はジェスチャ認識装置に関し、特にたとえばビデオカメラなどで撮影した人物画像を処理して人物の動作を認識し、脚や腕等の状態を同定してコンピュータやゲーム機などへ情報を提供するジェスチャ認識装置に関する。
【0002】
【従来の技術】
人間にとって最も自然なコミュニケーション手段の一つであるジェスチャは、人間と機械のインタラクションをより自然なものにするためにも重要な要素の一つである。従来の人間のジェスチャを認識する方法としては、背景差分2値画像を用いて動画像からジェスチャを認識する手法が数多く提案されている。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の技術では、実環境下において実時間でジェスチャを認識しようとする場合は、ユーザの服装や背景などが複雑な映像となり、単純に2値化する方法では正確な認識はできないといった問題があった。そのため、使用環境を制限せざるを得ず、さまざまな実環境下においてジェスチャを正確に抽出するのは困難であった。
【0004】
それゆえに、この発明の主たる目的は、実環境下でも実時間で正確に人間のジェスチャを認識できるジェスチャ認識装置を提供することである。
【0005】
【課題を解決するための手段】
この発明は、人物を撮影した複数のフレームからなる第1画像と個人テンプレートモデルとのマッチング処理に基づいて人物のジェスチャを認識するジェスチャ認識装置であって、人物を撮影した複数のフレームからなる第2画像に基づいて、当該第2画像において動きがある動領域を所定のフレームについて検出する検出手段、検出手段によって検出された動領域の画像と、ジェスチャのポーズの形状特徴を示す画像である一般テンプレートモデルとのマッチング処理を行って動領域の画像とマッチする一般テンプレートモデルを選択するマッチング手段、および動領域の画像における人物のジェスチャを表す部位領域のテクスチャを一般テンプレートモデルの画像の形状特徴を表す領域に合うように変形およびマッピングを行って人物の個人テンプレートモデルを作成する作成手段、を備える、ジェスチャ認識装置である。
【0006】
【作用】
個人モデルを特定の人間とインタラクティブに対応することによって作成する。そして、テンプレートマッチングを基本としたジェスチャテンプレートモデル(GTM)を用いてジェスチャ認識を行う。また、このときオートマトンを用いることによって、GTMの認識結果を正確に認識できる。
【0007】
【発明の効果】
この発明によれば、特定の人物に個別に対応する個人モデルを作成するようにしたので、複雑な入力画像から人間を容易に特定でき、したがって実環境下でも実時間で正確に人間のジェスチャを認識できる。
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【0008】
【実施例】
図1に示すこの発明の実施例のジェスチャ認識装置10は、たとえばビデオカメラを含む画像入力装置12によって撮影された、カラー画像のような入力画像を処理する。この入力画像は、たとえば富士通株式会社製「カラートラッキングビジョン」などの専用ハードウエアで構成されたテンプレートマッチング処理装置14によって処理される。テンプレートマッチング処理装置14では、入力画像と汎用モデル記憶装置16に記憶した複数のテンプレート画像との相違度を演算する。テンプレートマッチング処理装置14からは、通常のテンプレートマッチング手法に従って、各テンプレート画像と入力画像との相違度が出力され、コンピューター18すなわち状態認識装置20に与えられる。状態認識装置20では、テンプレート間相関度記憶装置22に記憶されたテンプレート間相違度および状態番号記憶装置24に記憶された各テンプレート画像の状態番号を参照して、入力画像における腕や脚の状態番号を出力する。このとき、相違度がある閾値値以上の場合、音声指示発生装置26によって人物に音声による動作指示を行い、個人モデルを作成する。この個人モデルは個人モデル記憶装置28に記憶され、テンプレートマッチング処理装置14は個人モデルを用いて再び、テンプレートマッチングを行う。
【0009】
以下、図2に示すこの実施例のフロー図を参照して説明を行う。
まず、ステップ1で画像入力装置12により入力画面中に人物が検出されると、次のステップ2から個人モデルを作成するプロセスを開始する。その際、この実施例は入力画像から人物の特定部位をインタラクティブにセグメンテーションする方法をとるが、人物のインタラクションに対する負担を軽減するために、まずステップ2〜6のオートモードにおいて背景差分の情報から人物の特定部位のセグメンテーションを試みる。ここで、もしシステムがセグメンテーションに成功したと判断した場合には、ステップ21の個人ジェスチャモデル作成処理のステップに進む。しかし、システムがセグメンテーションに失敗したと判断した場合は、ステップ7〜20のインタラクティブモードに進む。ここでは、音声によってユーザに指示し、セグメンテーションしやすい特定アクションを行なってもらい、その動き情報からユーザの特定部位のセグメンテーションを行う。
【0010】
オートモードでは、入力画像の背景差分2値画像と、2値画像のセグメンテーションのために発明者が開発したMaskable Template Model(MTM) を用いてセグメンテーションを行なう。まずステップ2において背景差分2値画像を検出する。背景差分2値画像は次の数1から求めることができる。ただし、I′は時刻tにおける背景差分2値画像,Iは入力画像,Bは背景画像,thは2値化の閾値を表す。図4はステップ2によって検出されたコントラストの高い場合の背景差分2値画像(シルエット画像)の例である。
【0011】
【数1】
【0012】
次に、ステップ3ではテンプレートマッチング処理装置14においてボデイのセグメンテーションを試みる。ボデイを検出することによって入力画像中の人物が存在するかどうか確認するためである。このときのボデイのセグメンテーションは汎用モデル記憶装置16に記憶されているMTMを用いて行われる。
MTMは改良型のテンプレート画像であり、さまざまな形状に変化する人物の特定部位を少ないテンプレートで正確にセグメンテーションすることができる。図5および図6に示すように、MTMは2値画像がとる2値(背景領域を表す値0の黒領域と人物領域を表す値254の白領域)と、その2値の中間値をとるマスク領域(値127のグレー領域)との3値から構成される。MTMによるテンプレートマッチングを行なうと、マスク領域が“don't care ”となり、黒領域と白領域における相違度のみを求めることができる。図5のボデイ用MTMではボデイの回りにマスク領域を置くことで、見せかけの大きさが変化したボデイに対してもこのMTMを用いてセグメンテーションが行なうことができる。 MTMによるセグメンテーションは通常のテンプレートマッチングと同様に次の数2の式によって、入力2値画像中から最もマッチする位置、つまり入力画像とMTMの相違度D(T)が最小になる座標(x,y)を捜し出し、その位置でセグメンテーションを行う。この処理は通常のテンプレートマッチング用ハードウエアを用いて実時間で行われる。
【0013】
【数2】
【0014】
ただし、I′は入力2値画像,Tはテンプレート画像,m×nがテンプレート画像の大きさ,Sは入力画像中の探索範囲,D(T)は入力2値画像中で最もマッチした座標(x,y)における相違度を表す。
そして次のステップ4において、図5のボデイ用MTMと入力2値画像のマッチングの程度が非常に高い場合、つまり相違度D(T)がある閾値Th1以下の場合、入力画像中に人が存在するものとして、この画像と、あらかじめ用意したジェスチャモデルとをテンプレートマッチングすることにより部位に位置を決定し、個人ジェスチャモデルであるボデイのカラーテンプレートを生成し、個人モデル記憶装置28に記憶した後、次のステップ5に進む。また反対に、マッチングの程度が非常に低く相違度D(T)がある閾値Th2(>Th1)以上の場合、入力画面中に人が存在しないものとして入力画像で背景画像を更新して、ステップ1に戻り次の入力画像の処理に進む。これは時間変化に伴う照明条件などの環境の変化に対応するためである。しかし、相違度D(T)がTh1<D(T)<Th2となった場合、つまり、背景から何らかの変化はあるが人の形状が検出されなかった場合、ステップ7からのインタラクティブモードに移行する。図7はオートモードでセグメンテーションを行った結果を表わす画像であり、最もマッチした位置(x,y)で入力画像からMTMのボデイ領域に対応する部分をセグメンテーションした結果を示すものである。
【0015】
ステップ4でボデイがセグメンテーションされユーザが検出された場合は、次のステップ5において、各部位(腕や脚)のセグメンテーションが行われる。ここでのセグメンテーションには図5の腕(脚)用のMTMを利用する。このMTMは腕(脚)領域の間をカバーするようにマスク領域を設定している。これは腕(脚)を伸ばして上下に振っても抽出できるようにしているためである。図7の場合では図6のL5のモデルによって腕のセグメンテーションがなされ、L5の腕領域に対応する部分が切り出される。
【0016】
腕(脚)領域のセグメンテーションでもボデイ領域の場合と同様に、ステップ6において相違度D(T)によってセグメンテーションの成否を判断する。ここで、腕(脚)領域のセグメンテーションに成功したと判断された場合、つまり相違度D(T)がある閾値Th3以下の場合、入力画像中に各部位が存在するものとして、この画像と、あらかじめ用意したジェスチャモデルとをテンプレートマッチングすることにより部位に位置を決定し、個人ジェスチャモデルである各部位のカラーテンプレートを生成し、個人モデル記憶装置28に記憶した後、ステップ21に進む。また反対に、腕(脚)領域のセグメンテーションに失敗したと判断された場合、つまり相違度D(T)がある閾値Th4より大きい場合、ステップ16からのインタラクティブモードに進む。
【0017】
図8はコントラストの低い場合の背景差分2値画像(シルエット画像)の例である。このように、シルエット領域のコントラストが低い場合はオートモードではセグメンテーションを行うことができず、インタラクティブモードにおいて、セグメンテーションを実行する。以下、図3のインタラクティブモードの場合のフロー図を参照して説明を行う。
【0018】
インタラクティブモードでは、各ステップにおいて、オプテイカルフローによって動領域の有無,位置,および速度を検出し、その情報に基づいて発見,追跡,およびセグメンテーションの処理を行う。オプテイカルフローを得るための手法として、この実施例ではリアルタイム性を重視しブロックマッチング法を採用した。数3で与えられるSADを最小とするu,vが時刻t,t+1間の速度ベクトルである。
【0019】
【数3】
【0020】
この実施例ではカラー画像を扱うため、R,G,BのプレーンのSADの和をトータルのSADとした。
【0021】
【数4】
SAD(x,y,u,v)=SADr(x,y,u,v) +SADg(x,y,u,v) +SADb(x,y,u,v)
また、ノイズによる誤った検出を防ぐため以下の条件のときは、動領域とはみなさない。ただし、u′,v′は得られた速度ベクトル、THは所定値を示す。
【0022】
【数5】
SAD(x,y,u ′,v ′) − SAD(x,y,0,0) <TH
まず、ステップ7では、画面全体の範囲で比較的粗い密度でオプテイカルフローを検出する。このとき動領域が所定数以上検出されると、それを人物とみなす。そして、次のステップ8においてその動領域の重心位置を算出する。なお、この実施例では画面のサイズは水平方向に320ピクセル、垂直方向に240ピクセルであり、検出グリッドは水平方向および垂直方向にいずれも16ピクセルである。
【0023】
ステップ9では、発見された人物に対して所定の位置に移動し静止するように音声指示発生装置26によって、音声によって指示する。
ステップ10では、重心位置の周辺範囲で比較的細かい密度でオプテイカルフローを検出し、各フレーム毎に重心位置を更新することによって、人物の追跡を行う。このとき、動領域が所定数以下の場合は重心の更新は行わない。そして、ステップ11において所定時間、重心の更新が行わなければ、人物が静止したとみなす。なお、この実施例では検出グリッドは水平方向および垂直方向にいずれも8ピクセルである。
【0024】
ステップ12では人物にうなずいてもらうように音声指示発生装置26によって音声による指示を行う。
ステップ13では、重心位置を基準とした所定の範囲で、先の指示によって人物が頭部を動かしたときの垂直方向の速度成分を持つ領域を検出する。この検出された領域は頭の位置とみなされる。次のステップ14では、このときの頭の位置を基準としてボデイの位置を決定する。そして、ステップ15においてテンプレートマッチング処理装置14によりボデイのセグメンテーションを行う。このセグメンテーションを行うことによって画像よりボデイの画像を切り取り、個人ジェスチャモデルであるボデイのカラーテンプレートを生成し、個人モデル記憶装置28に記憶する。
【0025】
ボデイのセグメンテーションが行われた後、オートモードと同様に各部位のセグメンテーションを行う。まずステップ16で、人物に所定の動作を行うように音声指示発生装置26によって音声メッセージを発する。人物が音声メッセージに応じて所定の動作(たとえば右手を振り上げる動作)を行うと、次のステップ17においてボデイの位置に対して所定の範囲内に動領域が検出される。そしてステップ18において、先の範囲内の動領域の速度ベクトルの平均値を求め、その平均値が所定方向と最も近いフレームを対象フレームとして選択する。所定方向とは、たとえば、右腕を振り上げる動作の場合は、垂直方向とし、これは、右腕が水平に伸びた状態に対応する。また、速度ベクトルを求める際、3フレーム間のオプテイカルフローを求めることにより、背景による影響を軽減する。つまり、(t)フレームと(t−1)フレーム間、および(t)フレームと(t+1)フレーム間のオプテイカルフローをそれぞれ求め、両方が動領域である場合のみ、(t)フレームのその領域を動領域とする。動領域である場合は二つの速度ベクトルを平均化する。これにより3フレーム間のオプテイカルフローが得られる。平均化された速度ベクトルの式を数6に示す。
【0026】
【数6】
U(t)={−u(t,t−1)+u(t,t+1)}/2
V(t)={−v(t,t−1)+v(t,t+1)}/2
対象フレームが選択されると、ステップ19において、さらに詳細な密度でオプテイカルフローを求め、画像を、動領域,静止領域,および境界領域に分類し3値化する。図9a,b,c,d,e に示すように、3値化は4ピクセル四方のブロック単位で行う。まず8ピクセル四方の領域のオプテイカルフローを水平、垂直にそれぞれ4ピクセルずつ、ずらして求める。このとき、ある4ピクセル四方のブロックを含む領域は4つ存在する。この4つの領域すべてが動領域であれば、その4ピクセル四方のブロックを動領域とし、この4つの領域がすべて動領域でなければ、その4ピクセル四方のブロックを静止領域とし、それ以外の場合は、境界領域とする。境界領域には動領域と静止領域の平均値をあたえ画像を3値化する。この画像は検出すべき動物体の姿勢、形状を表してあり、ステップ20において、テンプレートマッチング処理装置14によってこの画像と、汎用モデル記憶装置16に記憶されているジェスチャモデルとをテンプレートマッチングすることにより部位に位置を決定し、個人ジェスチャモデルである各部位のカラーテンプレートを生成する。
【0027】
このように、図8のようなコントラストの低い場合の背景差分2値画像でも、インタラクティブモードによってセグメンテーションを行うことによって、個人ジェスチャモデルを作成することができる。図10はインタラクティブモードによってセグメンテーションを行ったときの結果画像である。
ここで用いられている汎用モデル記憶装置16に記憶されているジェスチャモデルとは、テンプレートマッチングをベースにしたジェスチャテンプレートモデル(GTM)という改良型テンプレートモデルを用いている。GTMはそれぞれのジェスチャにおける代表的なポーズを一枚のテンプレート画像で表現し、あるジェスチャをこれらのテンプレート画像の集合として表現するものである。
【0028】
図11はパンチジェスチャにおける腕のポーズに対応させて、一般GTMとあるユーザの個人GTMを表している。パンチジェスチャのGTMは、パンチにおける腕の状態を表した4枚のジェスチャテンプレートGT(PGT1からPGT4)を1つのセットとして構成される。一般GTは、特定のユーザのテクスチャがマッピングされていない、対象の形状特徴だけを表したテンプレート画像であり、対象領域とそれ以外のマスク領域の2つの領域から構成される。個人GTは、図6のようにセグメンテーションされたそれぞれのユーザごとのカラーテクスチャをもった部位領域を、一般テンプレートの対象領域に合うように変形、マッピングして作成する。個人GTMも対象領域とマスク領域の2つの領域から構成され、このGTMによってテンプレートマッチングを行うと、対象領域のみがマッチング処理に利用され、マスク領域はマッチング処理とは無関係になる。その場合、対象領域のマッチングにはポーズ形状特徴だけではなく、それぞれのユーザごとのカラーテクスチャが使えるために様々な環境においても正確にマッチングできる。
【0029】
図12はあるユーザにおけるボデイ用のGTMの例である。このボデイ用の個人GTMは図6におけるボデイ領域を一般ボデイGTMにマッピングして作られたものである。BGT3が直立したボデイを表し、BGT1,2,4,5ではそれぞれの方向に傾いたボデイを表現している。ボデイGTMは、ボデイの傾きのジェスチャを認識することもできるが、パンチジェスチャなど腕や脚をGTMによってトラッキングする場合に探索範囲を限定するのにも使われる。
【0030】
このように、GTMを用いてテンプレートマッチングを行うことによって、実時間において容易に個人ジェスチャモデルを作成することができる。ステップ21では上述のようにして形成された個人ジェスチャモデルを用いて、状態認識装置20においてジェスチャ認識を行う。まず、個人ジェスチャモデルを用いて、入力画像中のユーザの特定部位のトラッキングを行う。トラッキングの方法はまずボデイ用の個人GTMを用いてボデイの位置と状態を推定する。次にそのボデイの位置から限定される範囲でそれぞれのジェスチャの個人GTMを用いて特定部位をトラッキングしていく。
【0031】
通常のテンプレートマッチングでは、すべてのテンプレート画像におけるマッチングの結果から最もマッチするものを選択して認識処理を行う。しかし、一人のユーザがジェスチャを行う場合、GTMで用意したすべてのポーズを同時にとることはできない。また、ジェスチャではGTMにおけるポーズを順に取らなければならない。以下では、ジェスチャがもつ特性を利用した個人GTMの時系列マッチングの結果からのジェスチャの認識処理について説明する。
【0032】
図13は、あるジェスチャのGTMに対してそのジェスチャを行った場合にGTMにおける各GTがジェスチャのポーズの変化に対してとる相違度の変化を表している。このグラフにおいて横軸がそのジェスチャの対象領域のポーズの変化を表しており、縦軸はその時の入力画像とGTとの相違度を表している。また、番号をつけた各曲線が各GTの相違度を表している。あるジェスチャを行う場合、ポーズは横軸に対して左から右に変化する。このグラフにおいて各GTが入力画像中の対象領域と完全にマッチした場合、各GTにおける相違度の変化は太線のようになるはずである。つまり、あるジェスチャはまず第1のポーズP1となり、その場合GT1の相違度が最小となる。ジェスチャが進むとポーズはP2,P3と変化し、それぞれGT2,GT3の相違度が最小になっていく。つまり、GTMによるマッチング結果はGT1から順に相違度が最小になっていくはずである。しかし、実際の処理では各ユーザのジェスチャの個人差などによって、あるGTの相違度グラフは図12の点線で示すように変化することがある。その場合、各GTの境となるポーズPm付近でこれが起こると、この場合のみマッチング結果はGTの順にならずに前後する。また、ジェスチャのスピードが非常に早い場合、GT1からGT3のように変化することもある。
【0033】
そこでこのような特性を持つGTMのマッチング結果を図14のようなオートマトンによって認識する。このオートマトンは状態が時間と共に変化する。この図において、Snが現在の入力画像において相違度が最小となったGTnに対応する。そして次の時刻においてGTn-1 からGTn+2 までのモデルで入力画像とのマッチングを行ない、その中で最もマッチしたモデルの番号で状態を遷移させる。ただし、GTn-1 からGTn+2 までの相違度がすべて閾値以上なら状態番号は0とする。もしGTn+1 かGTn+2 にマッチすると状態はそれぞれSn+1 、Sn+2 に変化して、このときSn+1 かSn+2 が最終状態であればジェスチャを認識して処理を終了する。もし最終状態でなければ遷移した先のSn+1 かSn+2 で現在の状態Sn を書き換え、それに合わせて他のSも書き換える。ただしGTn-1 にマッチして状態がSn-1 に遷移しても、Sn は書き換えられない。つまり、これは図12においてマッチする対象の状態が次のポーズか次の次のポーズに進むか、あるいは一つ前のポーズに戻ることは許されるが、それ以上は許さないことを意味する。このように、状態遷移によってジェスチャを認識することで、DPマッチングやHMMで時系列特徴を認識する方法に比べ、様々なジェスチャスピードの変化に対応できるようになる。また、現在の状態に合わせて比較するGTの数を減らすことで誤ったモデルとのマッチを減らすことができるため、認識の精度が高くなる。
【0034】
図15はあるユーザがパンチジェスチャを行なって、さらにその腕を元の状態に戻したときに、パンチGTMの各PGTがとった相違度の変化を表している。各PGTの相違度が図12のように順に最小になっていく様子がよくわかる。
発明者等は、上述したオートモードとインタラクティブモードで作成した個人ジェスチャモデルを用いて簡単なジェスチャ認識実験を行った。ここでは、ジェスチャは、通常パンチ,上方向に出す特別パンチ、キックの3種類とした。実験の手順は以下の通りである。まず、4人のユーザにそれぞれの場合で各ジェスチャを5回してもらった。表1がオートモードにおける実験結果、そして表2がインタラクティブモードにおける実験結果を示す。この結果から分かるようにインタラクティブモードの方が認識率が僅かに下がる。これはインタラクティブモードで作成されたモデルの方がセグメンテーションの位置が本来のものと若干ずれることがあるためであるが、現在の認識率でも十分にインタラクティブシステムに対応できると思われる。
【0035】
【表1】
【0036】
【表2】
【0037】
また、発明者等は、さらに実時間インタラクティブシステムであるジェスチャゲームシステムを構築して本発明の有効性を調べた。このシステムは、ユーザのジェスチャを実時間で認識し、その結果によりTVゲームの操作を行うものである。本システムはシルエット画像生成部とジェスチャ認識部の2つのユニットによって構成される。図16はこのときのジェスチャゲームシステムを表わしたものである。
【0038】
シルエット画像形成部は、実時間画像処理システムを用いて背景差分画像を閾値処理して2値画像を作成する。この処理はオートセグメンテーションのときのみに行われ、ここで抽出された2値画像は次のジェスチャ認識部に送られる。
ジェスチャ認識部では、セグメンテーション,個人モデル作成,ジェスチ認識を行う。このユニットには、インタラクションを行うための音声認識・合成システムとテンプレートマッチング専用ハード(富士通社製カラートラッキングビジョン)が利用されている。このジェスチャ認識の結果はゲーム用のコードに変換され、TVゲームとのインターフェースを通じてTVゲームに送られる。
【0039】
このTVゲームは、通常パンチ,特別パンチ、キックなどのジェスチャでゲームのキャラクタを操作し、敵のキャラクターを倒す格闘ゲームである。このシステムでは、30フレーム/秒処理されるが、処理結果のアウトプットには通信時間の影響などによって約0.2秒ほどかかっている。そのためTVゲームを付属のコントローラで操作するよりも若干のタイムラグを感じさせるが、TVゲームの面白さを損なうほどではなく、十分インタラクティブにゲームを楽しむことができる。また、非常になれたユーザになると通常のコントローラーよりうまくキャラクターを操作できる場合もあった。このようなことから、本発明が実時間インタラクティブシステムの操作に十分に応用可能であることが確認できた。
【0040】
なお、上述の実施例では、インタラクティブシステムにおいては音声による指示を行っていたが、映像によってインタラクションを行ってももちろんかまわない。
また、上述の実施例では、オプテイカルフローを検出することによって、動領域を検出したが、2値動領域を用いて動き情報を得る方法もある。2値動領域とは、背景差分2値画像と連続差分2値画像の論理積をとった領域のことで、以下の式から求められる。
【0041】
【数7】
M(x,y,t)=I′(x,y,t)*J′(x,y,t)
ただし、Mは時刻tにおける2値動領域を、I′は背景差分2値画像を、J′は連続差分2値画像を表し、*は理論積を表す。J′は以下の式で求められる。
【0042】
【数8】
【0043】
これは現在動きのある領域で、なおかつある程度背景画像とは異なった領域のことを表しているため、比較的安定した動き情報が得られる。
【図面の簡単な説明】
【図1】この発明の一実施例を示すブロック図である。
【図2】この実施例全体の動作を示すフロー図である。
【図3】インタラクティブモードを示すフロー図である。
【図4】コントラストが高い場合の背景差分2値画像を示す表示画像である。
【図5】ボデイ用のMTMを示す表示画像である。
【図6】腕(脚)用のMTMを示す表示画像である。
【図7】オートモードでセグメンテーションを行った結果画像を示す表示画像である。
【図8】コントラストが低い場合の背景差分2値画像を示す表示画像である。
【図9】4ピクセル四方の単位領域で3値化を表すことを説明するための図解図である。
【図10】インタラクティブモードでセグメンテーションを行った結果画像を示す表示画像である。
【図11】パンチジェスチャにおける腕のポーズに対応させて汎用GTMと個人GTMを示す表示画像である。
【図12】ボデイ用の個人GTMを示す表示画像である。
【図13】腕の状態変化に伴う各テンプレート画像の相違度の変化を示すグラフである。
【図14】GTMのマッチング結果を認識する状態変化オートマトンを示す図解図である。
【図15】あるユーザのパンチジェスチャにおけるパンチGTMの相違度を示すグラフである。
【図16】ジェスチャゲームのシステムを示す図解図である。
【符号の説明】
10 …ジェスチャ認識装置
12 …画像入力装置識装置
14 …テンプレートマッチング処理装置
16 …汎用モデル記憶装置
18 …コンピュータ
20 …状態認識装置
22 …テンプレート間相関度認識装置
24 …状態番号記憶装置
26 …音声指示発生装置
28 …個人モデル記憶装置
Claims (2)
- 人物を撮影した複数のフレームからなる第1画像と個人テンプレートモデルとのマッチング処理に基づいて前記人物のジェスチャを認識するジェスチャ認識装置であって、
前記人物を撮影した複数のフレームからなる第2画像に基づいて、当該第2画像において動きがある動領域を所定のフレームについて検出する検出手段、
前記検出手段によって検出された前記動領域の画像と、ジェスチャのポーズの形状特徴を示す画像である一般テンプレートモデルとのマッチング処理を行って前記動領域の画像とマッチする前記一般テンプレートモデルを選択するマッチング手段、および
前記動領域の画像における前記人物のジェスチャを表す部位領域のテクスチャを前記一般テンプレートモデルの画像の前記形状特徴を表す領域に合うように変形およびマッピングを行って前記人物の前記個人テンプレートモデルを作成する作成手段、を備える、ジェスチャ認識装置。 - 前記第1画像および前記第2画像はカラー画像であって、
前記部位領域のテクスチャはカラーテクスチャである、請求項1記載のジェスチャ認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10472598A JP4221681B2 (ja) | 1998-04-15 | 1998-04-15 | ジェスチャ認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10472598A JP4221681B2 (ja) | 1998-04-15 | 1998-04-15 | ジェスチャ認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11296673A JPH11296673A (ja) | 1999-10-29 |
JP4221681B2 true JP4221681B2 (ja) | 2009-02-12 |
Family
ID=14388483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10472598A Expired - Lifetime JP4221681B2 (ja) | 1998-04-15 | 1998-04-15 | ジェスチャ認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4221681B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532482B1 (en) | 1998-09-25 | 2003-03-11 | Xybernaut Corporation | Mobile computer with audio interrupt system |
JP4677543B2 (ja) * | 2005-05-24 | 2011-04-27 | 株式会社国際電気通信基礎技術研究所 | 表情付け音声発生装置 |
JP4613142B2 (ja) * | 2006-03-31 | 2011-01-12 | 日本システムウエア株式会社 | ジェスチャ認識装置、これを用いたオンライン動作システム、ジェスチャ認識方法及びコンピュータ可読媒体 |
JP4790653B2 (ja) * | 2007-03-30 | 2011-10-12 | シャープ株式会社 | 画像処理装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理装置の制御方法 |
JP5304912B2 (ja) * | 2012-02-27 | 2013-10-02 | 富士ゼロックス株式会社 | 画像記録装置及びプログラム |
-
1998
- 1998-04-15 JP JP10472598A patent/JP4221681B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH11296673A (ja) | 1999-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bobick et al. | The recognition of human movement using temporal templates | |
US9058663B2 (en) | Modeling human-human interactions for monocular 3D pose estimation | |
JP5726125B2 (ja) | 奥行き画像内の物体を検出する方法およびシステム | |
US6445810B2 (en) | Method and apparatus for personnel detection and tracking | |
US7308112B2 (en) | Sign based human-machine interaction | |
US7715476B2 (en) | System, method and article of manufacture for tracking a head of a camera-generated image of a person | |
JP5227639B2 (ja) | オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム | |
JP5227629B2 (ja) | オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム | |
Arcoverde Neto et al. | Enhanced real-time head pose estimation system for mobile device | |
JP2001184488A (ja) | 人物追跡装置、人物追跡方法及びそのプログラムを記録した記録媒体 | |
JP5027030B2 (ja) | オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム | |
Tiwari et al. | Sign language recognition through kinect based depth images and neural network | |
JP4221681B2 (ja) | ジェスチャ認識装置 | |
JPH103544A (ja) | ジェスチャ認識装置 | |
KR101350387B1 (ko) | 깊이 정보를 이용한 손 검출 방법 및 그 장치 | |
Okada et al. | A single camera motion capture system for human-computer interaction | |
JP2000268161A (ja) | 実時間表情検出装置 | |
CN110826495A (zh) | 基于面部朝向的身体左右肢体一致性跟踪判别方法及系统 | |
Okada et al. | A Video Motion Capture System for Interactive Games. | |
Micilotta | Detection and tracking of humans for visual interaction | |
Noma et al. | A motion generator approach to translating human motion from video to animation | |
Noriega et al. | Multicues 3D Monocular Upper Body Tracking Using Constrained Belief Propagation. | |
JPH11283040A (ja) | 操作制御装置および動作解析プログラムを記録したコンピュ―タ読み取り可能な記録媒体 | |
WO2004088587A1 (ja) | 画像処理方法及び画像処理装置 | |
WO2022009305A1 (ja) | 領域抽出装置、領域抽出方法、及び領域抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050413 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20051101 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20051101 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051101 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080318 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080701 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081024 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081106 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131128 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |