JP4221681B2

JP4221681B2 - ジェスチャ認識装置

Info

Publication number: JP4221681B2
Application number: JP10472598A
Authority: JP
Inventors: 邦光榊原; 孝弘渡辺; 正彦谷内田
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 1998-04-15
Filing date: 1998-04-15
Publication date: 2009-02-12
Anticipated expiration: 2018-04-15
Also published as: JPH11296673A

Description

【０００１】
【産業上の利用分野】
この発明はジェスチャ認識装置に関し、特にたとえばビデオカメラなどで撮影した人物画像を処理して人物の動作を認識し、脚や腕等の状態を同定してコンピュータやゲーム機などへ情報を提供するジェスチャ認識装置に関する。
【０００２】
【従来の技術】
人間にとって最も自然なコミュニケーション手段の一つであるジェスチャは、人間と機械のインタラクションをより自然なものにするためにも重要な要素の一つである。従来の人間のジェスチャを認識する方法としては、背景差分２値画像を用いて動画像からジェスチャを認識する手法が数多く提案されている。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の技術では、実環境下において実時間でジェスチャを認識しようとする場合は、ユーザの服装や背景などが複雑な映像となり、単純に２値化する方法では正確な認識はできないといった問題があった。そのため、使用環境を制限せざるを得ず、さまざまな実環境下においてジェスチャを正確に抽出するのは困難であった。
【０００４】
それゆえに、この発明の主たる目的は、実環境下でも実時間で正確に人間のジェスチャを認識できるジェスチャ認識装置を提供することである。
【０００５】
【課題を解決するための手段】
この発明は、人物を撮影した複数のフレームからなる第１画像と個人テンプレートモデルとのマッチング処理に基づいて人物のジェスチャを認識するジェスチャ認識装置であって、人物を撮影した複数のフレームからなる第２画像に基づいて、当該第２画像において動きがある動領域を所定のフレームについて検出する検出手段、検出手段によって検出された動領域の画像と、ジェスチャのポーズの形状特徴を示す画像である一般テンプレートモデルとのマッチング処理を行って動領域の画像とマッチする一般テンプレートモデルを選択するマッチング手段、および動領域の画像における人物のジェスチャを表す部位領域のテクスチャを一般テンプレートモデルの画像の形状特徴を表す領域に合うように変形およびマッピングを行って人物の個人テンプレートモデルを作成する作成手段、を備える、ジェスチャ認識装置である。
【０００６】
【作用】
個人モデルを特定の人間とインタラクティブに対応することによって作成する。そして、テンプレートマッチングを基本としたジェスチャテンプレートモデル（ＧＴＭ）を用いてジェスチャ認識を行う。また、このときオートマトンを用いることによって、ＧＴＭの認識結果を正確に認識できる。
【０００７】
【発明の効果】
この発明によれば、特定の人物に個別に対応する個人モデルを作成するようにしたので、複雑な入力画像から人間を容易に特定でき、したがって実環境下でも実時間で正確に人間のジェスチャを認識できる。
この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【０００８】
【実施例】
図１に示すこの発明の実施例のジェスチャ認識装置１０は、たとえばビデオカメラを含む画像入力装置１２によって撮影された、カラー画像のような入力画像を処理する。この入力画像は、たとえば富士通株式会社製「カラートラッキングビジョン」などの専用ハードウエアで構成されたテンプレートマッチング処理装置１４によって処理される。テンプレートマッチング処理装置１４では、入力画像と汎用モデル記憶装置１６に記憶した複数のテンプレート画像との相違度を演算する。テンプレートマッチング処理装置１４からは、通常のテンプレートマッチング手法に従って、各テンプレート画像と入力画像との相違度が出力され、コンピューター１８すなわち状態認識装置２０に与えられる。状態認識装置２０では、テンプレート間相関度記憶装置２２に記憶されたテンプレート間相違度および状態番号記憶装置２４に記憶された各テンプレート画像の状態番号を参照して、入力画像における腕や脚の状態番号を出力する。このとき、相違度がある閾値値以上の場合、音声指示発生装置２６によって人物に音声による動作指示を行い、個人モデルを作成する。この個人モデルは個人モデル記憶装置２８に記憶され、テンプレートマッチング処理装置１４は個人モデルを用いて再び、テンプレートマッチングを行う。
【０００９】
以下、図２に示すこの実施例のフロー図を参照して説明を行う。
まず、ステップ１で画像入力装置１２により入力画面中に人物が検出されると、次のステップ２から個人モデルを作成するプロセスを開始する。その際、この実施例は入力画像から人物の特定部位をインタラクティブにセグメンテーションする方法をとるが、人物のインタラクションに対する負担を軽減するために、まずステップ２〜６のオートモードにおいて背景差分の情報から人物の特定部位のセグメンテーションを試みる。ここで、もしシステムがセグメンテーションに成功したと判断した場合には、ステップ２１の個人ジェスチャモデル作成処理のステップに進む。しかし、システムがセグメンテーションに失敗したと判断した場合は、ステップ７〜２０のインタラクティブモードに進む。ここでは、音声によってユーザに指示し、セグメンテーションしやすい特定アクションを行なってもらい、その動き情報からユーザの特定部位のセグメンテーションを行う。
【００１０】
オートモードでは、入力画像の背景差分２値画像と、２値画像のセグメンテーションのために発明者が開発したMaskable Template Model(ＭＴＭ) を用いてセグメンテーションを行なう。まずステップ２において背景差分２値画像を検出する。背景差分２値画像は次の数１から求めることができる。ただし、Ｉ′は時刻ｔにおける背景差分２値画像，Ｉは入力画像，Ｂは背景画像，thは２値化の閾値を表す。図４はステップ２によって検出されたコントラストの高い場合の背景差分２値画像（シルエット画像）の例である。
【００１１】
【数１】

【００１２】
次に、ステップ３ではテンプレートマッチング処理装置１４においてボデイのセグメンテーションを試みる。ボデイを検出することによって入力画像中の人物が存在するかどうか確認するためである。このときのボデイのセグメンテーションは汎用モデル記憶装置１６に記憶されているＭＴＭを用いて行われる。
ＭＴＭは改良型のテンプレート画像であり、さまざまな形状に変化する人物の特定部位を少ないテンプレートで正確にセグメンテーションすることができる。図５および図６に示すように、ＭＴＭは２値画像がとる２値（背景領域を表す値０の黒領域と人物領域を表す値２５４の白領域）と、その２値の中間値をとるマスク領域（値１２７のグレー領域）との３値から構成される。ＭＴＭによるテンプレートマッチングを行なうと、マスク領域が“don't care ”となり、黒領域と白領域における相違度のみを求めることができる。図５のボデイ用ＭＴＭではボデイの回りにマスク領域を置くことで、見せかけの大きさが変化したボデイに対してもこのＭＴＭを用いてセグメンテーションが行なうことができる。ＭＴＭによるセグメンテーションは通常のテンプレートマッチングと同様に次の数２の式によって、入力２値画像中から最もマッチする位置、つまり入力画像とＭＴＭの相違度Ｄ（Ｔ）が最小になる座標（ｘ，ｙ）を捜し出し、その位置でセグメンテーションを行う。この処理は通常のテンプレートマッチング用ハードウエアを用いて実時間で行われる。
【００１３】
【数２】

【００１４】
ただし、Ｉ′は入力２値画像，Ｔはテンプレート画像，ｍ×ｎがテンプレート画像の大きさ，Ｓは入力画像中の探索範囲，Ｄ（Ｔ）は入力２値画像中で最もマッチした座標（ｘ，ｙ）における相違度を表す。
そして次のステップ４において、図５のボデイ用ＭＴＭと入力２値画像のマッチングの程度が非常に高い場合、つまり相違度Ｄ（Ｔ）がある閾値Ｔh₁以下の場合、入力画像中に人が存在するものとして、この画像と、あらかじめ用意したジェスチャモデルとをテンプレートマッチングすることにより部位に位置を決定し、個人ジェスチャモデルであるボデイのカラーテンプレートを生成し、個人モデル記憶装置２８に記憶した後、次のステップ５に進む。また反対に、マッチングの程度が非常に低く相違度Ｄ（Ｔ）がある閾値Ｔh₂（＞Ｔh₁）以上の場合、入力画面中に人が存在しないものとして入力画像で背景画像を更新して、ステップ１に戻り次の入力画像の処理に進む。これは時間変化に伴う照明条件などの環境の変化に対応するためである。しかし、相違度Ｄ（Ｔ）がＴh₁＜Ｄ（Ｔ）＜Ｔh₂となった場合、つまり、背景から何らかの変化はあるが人の形状が検出されなかった場合、ステップ７からのインタラクティブモードに移行する。図７はオートモードでセグメンテーションを行った結果を表わす画像であり、最もマッチした位置（ｘ，ｙ）で入力画像からＭＴＭのボデイ領域に対応する部分をセグメンテーションした結果を示すものである。
【００１５】
ステップ４でボデイがセグメンテーションされユーザが検出された場合は、次のステップ５において、各部位（腕や脚）のセグメンテーションが行われる。ここでのセグメンテーションには図５の腕（脚）用のＭＴＭを利用する。このＭＴＭは腕（脚）領域の間をカバーするようにマスク領域を設定している。これは腕（脚）を伸ばして上下に振っても抽出できるようにしているためである。図７の場合では図６のＬ５のモデルによって腕のセグメンテーションがなされ、Ｌ５の腕領域に対応する部分が切り出される。
【００１６】
腕（脚）領域のセグメンテーションでもボデイ領域の場合と同様に、ステップ６において相違度Ｄ（Ｔ）によってセグメンテーションの成否を判断する。ここで、腕（脚）領域のセグメンテーションに成功したと判断された場合、つまり相違度Ｄ（Ｔ）がある閾値Ｔh₃以下の場合、入力画像中に各部位が存在するものとして、この画像と、あらかじめ用意したジェスチャモデルとをテンプレートマッチングすることにより部位に位置を決定し、個人ジェスチャモデルである各部位のカラーテンプレートを生成し、個人モデル記憶装置２８に記憶した後、ステップ２１に進む。また反対に、腕（脚）領域のセグメンテーションに失敗したと判断された場合、つまり相違度Ｄ（Ｔ）がある閾値Ｔh₄より大きい場合、ステップ１６からのインタラクティブモードに進む。
【００１７】
図８はコントラストの低い場合の背景差分２値画像（シルエット画像）の例である。このように、シルエット領域のコントラストが低い場合はオートモードではセグメンテーションを行うことができず、インタラクティブモードにおいて、セグメンテーションを実行する。以下、図３のインタラクティブモードの場合のフロー図を参照して説明を行う。
【００１８】
インタラクティブモードでは、各ステップにおいて、オプテイカルフローによって動領域の有無，位置，および速度を検出し、その情報に基づいて発見，追跡，およびセグメンテーションの処理を行う。オプテイカルフローを得るための手法として、この実施例ではリアルタイム性を重視しブロックマッチング法を採用した。数３で与えられるＳＡＤを最小とするｕ，ｖが時刻ｔ，ｔ＋１間の速度ベクトルである。
【００１９】
【数３】

【００２０】
この実施例ではカラー画像を扱うため、Ｒ，Ｇ，ＢのプレーンのＳＡＤの和をトータルのＳＡＤとした。
【００２１】
【数４】
SAD(x,y,u,v)＝SADr(x,y,u,v) ＋SADg(x,y,u,v) ＋SADb(x,y,u,v)
また、ノイズによる誤った検出を防ぐため以下の条件のときは、動領域とはみなさない。ただし、ｕ′，ｖ′は得られた速度ベクトル、THは所定値を示す。
【００２２】
【数５】
SAD(x,y,u ′，v ′) − SAD(x,y,0,0) ＜TH
まず、ステップ７では、画面全体の範囲で比較的粗い密度でオプテイカルフローを検出する。このとき動領域が所定数以上検出されると、それを人物とみなす。そして、次のステップ８においてその動領域の重心位置を算出する。なお、この実施例では画面のサイズは水平方向に３２０ピクセル、垂直方向に２４０ピクセルであり、検出グリッドは水平方向および垂直方向にいずれも１６ピクセルである。
【００２３】
ステップ９では、発見された人物に対して所定の位置に移動し静止するように音声指示発生装置２６によって、音声によって指示する。
ステップ１０では、重心位置の周辺範囲で比較的細かい密度でオプテイカルフローを検出し、各フレーム毎に重心位置を更新することによって、人物の追跡を行う。このとき、動領域が所定数以下の場合は重心の更新は行わない。そして、ステップ１１において所定時間、重心の更新が行わなければ、人物が静止したとみなす。なお、この実施例では検出グリッドは水平方向および垂直方向にいずれも８ピクセルである。
【００２４】
ステップ１２では人物にうなずいてもらうように音声指示発生装置２６によって音声による指示を行う。
ステップ１３では、重心位置を基準とした所定の範囲で、先の指示によって人物が頭部を動かしたときの垂直方向の速度成分を持つ領域を検出する。この検出された領域は頭の位置とみなされる。次のステップ１４では、このときの頭の位置を基準としてボデイの位置を決定する。そして、ステップ１５においてテンプレートマッチング処理装置１４によりボデイのセグメンテーションを行う。このセグメンテーションを行うことによって画像よりボデイの画像を切り取り、個人ジェスチャモデルであるボデイのカラーテンプレートを生成し、個人モデル記憶装置２８に記憶する。
【００２５】
ボデイのセグメンテーションが行われた後、オートモードと同様に各部位のセグメンテーションを行う。まずステップ１６で、人物に所定の動作を行うように音声指示発生装置２６によって音声メッセージを発する。人物が音声メッセージに応じて所定の動作（たとえば右手を振り上げる動作）を行うと、次のステップ１７においてボデイの位置に対して所定の範囲内に動領域が検出される。そしてステップ１８において、先の範囲内の動領域の速度ベクトルの平均値を求め、その平均値が所定方向と最も近いフレームを対象フレームとして選択する。所定方向とは、たとえば、右腕を振り上げる動作の場合は、垂直方向とし、これは、右腕が水平に伸びた状態に対応する。また、速度ベクトルを求める際、３フレーム間のオプテイカルフローを求めることにより、背景による影響を軽減する。つまり、（ｔ）フレームと（ｔ−１）フレーム間、および（ｔ）フレームと（ｔ＋１）フレーム間のオプテイカルフローをそれぞれ求め、両方が動領域である場合のみ、（ｔ）フレームのその領域を動領域とする。動領域である場合は二つの速度ベクトルを平均化する。これにより３フレーム間のオプテイカルフローが得られる。平均化された速度ベクトルの式を数６に示す。
【００２６】
【数６】
Ｕ（ｔ）＝｛−ｕ（ｔ，ｔ−１）＋ｕ（ｔ，ｔ＋１）｝／２
Ｖ（ｔ）＝｛−ｖ（ｔ，ｔ−１）＋ｖ（ｔ，ｔ＋１）｝／２
対象フレームが選択されると、ステップ１９において、さらに詳細な密度でオプテイカルフローを求め、画像を、動領域，静止領域，および境界領域に分類し３値化する。図９a,b,c,d,e に示すように、３値化は４ピクセル四方のブロック単位で行う。まず８ピクセル四方の領域のオプテイカルフローを水平、垂直にそれぞれ４ピクセルずつ、ずらして求める。このとき、ある４ピクセル四方のブロックを含む領域は４つ存在する。この４つの領域すべてが動領域であれば、その４ピクセル四方のブロックを動領域とし、この４つの領域がすべて動領域でなければ、その４ピクセル四方のブロックを静止領域とし、それ以外の場合は、境界領域とする。境界領域には動領域と静止領域の平均値をあたえ画像を３値化する。この画像は検出すべき動物体の姿勢、形状を表してあり、ステップ２０において、テンプレートマッチング処理装置１４によってこの画像と、汎用モデル記憶装置１６に記憶されているジェスチャモデルとをテンプレートマッチングすることにより部位に位置を決定し、個人ジェスチャモデルである各部位のカラーテンプレートを生成する。
【００２７】
このように、図８のようなコントラストの低い場合の背景差分２値画像でも、インタラクティブモードによってセグメンテーションを行うことによって、個人ジェスチャモデルを作成することができる。図１０はインタラクティブモードによってセグメンテーションを行ったときの結果画像である。
ここで用いられている汎用モデル記憶装置１６に記憶されているジェスチャモデルとは、テンプレートマッチングをベースにしたジェスチャテンプレートモデル（ＧＴＭ）という改良型テンプレートモデルを用いている。ＧＴＭはそれぞれのジェスチャにおける代表的なポーズを一枚のテンプレート画像で表現し、あるジェスチャをこれらのテンプレート画像の集合として表現するものである。
【００２８】
図１１はパンチジェスチャにおける腕のポーズに対応させて、一般ＧＴＭとあるユーザの個人ＧＴＭを表している。パンチジェスチャのＧＴＭは、パンチにおける腕の状態を表した４枚のジェスチャテンプレートＧＴ（ＰＧＴ１からＰＧＴ４）を１つのセットとして構成される。一般ＧＴは、特定のユーザのテクスチャがマッピングされていない、対象の形状特徴だけを表したテンプレート画像であり、対象領域とそれ以外のマスク領域の２つの領域から構成される。個人ＧＴは、図６のようにセグメンテーションされたそれぞれのユーザごとのカラーテクスチャをもった部位領域を、一般テンプレートの対象領域に合うように変形、マッピングして作成する。個人ＧＴＭも対象領域とマスク領域の２つの領域から構成され、このＧＴＭによってテンプレートマッチングを行うと、対象領域のみがマッチング処理に利用され、マスク領域はマッチング処理とは無関係になる。その場合、対象領域のマッチングにはポーズ形状特徴だけではなく、それぞれのユーザごとのカラーテクスチャが使えるために様々な環境においても正確にマッチングできる。
【００２９】
図１２はあるユーザにおけるボデイ用のＧＴＭの例である。このボデイ用の個人ＧＴＭは図６におけるボデイ領域を一般ボデイＧＴＭにマッピングして作られたものである。ＢＧＴ３が直立したボデイを表し、ＢＧＴ１，２，４，５ではそれぞれの方向に傾いたボデイを表現している。ボデイＧＴＭは、ボデイの傾きのジェスチャを認識することもできるが、パンチジェスチャなど腕や脚をＧＴＭによってトラッキングする場合に探索範囲を限定するのにも使われる。
【００３０】
このように、ＧＴＭを用いてテンプレートマッチングを行うことによって、実時間において容易に個人ジェスチャモデルを作成することができる。ステップ２１では上述のようにして形成された個人ジェスチャモデルを用いて、状態認識装置２０においてジェスチャ認識を行う。まず、個人ジェスチャモデルを用いて、入力画像中のユーザの特定部位のトラッキングを行う。トラッキングの方法はまずボデイ用の個人ＧＴＭを用いてボデイの位置と状態を推定する。次にそのボデイの位置から限定される範囲でそれぞれのジェスチャの個人ＧＴＭを用いて特定部位をトラッキングしていく。
【００３１】
通常のテンプレートマッチングでは、すべてのテンプレート画像におけるマッチングの結果から最もマッチするものを選択して認識処理を行う。しかし、一人のユーザがジェスチャを行う場合、ＧＴＭで用意したすべてのポーズを同時にとることはできない。また、ジェスチャではＧＴＭにおけるポーズを順に取らなければならない。以下では、ジェスチャがもつ特性を利用した個人ＧＴＭの時系列マッチングの結果からのジェスチャの認識処理について説明する。
【００３２】
図１３は、あるジェスチャのＧＴＭに対してそのジェスチャを行った場合にＧＴＭにおける各ＧＴがジェスチャのポーズの変化に対してとる相違度の変化を表している。このグラフにおいて横軸がそのジェスチャの対象領域のポーズの変化を表しており、縦軸はその時の入力画像とＧＴとの相違度を表している。また、番号をつけた各曲線が各ＧＴの相違度を表している。あるジェスチャを行う場合、ポーズは横軸に対して左から右に変化する。このグラフにおいて各ＧＴが入力画像中の対象領域と完全にマッチした場合、各ＧＴにおける相違度の変化は太線のようになるはずである。つまり、あるジェスチャはまず第１のポーズＰ１となり、その場合ＧＴ１の相違度が最小となる。ジェスチャが進むとポーズはＰ２，Ｐ３と変化し、それぞれＧＴ２，ＧＴ３の相違度が最小になっていく。つまり、ＧＴＭによるマッチング結果はＧＴ１から順に相違度が最小になっていくはずである。しかし、実際の処理では各ユーザのジェスチャの個人差などによって、あるＧＴの相違度グラフは図１２の点線で示すように変化することがある。その場合、各ＧＴの境となるポーズＰm付近でこれが起こると、この場合のみマッチング結果はＧＴの順にならずに前後する。また、ジェスチャのスピードが非常に早い場合、ＧＴ１からＧＴ３のように変化することもある。
【００３３】
そこでこのような特性を持つＧＴＭのマッチング結果を図１４のようなオートマトンによって認識する。このオートマトンは状態が時間と共に変化する。この図において、Ｓｎが現在の入力画像において相違度が最小となったＧＴｎに対応する。そして次の時刻においてＧＴ_n-1からＧＴ_n+2までのモデルで入力画像とのマッチングを行ない、その中で最もマッチしたモデルの番号で状態を遷移させる。ただし、ＧＴ_n-1からＧＴ_n+2までの相違度がすべて閾値以上なら状態番号は０とする。もしＧＴ_n+1かＧＴ_n+2にマッチすると状態はそれぞれＳ_n+1、Ｓ_n+2に変化して、このときＳ_n+1かＳ_n+2が最終状態であればジェスチャを認識して処理を終了する。もし最終状態でなければ遷移した先のＳ_n+1かＳ_n+2で現在の状態Ｓ_nを書き換え、それに合わせて他のＳも書き換える。ただしＧＴ_n-1にマッチして状態がＳ_n-1に遷移しても、Ｓ_nは書き換えられない。つまり、これは図１２においてマッチする対象の状態が次のポーズか次の次のポーズに進むか、あるいは一つ前のポーズに戻ることは許されるが、それ以上は許さないことを意味する。このように、状態遷移によってジェスチャを認識することで、ＤＰマッチングやＨＭＭで時系列特徴を認識する方法に比べ、様々なジェスチャスピードの変化に対応できるようになる。また、現在の状態に合わせて比較するＧＴの数を減らすことで誤ったモデルとのマッチを減らすことができるため、認識の精度が高くなる。
【００３４】
図１５はあるユーザがパンチジェスチャを行なって、さらにその腕を元の状態に戻したときに、パンチＧＴＭの各ＰＧＴがとった相違度の変化を表している。各ＰＧＴの相違度が図１２のように順に最小になっていく様子がよくわかる。
発明者等は、上述したオートモードとインタラクティブモードで作成した個人ジェスチャモデルを用いて簡単なジェスチャ認識実験を行った。ここでは、ジェスチャは、通常パンチ，上方向に出す特別パンチ、キックの３種類とした。実験の手順は以下の通りである。まず、４人のユーザにそれぞれの場合で各ジェスチャを５回してもらった。表１がオートモードにおける実験結果、そして表２がインタラクティブモードにおける実験結果を示す。この結果から分かるようにインタラクティブモードの方が認識率が僅かに下がる。これはインタラクティブモードで作成されたモデルの方がセグメンテーションの位置が本来のものと若干ずれることがあるためであるが、現在の認識率でも十分にインタラクティブシステムに対応できると思われる。
【００３５】
【表１】

【００３６】
【表２】

【００３７】
また、発明者等は、さらに実時間インタラクティブシステムであるジェスチャゲームシステムを構築して本発明の有効性を調べた。このシステムは、ユーザのジェスチャを実時間で認識し、その結果によりＴＶゲームの操作を行うものである。本システムはシルエット画像生成部とジェスチャ認識部の２つのユニットによって構成される。図１６はこのときのジェスチャゲームシステムを表わしたものである。
【００３８】
シルエット画像形成部は、実時間画像処理システムを用いて背景差分画像を閾値処理して２値画像を作成する。この処理はオートセグメンテーションのときのみに行われ、ここで抽出された２値画像は次のジェスチャ認識部に送られる。
ジェスチャ認識部では、セグメンテーション，個人モデル作成，ジェスチ認識を行う。このユニットには、インタラクションを行うための音声認識・合成システムとテンプレートマッチング専用ハード（富士通社製カラートラッキングビジョン）が利用されている。このジェスチャ認識の結果はゲーム用のコードに変換され、ＴＶゲームとのインターフェースを通じてＴＶゲームに送られる。
【００３９】
このＴＶゲームは、通常パンチ，特別パンチ、キックなどのジェスチャでゲームのキャラクタを操作し、敵のキャラクターを倒す格闘ゲームである。このシステムでは、３０フレーム／秒処理されるが、処理結果のアウトプットには通信時間の影響などによって約０．２秒ほどかかっている。そのためＴＶゲームを付属のコントローラで操作するよりも若干のタイムラグを感じさせるが、ＴＶゲームの面白さを損なうほどではなく、十分インタラクティブにゲームを楽しむことができる。また、非常になれたユーザになると通常のコントローラーよりうまくキャラクターを操作できる場合もあった。このようなことから、本発明が実時間インタラクティブシステムの操作に十分に応用可能であることが確認できた。
【００４０】
なお、上述の実施例では、インタラクティブシステムにおいては音声による指示を行っていたが、映像によってインタラクションを行ってももちろんかまわない。
また、上述の実施例では、オプテイカルフローを検出することによって、動領域を検出したが、２値動領域を用いて動き情報を得る方法もある。２値動領域とは、背景差分２値画像と連続差分２値画像の論理積をとった領域のことで、以下の式から求められる。
【００４１】
【数７】
Ｍ（ｘ，ｙ，ｔ）＝Ｉ′（ｘ，ｙ，ｔ）＊Ｊ′（ｘ，ｙ，ｔ）
ただし、Ｍは時刻ｔにおける２値動領域を、Ｉ′は背景差分２値画像を、Ｊ′は連続差分２値画像を表し、＊は理論積を表す。Ｊ′は以下の式で求められる。
【００４２】
【数８】

【００４３】
これは現在動きのある領域で、なおかつある程度背景画像とは異なった領域のことを表しているため、比較的安定した動き情報が得られる。
【図面の簡単な説明】
【図１】この発明の一実施例を示すブロック図である。
【図２】この実施例全体の動作を示すフロー図である。
【図３】インタラクティブモードを示すフロー図である。
【図４】コントラストが高い場合の背景差分２値画像を示す表示画像である。
【図５】ボデイ用のＭＴＭを示す表示画像である。
【図６】腕（脚）用のＭＴＭを示す表示画像である。
【図７】オートモードでセグメンテーションを行った結果画像を示す表示画像である。
【図８】コントラストが低い場合の背景差分２値画像を示す表示画像である。
【図９】４ピクセル四方の単位領域で３値化を表すことを説明するための図解図である。
【図１０】インタラクティブモードでセグメンテーションを行った結果画像を示す表示画像である。
【図１１】パンチジェスチャにおける腕のポーズに対応させて汎用ＧＴＭと個人ＧＴＭを示す表示画像である。
【図１２】ボデイ用の個人ＧＴＭを示す表示画像である。
【図１３】腕の状態変化に伴う各テンプレート画像の相違度の変化を示すグラフである。
【図１４】ＧＴＭのマッチング結果を認識する状態変化オートマトンを示す図解図である。
【図１５】あるユーザのパンチジェスチャにおけるパンチＧＴＭの相違度を示すグラフである。
【図１６】ジェスチャゲームのシステムを示す図解図である。
【符号の説明】
１０ …ジェスチャ認識装置
１２ …画像入力装置識装置
１４ …テンプレートマッチング処理装置
１６ …汎用モデル記憶装置
１８ …コンピュータ
２０ …状態認識装置
２２ …テンプレート間相関度認識装置
２４ …状態番号記憶装置
２６ …音声指示発生装置
２８ …個人モデル記憶装置

Claims

人物を撮影した複数のフレームからなる第１画像と個人テンプレートモデルとのマッチング処理に基づいて前記人物のジェスチャを認識するジェスチャ認識装置であって、
前記人物を撮影した複数のフレームからなる第２画像に基づいて、当該第２画像において動きがある動領域を所定のフレームについて検出する検出手段、
前記検出手段によって検出された前記動領域の画像と、ジェスチャのポーズの形状特徴を示す画像である一般テンプレートモデルとのマッチング処理を行って前記動領域の画像とマッチする前記一般テンプレートモデルを選択するマッチング手段、および
前記動領域の画像における前記人物のジェスチャを表す部位領域のテクスチャを前記一般テンプレートモデルの画像の前記形状特徴を表す領域に合うように変形およびマッピングを行って前記人物の前記個人テンプレートモデルを作成する作成手段、を備える、ジェスチャ認識装置。
前記第１画像および前記第２画像はカラー画像であって、
前記部位領域のテクスチャはカラーテクスチャである、請求項１記載のジェスチャ認識装置。