JPH103544A

JPH103544A - ジェスチャ認識装置

Info

Publication number: JPH103544A
Application number: JP8154649A
Authority: JP
Inventors: Takahiro Watanabe; 孝弘渡辺
Original assignee: IMEEJI JOHO KAGAKU KENKYUSHO
Current assignee: IMEEJI JOHO KAGAKU KENKYUSHO
Priority date: 1996-06-14
Filing date: 1996-06-14
Publication date: 1998-01-06

Abstract

(57)【要約】【構成】テンプレートマッチング処理装置１４は、テ
ンプレート画像記憶装置１６に予め登録しておいた複数
のテンプレート画像と、入力シルエット画像とを比較し
て相違度を求める。このとき、テンプレート画像は、認
識対象であるオブジェクト領域（第１領域）と、この第
１領域を隣接テンプレート画像のオブジェクト領域をカ
バーするマスク領域（第２領域）と、背景検出用の第３
領域とを含む。状態認識装置１８はその相違度に基づい
て、特定の部分、たとえば腕や脚の一致度を計算する。
そして、状態認識装置１８では、最小相違度のテンプレ
ート画像について、状態番号記憶装置２０に予め登録し
ておいた状態番号を出力する。【効果】２値の入力画像に対して３値のテンプレート
画像を用いるので、ジェスチャ認識装置１０において、
従来のテンプレートマッチング処理と同程度の計算量
で、オブジェクトの状態をより詳しくかつ正確に同定で
きる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明はジェスチャ認識装置に
関し、特にたとえばビデオカメラなどで撮影した人物画
像を処理して人物の動作を認識し、脚や腕等の状態を同
定してコンピュータやゲーム機などへ情報を提供するジ
ェスチャ認識装置に関する。

【０００２】

【従来の技術】人間どうしのコミュニケーションにおい
てジェスチャの果たす役割は大きい。人間どうしが接す
るあらゆる場面において、人はジェスチャを利用して、
想像以上に多くの情報をやりとりしている。人間とコン
ピュータの接点となるマン・マシン・インタフェース
（ＭＭＩ）においても、より使い易く、かつ、より便利
なインタフェースの構築のためには、ジェスチャによる
情報伝達の機能は必要不可欠となる。その場合、実時間
でのジェスチャの認識およびそれに対する応答は、最も
必要とされる機能である。

【０００３】従来の人問の動作を認識する研究として
は、ユーザに装着したデータグローブなどの物理的なセ
ンサを利用してジェスチャを認識する手法や、画像情報
からユーザのジェスチャを認識する手法がある。前者の
手法はユーザの正確な情報が抽出できる一方、物理的な
センサの装着に伴う煩わしさがある。後者の手法では、
ユーザは特殊なセンサの装着なしに自然なジェスチャを
行なえるが、大量で暖昧な画像情報の処理が問題とな
り、ＭＭＩシステムなどでの利用を意識したジェスチャ
認識の研究は多くない。これまでジェスチャ認識は、３
Ｄモデルやスティックモデルを入力画像に当てはめるこ
とにより関節物体のポーズを推定する研究が主流であっ
た。たとえば、(1)James M.Rehg and Takeo Kanade."Mo
del-Based Tracking of Self-Occluding Articulated O
bjects". In ICCV'95,pp.612-617,1995. (2)Ioannis
A.Kakadiaris,Dimitri Metaxas,and Tuzena Bajcsy. "A
ctivePart-Decomposition,Shape and Motion Estimatio
n of Articulated Objects: APhysics-Based Approac
h". In CVPR'94,pp.980-984,Jun.1994. (3)Yan Guo,Ga
ng Xu,and Saburo Tsuji. "Understanding Human Motio
n Patterns".In ICPR'94,No.2,pp.325-329,Oct.1994.な
どを参照されたい。

【０００４】テンプレートマッチングは画像認識処理に
はよく用いられてきた手法である。この手法は処理が単
純であるため専用のハードウエアにより実時間処理が可
能であり、また決められた環境では認識精度が高いこと
から、欠陥部品の抽出など多くの産業応用で利用されて
いる。したがって、このようなテンプレートマッチング
の手法をジェスチャ認識装置に利用することが可能であ
る。

【０００５】図１は人の左手のテンプレート画像の一例
である。図１の「Ｌ１１」が腕を下ろした状態、「Ｌ１
５」が腕を挙げた状態、「Ｌ１２」から「Ｌ１４」はそ
の途中の状態を表している。テンプレートマッチングに
よるポーズ推定は以下のようにして行なう。図１のよう
な各テンプレート画像Ｔ_iと入力画像Ｉとの座標（ｘ，
ｙ）における相違度ｄ（Ｔ_i）を以下の式から求める。

【０００６】

【数１】

【０００７】この式において、ｄ（Ｔ_i）は入力画像Ｉ
中の座標（ｘ，ｙ）における相違度を表し、Ｉ（ｘ，
ｙ）とＴ_i（ｘ，ｙ）はそれぞれ入力画像とテンプレー
ト画像の座標（ｘ，ｙ）における画素値を表す。ただ
し、入力画像およびテンプレート画像は、いずれも２値
画像である。その理由は、様々のユーザの衣服の影響を
除くためである。

【０００８】この相違度ｄ（Ｔ_i）を入力画像中のある
範囲Ｓ内ですべて計算し、その中から最も小さい相違度
をテンプレート画像Ｔ_iと入力画像Ｉとの相違度Ｄ（Ｔ
_i）として、以下のようにして選択する。

【０００９】

【数２】

【００１０】全てのテンプレート画像Ｔ₀，…，Ｔ_M-1
の相違度Ｄ（Ｔ₀），…，Ｄ（Ｔ_M- ₁）が求められる
と、その中から最小となる相違度を持つテンプレート画
像を選びだし、そのポーズ番号が入力画像のポーズを最
もよく表す最適ポーズ番号Ｎとして得ることによって、
ポーズ推定を行なう。

【００１１】

【発明が解決しようとする課題】従来のテンプレートマ
ッチングによってポーズ推定を行なう場合には、以下の
ような問題がある。第１に、相違度を求めたい領域以外
の影響によって相違度が安定しにくい。たとえば、腕領
域のみの相違度を求めたい場合でも、腕領域以外の部分
で入力画像中にノイズなどがあれば、相違度はテンプレ
ート全体で計算されるので、その影響によって本来求め
るべき腕領域のみの相違度は求められない。

【００１２】第２に、あるジェスチャに対してすべての
状態のテンプレートを用意することはほとんど不可能で
あるため、テンプレート間の途中の状態が認識でないこ
とがある。たとえば図ｌは腕の上げ下ろしのジェスチャ
を表現するために用意したテンプレート画像であるが、
代表的なテンプレート画像しか表していない。そのため
入力画像中の腕の状態がそれぞれのテンプレート間の状
態を表すような場合には、各テンプレートにおける相違
度が低くなり認識されなくなる。

【００１３】それゆえに、この発明の主たる目的は、認
識対象物のみをテンプレート画像と比較することによっ
て正確に認識することができる、ジェスチャ認識装置を
提供することである。この発明の他の目的は、複雑な計
算なしに認識対象物の中間状態を同定することができ
る、ジェスチャ認識装置を提供することである。

【００１４】

【課題を解決するための手段】この発明は、画像入力手
段から入力されるシルエット画像を記憶手段に予め記憶
したテンプレート画像と比較してオブジェクトの状態を
状態認識手段で同定するジェスチャ認識装置において、
テンプレート画像を、オブジェクトの第１領域，第１領
域をマスクする第２領域，および第１領域および第２領
域を囲む第３領域で形成したことを特徴とする、ジェス
チャ認識装置である。

【００１５】

【作用】テンプレート画像は、オブジェクト領域（第１
領域）と、そのオブジェクト領域をマスクするマスク領
域（第２領域）と、背景検出用の第３領域とを含む。マ
スク領域の大きさを各テンプレート画像で等しく設定す
れば、従来のテンプレートマッチングと変わらない計算
量で、オブジェクト領域の相違度を計算することができ
る。

【００１６】また、マスク領域がオブジェクトの可動範
囲をカバーするように設定されていれば、たとえば隣接
テンプレート画像のオブジェクト領域もカバーするよう
に設定されていれば、最小相違度をもつテンプレート画
像の両隣のテンプレート画像，相違度と最小相違度を比
較することによって、中間状態を補間できる。

【００１７】

【発明の効果】この発明によれば、計算を複雑化したり
計算量を大きくすることなく、正確に認識対象物のポー
ズを同定することができる。この発明の上述の目的，そ
の他の目的，特徴および利点は、図面を参照して行う以
下の実施例の詳細な説明から一層明らかとなろう。

【００１８】

【実施例】図２に示すこの発明の実施例のジェスチャ認
識装置１０は、一例として、シルエット画像のような入
力画像を処理する。この種の画像は、たとえば人体領域
や衣服などに含まれないような輝度をもつ背景の前に画
像を撮影するカメラなどの画像入力装置（図示せず）を
固定し、人物がいない状況で撮影した背景画像と、入力
画像の各画素の輝度差分を求め、閾値処理を行うことに
よって得ることができる。このようなシルエット画像作
成処理は、たとえばDatacube社のMax Videoシステム(Da
tacube Inc:“Max Video 200 Hardware Reference Manu
al"(1993))，あるいはEZEL社のHRU-TAICHI-E2 (EZEL In
c:“HRU-TAICHI IV-80 画像処理ライブラリリファレン
スマニュアル”(1989)) などの汎用画像処理装置を用い
ることにより生成することができる。

【００１９】このようにしてシルエット画像入力装置１
２から入力された入力画像は、テンプレートマッチング
処理装置１４に与えられ、ここでテンプレート画像記憶
装置１６に記憶した複数のテンプレート画像と入力シル
エット画像との相違度を演算する。この相違度は入力シ
ルエット画像とテンプレート画像との間の輝度の差分和
である。

【００２０】テンプレートマッチング処理装置１４から
は、通常のテンプレートマッチング手法に従って、各テ
ンプレート画像と入力画像との相違度が出力され、状態
認識装置１８に与えられる。状態認識装置１８は、状態
番号記憶装置２０に格納されている各テンプレート画像
の状態番号を参照して、入力画像における認識対象部位
（オブジェクト）、たとえば腕，脚等の状態番号を出力
する。

【００２１】このジェスチャ認識装置１０がＴＶゲーム
機の入力装置として用いられる場合には、状態認識装置
１８からの状態番号は、ゲームコード変換装置２２によ
ってゲームコードに変換され、ゲーム機（図示せず）の
入力ポートに、有線または無線の適宜の方法で、入力さ
れる。ただし、ゲーム機用途ではない場合には、状態認
識装置１８からの状態番号はコンピュータ等に与えられ
る。

【００２２】この実施例では、テンプレート画像とし
て、マスカブルテンプレートモデル（Maskable Templat
e Model ：ＭＴＭ）を用いる。図３に示すＭＴＭの例に
おいて、Ω_pはユーザが定義したマッチング領域、つま
り相違度を求めたい特定領域を表し、Ω_mはマスク領
域、つまり相違度には無関係な領域を表す。このＭＴＭ
を用いると、数１によって求められる相違度は、マスク
領域における相違度ｄΩ_mとマッチング領域における相
違度ｄΩ_pを用いて以下のように表せる。

【００２３】

【数３】

【００２４】ここで、入力画像を画素値はＶ_p0かＶ_p1を
とる２値画像に限定し、ＭＴＭのΩ _mの値をＶ_m，Ω_p
の値をＶ_p0かＶ_p1であると仮定すると、ｄΩ_m（Ｔ_i）
は入力画像中のＶ_p0とＶ_p1をとる領域によって次のよう
に書き直せる。

【００２５】

【数４】

【００２６】ここでさらにＶ_m，Ｖ_p0，Ｖ_p1の関係を次
のように仮定すると

【００２７】

【数５】

【００２８】数４は以下のように書き換えられる。

【００２９】

【数６】

【００３０】ただし、

【００３１】

【数７】

【００３２】でＳΩ_m(i)はマスク領域の大きさを表す。
つまり、Ｖ_mがＶ_p0とＶ_p1のの中間値であるため、入力
画像の状態に関わらずｄΩ_m（Ｔ_i）は常に一定となる
わけである。よって、マッチング領域Ω_pの相違度は以
下の式によって表される。

【００３３】

【数８】

【００３４】このとき、各モデル画像間のマスク領域の
大きさＳΩ_m(i)を等しくなるように設定すれば数８中の
ＶＳΩ_m(i)の値は各モデルについて等しくなるため、無
視できるようになる。よって最終的に数８は以下のよう
に書き換えられる。

【００３５】

【数９】

【００３６】ここで、ｄ′Ω_p（Ｔ_i）は単純化された
マッチング結果である。このように、ＭＴＭによるテン
プレートマッチングは従来のテンプレートマッチングと
同じ計算量で、特定領域の相違度を計算することが可能
となる。このようなマスカブルテンプレートの具体例
が、図４および図５に示される。このマスカブルテンプ
レートは、腕の上げ下ろしのジェスチャに対するＭＴＭ
である。このマスカブルテンプレート画像は、図２のテ
ンプレート画像記憶装置１６に、モデル番号と一緒に、
予め登録されている。これらのテンプレート画像はテン
プレートマッチング処理装置１４においてそれぞれ参照
され、テンプレートマッチング処理の結果として、各テ
ンプレート画像による最小相違度が図２の状態認識装置
１８に送られる。

【００３７】具体的なＭＴＭを示す図４および図５を参
照すると、これらテンプレート画像は何れもオブジェク
トとしての腕を対象にしたものであるが、白色で示すオ
ブジェクト領域（第１領域）と、この第１領域の周囲に
灰色で示すマスク領域（第２領域）と、オブジェクト領
域およびマスク領域を囲む黒色で示される背景領域（第
３領域）とを含む。つまり、マスク領域が隣り合う腕領
域の間の領域を覆っていることである。

【００３８】図６を参照して、この図６は図４に示すテ
ンプレート画像Ｌ２２を模式的に示すものであるが、図
６において灰色で示されるマスク領域が、隣り合う一方
のテンプレート画像Ｌ２１のオブジェクト領域から隣り
合う他方のテンプレート画像Ｌ２３のオブジェクト領域
までをカバーしている。つまり、或るテンプレート画像
のマスク領域は隣接するテンプレート画像のオブジェク
ト領域を覆う。

【００３９】このようにマスク領域を設定することによ
り、腕の状態の変化による各テンプレートにおける相違
度の変化は図７のようになる。図７において、入力画像
の腕の状態がモデルＴ_iの状態と合致すれば、相違度Ｄ
（Ｔ_i）が最小となり、相違度Ｄ（Ｔ_i-1）とＤ（Ｔ
_i+1）は同じ値となる。次に入力画像の腕の状態が僅か
にモデルＴ_i-1の方へ変化していけば、Ｄ（Ｔ_i）とＤ
（Ｔ_i+1）は増加し、Ｄ（Ｔ_i-1）は減少する。そし
て、腕の状態がモデルＴ_iとＴ_i-1のちょうど中間にあ
ればＤ（Ｔ_i）とＤ（Ｔ_i-1）が等しくなるようにな
る。

【００４０】つまり、最小相違度をもつテンプレート画
像の両隣りのテンプレート画像の相違度を以下の式によ
って比較することによって、テンプレート画像間の中間
状態を表す補間モデル番号Ｎ′を以下の式によって計算
する。

【００４１】

【数１０】

【００４２】ここで、

【００４３】

【数１１】

【００４４】

【数１２】

【００４５】

【数１３】

【００４６】この式においてＤ（Ｔ_i）は最小相違度を
表す。この補間モデル番号Ｎ′を先に求めたポーズ番号
Ｎに加えることによって詳細な腕の状態を推定すること
ができる。発明者等は、上で説明したＭＴＭによる認識
手法によって腕の上げ下ろしの簡単なジェスチャを認識
する実験を行なった。認識の手順は以下の通りである。

【００４７】まず図８に示すテンプレート画像を利用し
て人の上半身を検出し、検出できた場合はその検出され
た位置から腕が存在すると思われる適切な範囲を図１の
通常のテンプレートモデル、または図４もしくは図５の
ＭＴＭを利用して腕の状態を認識する。図９，図１０お
よび図１１はその結果を表すグラフである。図９は図１
のテンプレート画像を用いたときのグラフである。図１
０は図４のテンプレート画像を用いたときのグラフであ
り、図１１は図５のテンプレート画像を用いたときのグ
ラフである。

【００４８】図９のグラフにおいてポーズ番号が「０」
になっているところは認識に失敗したところである。腕
がテンプレート画像間の中間状態にあるとき失敗してい
るのが分かる。これに対して、図１０または図１１で
は、そのような失敗がなく、中間状態が推定できている
ことが確認できる。また、発明者は、上述のＭＴＭを用
いたジェスチャ認識手法を実時間インタラクティブシス
テム−ジェスチャゲームシステム−に応用した。このシ
ステムは、ユーザのジェスチャによりゲームの操作を可
能とするものである。この場合、図２に示すゲームコー
ド変換装置２４が利用される。つまり、ゲームコード変
換装置２４は状態認識装置１８から送られてくる認識結
果を、それぞれのゲーム用のコードに変換し、そのコー
ドによってゲームを操作する。

【００４９】現在までの実験によれば、このシステムに
おいてフライトシミュレーションゲームと格闘技ゲーム
の２つを行なうことができた。格闘技ゲームでは図５の
テンプレート画像だけを用いて、ユーザの腕と脚のジェ
スチャ認識を行なっている。表１は格闘技ゲームに利用
されるゲームのコードとコマンド、そしてそれに対応す
るユーザのジェスチャを表している。

【００５０】

【表１】

【００５１】このゲームでは、まず図１２に示すテンプ
レート画像を用いて人の上半身を検出し、その検出され
た上半身の位置から腕，脚が存在し得る範囲を図５のテ
ンプレート画像を用いてそれぞれ探索する。そして、相
違度がある閾値以下のモデルを選び、上で述べた補間処
理を行なってそれぞれのポーズを推定する。このとき、
すべてのモデルが閾値を越えてマッチングに失敗する
と、腕を伸ばしていない基本状態として見なしてポーズ
番号の「０」を与える。ここではこの基本状態から表１
に示すポーズへの変化をジェスチャと見なし、それぞれ
のジェスチャが行なわれた場合にゲーム上で技（アクシ
ョン）が出るようになっている。このシステムにおける
実験で、図２の実施例が実時間内でのインタラクティブ
な操作に十分応用可能であることが確認できた。

【００５２】すなわち、従来手法ではそれぞれのゲーム
ごとに、また、腕と脚ごとにそれぞれテンプレートモデ
ルを用意しなければならなかったが、この実施例ではた
とえば図５のモデルだけで腕および脚のジェスチャを認
識することが可能である。さらに、上述のように、正確
に中間状態を認識することができるため、より柔軟にポ
ーズの推定が行なえる。このため、この他のインタラク
ティブシステムへの応用が容易となり、より幅広い活用
が可能である。

【００５３】これまでに述べてきたジェスチャ認識手法
は、人の腕や脚を一本の棒とみなすことによって正確な
認識を可能とした。しかし、実際のジェスチャにおいて
は、腕などはもっと複雑な形状に変化して意味をなすこ
とがある。たとえば、オーケストラの指揮者における腕
のジェスチャはその典型的なものの１つである。その場
合、単純なテンプレートマッチングの手法では、代表的
なモデルを選択することはかなり困難であり、また仮に
そのモデルが設定できたとしても、そのモデル間の補間
処理はより複雑なものとなり、実時間処理が難しくなっ
てくる。

【００５４】しかしながら、上述の実施例で説明したＭ
ＴＭはこのような場合のジェスチャ認識に対しても強力
な手段となり得る。その場合、ＭＴＭは、正確なマッチ
ング能力と実時間処理によって腕などの様々に変化する
部分を入力画像中からリアルタイムで抽出するのに利用
される。ある連続画像からジェスチャを行なう特定部分
が抽出できれば、その切り出された連続部分画像に対し
てＫＬ展開などを行なうことにより、ある適当な空間内
でそのジェスチャを表現できるようになる。後はこの空
間を利用してテンプレートモデルと入力画像とを比較し
てやれば、ジェスチャ認識が可能となる。

【００５５】以下では、オーケストラの指揮者における
腕のジェスチャを例にとり、ＭＴＭを用いた腕領域の抽
出，ＫＬ展開によるジェスチャ空間の構成，連続腕画像
からのジェスチャ認識について述べる。図１３は、指揮
者の右腕の部分を抽出するために用意したＭＴＭであ
る。ただし、この場合、図１４に示すように指揮者はあ
る特定の角度（約左４５°）から撮影されるものとす
る。これらのＭＴＭにおいて、白い部分は肩から肘まで
の腕の部分である上腕部を表し、それに接するグレーの
扇型の部分は肘から先の腕の部分である前腕部を表して
いる。つまりこれらは、指揮者の腕が様々に変化する場
合、上腕部の部分に合わせて変化し得る前腕部をマスク
領域とすることによって様々に変化するすべての腕の形
状に対応できるようになっている。

【００５６】これらのＭＴＭを用いて腕領域を抽出する
手順は、これまでの処理と同様に、まず図１２に示すテ
ンプレート画像を用いて人の上半身を検出し、その位置
に対応して腕領域を探索する。そして、相違度が最小と
なるモデルが最も一致した領域を切り出す。ただし、各
テンプレートモデルは正方形内に表現しているため、空
間的な位置はそれぞれのモデル間で一致していない。つ
まり、肩の位置を表す部分がそれぞれのモデルによって
異なっている。そこで、ここで切り出す領域は各モデル
の肩の位置を合わせることによって、空間的な位置が合
うように切り出すようにする。

【００５７】図１４はそのようにして切り出される腕領
域を表している。図１４において、左側の長方形が切り
出される腕領域を表している。この入力画像に対しては
モデル番号「４」が選ばれているが、他のモデルと肩の
位置を合わせるために上下に細長くなっている。また、
右側の正方形は上半身のモデルが一致した位置を表して
いる。

【００５８】切り出される部分腕画像は、あるジェスチ
ャを行なう連続画像からかなりの枚数が得られるため、
そのまま認識に用いるには非効率的である。そこで、あ
るジェスチャにおけるこの部分腕画像の系列を、ＫＬ展
開して固有空間上に投影し、部分空間上の多様体（曲線
や曲面等）としてそのジェスチャを表現する。その手法
を以下に述べる。

【００５９】まず、切り出された一枚の部分腕画像を、
ラスター上にスキャンしてその画素値を要素とするベク
トルｘで表現すると、あるジェスチャにおけるｎ枚の部
分腕画像の系列Ｘは以下のように表現される。

【００６０】

【数１４】

【００６１】ただしここで、

【００６２】

【数１５】

【００６３】であり、ｍは画素数（ここでは１５３６
個）を表す。次にＸを用いて共分散行列Ｑを以下のよう
に表すと、

【００６４】

【数１６】

【００６５】（ただし、μはｘ_iの平均画像を表す。）
固有空間（たとえばｋ次元）は次の固有方程式

【００６６】

【数１７】

【００６７】を解き、ｋ個の大きい固有値（λ₁≧…≧
λ_k≧…≧λ_n）に対応する固有ベクトル（ｅ₁，…，
ｅ_k）を基底ベクトルとすることにより得られる。図１
５は指揮者の３拍子平均運動（３回）における部分腕画
像の固有ベクトルを表し、図１６は固有空間上（３次
元）で表現されるその多様体（ここでは曲線）を表した
ものである。３拍子平均運動とは図１７に示すように腕
を頭上中央から左そして右へと、比較的静かに腕を振る
運動である。図１６の曲線において番号をつけた位置は
図１７の腕の位置番号と対応しており、ジェスチャの特
徴がよく捉えられているのが分かる。

【００６８】上述のようにして形成した固有空間を利用
して、以下のようにすれば、ある部分腕画像の画像系列
を認識できる。つまり、それぞれのジェスチャについ
て、固有空間を構成し、それぞれの空間内に、ある部分
腕画像ｙを以下の式により点ｚとして投影する。

【００６９】

【数１８】

【００７０】そしてこの点とモデル曲線までの距離を求
める。この操作をある部分腕画像の画像系列に対して行
ない、その距離の合計が最も小さいジェスチャ空間があ
る部分腕画像の画像系列に対して最も近いジェスチャで
あると認識される。このように入力動画像から比較すべ
き入力画像を切り出してジェスチャ認識を行う場合、テ
ンプレートマッチング処理装置１４（図２）を図１８の
ように動作するように構成すればよい。

【００７１】またさらに、この空間を利用して指揮者の
３拍子平均運動などから、以下のような方法によりテン
ポを抽出することも可能である。まず固有空間内におい
て大まかにポーズを推定する。つまり、図１６において
番号を付けた範囲に入力された画像が投影されれば、腕
の位置が図１７中の番号を付けられた円の中にあると推
定できる。次にその範囲内で腕の動きが最小になる画
像、つまり、その空間上で前のフレームとの距離が最小
になる画像を検出することによってテンポがとれる。

【００７２】このように、ユーザが行なう指揮者のジェ
スチャを実時間で認識し、その結果によってシステムが
奏でる音楽を制御することができる。以上のように、こ
の発明のＭＴＭを用いたジェスチャ認識手法において
は、従来のテンプレートマッチングと同じ計算量で、テ
ンプレート画像中の特定の領域とのマッチングができ、
さらにマスク領域を工夫することにより人の腕のような
様々に変形するオブジェクトの正確な抽出ができる。

【００７３】このようなジェスチャ認識手法は、簡単な
補間処理と組み合わせることによって、実時間インタラ
クティブシステムに応用でき、あるいは、様々に変化す
るオブジェクトの領域を抽出し、その抽出された部分画
像をＫＬ展開することによって、固有空間上でジェスチ
ャを表現して、その空間上でより複雑なジェスチャを認
識することができる。

【００７４】なお、上述の実施例では２次元画像におけ
る特定部位の状態を判断するようにした。しかしなが
ら、たとえば前（または後ろ）からの画像と横からの画
像、さらには上からの画像を用いれば、３次元的な状態
を同定することもできることは容易に理解されよう。

【図面の簡単な説明】

【図１】従来のテンプレート画像の一例を示す図解図で
ある。

【図２】この発明の一実施例を示す機能ブロック図であ
る。

【図３】マスカブルテンプレート画像によるテンプレー
トマッチングの原理を説明するための図解図である。

【図４】腕および脚の状態を認識するためのマスカブル
テンプレート画像の一例を示す図解図である。

【図５】腕および脚の状態をより詳細に認識するための
マスカブルテンプレート画像の一例を示す図解図であ
る。

【図６】図４の１つのテンプレート画像を詳細に示す図
解図である。

【図７】腕の状態変化に伴う各テンプレート画像の相違
度の変化を示すグラフである。

【図８】上半身のマスカブルテンプレート画像の一例を
示す図解図である。

【図９】従来のテンプレート画像で処理した認識結果を
示すグラフであり、横軸に時間（秒）、縦軸にポーズ番
号を示す。

【図１０】図４のテンプレート画像で処理した認識結果
を示すグラフであり、横軸に時間（秒）、縦軸にポーズ
番号を示す。

【図１１】図５のテンプレート画像で処理した認識結果
を示すグラフであり、横軸に時間（秒）、縦軸にポーズ
番号を示す。

【図１２】ジェスチャゲーム用の上半身のテンプレート
画像の一例を示す図解図である。

【図１３】切り出し用テンプレート画像の一例を示す図
解図である。

【図１４】入力動画像から切り出される領域を示す図解
図であり、左の長方形が切り出される腕の領域を示し、
右の正方形が上半身テンプレート画像がマッチした位置
を表す。

【図１５】指揮者の３拍子平均運動の固有ベクトルを示
す図解図である。

【図１６】固有空間上のジェスチャ曲線を示すグラフで
ある。

【図１７】ジェスチャ曲線と実際の指揮者の運動との合
致を示す図解図である。

【図１８】入力動画像から比較すべき入力画像を切り出
してジェスチャ認識を行う一連の動作を示すフロー図で
ある。

【符号の説明】

１０ …ジェスチャ認識装置１２ …画像入力装置１４ …テンプレートマッチング処理装置１６ …テンプレート画像記憶装置１８ …状態認識装置２０ …状態番号記憶装置

Claims

【特許請求の範囲】

【請求項１】画像入力手段から入力されるシルエット画
像を記憶手段に予め記憶したテンプレート画像と比較し
てオブジェクトの状態を状態認識手段で同定するジェス
チャ認識装置において、前記テンプレート画像を、前記オブジェクトの第１領
域，前記第１領域をマスクする第２領域，および前記第
１領域および前記第２領域を囲む第３領域で形成したこ
とを特徴とする、ジェスチャ認識装置。
【請求項２】前記テンプレート画像の前記第２領域は前
記オブジェクトの可動範囲をカバーする領域として設定
される、請求項１記載のジェスチャ認識装置。
【請求項３】前記記憶手段は複数のテンプレート画像を
記憶し、各テンプレート画像の前記第２領域は隣接する
テンプレート画像の前記第１領域をカバーする領域とし
て設定される、請求項１または２記載のジェスチャ認識
装置。
【請求項４】各テンプレート画像の前記第２領域の大き
さを等しく設定した請求項１ないし３のいずれかに記載
のジェスチャ認識装置。
【請求項５】前記状態認識手段から出力される状態番号
をゲームコードに変換するゲームコード変換手段をさら
に備える、請求項１ないし４のいずれかに記載のジェス
チャ認識装置。
【請求項６】前記画像入力手段はシルエット動画像から
前記シルエット画像を切り出す切り出し手段を含む、請
求項１記載のジェスチャ認識装置。
【請求項７】前記切り出し手段は切り出し用テンプレー
ト画像と前記シルエット動画像とのテンプレートマッチ
ング処理を行う手段を含み、前記切り出し用テンプレー
ト画像が前記第１領域，前記第２領域および前記第３領
域を含む、請求項６記載のジェスチャ認識装置。