JPH103544A - ジェスチャ認識装置 - Google Patents

ジェスチャ認識装置

Info

Publication number
JPH103544A
JPH103544A JP8154649A JP15464996A JPH103544A JP H103544 A JPH103544 A JP H103544A JP 8154649 A JP8154649 A JP 8154649A JP 15464996 A JP15464996 A JP 15464996A JP H103544 A JPH103544 A JP H103544A
Authority
JP
Japan
Prior art keywords
template
image
area
state
arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8154649A
Other languages
English (en)
Inventor
Takahiro Watanabe
孝弘 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMEEJI JOHO KAGAKU KENKYUSHO
Original Assignee
IMEEJI JOHO KAGAKU KENKYUSHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMEEJI JOHO KAGAKU KENKYUSHO filed Critical IMEEJI JOHO KAGAKU KENKYUSHO
Priority to JP8154649A priority Critical patent/JPH103544A/ja
Publication of JPH103544A publication Critical patent/JPH103544A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【構成】 テンプレートマッチング処理装置14は、テ
ンプレート画像記憶装置16に予め登録しておいた複数
のテンプレート画像と、入力シルエット画像とを比較し
て相違度を求める。このとき、テンプレート画像は、認
識対象であるオブジェクト領域(第1領域)と、この第
1領域を隣接テンプレート画像のオブジェクト領域をカ
バーするマスク領域(第2領域)と、背景検出用の第3
領域とを含む。状態認識装置18はその相違度に基づい
て、特定の部分、たとえば腕や脚の一致度を計算する。
そして、状態認識装置18では、最小相違度のテンプレ
ート画像について、状態番号記憶装置20に予め登録し
ておいた状態番号を出力する。 【効果】 2値の入力画像に対して3値のテンプレート
画像を用いるので、ジェスチャ認識装置10において、
従来のテンプレートマッチング処理と同程度の計算量
で、オブジェクトの状態をより詳しくかつ正確に同定で
きる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明はジェスチャ認識装置に
関し、特にたとえばビデオカメラなどで撮影した人物画
像を処理して人物の動作を認識し、脚や腕等の状態を同
定してコンピュータやゲーム機などへ情報を提供するジ
ェスチャ認識装置に関する。
【0002】
【従来の技術】人間どうしのコミュニケーションにおい
てジェスチャの果たす役割は大きい。人間どうしが接す
るあらゆる場面において、人はジェスチャを利用して、
想像以上に多くの情報をやりとりしている。人間とコン
ピュータの接点となるマン・マシン・インタフェース
(MMI)においても、より使い易く、かつ、より便利
なインタフェースの構築のためには、ジェスチャによる
情報伝達の機能は必要不可欠となる。その場合、実時間
でのジェスチャの認識およびそれに対する応答は、最も
必要とされる機能である。
【0003】従来の人問の動作を認識する研究として
は、ユーザに装着したデータグローブなどの物理的なセ
ンサを利用してジェスチャを認識する手法や、画像情報
からユーザのジェスチャを認識する手法がある。前者の
手法はユーザの正確な情報が抽出できる一方、物理的な
センサの装着に伴う煩わしさがある。後者の手法では、
ユーザは特殊なセンサの装着なしに自然なジェスチャを
行なえるが、大量で暖昧な画像情報の処理が問題とな
り、MMIシステムなどでの利用を意識したジェスチャ
認識の研究は多くない。これまでジェスチャ認識は、3
Dモデルやスティックモデルを入力画像に当てはめるこ
とにより関節物体のポーズを推定する研究が主流であっ
た。たとえば、(1)James M.Rehg and Takeo Kanade."Mo
del-Based Tracking of Self-Occluding Articulated O
bjects". In ICCV'95,pp.612-617,1995. (2)Ioannis
A.Kakadiaris,Dimitri Metaxas,and Tuzena Bajcsy. "A
ctivePart-Decomposition,Shape and Motion Estimatio
n of Articulated Objects: APhysics-Based Approac
h". In CVPR'94,pp.980-984,Jun.1994. (3)Yan Guo,Ga
ng Xu,and Saburo Tsuji. "Understanding Human Motio
n Patterns".In ICPR'94,No.2,pp.325-329,Oct.1994.な
どを参照されたい。
【0004】テンプレートマッチングは画像認識処理に
はよく用いられてきた手法である。この手法は処理が単
純であるため専用のハードウエアにより実時間処理が可
能であり、また決められた環境では認識精度が高いこと
から、欠陥部品の抽出など多くの産業応用で利用されて
いる。したがって、このようなテンプレートマッチング
の手法をジェスチャ認識装置に利用することが可能であ
る。
【0005】図1は人の左手のテンプレート画像の一例
である。図1の「L11」が腕を下ろした状態、「L1
5」が腕を挙げた状態、「L12」から「L14」はそ
の途中の状態を表している。テンプレートマッチングに
よるポーズ推定は以下のようにして行なう。図1のよう
な各テンプレート画像Ti と入力画像Iとの座標(x,
y)における相違度d(Ti )を以下の式から求める。
【0006】
【数1】
【0007】この式において、d(Ti )は入力画像I
中の座標(x,y)における相違度を表し、I(x,
y)とTi (x,y)はそれぞれ入力画像とテンプレー
ト画像の座標(x,y)における画素値を表す。ただ
し、入力画像およびテンプレート画像は、いずれも2値
画像である。その理由は、様々のユーザの衣服の影響を
除くためである。
【0008】この相違度d(Ti )を入力画像中のある
範囲S内ですべて計算し、その中から最も小さい相違度
をテンプレート画像Ti と入力画像Iとの相違度D(T
i )として、以下のようにして選択する。
【0009】
【数2】
【0010】全てのテンプレート画像T0 ,…,TM-1
の相違度D(T0 ),…,D(TM- 1 )が求められる
と、その中から最小となる相違度を持つテンプレート画
像を選びだし、そのポーズ番号が入力画像のポーズを最
もよく表す最適ポーズ番号Nとして得ることによって、
ポーズ推定を行なう。
【0011】
【発明が解決しようとする課題】従来のテンプレートマ
ッチングによってポーズ推定を行なう場合には、以下の
ような問題がある。第1に、相違度を求めたい領域以外
の影響によって相違度が安定しにくい。たとえば、腕領
域のみの相違度を求めたい場合でも、腕領域以外の部分
で入力画像中にノイズなどがあれば、相違度はテンプレ
ート全体で計算されるので、その影響によって本来求め
るべき腕領域のみの相違度は求められない。
【0012】第2に、あるジェスチャに対してすべての
状態のテンプレートを用意することはほとんど不可能で
あるため、テンプレート間の途中の状態が認識でないこ
とがある。たとえば図lは腕の上げ下ろしのジェスチャ
を表現するために用意したテンプレート画像であるが、
代表的なテンプレート画像しか表していない。そのため
入力画像中の腕の状態がそれぞれのテンプレート間の状
態を表すような場合には、各テンプレートにおける相違
度が低くなり認識されなくなる。
【0013】それゆえに、この発明の主たる目的は、認
識対象物のみをテンプレート画像と比較することによっ
て正確に認識することができる、ジェスチャ認識装置を
提供することである。この発明の他の目的は、複雑な計
算なしに認識対象物の中間状態を同定することができ
る、ジェスチャ認識装置を提供することである。
【0014】
【課題を解決するための手段】この発明は、画像入力手
段から入力されるシルエット画像を記憶手段に予め記憶
したテンプレート画像と比較してオブジェクトの状態を
状態認識手段で同定するジェスチャ認識装置において、
テンプレート画像を、オブジェクトの第1領域,第1領
域をマスクする第2領域,および第1領域および第2領
域を囲む第3領域で形成したことを特徴とする、ジェス
チャ認識装置である。
【0015】
【作用】テンプレート画像は、オブジェクト領域(第1
領域)と、そのオブジェクト領域をマスクするマスク領
域(第2領域)と、背景検出用の第3領域とを含む。マ
スク領域の大きさを各テンプレート画像で等しく設定す
れば、従来のテンプレートマッチングと変わらない計算
量で、オブジェクト領域の相違度を計算することができ
る。
【0016】また、マスク領域がオブジェクトの可動範
囲をカバーするように設定されていれば、たとえば隣接
テンプレート画像のオブジェクト領域もカバーするよう
に設定されていれば、最小相違度をもつテンプレート画
像の両隣のテンプレート画像,相違度と最小相違度を比
較することによって、中間状態を補間できる。
【0017】
【発明の効果】この発明によれば、計算を複雑化したり
計算量を大きくすることなく、正確に認識対象物のポー
ズを同定することができる。この発明の上述の目的,そ
の他の目的,特徴および利点は、図面を参照して行う以
下の実施例の詳細な説明から一層明らかとなろう。
【0018】
【実施例】図2に示すこの発明の実施例のジェスチャ認
識装置10は、一例として、シルエット画像のような入
力画像を処理する。この種の画像は、たとえば人体領域
や衣服などに含まれないような輝度をもつ背景の前に画
像を撮影するカメラなどの画像入力装置(図示せず)を
固定し、人物がいない状況で撮影した背景画像と、入力
画像の各画素の輝度差分を求め、閾値処理を行うことに
よって得ることができる。このようなシルエット画像作
成処理は、たとえばDatacube社のMax Videoシステム(Da
tacube Inc:“Max Video 200 Hardware Reference Manu
al"(1993)),あるいはEZEL社のHRU-TAICHI-E2 (EZEL In
c:“HRU-TAICHI IV-80 画像処理ライブラリリファレン
スマニュアル”(1989)) などの汎用画像処理装置を用い
ることにより生成することができる。
【0019】このようにしてシルエット画像入力装置1
2から入力された入力画像は、テンプレートマッチング
処理装置14に与えられ、ここでテンプレート画像記憶
装置16に記憶した複数のテンプレート画像と入力シル
エット画像との相違度を演算する。この相違度は入力シ
ルエット画像とテンプレート画像との間の輝度の差分和
である。
【0020】テンプレートマッチング処理装置14から
は、通常のテンプレートマッチング手法に従って、各テ
ンプレート画像と入力画像との相違度が出力され、状態
認識装置18に与えられる。状態認識装置18は、状態
番号記憶装置20に格納されている各テンプレート画像
の状態番号を参照して、入力画像における認識対象部位
(オブジェクト)、たとえば腕,脚等の状態番号を出力
する。
【0021】このジェスチャ認識装置10がTVゲーム
機の入力装置として用いられる場合には、状態認識装置
18からの状態番号は、ゲームコード変換装置22によ
ってゲームコードに変換され、ゲーム機(図示せず)の
入力ポートに、有線または無線の適宜の方法で、入力さ
れる。ただし、ゲーム機用途ではない場合には、状態認
識装置18からの状態番号はコンピュータ等に与えられ
る。
【0022】この実施例では、テンプレート画像とし
て、マスカブルテンプレートモデル(Maskable Templat
e Model :MTM)を用いる。図3に示すMTMの例に
おいて、Ωp はユーザが定義したマッチング領域、つま
り相違度を求めたい特定領域を表し、Ωm はマスク領
域、つまり相違度には無関係な領域を表す。このMTM
を用いると、数1によって求められる相違度は、マスク
領域における相違度dΩm とマッチング領域における相
違度dΩp を用いて以下のように表せる。
【0023】
【数3】
【0024】ここで、入力画像を画素値はVp0かVp1
とる2値画像に限定し、MTMのΩ m の値をVm ,Ωp
の値をVp0かVp1であると仮定すると、dΩm (Ti
は入力画像中のVp0とVp1をとる領域によって次のよう
に書き直せる。
【0025】
【数4】
【0026】ここでさらにVm ,Vp0,Vp1の関係を次
のように仮定すると
【0027】
【数5】
【0028】数4は以下のように書き換えられる。
【0029】
【数6】
【0030】ただし、
【0031】
【数7】
【0032】でSΩm(i)はマスク領域の大きさを表す。
つまり、Vm がVp0とVp1のの中間値であるため、入力
画像の状態に関わらずdΩm (Ti )は常に一定となる
わけである。よって、マッチング領域Ωp の相違度は以
下の式によって表される。
【0033】
【数8】
【0034】このとき、各モデル画像間のマスク領域の
大きさSΩm(i)を等しくなるように設定すれば数8中の
VSΩm(i)の値は各モデルについて等しくなるため、無
視できるようになる。よって最終的に数8は以下のよう
に書き換えられる。
【0035】
【数9】
【0036】ここで、d′Ωp (Ti )は単純化された
マッチング結果である。このように、MTMによるテン
プレートマッチングは従来のテンプレートマッチングと
同じ計算量で、特定領域の相違度を計算することが可能
となる。このようなマスカブルテンプレートの具体例
が、図4および図5に示される。このマスカブルテンプ
レートは、腕の上げ下ろしのジェスチャに対するMTM
である。このマスカブルテンプレート画像は、図2のテ
ンプレート画像記憶装置16に、モデル番号と一緒に、
予め登録されている。これらのテンプレート画像はテン
プレートマッチング処理装置14においてそれぞれ参照
され、テンプレートマッチング処理の結果として、各テ
ンプレート画像による最小相違度が図2の状態認識装置
18に送られる。
【0037】具体的なMTMを示す図4および図5を参
照すると、これらテンプレート画像は何れもオブジェク
トとしての腕を対象にしたものであるが、白色で示すオ
ブジェクト領域(第1領域)と、この第1領域の周囲に
灰色で示すマスク領域(第2領域)と、オブジェクト領
域およびマスク領域を囲む黒色で示される背景領域(第
3領域)とを含む。つまり、マスク領域が隣り合う腕領
域の間の領域を覆っていることである。
【0038】図6を参照して、この図6は図4に示すテ
ンプレート画像L22を模式的に示すものであるが、図
6において灰色で示されるマスク領域が、隣り合う一方
のテンプレート画像L21のオブジェクト領域から隣り
合う他方のテンプレート画像L23のオブジェクト領域
までをカバーしている。つまり、或るテンプレート画像
のマスク領域は隣接するテンプレート画像のオブジェク
ト領域を覆う。
【0039】このようにマスク領域を設定することによ
り、腕の状態の変化による各テンプレートにおける相違
度の変化は図7のようになる。図7において、入力画像
の腕の状態がモデルTi の状態と合致すれば、相違度D
(Ti )が最小となり、相違度D(Ti-1 )とD(T
i+1 )は同じ値となる。次に入力画像の腕の状態が僅か
にモデルTi-1 の方へ変化していけば、D(Ti)とD
(Ti+1 )は増加し、D(Ti-1 )は減少する。そし
て、腕の状態がモデルTi とTi-1 のちょうど中間にあ
ればD(Ti )とD(Ti-1 )が等しくなるようにな
る。
【0040】つまり、最小相違度をもつテンプレート画
像の両隣りのテンプレート画像の相違度を以下の式によ
って比較することによって、テンプレート画像間の中間
状態を表す補間モデル番号N′を以下の式によって計算
する。
【0041】
【数10】
【0042】ここで、
【0043】
【数11】
【0044】
【数12】
【0045】
【数13】
【0046】この式においてD(Ti )は最小相違度を
表す。この補間モデル番号N′を先に求めたポーズ番号
Nに加えることによって詳細な腕の状態を推定すること
ができる。発明者等は、上で説明したMTMによる認識
手法によって腕の上げ下ろしの簡単なジェスチャを認識
する実験を行なった。認識の手順は以下の通りである。
【0047】まず図8に示すテンプレート画像を利用し
て人の上半身を検出し、検出できた場合はその検出され
た位置から腕が存在すると思われる適切な範囲を図1の
通常のテンプレートモデル、または図4もしくは図5の
MTMを利用して腕の状態を認識する。図9,図10お
よび図11はその結果を表すグラフである。図9は図1
のテンプレート画像を用いたときのグラフである。図1
0は図4のテンプレート画像を用いたときのグラフであ
り、図11は図5のテンプレート画像を用いたときのグ
ラフである。
【0048】図9のグラフにおいてポーズ番号が「0」
になっているところは認識に失敗したところである。腕
がテンプレート画像間の中間状態にあるとき失敗してい
るのが分かる。これに対して、図10または図11で
は、そのような失敗がなく、中間状態が推定できている
ことが確認できる。また、発明者は、上述のMTMを用
いたジェスチャ認識手法を実時間インタラクティブシス
テム−ジェスチャゲームシステム−に応用した。このシ
ステムは、ユーザのジェスチャによりゲームの操作を可
能とするものである。この場合、図2に示すゲームコー
ド変換装置24が利用される。つまり、ゲームコード変
換装置24は状態認識装置18から送られてくる認識結
果を、それぞれのゲーム用のコードに変換し、そのコー
ドによってゲームを操作する。
【0049】現在までの実験によれば、このシステムに
おいてフライトシミュレーションゲームと格闘技ゲーム
の2つを行なうことができた。格闘技ゲームでは図5の
テンプレート画像だけを用いて、ユーザの腕と脚のジェ
スチャ認識を行なっている。表1は格闘技ゲームに利用
されるゲームのコードとコマンド、そしてそれに対応す
るユーザのジェスチャを表している。
【0050】
【表1】
【0051】このゲームでは、まず図12に示すテンプ
レート画像を用いて人の上半身を検出し、その検出され
た上半身の位置から腕,脚が存在し得る範囲を図5のテ
ンプレート画像を用いてそれぞれ探索する。そして、相
違度がある閾値以下のモデルを選び、上で述べた補間処
理を行なってそれぞれのポーズを推定する。このとき、
すべてのモデルが閾値を越えてマッチングに失敗する
と、腕を伸ばしていない基本状態として見なしてポーズ
番号の「0」を与える。ここではこの基本状態から表1
に示すポーズへの変化をジェスチャと見なし、それぞれ
のジェスチャが行なわれた場合にゲーム上で技(アクシ
ョン)が出るようになっている。このシステムにおける
実験で、図2の実施例が実時間内でのインタラクティブ
な操作に十分応用可能であることが確認できた。
【0052】すなわち、従来手法ではそれぞれのゲーム
ごとに、また、腕と脚ごとにそれぞれテンプレートモデ
ルを用意しなければならなかったが、この実施例ではた
とえば図5のモデルだけで腕および脚のジェスチャを認
識することが可能である。さらに、上述のように、正確
に中間状態を認識することができるため、より柔軟にポ
ーズの推定が行なえる。このため、この他のインタラク
ティブシステムへの応用が容易となり、より幅広い活用
が可能である。
【0053】これまでに述べてきたジェスチャ認識手法
は、人の腕や脚を一本の棒とみなすことによって正確な
認識を可能とした。しかし、実際のジェスチャにおいて
は、腕などはもっと複雑な形状に変化して意味をなすこ
とがある。たとえば、オーケストラの指揮者における腕
のジェスチャはその典型的なものの1つである。その場
合、単純なテンプレートマッチングの手法では、代表的
なモデルを選択することはかなり困難であり、また仮に
そのモデルが設定できたとしても、そのモデル間の補間
処理はより複雑なものとなり、実時間処理が難しくなっ
てくる。
【0054】しかしながら、上述の実施例で説明したM
TMはこのような場合のジェスチャ認識に対しても強力
な手段となり得る。その場合、MTMは、正確なマッチ
ング能力と実時間処理によって腕などの様々に変化する
部分を入力画像中からリアルタイムで抽出するのに利用
される。ある連続画像からジェスチャを行なう特定部分
が抽出できれば、その切り出された連続部分画像に対し
てKL展開などを行なうことにより、ある適当な空間内
でそのジェスチャを表現できるようになる。後はこの空
間を利用してテンプレートモデルと入力画像とを比較し
てやれば、ジェスチャ認識が可能となる。
【0055】以下では、オーケストラの指揮者における
腕のジェスチャを例にとり、MTMを用いた腕領域の抽
出,KL展開によるジェスチャ空間の構成,連続腕画像
からのジェスチャ認識について述べる。図13は、指揮
者の右腕の部分を抽出するために用意したMTMであ
る。ただし、この場合、図14に示すように指揮者はあ
る特定の角度(約左45°)から撮影されるものとす
る。これらのMTMにおいて、白い部分は肩から肘まで
の腕の部分である上腕部を表し、それに接するグレーの
扇型の部分は肘から先の腕の部分である前腕部を表して
いる。つまりこれらは、指揮者の腕が様々に変化する場
合、上腕部の部分に合わせて変化し得る前腕部をマスク
領域とすることによって様々に変化するすべての腕の形
状に対応できるようになっている。
【0056】これらのMTMを用いて腕領域を抽出する
手順は、これまでの処理と同様に、まず図12に示すテ
ンプレート画像を用いて人の上半身を検出し、その位置
に対応して腕領域を探索する。そして、相違度が最小と
なるモデルが最も一致した領域を切り出す。ただし、各
テンプレートモデルは正方形内に表現しているため、空
間的な位置はそれぞれのモデル間で一致していない。つ
まり、肩の位置を表す部分がそれぞれのモデルによって
異なっている。そこで、ここで切り出す領域は各モデル
の肩の位置を合わせることによって、空間的な位置が合
うように切り出すようにする。
【0057】図14はそのようにして切り出される腕領
域を表している。図14において、左側の長方形が切り
出される腕領域を表している。この入力画像に対しては
モデル番号「4」が選ばれているが、他のモデルと肩の
位置を合わせるために上下に細長くなっている。また、
右側の正方形は上半身のモデルが一致した位置を表して
いる。
【0058】切り出される部分腕画像は、あるジェスチ
ャを行なう連続画像からかなりの枚数が得られるため、
そのまま認識に用いるには非効率的である。そこで、あ
るジェスチャにおけるこの部分腕画像の系列を、KL展
開して固有空間上に投影し、部分空間上の多様体(曲線
や曲面等)としてそのジェスチャを表現する。その手法
を以下に述べる。
【0059】まず、切り出された一枚の部分腕画像を、
ラスター上にスキャンしてその画素値を要素とするベク
トルxで表現すると、あるジェスチャにおけるn枚の部
分腕画像の系列Xは以下のように表現される。
【0060】
【数14】
【0061】ただしここで、
【0062】
【数15】
【0063】であり、mは画素数(ここでは1536
個)を表す。次にXを用いて共分散行列Qを以下のよう
に表すと、
【0064】
【数16】
【0065】(ただし、μはxi の平均画像を表す。)
固有空間(たとえばk次元)は次の固有方程式
【0066】
【数17】
【0067】を解き、k個の大きい固有値(λ1 ≧…≧
λk ≧…≧λn )に対応する固有ベクトル(e1 ,…,
k )を基底ベクトルとすることにより得られる。図1
5は指揮者の3拍子平均運動(3回)における部分腕画
像の固有ベクトルを表し、図16は固有空間上(3次
元)で表現されるその多様体(ここでは曲線)を表した
ものである。3拍子平均運動とは図17に示すように腕
を頭上中央から左そして右へと、比較的静かに腕を振る
運動である。図16の曲線において番号をつけた位置は
図17の腕の位置番号と対応しており、ジェスチャの特
徴がよく捉えられているのが分かる。
【0068】上述のようにして形成した固有空間を利用
して、以下のようにすれば、ある部分腕画像の画像系列
を認識できる。つまり、それぞれのジェスチャについ
て、固有空間を構成し、それぞれの空間内に、ある部分
腕画像yを以下の式により点zとして投影する。
【0069】
【数18】
【0070】そしてこの点とモデル曲線までの距離を求
める。この操作をある部分腕画像の画像系列に対して行
ない、その距離の合計が最も小さいジェスチャ空間があ
る部分腕画像の画像系列に対して最も近いジェスチャで
あると認識される。このように入力動画像から比較すべ
き入力画像を切り出してジェスチャ認識を行う場合、テ
ンプレートマッチング処理装置14(図2)を図18の
ように動作するように構成すればよい。
【0071】またさらに、この空間を利用して指揮者の
3拍子平均運動などから、以下のような方法によりテン
ポを抽出することも可能である。まず固有空間内におい
て大まかにポーズを推定する。つまり、図16において
番号を付けた範囲に入力された画像が投影されれば、腕
の位置が図17中の番号を付けられた円の中にあると推
定できる。次にその範囲内で腕の動きが最小になる画
像、つまり、その空間上で前のフレームとの距離が最小
になる画像を検出することによってテンポがとれる。
【0072】このように、ユーザが行なう指揮者のジェ
スチャを実時間で認識し、その結果によってシステムが
奏でる音楽を制御することができる。以上のように、こ
の発明のMTMを用いたジェスチャ認識手法において
は、従来のテンプレートマッチングと同じ計算量で、テ
ンプレート画像中の特定の領域とのマッチングができ、
さらにマスク領域を工夫することにより人の腕のような
様々に変形するオブジェクトの正確な抽出ができる。
【0073】このようなジェスチャ認識手法は、簡単な
補間処理と組み合わせることによって、実時間インタラ
クティブシステムに応用でき、あるいは、様々に変化す
るオブジェクトの領域を抽出し、その抽出された部分画
像をKL展開することによって、固有空間上でジェスチ
ャを表現して、その空間上でより複雑なジェスチャを認
識することができる。
【0074】なお、上述の実施例では2次元画像におけ
る特定部位の状態を判断するようにした。しかしなが
ら、たとえば前(または後ろ)からの画像と横からの画
像、さらには上からの画像を用いれば、3次元的な状態
を同定することもできることは容易に理解されよう。
【図面の簡単な説明】
【図1】従来のテンプレート画像の一例を示す図解図で
ある。
【図2】この発明の一実施例を示す機能ブロック図であ
る。
【図3】マスカブルテンプレート画像によるテンプレー
トマッチングの原理を説明するための図解図である。
【図4】腕および脚の状態を認識するためのマスカブル
テンプレート画像の一例を示す図解図である。
【図5】腕および脚の状態をより詳細に認識するための
マスカブルテンプレート画像の一例を示す図解図であ
る。
【図6】図4の1つのテンプレート画像を詳細に示す図
解図である。
【図7】腕の状態変化に伴う各テンプレート画像の相違
度の変化を示すグラフである。
【図8】上半身のマスカブルテンプレート画像の一例を
示す図解図である。
【図9】従来のテンプレート画像で処理した認識結果を
示すグラフであり、横軸に時間(秒)、縦軸にポーズ番
号を示す。
【図10】図4のテンプレート画像で処理した認識結果
を示すグラフであり、横軸に時間(秒)、縦軸にポーズ
番号を示す。
【図11】図5のテンプレート画像で処理した認識結果
を示すグラフであり、横軸に時間(秒)、縦軸にポーズ
番号を示す。
【図12】ジェスチャゲーム用の上半身のテンプレート
画像の一例を示す図解図である。
【図13】切り出し用テンプレート画像の一例を示す図
解図である。
【図14】入力動画像から切り出される領域を示す図解
図であり、左の長方形が切り出される腕の領域を示し、
右の正方形が上半身テンプレート画像がマッチした位置
を表す。
【図15】指揮者の3拍子平均運動の固有ベクトルを示
す図解図である。
【図16】固有空間上のジェスチャ曲線を示すグラフで
ある。
【図17】ジェスチャ曲線と実際の指揮者の運動との合
致を示す図解図である。
【図18】入力動画像から比較すべき入力画像を切り出
してジェスチャ認識を行う一連の動作を示すフロー図で
ある。
【符号の説明】
10 …ジェスチャ認識装置 12 …画像入力装置 14 …テンプレートマッチング処理装置 16 …テンプレート画像記憶装置 18 …状態認識装置 20 …状態番号記憶装置

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】画像入力手段から入力されるシルエット画
    像を記憶手段に予め記憶したテンプレート画像と比較し
    てオブジェクトの状態を状態認識手段で同定するジェス
    チャ認識装置において、 前記テンプレート画像を、前記オブジェクトの第1領
    域,前記第1領域をマスクする第2領域,および前記第
    1領域および前記第2領域を囲む第3領域で形成したこ
    とを特徴とする、ジェスチャ認識装置。
  2. 【請求項2】前記テンプレート画像の前記第2領域は前
    記オブジェクトの可動範囲をカバーする領域として設定
    される、請求項1記載のジェスチャ認識装置。
  3. 【請求項3】前記記憶手段は複数のテンプレート画像を
    記憶し、各テンプレート画像の前記第2領域は隣接する
    テンプレート画像の前記第1領域をカバーする領域とし
    て設定される、請求項1または2記載のジェスチャ認識
    装置。
  4. 【請求項4】各テンプレート画像の前記第2領域の大き
    さを等しく設定した請求項1ないし3のいずれかに記載
    のジェスチャ認識装置。
  5. 【請求項5】前記状態認識手段から出力される状態番号
    をゲームコードに変換するゲームコード変換手段をさら
    に備える、請求項1ないし4のいずれかに記載のジェス
    チャ認識装置。
  6. 【請求項6】前記画像入力手段はシルエット動画像から
    前記シルエット画像を切り出す切り出し手段を含む、請
    求項1記載のジェスチャ認識装置。
  7. 【請求項7】前記切り出し手段は切り出し用テンプレー
    ト画像と前記シルエット動画像とのテンプレートマッチ
    ング処理を行う手段を含み、前記切り出し用テンプレー
    ト画像が前記第1領域,前記第2領域および前記第3領
    域を含む、請求項6記載のジェスチャ認識装置。
JP8154649A 1996-06-14 1996-06-14 ジェスチャ認識装置 Withdrawn JPH103544A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8154649A JPH103544A (ja) 1996-06-14 1996-06-14 ジェスチャ認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8154649A JPH103544A (ja) 1996-06-14 1996-06-14 ジェスチャ認識装置

Publications (1)

Publication Number Publication Date
JPH103544A true JPH103544A (ja) 1998-01-06

Family

ID=15588854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8154649A Withdrawn JPH103544A (ja) 1996-06-14 1996-06-14 ジェスチャ認識装置

Country Status (1)

Country Link
JP (1) JPH103544A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260403A (ja) * 2005-03-18 2006-09-28 Ricoh Co Ltd オブジェクト抽出方法、オブジェクト抽出装置及びオブジェクト抽出プログラム
KR100647750B1 (ko) * 2003-05-20 2006-11-24 화낙 가부시끼가이샤 화상 처리 장치
JP2006330136A (ja) * 2005-05-24 2006-12-07 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP2007052665A (ja) * 2005-08-18 2007-03-01 Kyushu Institute Of Technology 固有空間を用いた動体の動作判別方法
KR100817298B1 (ko) 2005-12-08 2008-03-27 한국전자통신연구원 양손 검출 및 추적 방법
JP2008108186A (ja) * 2006-10-27 2008-05-08 Saxa Inc 警備装置
JP2008165581A (ja) * 2006-12-28 2008-07-17 Kyushu Institute Of Technology 動体の動作判別方法
JP2008165580A (ja) * 2006-12-28 2008-07-17 Kyushu Institute Of Technology モーションキャプチャ方法
JP2008217803A (ja) * 2002-02-27 2008-09-18 Nec Corp 画像認識システム及びその認識方法並びにプログラム
US8027522B2 (en) 2002-02-27 2011-09-27 Nec Corporation Image recognition system and recognition method thereof and program
JP2012502364A (ja) * 2008-09-03 2012-01-26 オブロング・インダストリーズ・インコーポレーテッド データ空間の主要次元をナビゲートするための制御システム
WO2022137401A1 (ja) * 2020-12-23 2022-06-30 株式会社日立ハイテク 荷電粒子ビーム装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217803A (ja) * 2002-02-27 2008-09-18 Nec Corp 画像認識システム及びその認識方法並びにプログラム
US8027522B2 (en) 2002-02-27 2011-09-27 Nec Corporation Image recognition system and recognition method thereof and program
KR100647750B1 (ko) * 2003-05-20 2006-11-24 화낙 가부시끼가이샤 화상 처리 장치
JP2006260403A (ja) * 2005-03-18 2006-09-28 Ricoh Co Ltd オブジェクト抽出方法、オブジェクト抽出装置及びオブジェクト抽出プログラム
JP4719491B2 (ja) * 2005-03-18 2011-07-06 株式会社リコー オブジェクト抽出方法、オブジェクト抽出装置及びオブジェクト抽出プログラム
JP2006330136A (ja) * 2005-05-24 2006-12-07 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP4677543B2 (ja) * 2005-05-24 2011-04-27 株式会社国際電気通信基礎技術研究所 表情付け音声発生装置
JP2007052665A (ja) * 2005-08-18 2007-03-01 Kyushu Institute Of Technology 固有空間を用いた動体の動作判別方法
KR100817298B1 (ko) 2005-12-08 2008-03-27 한국전자통신연구원 양손 검출 및 추적 방법
JP2008108186A (ja) * 2006-10-27 2008-05-08 Saxa Inc 警備装置
JP2008165580A (ja) * 2006-12-28 2008-07-17 Kyushu Institute Of Technology モーションキャプチャ方法
JP2008165581A (ja) * 2006-12-28 2008-07-17 Kyushu Institute Of Technology 動体の動作判別方法
JP2012502364A (ja) * 2008-09-03 2012-01-26 オブロング・インダストリーズ・インコーポレーテッド データ空間の主要次元をナビゲートするための制御システム
WO2022137401A1 (ja) * 2020-12-23 2022-06-30 株式会社日立ハイテク 荷電粒子ビーム装置

Similar Documents

Publication Publication Date Title
US11288837B2 (en) Method of influencing virtual objects of augmented reality
US9330470B2 (en) Method and system for modeling subjects from a depth map
JP4332649B2 (ja) 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
US6188777B1 (en) Method and apparatus for personnel detection and tracking
EP1870038B1 (en) Motion capture apparatus and method, and motion capture program
JP4479194B2 (ja) 動作識別装置、及び対象物の姿勢識別装置
JP4687265B2 (ja) 画像分析装置
JP2004094288A (ja) 指示位置検出装置及び自律ロボット
US20220414291A1 (en) Device for Defining a Sequence of Movements in a Generic Model
JPH103544A (ja) ジェスチャ認識装置
Darrell et al. A virtual mirror interface using real-time robust face tracking
JP4938748B2 (ja) 画像認識装置及びプログラム
KR20200113743A (ko) 인체 자세 추정 및 보정을 하는 방법 및 장치
Gall et al. Drift-free tracking of rigid and articulated objects
JP5468773B2 (ja) 画像処理装置および画像処理方法
JP2000099741A (ja) 多眼画像処理による人物の三次元姿勢推定方法
JP2000268161A (ja) 実時間表情検出装置
JPH08212327A (ja) 身振り認識装置
JP4221681B2 (ja) ジェスチャ認識装置
Frigola et al. Visual human machine interface by gestures
Song et al. Hand gesture detection and tracking methods based on background subtraction
Muhlbauer et al. A model-based algorithm to estimate body poses using stereo vision
JPH11283040A (ja) 操作制御装置および動作解析プログラムを記録したコンピュ―タ読み取り可能な記録媒体
De Beugher et al. Semi-automatic hand annotation making human-human interaction analysis fast and accurate
JP3426076B2 (ja) ジェスチャ動画像認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030902