JP3426076B2 - ジェスチャ動画像認識方法 - Google Patents
ジェスチャ動画像認識方法Info
- Publication number
- JP3426076B2 JP3426076B2 JP04751096A JP4751096A JP3426076B2 JP 3426076 B2 JP3426076 B2 JP 3426076B2 JP 04751096 A JP04751096 A JP 04751096A JP 4751096 A JP4751096 A JP 4751096A JP 3426076 B2 JP3426076 B2 JP 3426076B2
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- motion
- moving image
- locus
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Description
の中で示される人間の身振り、手振りを画像処理装置に
より認識するためのジェスチャ動画像認識方法に関す
る。
動画像を画像処理装置により認識する方式の研究として
は (1) Takahashi,Seki,Kojima and Oka : "Spotting
Recognition of HumanGesture from Time-Varying Ima
ges", Trans. of IEICE(D-II), J77-DII, 8, pp.1552-1
561. (1994). (2) Seki, Kojima, Nagaya and Oka : "Efficient g
esture recognition algorithm based of Continuous D
ynamic Programing", Proc. of RWC Symposium Technic
al Report, pp47-48. (1995). (3)Nagaya, Seki and Oka : "Gesture Recognition
Using Multiple Resolution Feature", Technical Repo
rt of IEICE, PRU95-99, pp.121-126, (1995). (4) Yamato, Ohya and Ishii : "Recognizing Human
Action in Time-Sequential Images Using Hidden Mar
kov Models", Trans. of IEICE(D-II), J76-DII,12, p
p.2556-2563. (1993). (5) Murase and Nayar : "Learning and Recognitio
n of 3D Object from Appearance", Technical Report
of IEICE, PRU93-120, pp.31-38, (1994). 代表的な一例として上記文献1に示されているシステム
構成を図1に示す。図1において、TVカメラ13によ
り被写体のジェスチャを撮像し、この撮像結果として得
られる動画像から複数の静止画像(以下、フレーム画像
と称する)をフレームグラバ11により取得する。フレ
ーム画像の被写体を画像処理装置10が識別できるよう
に輪郭線画像が画像処理装置10により抽出される。こ
の輪郭線画像の画像データからジェスチャーの特徴を示
す各種特徴パラメータが取り出される。なお、上記動画
像はリアルタイムディスク12、リライタブルLD14に
保存することも可能であり、VTR15により再生可能
である。
かについては各種提案されている。一例としては、被写
体の人が特定色の手袋をはめ、輪郭線画像データの中に
含まれる上記特定色の画素データの位置を特定パラメー
タとすることが知られている。基準パターンの作成時に
は各静止画像から取り出された特徴パラメータをフレー
ム画像の取得順に並べ(これを特徴パラメータ系列と呼
んでいる)、このときのジェスチャの内容を示す識別情
報と共に画像処理装置10内に標準パターンとして記憶
される。認識対象の動画像から取り出された特徴パラメ
ータ系列と基準パターンの特徴パラメータ系列とを連続
DPの手法を用いて比較し、一致した場合あるいは最も
類似するものが得られた場合、その識別情報が認識結果
として画像処理装置10から出力される。
今までは機械認識が不可能であったジェスチャをコンピ
ュータにより認識することが可能となってきた。
でに発表されている提案は認識の対象となる手等の位置
が予め標準パターン採取時の手の位置と異なると認識率
が落ちるという不具合があった。より具体的には、手を
頭の位置で横に振った場合の動画像から標準パターンを
作成し、手を胴体近くで振った場合の動画像を認識しよ
うとすると、手を同じように振っても手の位置が異なる
ので、動画像から得られる特徴パラメータ系列が異なっ
たものとなり、最悪の場合、認識結果が得られなくな
る。このため、従来では、認識率を高めようとする場合
には、手の位置を変えた同一種のジェスチャを撮像して
複数の標準パターンを作成しなければならないという不
具合があった。
単一の標準パターンで位置の影響を受けることなく認識
できるジェスチャ動画像認識方法を提供することを目的
とする。
るために、請求項1の発明は、ジェスチャを撮像して得
られる動画像から画像処理装置により特徴パラメータを
抽出し、基準パターンを作成しておき、認識対象の動画
像から前記特徴パラメータを抽出し、当該抽出された特
徴パラメータと前記基準パターンの特徴パラメータとを
比較することによりジェスチャの認識を行うジェスチャ
動画像の認識方法において、前記動画像を構成する複数
のフレーム画像の各々をベクトル空間上の点とみなし、
当該点により形成する動作軌跡を前記特徴パラメータと
することを特徴とする。
て、前記動作軌跡の軌跡形状を特徴づける代表的な点を
複数選択し、当該代表的な点を頂点とする多角形で、前
記動作軌跡を近似することを特徴とする。
て、前記動作軌跡の曲率の極大および極小点に基づいて
前記代表的な点を決定することを特徴とする。
て、請求項1に記載の特徴パラメータの比較に連続DP
の手法を用いることを特徴とする。
施例を説明する。
が変わっても、回転しても変化しないという着想のもと
に、フレーム画像データを時系列に並べた動作軌跡を特
徴パラメータとして取り扱う。すなわち、ある時点の画
像データをベクトル空間上の1つの点とみなすと隣接す
る3つの点の軌跡により2つの線分が形成され、この2
つの線分で構成される角度はジェスチャの位置や角度が
変わってもほとんど変化しないということを本願発明者
達が発見し、この知見に基づき以下に示すジェスチャ動
画像認識方法を発明した。以下、その説明を行う。 1:動作軌跡の定義 1.1 パターン空間の定義と性質 二次元平面上の有限な領域I={(x,y)|0≦x<
W,0≦y<H}の上で定義された実数値関数の中で条
件
実数のとき,f+g,αfをそれぞれf(→x)+g
(→x),αg(→x)と定義するとPは線形空間をな
す。なお、xはベクトルであるが、表記の関係上、ベク
トルxを→xと表現する。サイズW×Hのフレーム画像
は、この画像領域座標→xの輝度値をf(→x)とする
ことにより、画像パターンはPの要素とみなすことがで
きる。すなわち、パターンをベクトルと考えることがで
きる。そこで、Pをパターン空間と呼ぶことにする。
つのパターンの内積を
f)と自然に導入することができる。またfとgの間の
角度θを考え、内積の定義から数3式とする。
はみ出さずに映っている場合について、パターン空間の
性質を調べてみることにする。
や大きさを保存する合同変換としては、平行移動、及び
回転(鏡像を含む)がある。合同変換(→x)⇒(→
x′)は平行移動→t及び直交行列Oにより数4式で記
述できる。
は、
(f)+Λ(g)はΛ(αf)=αΛ(f)となり、Λ
はパターン空間での線形変換であることが分かる。
同変換によってこれらが画像の外に飛び出さないとする
と、
る。すなわち、フレーム画像上でのパターンへの合同変
換はパターン空間中での直交変換に対応することがわか
る。
変換をアフィン変換へと拡張する。直交行列Oに代え
て、行列式が非Oの2次行列Aを用いて、→x′=A→
x+(→t)を考える。このときパターン空間での内積
は数7式となり、一般には保存されない。
式となり、fとgの間の角度θは保存される。
し、図2に示されるような、任意の二つのパターンの成
す角(図3参照)は保存されることがわかる。
る。時刻t、座標→xでの輝度値をf(→x,t)とす
る。時刻tを固定したとき、輝度値は→xの関数となり
パターン空間中での1つの点と考えられる。これより、
時刻tでのパターンをf(t)とする。
する場合、f(→x,t)は時間的及び空間的に連続で
あると考えられる。そこで、任意の座標→xでの輝度の
時間的変化は、正の微小量εを用いて、|f(→x,t
+Δt)−f(→x,t)|<εと表すことができる。
これは、パターン空間中でεが充分小さければ、f(t
+Δt)−f(t)のノルムが次のようにOに近づくこ
とを意味する。
ーン空間中に描かれる連続する軌跡として扱うことがで
きる。
ーンがP⇒Q⇒Rと変化するとき、パターン空間中のP
Q,QRの成す角がθPQR (図5参照)であったとす
る。
るとき、対応するパターン空間では相似変換となるた
め、PQ,QRのなす角度θ′PQR は、θPQR と等しく
なる。
が、一人のジェスチャによるとすると、これに対応する
パターン空間中での軌跡は、人物の位置や大きさに対し
て不変で、ジェスチャの種類に固有の形状となる。
パターン空間(本発明のベクトル空間)に描かれる軌跡
(図7参照)を「動作軌跡」と定義し、これを用いてジ
ェスチャの同定を行う。これにより、フレーム画像上で
の人物の位置や向き、あるいは大きさについて、何等補
正することなく、ジェスチャの種類を同定できる。
を主成分分析により二次元平面上に投影したものを示し
ている。毎回の動作が全く同一であれば、動作軌跡の形
状は全く同一となる。しかし実際には、図9のように微
細な変動が毎回生じ、動作軌跡の形状は少しずつ変化す
る。そこで、こうした変動を吸収し、人間に同一と認め
られる動作では、動作軌跡の形状が同一になるような何
らかの対策が必要になる。
ば、動作は少しづつ変化するポーズが連続したものと考
えることができる。一種類の動作において、多少の変動
が生じても、人間がその動作を同定できるのは、動作を
いくつかの代表的な構成単位(ポーズ)に分割し、それ
を用いて動作の判定結果を補正していると考られる。
用する。すなわち、軌跡形状を特徴づける代表的な点を
いくつか選択し、これらを頂点とする近似多角形で類似
度判定を行って変動を吸収する。選択した頂点は、動作
の代表的な構成要素であると考えられることから、本実
施例では動作素と呼ぶことにする。次節では、動作軌跡
から動作素を決定するアルゴリズムについて詳説する。
sは軌跡上のある基準点からの軌跡の長さを表し、時刻
tの関数となる。このとき、軌跡の接線方向の単位ベク
トルtは、数10式で表される。
法線方向の単位ベクトルをνとすると、数11式とな
る。
間では相似変換となり、その曲率K′は、
レーム画像上での人物の大きさに関わらず、曲率の極
大、極小は軌跡形状の同一箇所にあらわれることが分か
る。そこで、曲率の極大・極小に基づいて、動作軌跡を
分割する。
10が実行する処理内容)を図10に示す。曲率を求め
るために二次差分を求める必要があるが、単純なフレー
ム画像間での差分ではノイズの影響を受けやすいので、
分母となるフレーム間差分の大きさが、適当な単位長さ
Sthとなるまで待つ方式を採用する。
ップS2)、基準画像IB との間の経路長SInを求める
(ステップS2⇒S3)。SIn>Sthならば基準画像を
更新し(IB ⇒INow 、ステップS4⇒S5),曲率K
を求める。
となる時刻を決定し、そのフレーム画像を動作素として
蓄える(Nnow =Inow 、ステップS7⇒S8)。
中での成す角θを求め、再び上記の手順を繰り返す。以
上の処理により、ジェスチャは一連の動作素(特定ポー
ズ)を要素とする時系列に分けられる。これは、一つの
ジェスチャを複数の構成要素に分節化する操作と考える
ことができる。そこで、本実施例では、動作軌跡を多角
形近似することによって、構成要素へと分割する操作を
分節化と呼ぶことにする。
式 多角形近似された動作軌跡の形状をフレーム毎に判定す
るため、時系列パターンの認識にしばしば用いられる典
型的な方式である連続DPを用いて、あらかじめ作成し
たモデルと映像入力とを照合する。
距離は次のように定義する。
の動作素を結ぶベクトルの長さの比である。図11は局
所距離dlocal の定義を示したものである。モデルと入
力それぞれについて、最新の三動作素間のユークリッド
距離の比となす角から、極座標上に写像して得られる二
点のユークリッド距離を求める。
軌跡の形状は元々のパターン空間と同じ次元数をもつ曲
線であるのに対し、N個の頂点を持つ動作軌跡の多角形
近似では高々(N- 1)次元にしかならず他は不定にな
ってしまうことと、リアルタイム認識の観点から、その
時刻で入手可能な情報のみを用いて、局所的な形状の一
致度を得ることが望ましいからである。
順で連続DPを行い、動作軌跡の形状を判定する。
得られる、最新の三動作素を用いて、長さの比l(エ
ル)となす角θを求める。次に、モデルの持つ全ての動
作素について、その時刻における入力との局所距離を求
める。これに重み付けをして動作素毎に加算する。
た三つの内、加算時の総和が最小のものを採用する。全
動作素に対して得られた総距離は、モデルの全動作素数
で正規化する。
返し、総距離が最小のものを採用する。最小距離がしき
い値以上であった場合には、該当無しと判定する。
めるために、1) ジェスチャの分節化、2) 軌跡形
状保存の確認、3)角度と長さ比の性質、の三つの予備
実験を行った。
動作“ByeBye(バイバイ)”に適用した結果を図12に
示す。図12は、動作軌跡の曲率を時系列として表示し
た結果である。この曲率時系列の極大値・極小値で動作
を分節化した結果を図13に示す。それぞれ、各動作素
におけるフレーム画像である。
繰り返し周期があることがわかる。また、腕を振る位置
に対し、両端点は、曲率時系列の極大値点に対応し、真
ん中の二点は極小値点に対応している。
さと角度の組を求め、二次元平面上に多角形としてプロ
ットしたものである。バイバイの一回の動作は、四つの
動作素から構成され、五角形に対応する。図14と図1
5は同じバイバイであるが、図14は肘がほぼ肩と同じ
高さの時のものであり、図15は肘が最も低い位置まで
下がった時のものである。ともに、ほぼ合同の五角形で
あることから、ジェスチャの位置が移動しても、軌跡形
状は保存されていることを示していると考えられる。
出に用いる、三つの動作素が成す角と長さの比につい
て、性質を調べた。図16は、局所距離算出に用いた角
度と長さ比の変動を一つのグラフにまとめたものであ
る。このグラフから、これら二つの特徴量は、ともに、
動作素と同一周期で変動していることがわかる。
図17である。相関があることがわかるが、一次ではな
いことから、角度と長さ比を組み合わせることの有効性
が期待できる。
しい特徴量(特徴パラメータ)である、動作軌跡につい
て提案した。いくつかの予備実験の結果から、フレーム
画像における対象者の位置や大きさを正確に補正できな
いような場合でも、これに対応する可能性を示すことが
できたと考える。
ェスチャをその構成要素である動作素へ分節化できるこ
とを示した。これにより、動作そのものの変動に適応す
るだけでなく、人間の動作にコンピュータがタイミング
をあわせて動作するといった新たな機能(例:指揮にあ
わせて、音楽を演奏する等)が実現できる可能性もと考
えられる。
は、フレーム画像の時系列的な変化をベクトルと考えた
場合、フレーム画像を点として扱うことができる。動画
を構成するフレーム画像に対応させて上記点の動作軌跡
が同一種のジェスチャの特徴をその位置の影響を受ける
ことなく、表す。これによりジェスチャの標準パターン
の個数を減じ、認識処理の高速化、および認識精度の向
上に寄与することができる。
近似することで、認識精度を落とさず、かつ、動作軌跡
の取得処理を簡素化することができる。
極大、極小となる点とすることで人手に頼らず、自動的
に動作軌跡を分割することができる。
り動作軌跡についての特徴パラメータの比較を行うこと
により、動画像のような3時限的に変化するジェスチャ
動画像についてもパターンマッチングが可能となる。
示すブロック図である。
ある。
る。
る。
Claims (4)
- 【請求項1】 ジェスチャを撮像して得られる動画像か
ら画像処理装置により特徴パラメータを抽出し、基準パ
ターンを作成しておき、認識対象の動画像から前記特徴
パラメータを抽出し、当該抽出された特徴パラメータと
前記基準パターンの特徴パラメータとを比較することに
よりジェスチャの認識を行うジェスチャ動画像認識方法
において、 前記動画像を構成する複数のフレーム画像の各々をベク
トル空間上の点とみなし、 当該点により形成する動作軌跡を前記特徴パラメータと
することを特徴とするジェスチャ動画像認識方法。 - 【請求項2】 前記動作軌跡の軌跡形状を特徴づける代
表的な点を複数選択し、当該代表的な点を頂点とする多
角形で、前記動作軌跡を近似することを特徴とする請求
項1に記載のジェスチャ動画像認識方法。 - 【請求項3】 前記動作軌跡の曲率の極大および極小点
に基づいて前記代表的な点を決定することを特徴とする
請求項2に記載のジェスチャ動画像認識方法。 - 【請求項4】 請求項1に記載の特徴パラメータの比較
に連続DPの手法を用いることを特徴とする請求項3に
記載のジェスチャ動画像認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04751096A JP3426076B2 (ja) | 1996-03-05 | 1996-03-05 | ジェスチャ動画像認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04751096A JP3426076B2 (ja) | 1996-03-05 | 1996-03-05 | ジェスチャ動画像認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09245178A JPH09245178A (ja) | 1997-09-19 |
JP3426076B2 true JP3426076B2 (ja) | 2003-07-14 |
Family
ID=12777117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04751096A Expired - Lifetime JP3426076B2 (ja) | 1996-03-05 | 1996-03-05 | ジェスチャ動画像認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3426076B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4569555B2 (ja) * | 2005-12-14 | 2010-10-27 | 日本ビクター株式会社 | 電子機器 |
CN113071438B (zh) * | 2020-01-06 | 2023-03-24 | 北京地平线机器人技术研发有限公司 | 控制指令的生成方法和装置、存储介质、电子设备 |
CN111242084B (zh) * | 2020-01-21 | 2023-09-08 | 深圳市优必选科技股份有限公司 | 机器人控制方法、装置、机器人及计算机可读存储介质 |
-
1996
- 1996-03-05 JP JP04751096A patent/JP3426076B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09245178A (ja) | 1997-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heap et al. | Towards 3D hand tracking using a deformable model | |
US10949649B2 (en) | Real-time tracking of facial features in unconstrained video | |
Park et al. | Articulated pose estimation with tiny synthetic videos | |
US7095879B2 (en) | System and method for face recognition using synthesized images | |
Allaert et al. | Micro and macro facial expression recognition using advanced local motion patterns | |
Arcoverde Neto et al. | Enhanced real-time head pose estimation system for mobile device | |
US11282257B2 (en) | Pose selection and animation of characters using video data and training techniques | |
Ratan et al. | Object detection and localization by dynamic template warping | |
Yin et al. | Analyzing facial expressions using intensity-variant 3D data for human computer interaction | |
Bernogger et al. | Eye tracking and animation for mpeg-4 coding | |
Lee et al. | Hierarchical active shape model with motion prediction for real-time tracking of non-rigid objects | |
JP5503510B2 (ja) | 姿勢推定装置および姿勢推定プログラム | |
KR101350387B1 (ko) | 깊이 정보를 이용한 손 검출 방법 및 그 장치 | |
JP2007141107A (ja) | 画像処理装置およびその方法 | |
US11361467B2 (en) | Pose selection and animation of characters using video data and training techniques | |
JP3426076B2 (ja) | ジェスチャ動画像認識方法 | |
JPH103544A (ja) | ジェスチャ認識装置 | |
WO2021026281A1 (en) | Adaptive hand tracking and gesture recognition using face-shoulder feature coordinate transforms | |
JP3940690B2 (ja) | 画像処理装置及びその方法 | |
Kölsch | An appearance-based prior for hand tracking | |
Shen et al. | View-invariant recognition of body pose from space-time templates | |
Garcia et al. | Automatic detection of heads in colored images | |
JPH10162151A (ja) | ジェスチャー認識方法 | |
De Beugher et al. | Semi-automatic hand annotation making human-human interaction analysis fast and accurate | |
Ouhyoung et al. | Unconventional approaches for facial animation and tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080509 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080509 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090509 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090509 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090509 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090509 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090509 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100509 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100509 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110509 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110509 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120509 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130509 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130509 Year of fee payment: 10 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130509 Year of fee payment: 10 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |