JPH10162151A - ジェスチャー認識方法 - Google Patents

ジェスチャー認識方法

Info

Publication number
JPH10162151A
JPH10162151A JP8322837A JP32283796A JPH10162151A JP H10162151 A JPH10162151 A JP H10162151A JP 8322837 A JP8322837 A JP 8322837A JP 32283796 A JP32283796 A JP 32283796A JP H10162151 A JPH10162151 A JP H10162151A
Authority
JP
Japan
Prior art keywords
time
gesture
pattern
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8322837A
Other languages
English (en)
Other versions
JP3607440B2 (ja
Inventor
Takuichi Nishimura
拓一 西村
Riyuuichi Oka
嶐一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO, GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO
Priority to JP32283796A priority Critical patent/JP3607440B2/ja
Publication of JPH10162151A publication Critical patent/JPH10162151A/ja
Application granted granted Critical
Publication of JP3607440B2 publication Critical patent/JP3607440B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 照明変化の影響を除去する。 【解決手段】 被写体のジェスチャーを撮像した画像1
から時間差分画像2を取得し、時間差分画像を2値化す
る。2値化画像を空間リダクションして特徴パターン用
の特徴ベクトル4を取得する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ビデオカメラで撮
影したジェスチャー映像からそのジェスチャーの意味内
容をコンピュータにより認識するためのジェスチャー認
識方法に関する。
【0002】
【従来の技術】人間のジェスチャー動作を認識する技術
は、柔軟なMan-Machine Interface Systemを構築する上
で重要である。特に、我々は動作者にデータグルーブ等
の接触型センサやマーカーを装着させることなく、人間
の動作を捉えた動画像を用いたジェスチャー認識を試み
ている(参考文献8)。
【0003】すでに動画像理解を目指した多くの研究が
なされている。大和ら(参考文献2)は、テニスプレー
ヤーのスイング動作を対象として、Hidden Markov Mode
l を用いた動作認識法を提案している。この方法では、
動作モデルの学習が可能であるが、動作を行っている時
間区間のセグメンテーションを人手で行う必要がある。
また、Darrell ら(参考文献3)は手のひらの動きをそ
の見え方の遷移系列で表し、観測された見え方系列と動
作モデルとの対応付けをDynamic Time Warpingで行うこ
とで複数のジェスチャーを認識した。しかし、入力画像
の背景が無地である必要が有り、また、動作区間の時間
的セグメンテーションの方法が示されていない。また、
石井ら(参考文献4)は、カラー画像処理とステレオマ
ッチングにより手や顔などの肌色部分の3次元位置を求
め、その移動量を計測している。また、長屋ら(参考文
献5,6)は、動作者の位置や人数に関わらずジェスチ
ャー認識可能な手法を提案している。しかし、専用の画
像処理装置を用いている石井らやDarrell らのシステム
でもビデオレートでの動作認識は実現されていない。
【0004】そこで我々は、スポッティング認識手法を
用いるという前提で以下のような仮定を行い、ジェスチ
ャー区間の時間的セグメンテーション問題の解決と認識
のリアルタイム性に重点を置いた動作認識法を提案した
(参考文献8)。
【0005】仮定1 カメラ視野中の人物は一人、人物
位置も固定 従って、複数の動作者の動作を認識させる
ためには、人物の切り出しが必要となる。
【0006】仮定2 認識対象は、動作の大きなジェス
チャー 手の平の向きや形などの細かい動きは認識対象
としない。
【0007】スポッティング認識手法は、時系列パター
ンの判別とその時間区間セグメンテーションを同時に行
う。従って、動作者に動作の開始や終了を意識させない
インタフェースを実現することができる。我々は、音声
認識の分野で提案した連続DP(Continious Dynamic Pr
ogramming)(参考文献7)によりこのスポッティング認
識を実現した。連続DPは、フレームワイズ、すなわち
入力画像フレームに同期して認識結果を生成するため、
動作を時々刻々と認識することができる。佐川ら(参考
文献1)は、この連続DPを改良した圧縮連続DPを開
発し、データグローブからの情報を用いて620語とい
う大語彙において1位認識率98.7%という高い認識
率を達成している。我々は、この結果からも連続DPに
期待できると考えている。
【0008】特徴抽出法においては、先の提案(参考文
献8)にて時空間エッジ画像の空間的リダクションによ
り特徴ベクトルを用いることでロバスト性向上を目指し
た。しかし、この特徴抽出法において、特徴ベクトルの
次元(リダクション画像のサイズ)が16×16と多い
ため、連続DPでの計算負荷が大きいだけでなく動作の
軌跡の変化にも弱いなどの問題があった。そこで、特徴
ベクトルの次元を大幅に小さくする(例:3×3)など
によりこの問題を解決する特徴抽出法を提案し、本手法
を用いた連続DPによる実時間動作認識システムを実現
する。さらに、3節にて標準パターン中の部分動作の認
識を実現するために、連続DPの機能を拡張したNon-mo
notonic 連続DPを提案し、評価実験にてその有効性を
示す。
【0009】参考文献 (1)佐川浩彦、酒匂裕、大平栄三、崎山朝子、阿部正
博:“圧縮連続DP照合を用いた手話認識方式”,信学
論(D-II), J77-D-II, 4, pp.753-763(1994-04) (2)J. Yamayo, J. Ohya, K. Ishii: "Recognizing
Human Action in Time-Sequential Images Using Hidde
n Markov Model" , Proc. CVPR, pp.379-385,1992 (3)T. J. Darell and A. P. Pentland : "Space-Ti
me Ges-tures", Proc.IJCAI'93 Looking at People Wow
kshop (Aug. 1993) (4)H. Ishii, K. Mochizuki and F. Kishino, "A Mo
tion Recognition Method from Stereo Images for Hum
an Image Systhesis", The Trans. of the EIC, J76-D-
II, 8, pp.1805-1812, (1993-08) (5)長屋茂喜、関 進、岡隆一:多重解像度特徴によ
るジェスチャ認識,信学技報,PRU95-99, pp.121-126 (6)長屋茂喜、関 進、岡隆一:ジェスチャー認識の
ための動作軌跡特徴の提案,信学技報,NLC95-37, PRU9
5-142, pp.45-50 (7)岡隆一、“連続DPを用いた連続音声認識”,音
響学会音声研資料,S78-20, pp.145-152 (1978-06) (8)高橋勝彦、関 進、小島浩、岡隆一:ジェスチャ
ー動画像のスポッティング認識,信学論(D-II), J77-D-
II, 8, pp.1552-1561 (1994) 我々は、特徴抽出法において、時空間エッジの中で時間
方向のエッジの有効性を評価実験により確認している
(参考文献8)。さらに、この時空間エッジ情報の内で
時間方向のエッジ情報が最も有効であることを示した。
従って、本報告では時間方向のエッジ情報のみに着目す
ることとする。
【0010】従来法では、初めにサイズが64×64の
入力画像の時間差分画像を求める。次に、空間的リダク
ションによりサイズを16×16にし、時間方向に3フ
レーム分平均化する。最後に、すべてのピクセル値の対
数を求めて、これを16×16次元の特徴ベクトルとし
て連続DPへの入力とする。しかし、この特徴抽出法に
おいて、 問題1 リダクション画像のサイズが16×16と大き
いため、動作の軌跡の変化に弱い。
【0011】問題2 時間方向のエッジの濃淡値を用い
るため、衣服と背景の明るさの変化に弱い。
【0012】という問題があった。通常、日常用いられ
る人物動作の空間的な軌跡は、多少の位置変動があって
も同一と見なせる場合が多い。従って、リダクションサ
イズが大きく1画素あたりの視野が狭いと、この動作軌
跡の変動を吸収しきれなくなり問題1が生じる。また、
時間差分画像の濃淡値は、人物と背景の明るさの違いで
ある。従って、この濃淡値をそのまま用いる従来法で
は、原理的に人物と背景の明るさの変化によって大きな
影響を受ける。前回の報告(参考文献8)では衣服と背
景を変化させて評価実験を行っているが、明るさの変化
が小さかったために問題2は生じていなかったと思われ
る。
【0013】
【発明が解決しようとする課題】このため、従来のジェ
スチャー認識方法は、認識対象の被写体の照明環境が変
わるとジェスチャーの認識精度が下がるという解決すべ
き課題があった。
【0014】なお、照明変化に対処するにはシェーディ
ング補正のような複雑な画像処理方法も知られている
が、ジェスチャー認識のように動画像を取り扱う場合に
複雑な画像処理が増えることは認識処理時間が長くな
り、好ましくない。
【0015】そこで、本発明の目的は、ジェスチャー認
識処理時間を長くすることなく照明変化の影響を受けな
いジェスチャー認識方法を提供することにある。
【0016】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、撮像装置により被写体の
ジェスチャーを撮像し、撮像装置から各時刻毎に得られ
る多値の画像データI(i,j,t)、ここで、i、j
は1画面の横、縦の画素位置で、tは時刻、から特徴パ
ターンを情報処理装置により抽出し、当該抽出した特徴
パターンをジェスチャー内容が規定されている標準パタ
ーンと前記情報処理装置により比較することによりジェ
スチャー認識するジェスチャー認識方法において、前記
情報処理装置は、前記画像データI(i,j,t)と前
の時刻の画像データI(i,j,t−1)との間の時間
差分画像を取得し、当該取得した時間差分画像データを
2値化して、ビット“1”およびビット“0”の画像デ
ータで表される2値化画像を取得し、当該2値化した画
像データの集合を複数の升目に分割し、当該分割した升
目個々に含まれるビット“1”およびビット“0”のい
ずれかのビット値の個数を取得し、当該取得した個数を
前記升目位置と時間tに関連づけた特徴ベクトルf
(k,v,t)、ここでk、vは横、縦の升目位置、を
前記特徴パターンまたは前記標準パターンとすることを
特徴とする。
【0017】請求項2の発明は、前記標準パターンを構
成する特徴ベクトルを時間経過の逆の方向から並べた逆
動作の標準パターンを想定し、該逆動作の標準パターン
と前記特徴パターンとを比較してジェスチャー認識する
ことを特徴とする。
【0018】請求項3の発明は、請求項1に記載のジェ
スチャー認識方法において、前記標準パターンを構成す
る特徴ベクトルの中のある時間の特徴ベクトルを停止動
作のパターンとみなし、該停止動作のパターンと前記特
徴パターンとを比較してジェスチャー認識することを特
徴とする。
【0019】請求項1の発明では、1画面が64×64
画素で構成される撮像装置により1画素256階調の輝
度データが得られると仮定すると、ある時刻t−1には
図13(a)に示すような64×64画素の画像データ
が得られる。次の時刻tにも同様の画像データが得られ
る。時刻t−1と時刻tの画像データの差分画像、すな
わち、同一位置の輝度データの差分値を計算し、その差
分値を画素位置に対応させて配列すると図13(b)の
ようなデータとなる。被写体の背景およびジェスチャー
をしている身体部分以外は動かないので、隣接する時刻
で得られる背景の輝度データはほぼ同じ値となる。加え
て、隣接する画素位置では身体の輪郭線部分以外は同じ
値となるので、時間差分画像を取得することによって静
止部分の画像および隣接画素位置の同じ値の画像データ
成分が除去される。
【0020】ジェスチャーを行っている身体分について
は撮像位置が異なるので、同一位置での差分値は大きい
値となる。その輪郭線画像部分は特に大きな値となる。
【0021】この点に着目して、照明の変化による画像
データの時系列的な変化分を吸収し、ジェスチャーを行
っている身体の画像を強調するために2値化を行う。こ
れにより、照明変化が生じても静止画像部分はビット
“0”、ジェスチャー画像部分はビット“1”で表され
る時刻tでの特徴パターンのデータ集合(64×64画
素に対応)が得られる。このデータ集合を例えば、16
画素×16画素を図14の(a)に示すような1つの升
目とする4×4の升目に分割する。各升目のビット
“1”の個数を計数し、計数結果を升目の位置に対応付
けると図14の(b)に示すようなデータ集合が得られ
る。このような処理を行うことによりジェスチャー画像
の特徴を損ねることなく64×64個の画像データ集合
からジェスチャー画像の特徴を示す時刻tの4×4個の
データ集合が得られる。このデータ集合をある時間範囲
だけ集積したデータ集合すなわち、特徴ベクトルが特徴
パターンとして扱われる。なお、予め、内容が判明して
いるジェスチャー動作を撮影して上述のデータ処理を行
うと、標準パターンとして使用可能な特徴ベクトルが得
られる。64×64個の2値化データを4×4個のデー
タに変換する処理を本実施の形態では空間的リダクショ
ンと呼んでおり、その処理内容が数2式により表されて
いる。
【0022】請求項1の発明に加えて、請求項2の発明
では例えば、手をあげるジェスチャーを撮影した動画像
を逆方向に再生すると手を下げるジェスチャーになるこ
とに本願発明者は気がつき、標準パターンを構成する特
徴パターンの時刻毎の特徴データ(4×4)を時間の経
過方向と逆の方向に並べて、換言すると、標準パターン
の特徴データを逆の方向から認識対象の特徴パターンの
先頭の特徴データと比較していくと、手をあげるジェス
チャーの標準パターンにより手を下げるジェスチャーを
認識することができる。これにより従来は手を挙げるジ
ェスチャーと手を下げるジェスチャーの2つの標準パタ
ーンを用意しなければならないの対して、半分の標準パ
ターンを用意すればよいことになる。
【0023】請求項3の発明では、標準パターンの中の
ある特定の時刻の特徴データの示すジェスチャーは動作
が停止したジェスチャーと同じなので、手を挙げて途中
で手を止め、しばらくしてから手を挙げるジェスチャー
をも認識できるようになる。
【0024】請求項1、2の発明に関する処理は本実施
の形態の数14式および数15式により表され、図10
に特徴データの比較順序が示されている。
【0025】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。
【0026】上述の問題点を改善すべく、図1に示すよ
うな特徴抽出法を提案する。網掛けの部分が従来法との
相違である。まず、時間差分画像の濃淡情報をそのまま
用いるのではなく、2値化処理により変化領域を求める
ことで問題2を解決し、さらに大幅な空間的リダクショ
ン(例:3×3)により問題1を解決する。
【0027】式を用いて説明しよう。2値画像I
b (i,j,t)(0≦i,j<L,0≦t)は、入力
画像I(i,j,t)から次のように求められる。
【0028】
【数1】
【0029】このとき、特徴ベクトルf(k,v,t)
(0≧k,v<N)は次のように定義する。
【0030】
【数2】
【0031】ここで、pとqはともに整数、h=L/N
である。また、本手法により、1フレームあたりの計算
量を大幅に低減できる。例えば、空間的リダクションの
サイズを3×3とすると、特徴ベクトルの次元数が約1
/25になり連続DPでの計算量が概算で約1/25に
なる。
【0032】連続DPによるスポッティング認識では、
初めに入力画像から特徴抽出を行い特徴ベクトルを求め
る。次に、この入力された特徴ベクトル列と、各ジェス
チャーに対応した標準パターンとを連続DPでマッチン
グする。この標準パターンは、事前に標準動作を捕らえ
た画像列から入力画像と同様の特徴抽出法で作成した特
徴ベクトル列である。最後に、すべての標準パターンと
の連続DPマッチングの結果を比較し、最も適合したも
のをその時点のマッチング結果として出力する。
【0033】以下に、連続DPによる特徴ベクトル列の
マッチング方法を具体的に示す。まず、一つの標準パタ
ーンZは特徴ベクトルzy の系列
【0034】
【数3】
【0035】で表す。ここで、特徴ベクトルzy その次
元数をN2 として
【0036】
【数4】
【0037】と表す。入力画像からも同様な特徴ベクト
ル系列が随時得られる。この特徴ベクトル系列をu
t (0≦t<∞)とし、ut とzy の局所距離d(t,
y)を以下の式で定義する。
【0038】
【数5】
【0039】また、点(t,y)を終点とする標準パタ
ーンと入力系列との最適マッチングするときの累積距離
をS(t,y)で表す。
【0040】このとき、連続DPはS(t,y)を以下
のように定義する。
【0041】
【数6】
【0042】
【数7】
【0043】
【数8】
【0044】
【数9】
【0045】で与える。ここで、時刻tにおいて動作が
終了したと仮定する、すなわち、y=Tとおくと、図2
のようにS(t,T)は標準パターンの区間[1,T]
について入力時系列に最適に整合したときの累積距離を
表す。網掛けの領域はCDPの検索領域であり、1/2
〜2倍の時間方向の伸縮があってもマッチング可能であ
る。
【0046】この累積距離S(t,T)を重みの和3・
Tで正規化したもの
【0047】
【数10】
【0048】がその時刻での標準パターンに対する連続
DPの出力値である。連続DPはこの正規化操作によっ
て各標準パターンのフレーム数の違いを吸収する。
【0049】さて、今I個の標準パターンがあると仮定
すると、各時刻tにおいてそれと同数のA(t)が生成
される。これをAv(t)(v=1,2,…,I)と表現す
ると、被験者があるジェスチャーをしたときのA
v (t)の理想的な値は図3に示すようになり、入力ジ
ェスチャーに対応するAv (t)だけが動作終了時付近
において極小になると期待される。故に、本手法では各
時刻におけるジェスチャーを表すカテゴリー番号を
【0050】
【数11】
【0051】として定める。ここで、Argは引数を返
す関数、hv は各ジェスチャーごとに定められたしきい
値、nullは空のカテゴリーを表す。
【0052】実験装置として、SGI社のIndy(R
4400 200MHz)と、付属のIndyComと
いうカメラを用いた。実験は、オフィス内で椅子に座っ
た1人の被験者に対して行った。カメラの視野は被験者
のジェスチャーが適切に入るように設定した。また、照
明は建物の天井に設置されている蛍光灯のみを用いた。
【0053】CCDカメラの出力映像をAD変換して得
られる画像は、サイズ160×120、1画素256階
調のRGB画像であるが、認識には比較的輝度に強い影
響を与えるグリーン成分のみを用いた。この画像を空間
的リダクションしサイズ64×64の画像を特徴抽出部
への入力とした。
【0054】実験に用いたジェスチャーは、(1)ばん
ざい(両手)、(2)バイバイ(右手)、(3)まる
(両手)、(4)手をたたく(両手)、(5)こちらへ
(右手)、(6)左へ(左手)、(7)右へ(右手)、
(8)いいえ(右手)の8種類である。これを、ジェス
チャーv(v=1,2,…,8)と表記する。図4に各
ジェスチャーのスナップショット、図5にジェスチャー
「バンザイ」の画像系列を示す。被験者は各動作を通常
のスピードで行い、画像は15Hzでサンプリングし
た。また、数1式の閾値hc はカメラの熱雑音を考慮し
10とした。
【0055】標準パターンv(v=1,2,…,8)
は、それぞれのジェスチャーを捕らえた画像系列から人
手でジェスチャー部分のみを切り出し作成した。この実
験で用いた標準パターンのフレーム長Tは11から15
であった。また、同じジェスチャーを20回繰り返した
入力画像列vを作成した。次に、入力画像列vを認識シ
ステムに入力し、1位認識率と正解候補率を求めた。
【0056】
【数12】
【0057】
【数13】
【0058】ここで、正答ジェスチャー数vは入力画像
列v中の20個のジェスチャーの内で正しく認識できた
ジェスチャー数である。また、3フレーム以上連続して
同じ認識結果になった場合に「検出」されたとした。
【0059】ここで、特徴ベクトルの次元数(N×N)
のNの最適な値を求めるため、N=1,2,3,4,
5,7,10,16と変化させた。また、衣服および背
景の影響を調べるため、 S1 標準パターンの作成時と衣服および背景が等しい
場合 S2 標準パターンの作成時と衣服および背景の明るさ
がともに異なる場合 を設定した(図6)。ここで、標準パターンはS1の場
合において作成し、しきい値hv はS1の場合の1位認
識率が極力大きくなるよう人手で設定した。S2にはこ
のS1で作成した標準パターンとしきい値を用いて認識
実験を行った。
【0060】認識実験の結果を図7に示す。衣服と背景
が異なる場合(S2)でも、N=3,4,5で約80%
と高い1位認識率が得られたため、本手法が衣服と背景
の変化にロバストであることが示せた。計算量を考慮す
ると、Nが3のときに今回用いた8種類のジェスチャー
に対する最適な認識システムとなる。また、Nが7以上
で1位認識率が低下しているが、これはリダクションサ
イズが大き過ぎて動作の軌跡の変動を吸収できなかった
ためと考えられる。
【0061】Indyを1台を用い本手法を用い本手法
を用いた実時間ジェスチャー認識システムを作成した
(図8)。N=3、サンプリングレートは15Hzであ
り、入力画像を実時間で表示、認識し結果を表示する。
実時間での認識実験を行った結果、衣服、背景が異なっ
ても約8割の認識率が得られた。
【0062】人間のジェスチャーは、同一動作であって
も途中で戸惑ったり考えて止まったりすることがある。
ところが、標準パターン全体との距離を求める連続DP
では、このような躊躇した動作は認識できない。そこ
で、標準パターン中の部分区間を順方向だけでなく逆方
向や停止時でもマッチングできるようなNon-monotonic
連続DPを提案する。
【0063】連続DPで用いた数3式、数4式、数5式
と同様な変数を定義する。このとき、Non-monotonic 連
続DPは点(t,v)での累積距離S(t,v)を以下
のような漸化式で更新する。
【0064】
【数14】
【0065】
【数15】
【0066】ここで、αは正規化係数(0≦α≦1)で
あり、式を簡単にするために、以下の2項を仮定した。
【0067】(仮定1)標準パターンは、特徴ベクトル
の1次元系列で表現できる(本手法は、分岐のある場合
や2次元系列に拡張可能)。
【0068】(仮定2)入力パターンの速度変化は、標
準パターンの1倍以下 (仮定2)では、図9(a)のような傾斜パターンを採
用している。しかし、数15式のmの範囲を変化させれ
ば、入力パターンの速度変化に対して様々な制限を付加
できる(図9(b)など)。
【0069】数14式、数15式の漸化式を解くと次式
のようになる。
【0070】
【数16】
【0071】ここでp(k)は以下のように定義する。
【0072】
【数17】
【0073】つまり、Non-monotonic 連続DPは、点
(t,y)を終点として図10の斜線領域内において最
小の累積距離となるマッチング経路を求めている。
【0074】よく知られている「連続DP」では、終点
となる点は(t,T)とされてきた。また、それへの最
適パスは(t,y)平面においてt,yについて単調に
増加するものとされてきた。これは、傾斜の取り方に依
っている。従って、「連続DP」はその最適パスの形式
においてmonotonic なものといえるものである。しか
し、Non-monotonic CDPでは、図9(a)のように
(t,y)において(t−1,y−1),(t−1,
y),(t−1,y+1)の各点から局所最適パスがと
られ、図10の実線のように(t,y)平面での最適パ
スがyに関して単調に増加するものとはなっていない。
この意味により、ここで提案するものを「Non-monotoni
c 連続DP」と呼ぶこととする。
【0075】また、数15式のd(k,p(k))に対
する重みをw(k)とする、重みw(k)の和は、
【0076】
【数18】
【0077】となり、いかなるtにおいても重みw
(k)の和が1に正規化された累積距離が得られること
が分かる。これにより、各tにおいて点の集合{(t,
y)|1≦y≦T}における累積距離の集合{S(t,
y)|1≦y≦T}の中での比較が可能であり、また、
異なる標準パターンの最短累積距離の比較も可能とな
る。これは、数15式の漸化式において、重みの和がα
+(1−α)=1になることからも、常に重みの和が正
規化がされていることが分かる(このことは、正規化係
数αが、時間的に変化する場合でも同様である)。
【0078】重みw(k)の値は、現時点に近いほど大
きくなり、特に、tがある程度大きい定常状態では、数
16式は
【0079】
【数19】
【0080】と簡略化できる。このとき、重み係数w
(k)の半値幅w1/2(α)を
【0081】
【数20】
【0082】と定義するとき、
【0083】
【数21】
【0084】と、半値幅w1/2(α)からαを決定でき
る。
【0085】通常、入力される特徴ベクトルの変化が小
さい場合は、過去の履歴を多く持つ(w1/2(α)を大き
くする)方が良い。このためには、正規化係数αを、特
徴ベクトルの変化に比例するように時間的に変化させれ
ば可能である。一例として次のようにα(t)を可変に
すればよい。
【0086】
【数22】
【0087】ここで、u'tは入力される特徴ベクトルの
微分値、α1 ,α2 は標準パターンの長さTを考慮して
定めた定数である。
【0088】ここで、標準パターンがL個存在すると
し、各パターンの累積距離をSv (t,y)(1≦v≦
L)、閾値をhv 、標準パターンのフレーム数をTv
する。Non-monotonic 連続DPの出力は、マッチングし
た標準パターン番号v* (t)とその標準パターン内で
マッチングしたフレーム番号(y* (t))であり、
【0089】
【数23】
【0090】と表せる。ここで、Argは引数{v
(t),y(t)}を返す関数、nullは空のカテゴ
リーを表す。この出力結果を一つの標準パターンに着目
して考えると、図11のように点(t,y* (t))の
軌跡から様々な動作を認識できる。
【0091】特徴抽出法において、時間差分ではなく背
景画像との差分を用い、Non-monotonic 連続DPの効果
を調べた。ジェスチャーは、(1)ばんざい、(2)右
手を上げる、(3)左手を上げる、(4)右手を大きく
振る、(5)おぎじをする、の5種類とした。標準パタ
ーンは、これらのジェスチャーの片道のみを用いた。例
えば、(4)手を大きく振るでは左から右へ振り、さら
に右から左へ振ることが往復の運動であるが、標準パタ
ーンでは「左から右へ振る」部分のみを用いた。
【0092】図12に、次々にジェスチャーを行った結
果を示す。ジェスチャーの順序は、(2)右手を途中ま
で上げて少し下げ、再び大きく上げて降ろした、(3)
左手を大きく上げて降ろしてから少し上げた、(1)両
手を上まで上げ降ろした、(5)おじぎをした、(2)
右手を上げて下げた、(4)手を大きく左から右へ振
り、少し戻して右に振り切り左に戻した、(5)おじぎ
をした、(1)両手を上げて下げた、(2)右手を上げ
て下げた、である。この結果から、標準パターンの順方
向だけでなく逆方向の認識可能、停止可能、部分的なジ
ェスチャー検出可能、であることが示せた。従って、No
n-monotonic 連続DPは、5種類のうちのどのジェスチ
ャーであるか、認識すると同時にマッチングした標準パ
ターン中のフレーム番号の変化から、さらに細かな動き
を検出できる可能性を示せた。
【0093】さらに、Indyを1台用い実時間認識シ
ステムを作成した。認識結果はジェスチャー名を赤色、
緑色、黄色で表示し、それぞれ、停止時、順方向時、逆
方向時とした。このシステムを用い、2個のジェスチャ
ーに重なりがある場合を調べた。ジェスチャー(2)右
手を上げると、(4)右手を大きく振るとは、右手を上
げきった状態が共通している。従って、この状態を認識
しようとすると混乱が生じるはずである。そこで、この
二つのジェスチャーを行い、右手を上げきった状態で停
止する実験を行った。過去の情報を多く用いない場合
(α=0.3)は、すぐに混乱が生じた。しかし、過去
の情報を多く用いること(α=0.05)でしばらく
は、前の軌跡情報を維持できた。ただし、過去の情報を
多く用いることによって認識に時間遅れが生じるように
なった。
【0094】そこで、数22式で示したように、αを時
間的に変化させた。ここでは、入力画像の変化が大きい
とき(ジェスチャーの動きが激しいとき)には過去の情
報を少なくし、変化が小さい時には過去の情報を引きず
るようになっている。この結果、認識の時間遅れが小さ
くなり、また、混乱も生じなくなることが認識できた。
【0095】以上述べたように本実施の形態では、入力
画像の大幅な時間的リダクションにより特徴抽出を行う
手法を提案し、8種類のジェスチャーを用いた評価実験
にて衣服と背景の明るさの変化に対してロバストである
ことを示した。また、リダクションサイズは3×3のと
き最適であることを示した。本手法を用いた実時間動作
認識システムでは8種類のジェスチャーに対して約8割
の認識率で認識できた。
【0096】さらに、標準パターン中の部分区間の逆方
向や停止時の認識を実現するために、連続DPの機能を
拡張した。
【0097】Non-monotonic 連続DPを提案し、評価実
験にて逆方向の認識可能、停止可能、部分的なジェスチ
ャー検出可能、であることを示した。
【0098】今後の課題としては、(1)大幅リダクシ
ョン画像特徴を用いた連続DPでは、ジェスチャー数を
増やし本手法の限界を見極めること、(2)Non-monoto
nic連続DPでは、評価実験を行い認識率を求めること
が挙げられる。また、本手法では(1)原理的にジェス
チャーのスピード変化に対応不可能、(2)手のひらの
向きや微小な動きの違いを認識できない、という問題点
がある。そこで、本手法の高いロバスト性と少ない計算
量という特徴を生かしつつ、(1)空間的リダクション
時のメッシュの形状や大きさを場所によって変化させ
る、(2)原画像のエッジ情報の効率的な利用などによ
り本手法の改良を行い手話認識を狙いたいと考えてい
る。
【0099】
【発明の効果】以上、説明したように、請求項1の発明
では、被写体の照明環境に変化生じても、認識精度を損
ねることはなく、また、特徴パターンおよび標準パター
ンのデータ量を減じることができるので、従来よりも認
識処理時間が向上するという効果が得られる。
【0100】請求項2、3の発明によれば、1つの標準
パターンで、複数のジェスチャーを認識できるので、さ
らにジェスチャー認識性能を高めることが可能となる。
【図面の簡単な説明】
【図1】本発明の特徴パターンの抽出手順を示す説明図
である。
【図2】CDPのパス探索を説明するための説明図であ
る。
【図3】CDP出力の変化を示す説明図である。
【図4】8種類のジェスチャ画像を模式的に示す説明図
である。
【図5】特徴ベクトルの作成に使用したジェスチャー画
像を模式的に示す説明図である。
【図6】ばんざいのジェスチャーのフレーム画像を模式
的に示す説明図である。
【図7】リダクションサイズNと認識率を示す説明図で
ある。
【図8】ジェスチャー認識システムの外観を示す正面図
である。
【図9】Non−monotonic(ノンモノトニッ
ク)連続DPでの傾斜パターン例を示す説明図である。
【図10】Non−monotonic(ノンモノトニ
ック)連続DPでのパスの」探索範囲を示す説明図であ
る。
【図11】Non−monotonic(ノンモノトニ
ック)連続DPによるスポッティング認識方法を説明す
るための説明図である。
【図12】Non−monotonic(ノンモノトニ
ック)連続DPによる認識結果を示す説明図である。
【図13】特徴ベクトルを作成する手順を説明するため
の説明図である。
【図14】特徴ベクトルを作成する手順を説明するため
の説明図である。
【符号の説明】
1 Input Image(入力イメージ) 2 Temporal Edge(テンポラルエッジ、
時間差分画像) 3 2値化画像 4 空間リダクションを施した特徴データ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 撮像装置により被写体のジェスチャーを
    撮像し、撮像装置から各時刻毎に得られる多値の画像デ
    ータI(i,j,t)、ここで、i、jは1画面の横、
    縦の画素位置で、tは時刻、から特徴パターンを情報処
    理装置により抽出し、当該抽出した特徴パターンをジェ
    スチャー内容が規定されている標準パターンと前記情報
    処理装置により比較することによりジェスチャー認識す
    るジェスチャー認識方法において、 前記情報処理装置は、 前記画像データI(i,j,t)と前の時刻の画像デー
    タI(i,j,t−1)との間の時間差分画像を取得
    し、 当該取得した時間差分画像データを2値化して、ビット
    “1”およびビット“0”の画像データで表される2値
    化画像を取得し、 当該2値化した画像データの集合を複数の升目に分割
    し、 当該分割した升目個々に含まれるビット“1”およびビ
    ット“0”のいずれかのビット値の個数を取得し、 当該取得した個数を前記升目位置と時間tに関連づけた
    特徴ベクトルf(k,v,t)、ここでk、vは横、縦
    の升目位置、を前記特徴パターンまたは前記標準パター
    ンとすることを特徴とするジェスチャー認識方法。
  2. 【請求項2】 前記標準パターンを構成する特徴ベクト
    ルを時間経過の逆の方向から並べた逆動作の標準パター
    ンを想定し、該逆動作の標準パターンと前記特徴パター
    ンとを比較してジェスチャー認識することを特徴とする
    ジェスチャー認識方法。
  3. 【請求項3】 請求項1に記載のジェスチャー認識方法
    において、前記標準パターンを構成する特徴ベクトルの
    中のある時間の特徴ベクトルを停止動作のパターンとみ
    なし、該停止動作のパターンと前記特徴パターンとを比
    較してジェスチャー認識することを特徴とするジェスチ
    ャー認識方法。
JP32283796A 1996-12-03 1996-12-03 ジェスチャー認識方法 Expired - Lifetime JP3607440B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32283796A JP3607440B2 (ja) 1996-12-03 1996-12-03 ジェスチャー認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32283796A JP3607440B2 (ja) 1996-12-03 1996-12-03 ジェスチャー認識方法

Publications (2)

Publication Number Publication Date
JPH10162151A true JPH10162151A (ja) 1998-06-19
JP3607440B2 JP3607440B2 (ja) 2005-01-05

Family

ID=18148166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32283796A Expired - Lifetime JP3607440B2 (ja) 1996-12-03 1996-12-03 ジェスチャー認識方法

Country Status (1)

Country Link
JP (1) JP3607440B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202653A (ja) * 2004-01-15 2005-07-28 Canon Inc 動作認識装置及び方法、動物体認識装置及び方法、機器制御装置及び方法、並びにプログラム
JP2009093291A (ja) * 2007-10-04 2009-04-30 Toshiba Corp ジェスチャー判定装置及び方法
JP2013085038A (ja) * 2011-10-06 2013-05-09 Fuji Xerox Co Ltd 電力供給制御装置、画像処理装置、電力供給制御プログラム
US9336456B2 (en) 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
JP2019114211A (ja) * 2017-12-26 2019-07-11 コニカミノルタ株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
US20220130146A1 (en) * 2018-09-21 2022-04-28 Bigo Technology Pte. Ltd. Method for recognizing video action, and device and storage medium thereof

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202653A (ja) * 2004-01-15 2005-07-28 Canon Inc 動作認識装置及び方法、動物体認識装置及び方法、機器制御装置及び方法、並びにプログラム
US8094881B2 (en) 2004-01-15 2012-01-10 Canon Kabushiki Kaisha Action recognition apparatus and method, moving-object recognition apparatus and method, device control apparatus and method, and program
JP2009093291A (ja) * 2007-10-04 2009-04-30 Toshiba Corp ジェスチャー判定装置及び方法
JP2013085038A (ja) * 2011-10-06 2013-05-09 Fuji Xerox Co Ltd 電力供給制御装置、画像処理装置、電力供給制御プログラム
US9336456B2 (en) 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
JP2019114211A (ja) * 2017-12-26 2019-07-11 コニカミノルタ株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
US20220130146A1 (en) * 2018-09-21 2022-04-28 Bigo Technology Pte. Ltd. Method for recognizing video action, and device and storage medium thereof

Also Published As

Publication number Publication date
JP3607440B2 (ja) 2005-01-05

Similar Documents

Publication Publication Date Title
Chai et al. Locating facial region of a head-and-shoulders color image
US5912980A (en) Target acquisition and tracking
US5987154A (en) Method and means for detecting people in image sequences
KR100730500B1 (ko) 화상 처리 장치와 화상 처리 방법 및 기록 매체
US20080013837A1 (en) Image Comparison
JP4597391B2 (ja) 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体
US20110299774A1 (en) Method and system for detecting and tracking hands in an image
JPH1051755A (ja) テレビ会議端末の画面表示制御装置
WO1999023600A1 (en) Video signal face region detection
KR20130094862A (ko) 대상물 추적 장치, 대상물 추적 방법 및 제어 프로그램
JPH09102043A (ja) 画像内の要素の位置検出
EP1631933A1 (en) Human figure contour outlining in images
KR101906796B1 (ko) 딥러닝 기반 영상 분석 장치 및 영상 분석 방법
KR101652261B1 (ko) 카메라를 이용한 오브젝트 검출 방법
CN115035581A (zh) 面部表情识别方法、终端设备及存储介质
US9947106B2 (en) Method and electronic device for object tracking in a light-field capture
JP4444583B2 (ja) 物体検出装置及びプログラム
JPH10162151A (ja) ジェスチャー認識方法
CN112883940A (zh) 静默活体检测方法、装置、计算机设备及存储介质
KR100532129B1 (ko) 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
JP4789526B2 (ja) 画像処理装置、画像処理方法
JP3230509B2 (ja) 動画像処理装置
KR20040042500A (ko) 얼굴 검출방법 및 그 장치
JPH10149447A (ja) ジェスチャー認識方法および装置
KR20040107962A (ko) 이동물체 검출 시스템 및 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041007

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term