JPH10162151A

JPH10162151A - ジェスチャー認識方法

Info

Publication number: JPH10162151A
Application number: JP8322837A
Authority: JP
Inventors: Takuichi Nishimura; 拓一西村; Riyuuichi Oka; 嶐一岡
Original assignee: GIJUTSU KENKYU KUMIAI SHINJOHO; GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Current assignee: GIJUTSU KENKYU KUMIAI SHINJOHO; GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Priority date: 1996-12-03
Filing date: 1996-12-03
Publication date: 1998-06-19
Anticipated expiration: 2016-12-03
Also published as: JP3607440B2

Abstract

(57)【要約】【課題】照明変化の影響を除去する。【解決手段】被写体のジェスチャーを撮像した画像１
から時間差分画像２を取得し、時間差分画像を２値化す
る。２値化画像を空間リダクションして特徴パターン用
の特徴ベクトル４を取得する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ビデオカメラで撮
影したジェスチャー映像からそのジェスチャーの意味内
容をコンピュータにより認識するためのジェスチャー認
識方法に関する。

【０００２】

【従来の技術】人間のジェスチャー動作を認識する技術
は、柔軟なMan-Machine Interface Systemを構築する上
で重要である。特に、我々は動作者にデータグルーブ等
の接触型センサやマーカーを装着させることなく、人間
の動作を捉えた動画像を用いたジェスチャー認識を試み
ている（参考文献８）。

【０００３】すでに動画像理解を目指した多くの研究が
なされている。大和ら（参考文献２）は、テニスプレー
ヤーのスイング動作を対象として、Hidden Markov Mode
l を用いた動作認識法を提案している。この方法では、
動作モデルの学習が可能であるが、動作を行っている時
間区間のセグメンテーションを人手で行う必要がある。
また、Darrell ら（参考文献３）は手のひらの動きをそ
の見え方の遷移系列で表し、観測された見え方系列と動
作モデルとの対応付けをDynamic Time Warpingで行うこ
とで複数のジェスチャーを認識した。しかし、入力画像
の背景が無地である必要が有り、また、動作区間の時間
的セグメンテーションの方法が示されていない。また、
石井ら（参考文献４）は、カラー画像処理とステレオマ
ッチングにより手や顔などの肌色部分の３次元位置を求
め、その移動量を計測している。また、長屋ら（参考文
献５，６）は、動作者の位置や人数に関わらずジェスチ
ャー認識可能な手法を提案している。しかし、専用の画
像処理装置を用いている石井らやDarrell らのシステム
でもビデオレートでの動作認識は実現されていない。

【０００４】そこで我々は、スポッティング認識手法を
用いるという前提で以下のような仮定を行い、ジェスチ
ャー区間の時間的セグメンテーション問題の解決と認識
のリアルタイム性に重点を置いた動作認識法を提案した
（参考文献８）。

【０００５】仮定１カメラ視野中の人物は一人、人物
位置も固定従って、複数の動作者の動作を認識させる
ためには、人物の切り出しが必要となる。

【０００６】仮定２認識対象は、動作の大きなジェス
チャー手の平の向きや形などの細かい動きは認識対象
としない。

【０００７】スポッティング認識手法は、時系列パター
ンの判別とその時間区間セグメンテーションを同時に行
う。従って、動作者に動作の開始や終了を意識させない
インタフェースを実現することができる。我々は、音声
認識の分野で提案した連続ＤＰ(Continious Dynamic Pr
ogramming)（参考文献７）によりこのスポッティング認
識を実現した。連続ＤＰは、フレームワイズ、すなわち
入力画像フレームに同期して認識結果を生成するため、
動作を時々刻々と認識することができる。佐川ら（参考
文献１）は、この連続ＤＰを改良した圧縮連続ＤＰを開
発し、データグローブからの情報を用いて６２０語とい
う大語彙において１位認識率９８．７％という高い認識
率を達成している。我々は、この結果からも連続ＤＰに
期待できると考えている。

【０００８】特徴抽出法においては、先の提案（参考文
献８）にて時空間エッジ画像の空間的リダクションによ
り特徴ベクトルを用いることでロバスト性向上を目指し
た。しかし、この特徴抽出法において、特徴ベクトルの
次元（リダクション画像のサイズ）が１６×１６と多い
ため、連続ＤＰでの計算負荷が大きいだけでなく動作の
軌跡の変化にも弱いなどの問題があった。そこで、特徴
ベクトルの次元を大幅に小さくする（例：３×３）など
によりこの問題を解決する特徴抽出法を提案し、本手法
を用いた連続ＤＰによる実時間動作認識システムを実現
する。さらに、３節にて標準パターン中の部分動作の認
識を実現するために、連続ＤＰの機能を拡張したNon-mo
notonic 連続ＤＰを提案し、評価実験にてその有効性を
示す。

【０００９】参考文献（１）佐川浩彦、酒匂裕、大平栄三、崎山朝子、阿部正
博：“圧縮連続ＤＰ照合を用いた手話認識方式”，信学
論(D-II), J77-D-II, 4, pp.753-763(1994-04) （２）J. Yamayo, J. Ohya, K. Ishii： "Recognizing
Human Action in Time-Sequential Images Using Hidde
n Markov Model" , Proc. CVPR, pp.379-385,1992 （３）T. J. Darell and A. P. Pentland ： "Space-Ti
me Ges-tures", Proc.IJCAI'93 Looking at People Wow
kshop (Aug. 1993) （４）H. Ishii, K. Mochizuki and F. Kishino, "A Mo
tion Recognition Method from Stereo Images for Hum
an Image Systhesis", The Trans. of the EIC, J76-D-
II, 8, pp.1805-1812, (1993-08) （５）長屋茂喜、関進、岡隆一：多重解像度特徴によ
るジェスチャ認識，信学技報，PRU95-99, pp.121-126 （６）長屋茂喜、関進、岡隆一：ジェスチャー認識の
ための動作軌跡特徴の提案，信学技報，NLC95-37, PRU9
5-142, pp.45-50 （７）岡隆一、“連続ＤＰを用いた連続音声認識”，音
響学会音声研資料，S78-20, pp.145-152 (1978-06) （８）高橋勝彦、関進、小島浩、岡隆一：ジェスチャ
ー動画像のスポッティング認識，信学論(D-II), J77-D-
II, 8, pp.1552-1561 (1994) 我々は、特徴抽出法において、時空間エッジの中で時間
方向のエッジの有効性を評価実験により確認している
（参考文献８）。さらに、この時空間エッジ情報の内で
時間方向のエッジ情報が最も有効であることを示した。
従って、本報告では時間方向のエッジ情報のみに着目す
ることとする。

【００１０】従来法では、初めにサイズが６４×６４の
入力画像の時間差分画像を求める。次に、空間的リダク
ションによりサイズを１６×１６にし、時間方向に３フ
レーム分平均化する。最後に、すべてのピクセル値の対
数を求めて、これを１６×１６次元の特徴ベクトルとし
て連続ＤＰへの入力とする。しかし、この特徴抽出法に
おいて、問題１リダクション画像のサイズが１６×１６と大き
いため、動作の軌跡の変化に弱い。

【００１１】問題２時間方向のエッジの濃淡値を用い
るため、衣服と背景の明るさの変化に弱い。

【００１２】という問題があった。通常、日常用いられ
る人物動作の空間的な軌跡は、多少の位置変動があって
も同一と見なせる場合が多い。従って、リダクションサ
イズが大きく１画素あたりの視野が狭いと、この動作軌
跡の変動を吸収しきれなくなり問題１が生じる。また、
時間差分画像の濃淡値は、人物と背景の明るさの違いで
ある。従って、この濃淡値をそのまま用いる従来法で
は、原理的に人物と背景の明るさの変化によって大きな
影響を受ける。前回の報告（参考文献８）では衣服と背
景を変化させて評価実験を行っているが、明るさの変化
が小さかったために問題２は生じていなかったと思われ
る。

【００１３】

【発明が解決しようとする課題】このため、従来のジェ
スチャー認識方法は、認識対象の被写体の照明環境が変
わるとジェスチャーの認識精度が下がるという解決すべ
き課題があった。

【００１４】なお、照明変化に対処するにはシェーディ
ング補正のような複雑な画像処理方法も知られている
が、ジェスチャー認識のように動画像を取り扱う場合に
複雑な画像処理が増えることは認識処理時間が長くな
り、好ましくない。

【００１５】そこで、本発明の目的は、ジェスチャー認
識処理時間を長くすることなく照明変化の影響を受けな
いジェスチャー認識方法を提供することにある。

【００１６】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、撮像装置により被写体の
ジェスチャーを撮像し、撮像装置から各時刻毎に得られ
る多値の画像データＩ（ｉ，ｊ，ｔ）、ここで、ｉ、ｊ
は１画面の横、縦の画素位置で、ｔは時刻、から特徴パ
ターンを情報処理装置により抽出し、当該抽出した特徴
パターンをジェスチャー内容が規定されている標準パタ
ーンと前記情報処理装置により比較することによりジェ
スチャー認識するジェスチャー認識方法において、前記
情報処理装置は、前記画像データＩ（ｉ，ｊ，ｔ）と前
の時刻の画像データＩ（ｉ，ｊ，ｔ−１）との間の時間
差分画像を取得し、当該取得した時間差分画像データを
２値化して、ビット“１”およびビット“０”の画像デ
ータで表される２値化画像を取得し、当該２値化した画
像データの集合を複数の升目に分割し、当該分割した升
目個々に含まれるビット“１”およびビット“０”のい
ずれかのビット値の個数を取得し、当該取得した個数を
前記升目位置と時間ｔに関連づけた特徴ベクトルｆ
（ｋ，ｖ，ｔ）、ここでｋ、ｖは横、縦の升目位置、を
前記特徴パターンまたは前記標準パターンとすることを
特徴とする。

【００１７】請求項２の発明は、前記標準パターンを構
成する特徴ベクトルを時間経過の逆の方向から並べた逆
動作の標準パターンを想定し、該逆動作の標準パターン
と前記特徴パターンとを比較してジェスチャー認識する
ことを特徴とする。

【００１８】請求項３の発明は、請求項１に記載のジェ
スチャー認識方法において、前記標準パターンを構成す
る特徴ベクトルの中のある時間の特徴ベクトルを停止動
作のパターンとみなし、該停止動作のパターンと前記特
徴パターンとを比較してジェスチャー認識することを特
徴とする。

【００１９】請求項１の発明では、１画面が６４×６４
画素で構成される撮像装置により１画素２５６階調の輝
度データが得られると仮定すると、ある時刻ｔ−１には
図１３（ａ）に示すような６４×６４画素の画像データ
が得られる。次の時刻ｔにも同様の画像データが得られ
る。時刻ｔ−１と時刻ｔの画像データの差分画像、すな
わち、同一位置の輝度データの差分値を計算し、その差
分値を画素位置に対応させて配列すると図１３（ｂ）の
ようなデータとなる。被写体の背景およびジェスチャー
をしている身体部分以外は動かないので、隣接する時刻
で得られる背景の輝度データはほぼ同じ値となる。加え
て、隣接する画素位置では身体の輪郭線部分以外は同じ
値となるので、時間差分画像を取得することによって静
止部分の画像および隣接画素位置の同じ値の画像データ
成分が除去される。

【００２０】ジェスチャーを行っている身体分について
は撮像位置が異なるので、同一位置での差分値は大きい
値となる。その輪郭線画像部分は特に大きな値となる。

【００２１】この点に着目して、照明の変化による画像
データの時系列的な変化分を吸収し、ジェスチャーを行
っている身体の画像を強調するために２値化を行う。こ
れにより、照明変化が生じても静止画像部分はビット
“０”、ジェスチャー画像部分はビット“１”で表され
る時刻ｔでの特徴パターンのデータ集合（６４×６４画
素に対応）が得られる。このデータ集合を例えば、１６
画素×１６画素を図１４の（ａ）に示すような１つの升
目とする４×４の升目に分割する。各升目のビット
“１”の個数を計数し、計数結果を升目の位置に対応付
けると図１４の（ｂ）に示すようなデータ集合が得られ
る。このような処理を行うことによりジェスチャー画像
の特徴を損ねることなく６４×６４個の画像データ集合
からジェスチャー画像の特徴を示す時刻ｔの４×４個の
データ集合が得られる。このデータ集合をある時間範囲
だけ集積したデータ集合すなわち、特徴ベクトルが特徴
パターンとして扱われる。なお、予め、内容が判明して
いるジェスチャー動作を撮影して上述のデータ処理を行
うと、標準パターンとして使用可能な特徴ベクトルが得
られる。６４×６４個の２値化データを４×４個のデー
タに変換する処理を本実施の形態では空間的リダクショ
ンと呼んでおり、その処理内容が数２式により表されて
いる。

【００２２】請求項１の発明に加えて、請求項２の発明
では例えば、手をあげるジェスチャーを撮影した動画像
を逆方向に再生すると手を下げるジェスチャーになるこ
とに本願発明者は気がつき、標準パターンを構成する特
徴パターンの時刻毎の特徴データ（４×４）を時間の経
過方向と逆の方向に並べて、換言すると、標準パターン
の特徴データを逆の方向から認識対象の特徴パターンの
先頭の特徴データと比較していくと、手をあげるジェス
チャーの標準パターンにより手を下げるジェスチャーを
認識することができる。これにより従来は手を挙げるジ
ェスチャーと手を下げるジェスチャーの２つの標準パタ
ーンを用意しなければならないの対して、半分の標準パ
ターンを用意すればよいことになる。

【００２３】請求項３の発明では、標準パターンの中の
ある特定の時刻の特徴データの示すジェスチャーは動作
が停止したジェスチャーと同じなので、手を挙げて途中
で手を止め、しばらくしてから手を挙げるジェスチャー
をも認識できるようになる。

【００２４】請求項１、２の発明に関する処理は本実施
の形態の数１４式および数１５式により表され、図１０
に特徴データの比較順序が示されている。

【００２５】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。

【００２６】上述の問題点を改善すべく、図１に示すよ
うな特徴抽出法を提案する。網掛けの部分が従来法との
相違である。まず、時間差分画像の濃淡情報をそのまま
用いるのではなく、２値化処理により変化領域を求める
ことで問題２を解決し、さらに大幅な空間的リダクショ
ン（例：３×３）により問題１を解決する。

【００２７】式を用いて説明しよう。２値画像Ｉ
_b（ｉ，ｊ，ｔ）（０≦ｉ，ｊ＜Ｌ，０≦ｔ）は、入力
画像Ｉ（ｉ，ｊ，ｔ）から次のように求められる。

【００２８】

【数１】

【００２９】このとき、特徴ベクトルｆ（ｋ，ｖ，ｔ）
（０≧ｋ，ｖ＜Ｎ）は次のように定義する。

【００３０】

【数２】

【００３１】ここで、ｐとｑはともに整数、ｈ＝Ｌ／Ｎ
である。また、本手法により、１フレームあたりの計算
量を大幅に低減できる。例えば、空間的リダクションの
サイズを３×３とすると、特徴ベクトルの次元数が約１
／２５になり連続ＤＰでの計算量が概算で約１／２５に
なる。

【００３２】連続ＤＰによるスポッティング認識では、
初めに入力画像から特徴抽出を行い特徴ベクトルを求め
る。次に、この入力された特徴ベクトル列と、各ジェス
チャーに対応した標準パターンとを連続ＤＰでマッチン
グする。この標準パターンは、事前に標準動作を捕らえ
た画像列から入力画像と同様の特徴抽出法で作成した特
徴ベクトル列である。最後に、すべての標準パターンと
の連続ＤＰマッチングの結果を比較し、最も適合したも
のをその時点のマッチング結果として出力する。

【００３３】以下に、連続ＤＰによる特徴ベクトル列の
マッチング方法を具体的に示す。まず、一つの標準パタ
ーンＺは特徴ベクトルｚ_yの系列

【００３４】

【数３】

【００３５】で表す。ここで、特徴ベクトルｚ_yその次
元数をＮ²として

【００３６】

【数４】

【００３７】と表す。入力画像からも同様な特徴ベクト
ル系列が随時得られる。この特徴ベクトル系列をｕ
_t（０≦ｔ＜∞）とし、ｕ_tとｚ_yの局所距離ｄ（ｔ，
ｙ）を以下の式で定義する。

【００３８】

【数５】

【００３９】また、点（ｔ，ｙ）を終点とする標準パタ
ーンと入力系列との最適マッチングするときの累積距離
をＳ（ｔ，ｙ）で表す。

【００４０】このとき、連続ＤＰはＳ（ｔ，ｙ）を以下
のように定義する。

【００４１】

【数６】

【００４２】

【数７】

【００４３】

【数８】

【００４４】

【数９】

【００４５】で与える。ここで、時刻ｔにおいて動作が
終了したと仮定する、すなわち、ｙ＝Ｔとおくと、図２
のようにＳ（ｔ，Ｔ）は標準パターンの区間［１，Ｔ］
について入力時系列に最適に整合したときの累積距離を
表す。網掛けの領域はＣＤＰの検索領域であり、１／２
〜２倍の時間方向の伸縮があってもマッチング可能であ
る。

【００４６】この累積距離Ｓ（ｔ，Ｔ）を重みの和３・
Ｔで正規化したもの

【００４７】

【数１０】

【００４８】がその時刻での標準パターンに対する連続
ＤＰの出力値である。連続ＤＰはこの正規化操作によっ
て各標準パターンのフレーム数の違いを吸収する。

【００４９】さて、今Ｉ個の標準パターンがあると仮定
すると、各時刻ｔにおいてそれと同数のＡ（ｔ）が生成
される。これをＡ_v(t)（ｖ＝１，２，…，Ｉ）と表現す
ると、被験者があるジェスチャーをしたときのＡ
_v（ｔ）の理想的な値は図３に示すようになり、入力ジ
ェスチャーに対応するＡ_v（ｔ）だけが動作終了時付近
において極小になると期待される。故に、本手法では各
時刻におけるジェスチャーを表すカテゴリー番号を

【００５０】

【数１１】

【００５１】として定める。ここで、Ａｒｇは引数を返
す関数、ｈ_vは各ジェスチャーごとに定められたしきい
値、ｎｕｌｌは空のカテゴリーを表す。

【００５２】実験装置として、ＳＧＩ社のＩｎｄｙ（Ｒ
４４００２００ＭＨｚ）と、付属のＩｎｄｙＣｏｍと
いうカメラを用いた。実験は、オフィス内で椅子に座っ
た１人の被験者に対して行った。カメラの視野は被験者
のジェスチャーが適切に入るように設定した。また、照
明は建物の天井に設置されている蛍光灯のみを用いた。

【００５３】ＣＣＤカメラの出力映像をＡＤ変換して得
られる画像は、サイズ１６０×１２０、１画素２５６階
調のＲＧＢ画像であるが、認識には比較的輝度に強い影
響を与えるグリーン成分のみを用いた。この画像を空間
的リダクションしサイズ６４×６４の画像を特徴抽出部
への入力とした。

【００５４】実験に用いたジェスチャーは、（１）ばん
ざい（両手）、（２）バイバイ（右手）、（３）まる
（両手）、（４）手をたたく（両手）、（５）こちらへ
（右手）、（６）左へ（左手）、（７）右へ（右手）、
（８）いいえ（右手）の８種類である。これを、ジェス
チャーｖ（ｖ＝１，２，…，８）と表記する。図４に各
ジェスチャーのスナップショット、図５にジェスチャー
「バンザイ」の画像系列を示す。被験者は各動作を通常
のスピードで行い、画像は１５Ｈｚでサンプリングし
た。また、数１式の閾値ｈ_cはカメラの熱雑音を考慮し
１０とした。

【００５５】標準パターンｖ（ｖ＝１，２，…，８）
は、それぞれのジェスチャーを捕らえた画像系列から人
手でジェスチャー部分のみを切り出し作成した。この実
験で用いた標準パターンのフレーム長Ｔは１１から１５
であった。また、同じジェスチャーを２０回繰り返した
入力画像列ｖを作成した。次に、入力画像列ｖを認識シ
ステムに入力し、１位認識率と正解候補率を求めた。

【００５６】

【数１２】

【００５７】

【数１３】

【００５８】ここで、正答ジェスチャー数ｖは入力画像
列ｖ中の２０個のジェスチャーの内で正しく認識できた
ジェスチャー数である。また、３フレーム以上連続して
同じ認識結果になった場合に「検出」されたとした。

【００５９】ここで、特徴ベクトルの次元数（Ｎ×Ｎ）
のＮの最適な値を求めるため、Ｎ＝１，２，３，４，
５，７，１０，１６と変化させた。また、衣服および背
景の影響を調べるため、Ｓ１標準パターンの作成時と衣服および背景が等しい
場合Ｓ２標準パターンの作成時と衣服および背景の明るさ
がともに異なる場合を設定した（図６）。ここで、標準パターンはＳ１の場
合において作成し、しきい値ｈ_vはＳ１の場合の１位認
識率が極力大きくなるよう人手で設定した。Ｓ２にはこ
のＳ１で作成した標準パターンとしきい値を用いて認識
実験を行った。

【００６０】認識実験の結果を図７に示す。衣服と背景
が異なる場合（Ｓ２）でも、Ｎ＝３，４，５で約８０％
と高い１位認識率が得られたため、本手法が衣服と背景
の変化にロバストであることが示せた。計算量を考慮す
ると、Ｎが３のときに今回用いた８種類のジェスチャー
に対する最適な認識システムとなる。また、Ｎが７以上
で１位認識率が低下しているが、これはリダクションサ
イズが大き過ぎて動作の軌跡の変動を吸収できなかった
ためと考えられる。

【００６１】Ｉｎｄｙを１台を用い本手法を用い本手法
を用いた実時間ジェスチャー認識システムを作成した
（図８）。Ｎ＝３、サンプリングレートは１５Ｈｚであ
り、入力画像を実時間で表示、認識し結果を表示する。
実時間での認識実験を行った結果、衣服、背景が異なっ
ても約８割の認識率が得られた。

【００６２】人間のジェスチャーは、同一動作であって
も途中で戸惑ったり考えて止まったりすることがある。
ところが、標準パターン全体との距離を求める連続ＤＰ
では、このような躊躇した動作は認識できない。そこ
で、標準パターン中の部分区間を順方向だけでなく逆方
向や停止時でもマッチングできるようなNon-monotonic
連続ＤＰを提案する。

【００６３】連続ＤＰで用いた数３式、数４式、数５式
と同様な変数を定義する。このとき、Non-monotonic 連
続ＤＰは点（ｔ，ｖ）での累積距離Ｓ（ｔ，ｖ）を以下
のような漸化式で更新する。

【００６４】

【数１４】

【００６５】

【数１５】

【００６６】ここで、αは正規化係数（０≦α≦１）で
あり、式を簡単にするために、以下の２項を仮定した。

【００６７】（仮定１）標準パターンは、特徴ベクトル
の１次元系列で表現できる（本手法は、分岐のある場合
や２次元系列に拡張可能）。

【００６８】（仮定２）入力パターンの速度変化は、標
準パターンの１倍以下（仮定２）では、図９（ａ）のような傾斜パターンを採
用している。しかし、数１５式のｍの範囲を変化させれ
ば、入力パターンの速度変化に対して様々な制限を付加
できる（図９（ｂ）など）。

【００６９】数１４式、数１５式の漸化式を解くと次式
のようになる。

【００７０】

【数１６】

【００７１】ここでｐ（ｋ）は以下のように定義する。

【００７２】

【数１７】

【００７３】つまり、Non-monotonic 連続ＤＰは、点
（ｔ，ｙ）を終点として図１０の斜線領域内において最
小の累積距離となるマッチング経路を求めている。

【００７４】よく知られている「連続ＤＰ」では、終点
となる点は（ｔ，Ｔ）とされてきた。また、それへの最
適パスは（ｔ，ｙ）平面においてｔ，ｙについて単調に
増加するものとされてきた。これは、傾斜の取り方に依
っている。従って、「連続ＤＰ」はその最適パスの形式
においてmonotonic なものといえるものである。しか
し、Non-monotonic ＣＤＰでは、図９（ａ）のように
（ｔ，ｙ）において（ｔ−１，ｙ−１），（ｔ−１，
ｙ），（ｔ−１，ｙ＋１）の各点から局所最適パスがと
られ、図１０の実線のように（ｔ，ｙ）平面での最適パ
スがｙに関して単調に増加するものとはなっていない。
この意味により、ここで提案するものを「Non-monotoni
c 連続ＤＰ」と呼ぶこととする。

【００７５】また、数１５式のｄ（ｋ，ｐ（ｋ））に対
する重みをｗ（ｋ）とする、重みｗ（ｋ）の和は、

【００７６】

【数１８】

【００７７】となり、いかなるｔにおいても重みｗ
（ｋ）の和が１に正規化された累積距離が得られること
が分かる。これにより、各ｔにおいて点の集合｛（ｔ，
ｙ）｜１≦ｙ≦Ｔ｝における累積距離の集合｛Ｓ（ｔ，
ｙ）｜１≦ｙ≦Ｔ｝の中での比較が可能であり、また、
異なる標準パターンの最短累積距離の比較も可能とな
る。これは、数１５式の漸化式において、重みの和がα
＋（１−α）＝１になることからも、常に重みの和が正
規化がされていることが分かる（このことは、正規化係
数αが、時間的に変化する場合でも同様である）。

【００７８】重みｗ（ｋ）の値は、現時点に近いほど大
きくなり、特に、ｔがある程度大きい定常状態では、数
１６式は

【００７９】

【数１９】

【００８０】と簡略化できる。このとき、重み係数ｗ
（ｋ）の半値幅ｗ_1/2(α）を

【００８１】

【数２０】

【００８２】と定義するとき、

【００８３】

【数２１】

【００８４】と、半値幅ｗ_1/2(α）からαを決定でき
る。

【００８５】通常、入力される特徴ベクトルの変化が小
さい場合は、過去の履歴を多く持つ（ｗ_1/2(α）を大き
くする）方が良い。このためには、正規化係数αを、特
徴ベクトルの変化に比例するように時間的に変化させれ
ば可能である。一例として次のようにα（ｔ）を可変に
すればよい。

【００８６】

【数２２】

【００８７】ここで、ｕ'_tは入力される特徴ベクトルの
微分値、α₁，α₂は標準パターンの長さＴを考慮して
定めた定数である。

【００８８】ここで、標準パターンがＬ個存在すると
し、各パターンの累積距離をＳ_v（ｔ，ｙ）（１≦ｖ≦
Ｌ）、閾値をｈ_v、標準パターンのフレーム数をＴ_vと
する。Non-monotonic 連続ＤＰの出力は、マッチングし
た標準パターン番号ｖ^*（ｔ）とその標準パターン内で
マッチングしたフレーム番号（ｙ^*（ｔ））であり、

【００８９】

【数２３】

【００９０】と表せる。ここで、Ａｒｇは引数｛ｖ
（ｔ），ｙ（ｔ）｝を返す関数、ｎｕｌｌは空のカテゴ
リーを表す。この出力結果を一つの標準パターンに着目
して考えると、図１１のように点（ｔ，ｙ^*（ｔ））の
軌跡から様々な動作を認識できる。

【００９１】特徴抽出法において、時間差分ではなく背
景画像との差分を用い、Non-monotonic 連続ＤＰの効果
を調べた。ジェスチャーは、（１）ばんざい、（２）右
手を上げる、（３）左手を上げる、（４）右手を大きく
振る、（５）おぎじをする、の５種類とした。標準パタ
ーンは、これらのジェスチャーの片道のみを用いた。例
えば、（４）手を大きく振るでは左から右へ振り、さら
に右から左へ振ることが往復の運動であるが、標準パタ
ーンでは「左から右へ振る」部分のみを用いた。

【００９２】図１２に、次々にジェスチャーを行った結
果を示す。ジェスチャーの順序は、（２）右手を途中ま
で上げて少し下げ、再び大きく上げて降ろした、（３）
左手を大きく上げて降ろしてから少し上げた、（１）両
手を上まで上げ降ろした、（５）おじぎをした、（２）
右手を上げて下げた、（４）手を大きく左から右へ振
り、少し戻して右に振り切り左に戻した、（５）おじぎ
をした、（１）両手を上げて下げた、（２）右手を上げ
て下げた、である。この結果から、標準パターンの順方
向だけでなく逆方向の認識可能、停止可能、部分的なジ
ェスチャー検出可能、であることが示せた。従って、No
n-monotonic 連続ＤＰは、５種類のうちのどのジェスチ
ャーであるか、認識すると同時にマッチングした標準パ
ターン中のフレーム番号の変化から、さらに細かな動き
を検出できる可能性を示せた。

【００９３】さらに、Ｉｎｄｙを１台用い実時間認識シ
ステムを作成した。認識結果はジェスチャー名を赤色、
緑色、黄色で表示し、それぞれ、停止時、順方向時、逆
方向時とした。このシステムを用い、２個のジェスチャ
ーに重なりがある場合を調べた。ジェスチャー（２）右
手を上げると、（４）右手を大きく振るとは、右手を上
げきった状態が共通している。従って、この状態を認識
しようとすると混乱が生じるはずである。そこで、この
二つのジェスチャーを行い、右手を上げきった状態で停
止する実験を行った。過去の情報を多く用いない場合
（α＝０．３）は、すぐに混乱が生じた。しかし、過去
の情報を多く用いること（α＝０．０５）でしばらく
は、前の軌跡情報を維持できた。ただし、過去の情報を
多く用いることによって認識に時間遅れが生じるように
なった。

【００９４】そこで、数２２式で示したように、αを時
間的に変化させた。ここでは、入力画像の変化が大きい
とき（ジェスチャーの動きが激しいとき）には過去の情
報を少なくし、変化が小さい時には過去の情報を引きず
るようになっている。この結果、認識の時間遅れが小さ
くなり、また、混乱も生じなくなることが認識できた。

【００９５】以上述べたように本実施の形態では、入力
画像の大幅な時間的リダクションにより特徴抽出を行う
手法を提案し、８種類のジェスチャーを用いた評価実験
にて衣服と背景の明るさの変化に対してロバストである
ことを示した。また、リダクションサイズは３×３のと
き最適であることを示した。本手法を用いた実時間動作
認識システムでは８種類のジェスチャーに対して約８割
の認識率で認識できた。

【００９６】さらに、標準パターン中の部分区間の逆方
向や停止時の認識を実現するために、連続ＤＰの機能を
拡張した。

【００９７】Non-monotonic 連続ＤＰを提案し、評価実
験にて逆方向の認識可能、停止可能、部分的なジェスチ
ャー検出可能、であることを示した。

【００９８】今後の課題としては、（１）大幅リダクシ
ョン画像特徴を用いた連続ＤＰでは、ジェスチャー数を
増やし本手法の限界を見極めること、（２）Non-monoto
nic連続ＤＰでは、評価実験を行い認識率を求めること
が挙げられる。また、本手法では（１）原理的にジェス
チャーのスピード変化に対応不可能、（２）手のひらの
向きや微小な動きの違いを認識できない、という問題点
がある。そこで、本手法の高いロバスト性と少ない計算
量という特徴を生かしつつ、（１）空間的リダクション
時のメッシュの形状や大きさを場所によって変化させ
る、（２）原画像のエッジ情報の効率的な利用などによ
り本手法の改良を行い手話認識を狙いたいと考えてい
る。

【００９９】

【発明の効果】以上、説明したように、請求項１の発明
では、被写体の照明環境に変化生じても、認識精度を損
ねることはなく、また、特徴パターンおよび標準パター
ンのデータ量を減じることができるので、従来よりも認
識処理時間が向上するという効果が得られる。

【０１００】請求項２、３の発明によれば、１つの標準
パターンで、複数のジェスチャーを認識できるので、さ
らにジェスチャー認識性能を高めることが可能となる。

【図面の簡単な説明】

【図１】本発明の特徴パターンの抽出手順を示す説明図
である。

【図２】ＣＤＰのパス探索を説明するための説明図であ
る。

【図３】ＣＤＰ出力の変化を示す説明図である。

【図４】８種類のジェスチャ画像を模式的に示す説明図
である。

【図５】特徴ベクトルの作成に使用したジェスチャー画
像を模式的に示す説明図である。

【図６】ばんざいのジェスチャーのフレーム画像を模式
的に示す説明図である。

【図７】リダクションサイズＮと認識率を示す説明図で
ある。

【図８】ジェスチャー認識システムの外観を示す正面図
である。

【図９】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニッ
ク）連続ＤＰでの傾斜パターン例を示す説明図である。

【図１０】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニ
ック）連続ＤＰでのパスの」探索範囲を示す説明図であ
る。

【図１１】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニ
ック）連続ＤＰによるスポッティング認識方法を説明す
るための説明図である。

【図１２】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニ
ック）連続ＤＰによる認識結果を示す説明図である。

【図１３】特徴ベクトルを作成する手順を説明するため
の説明図である。

【図１４】特徴ベクトルを作成する手順を説明するため
の説明図である。

【符号の説明】

１ＩｎｐｕｔＩｍａｇｅ（入力イメージ）２ＴｅｍｐｏｒａｌＥｄｇｅ（テンポラルエッジ、
時間差分画像）３２値化画像４空間リダクションを施した特徴データ

Claims

【特許請求の範囲】

【請求項１】撮像装置により被写体のジェスチャーを
撮像し、撮像装置から各時刻毎に得られる多値の画像デ
ータＩ（ｉ，ｊ，ｔ）、ここで、ｉ、ｊは１画面の横、
縦の画素位置で、ｔは時刻、から特徴パターンを情報処
理装置により抽出し、当該抽出した特徴パターンをジェ
スチャー内容が規定されている標準パターンと前記情報
処理装置により比較することによりジェスチャー認識す
るジェスチャー認識方法において、前記情報処理装置は、前記画像データＩ（ｉ，ｊ，ｔ）と前の時刻の画像デー
タＩ（ｉ，ｊ，ｔ−１）との間の時間差分画像を取得
し、当該取得した時間差分画像データを２値化して、ビット
“１”およびビット“０”の画像データで表される２値
化画像を取得し、当該２値化した画像データの集合を複数の升目に分割
し、当該分割した升目個々に含まれるビット“１”およびビ
ット“０”のいずれかのビット値の個数を取得し、当該取得した個数を前記升目位置と時間ｔに関連づけた
特徴ベクトルｆ（ｋ，ｖ，ｔ）、ここでｋ、ｖは横、縦
の升目位置、を前記特徴パターンまたは前記標準パター
ンとすることを特徴とするジェスチャー認識方法。
【請求項２】前記標準パターンを構成する特徴ベクト
ルを時間経過の逆の方向から並べた逆動作の標準パター
ンを想定し、該逆動作の標準パターンと前記特徴パター
ンとを比較してジェスチャー認識することを特徴とする
ジェスチャー認識方法。
【請求項３】請求項１に記載のジェスチャー認識方法
において、前記標準パターンを構成する特徴ベクトルの
中のある時間の特徴ベクトルを停止動作のパターンとみ
なし、該停止動作のパターンと前記特徴パターンとを比
較してジェスチャー認識することを特徴とするジェスチ
ャー認識方法。