JP3607440B2

JP3607440B2 - ジェスチャー認識方法

Info

Publication number: JP3607440B2
Application number: JP32283796A
Authority: JP
Inventors: 拓一西村; 嶐一岡
Original assignee: NEC Corp; Sharp Corp
Current assignee: NEC Corp; Sharp Corp
Priority date: 1996-12-03
Filing date: 1996-12-03
Publication date: 2005-01-05
Anticipated expiration: 2016-12-03
Also published as: JPH10162151A

Description

【０００１】
【発明の属する技術分野】
本発明は、ビデオカメラで撮影したジェスチャー映像からそのジェスチャーの意味内容をコンピュータにより認識するためのジェスチャー認識方法に関する。
【０００２】
【従来の技術】
人間のジェスチャー動作を認識する技術は、柔軟なＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅＳｙｓｔｅｍを構築する上で重要である。特に、我々は動作者にデータグルーブ等の接触型センサやマーカーを装着させることなく、人間の動作を捉えた動画像を用いたジェスチャー認識を試みている（参考文献８）。
【０００３】
すでに動画像理解を目指した多くの研究がなされている。大和ら（参考文献２）は、テニスプレーヤーのスイング動作を対象として、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いた動作認識法を提案している。この方法では、動作モデルの学習が可能であるが、動作を行っている時間区間のセグメンテーションを人手で行う必要がある。また、Ｄａｒｒｅｌｌら（参考文献３）は手のひらの動きをその見え方の遷移系列で表し、観測された見え方系列と動作モデルとの対応付けをＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇで行うことで複数のジェスチャーを認識した。しかし、入力画像の背景が無地である必要が有り、また、動作区間の時間的セグメンテーションの方法が示されていない。また、石井ら（参考文献４）は、カラー画像処理とステレオマッチングにより手や顔などの肌色部分の３次元位置を求め、その移動量を計測している。また、長屋ら（参考文献５，６）は、動作者の位置や人数に関わらずジェスチャー認識可能な手法を提案している。しかし、専用の画像処理装置を用いている石井らやＤａｒｒｅｌｌらのシステムでもビデオレートでの動作認識は実現されていない。
【０００４】
そこで我々は、スポッティング認識手法を用いるという前提で以下のような仮定を行い、ジェスチャー区間の時間的セグメンテーション問題の解決と認識のリアルタイム性に重点を置いた動作認識法を提案した（参考文献８）。
【０００５】
仮定１カメラ視野中の人物は一人、人物位置も固定従って、複数の動作者の動作を認識させるためには、人物の切り出しが必要となる。
【０００６】
仮定２認識対象は、動作の大きなジェスチャー手の平の向きや形などの細かい動きは認識対象としない。
【０００７】
スポッティング認識手法は、時系列パターンの判別とその時間区間セグメンテーションを同時に行う。従って、動作者に動作の開始や終了を意識させないインタフェースを実現することができる。我々は、音声認識の分野で提案した連続ＤＰ（ＣｏｎｔｉｎｉｏｕｓＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）（参考文献７）によりこのスポッティング認識を実現した。連続ＤＰは、フレームワイズ、すなわち入力画像フレームに同期して認識結果を生成するため、動作を時々刻々と認識することができる。佐川ら（参考文献１）は、この連続ＤＰを改良した圧縮連続ＤＰを開発し、データグローブからの情報を用いて６２０語という大語彙において１位認識率９８．７％という高い認識率を達成している。我々は、この結果からも連続ＤＰに期待できると考えている。
【０００８】
特徴抽出法においては、先の提案（参考文献８）にて時空間エッジ画像の空間的リダクションにより特徴ベクトルを用いることでロバスト性向上を目指した。しかし、この特徴抽出法において、特徴ベクトルの次元（リダクション画像のサイズ）が１６×１６と多いため、連続ＤＰでの計算負荷が大きいだけでなく動作の軌跡の変化にも弱いなどの問題があった。そこで、特徴ベクトルの次元を大幅に小さくする（例：３×３）などによりこの問題を解決する特徴抽出法を提案し、本手法を用いた連続ＤＰによる実時間動作認識システムを実現する。さらに、３節にて標準パターン中の部分動作の認識を実現するために、連続ＤＰの機能を拡張したＮｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰを提案し、評価実験にてその有効性を示す。
【０００９】
参考文献
（１）佐川浩彦、酒匂裕、大平栄三、崎山朝子、阿部正博：“圧縮連続ＤＰ照合を用いた手話認識方式”，信学論（Ｄ−ＩＩ），Ｊ７７−Ｄ−ＩＩ，４，ｐｐ．７５３−７６３（１９９４−０４）
（２）Ｊ．Ｙａｍａｙｏ，Ｊ．Ｏｈｙａ，Ｋ．Ｉｓｈｉｉ： ”ＲｅｃｏｇｎｉｚｉｎｇＨｕｍａｎＡｃｔｉｏｎｉｎＴｉｍｅ−ＳｅｑｕｅｎｔｉａｌＩｍａｇｅｓＵｓｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ” ，Ｐｒｏｃ．ＣＶＰＲ，ｐｐ．３７９−３８５，１９９２
（３）Ｔ．Ｊ．ＤａｒｅｌｌａｎｄＡ．Ｐ．Ｐｅｎｔｌａｎｄ： ”Ｓｐａｃｅ−ＴｉｍｅＧｅｓ−ｔｕｒｅｓ”，Ｐｒｏｃ．ＩＪＣＡＩ’９３ＬｏｏｋｉｎｇａｔＰｅｏｐｌｅＷｏｗｋｓｈｏｐ（Ａｕｇ．１９９３）（４）Ｈ．Ｉｓｈｉｉ，Ｋ．ＭｏｃｈｉｚｕｋｉａｎｄＦ．Ｋｉｓｈｉｎｏ， ”ＡＭｏｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎＭｅｔｈｏｄｆｒｏｍＳｔｅｒｅｏＩｍａｇｅｓｆｏｒＨｕｍａｎＩｍａｇｅＳｙｓｔｈｅｓｉｓ”，ＴｈｅＴｒａｎｓ．ｏｆｔｈｅＥＩＣ，Ｊ７６−Ｄ−ＩＩ，８，ｐｐ．１８０５−１８１２，（１９９３−０８）（５）長屋茂喜、関進、岡隆一：多重解像度特徴によるジェスチャ認識，信学技報，ＰＲＵ９５−９９，ｐｐ．１２１−１２６
（６）長屋茂喜、関進、岡隆一：ジェスチャー認識のための動作軌跡特徴の提案，信学技報，ＮＬＣ９５−３７，ＰＲＵ９５−１４２，ｐｐ．４５−５０
（７）岡隆一、“連続ＤＰを用いた連続音声認識”，音響学会音声研資料，Ｓ７８−２０，ｐｐ．１４５−１５２（１９７８−０６）
（８）高橋勝彦、関進、小島浩、岡隆一：ジェスチャー動画像のスポッティング認識，信学論（Ｄ−ＩＩ），Ｊ７７−Ｄ−ＩＩ，８，ｐｐ．１５５２−１５６１（１９９４）
我々は、特徴抽出法において、時空間エッジの中で時間方向のエッジの有効性を評価実験により確認している（参考文献８）。さらに、この時空間エッジ情報の内で時間方向のエッジ情報が最も有効であることを示した。従って、本報告では時間方向のエッジ情報のみに着目することとする。
【００１０】
従来法では、初めにサイズが６４×６４の入力画像の時間差分画像を求める。次に、空間的リダクションによりサイズを１６×１６にし、時間方向に３フレーム分平均化する。最後に、すべてのピクセル値の対数を求めて、これを１６×１６次元の特徴ベクトルとして連続ＤＰへの入力とする。しかし、この特徴抽出法において、
問題１リダクション画像のサイズが１６×１６と大きいため、動作の軌跡の変化に弱い。
【００１１】
問題２時間方向のエッジの濃淡値を用いるため、衣服と背景の明るさの変化に弱い。
【００１２】
という問題があった。通常、日常用いられる人物動作の空間的な軌跡は、多少の位置変動があっても同一と見なせる場合が多い。従って、リダクションサイズが大きく１画素あたりの視野が狭いと、この動作軌跡の変動を吸収しきれなくなり問題１が生じる。また、時間差分画像の濃淡値は、人物と背景の明るさの違いである。従って、この濃淡値をそのまま用いる従来法では、原理的に人物と背景の明るさの変化によって大きな影響を受ける。前回の報告（参考文献８）では衣服と背景を変化させて評価実験を行っているが、明るさの変化が小さかったために問題２は生じていなかったと思われる。
【００１３】
【発明が解決しようとする課題】
このため、従来のジェスチャー認識方法は、認識対象の被写体の照明環境が変わるとジェスチャーの認識精度が下がるという解決すべき課題があった。
【００１４】
なお、照明変化に対処するにはシェーディング補正のような複雑な画像処理方法も知られているが、ジェスチャー認識のように動画像を取り扱う場合に複雑な画像処理が増えることは認識処理時間が長くなり、好ましくない。
【００１５】
そこで、本発明の目的は、ジェスチャー認識処理時間を長くすることなく照明変化の影響を受けないジェスチャー認識方法を提供することにある。
【００１６】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、撮像装置により被写体のジェスチャーを撮像し、撮像装置から各時刻毎に得られる多値の画像データＩ（ｉ，ｊ，ｔ）、ここで、ｉ、ｊは１画面の横、縦の画素位置で、ｔは時刻、から特徴パターンを情報処理装置により抽出し、当該抽出した特徴パターンをジェスチャー内容が規定されている標準パターンと前記情報処理装置により比較することによりジェスチャー認識するジェスチャー認識方法において、前記情報処理装置は、前記画像データＩ（ｉ，ｊ，ｔ）と前の時刻の画像データＩ（ｉ，ｊ，ｔ−１）との間の時間差分画像を取得し、当該取得した時間差分画像データを２値化して、ビット“１”およびビット“０”の画像データで表される２値化画像を取得し、当該２値化した画像データの集合を複数の升目に分割し、当該分割した升目個々に含まれるビット“１”およびビット“０”のいずれかのビット値の個数を取得し、当該取得した個数を前記升目位置と時間ｔに関連づけた特徴ベクトルｆ（ｋ，ｖ，ｔ）、ここでｋ、ｖは横、縦の升目位置、を前記特徴パターンまたは前記標準パターンとすることを特徴とする。
【００１７】
請求項２の発明は、前記標準パターンを構成する特徴ベクトルを時間経過の逆の方向から並べた逆動作の標準パターンを想定し、該逆動作の標準パターンと前記特徴パターンとを比較してジェスチャー認識することを特徴とする。
【００１８】
請求項３の発明は、請求項１に記載のジェスチャー認識方法において、前記標準パターンを構成する特徴ベクトルの中のある時間の特徴ベクトルを停止動作のパターンとみなし、該停止動作のパターンと前記特徴パターンとを比較してジェスチャー認識することを特徴とする。
【００１９】
請求項１の発明では、１画面が６４×６４画素で構成される撮像装置により１画素２５６階調の輝度データが得られると仮定すると、ある時刻ｔ−１には図１３（ａ）に示すような６４×６４画素の画像データが得られる。次の時刻ｔにも同様の画像データが得られる。時刻ｔ−１と時刻ｔの画像データの差分画像、すなわち、同一位置の輝度データの差分値を計算し、その差分値を画素位置に対応させて配列すると図１３（ｂ）のようなデータとなる。被写体の背景およびジェスチャーをしている身体部分以外は動かないので、隣接する時刻で得られる背景の輝度データはほぼ同じ値となる。加えて、隣接する画素位置では身体の輪郭線部分以外は同じ値となるので、時間差分画像を取得することによって静止部分の画像および隣接画素位置の同じ値の画像データ成分が除去される。
【００２０】
ジェスチャーを行っている身体分については撮像位置が異なるので、同一位置での差分値は大きい値となる。その輪郭線画像部分は特に大きな値となる。
【００２１】
この点に着目して、照明の変化による画像データの時系列的な変化分を吸収し、ジェスチャーを行っている身体の画像を強調するために２値化を行う。これにより、照明変化が生じても静止画像部分はビット“０”、ジェスチャー画像部分はビット“１”で表される時刻ｔでの特徴パターンのデータ集合（６４×６４画素に対応）が得られる。このデータ集合を例えば、１６画素×１６画素を図１４の（ａ）に示すような１つの升目とする４×４の升目に分割する。各升目のビット“１”の個数を計数し、計数結果を升目の位置に対応付けると図１４の（ｂ）に示すようなデータ集合が得られる。このような処理を行うことによりジェスチャー画像の特徴を損ねることなく６４×６４個の画像データ集合からジェスチャー画像の特徴を示す時刻ｔの４×４個のデータ集合が得られる。このデータ集合をある時間範囲だけ集積したデータ集合すなわち、特徴ベクトルが特徴パターンとして扱われる。なお、予め、内容が判明しているジェスチャー動作を撮影して上述のデータ処理を行うと、標準パターンとして使用可能な特徴ベクトルが得られる。６４×６４個の２値化データを４×４個のデータに変換する処理を本実施の形態では空間的リダクションと呼んでおり、その処理内容が数２式により表されている。
【００２２】
請求項１の発明に加えて、請求項２の発明では例えば、手をあげるジェスチャーを撮影した動画像を逆方向に再生すると手を下げるジェスチャーになることに本願発明者は気がつき、標準パターンを構成する特徴パターンの時刻毎の特徴データ（４×４）を時間の経過方向と逆の方向に並べて、換言すると、標準パターンの特徴データを逆の方向から認識対象の特徴パターンの先頭の特徴データと比較していくと、手をあげるジェスチャーの標準パターンにより手を下げるジェスチャーを認識することができる。これにより従来は手を挙げるジェスチャーと手を下げるジェスチャーの２つの標準パターンを用意しなければならないの対して、半分の標準パターンを用意すればよいことになる。
【００２３】
請求項３の発明では、標準パターンの中のある特定の時刻の特徴データの示すジェスチャーは動作が停止したジェスチャーと同じなので、手を挙げて途中で手を止め、しばらくしてから手を挙げるジェスチャーをも認識できるようになる。
【００２４】
請求項１、２の発明に関する処理は本実施の形態の数１４式および数１５式により表され、図１０に特徴データの比較順序が示されている。
【００２５】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【００２６】
上述の問題点を改善すべく、図１に示すような特徴抽出法を提案する。網掛けの部分が従来法との相違である。まず、時間差分画像の濃淡情報をそのまま用いるのではなく、２値化処理により変化領域を求めることで問題２を解決し、さらに大幅な空間的リダクション（例：３×３）により問題１を解決する。
【００２７】
式を用いて説明しよう。２値画像Ｉ_ｂ（ｉ，ｊ，ｔ）（０≦ｉ，ｊ＜Ｌ，０≦ｔ）は、入力画像Ｉ（ｉ，ｊ，ｔ）から次のように求められる。
【００２８】
【数１】

【００２９】
このとき、特徴ベクトルｆ（ｋ，ｖ，ｔ）（０≧ｋ，ｖ＜Ｎ）は次のように定義する。
【００３０】
【数２】

【００３１】
ここで、ｐとｑはともに整数、ｈ＝Ｌ／Ｎである。また、本手法により、１フレームあたりの計算量を大幅に低減できる。例えば、空間的リダクションのサイズを３×３とすると、特徴ベクトルの次元数が約１／２５になり連続ＤＰでの計算量が概算で約１／２５になる。
【００３２】
連続ＤＰによるスポッティング認識では、初めに入力画像から特徴抽出を行い特徴ベクトルを求める。次に、この入力された特徴ベクトル列と、各ジェスチャーに対応した標準パターンとを連続ＤＰでマッチングする。この標準パターンは、事前に標準動作を捕らえた画像列から入力画像と同様の特徴抽出法で作成した特徴ベクトル列である。最後に、すべての標準パターンとの連続ＤＰマッチングの結果を比較し、最も適合したものをその時点のマッチング結果として出力する。
【００３３】
以下に、連続ＤＰによる特徴ベクトル列のマッチング方法を具体的に示す。まず、一つの標準パターンＺは特徴ベクトルｚ_ｙの系列
【００３４】
【数３】

【００３５】
で表す。ここで、特徴ベクトルｚ_ｙその次元数をＮ^２として
【００３６】
【数４】

【００３７】
と表す。入力画像からも同様な特徴ベクトル系列が随時得られる。この特徴ベクトル系列をｕ_ｔ（０≦ｔ＜∞）とし、ｕ_ｔとｚ_ｙの局所距離ｄ（ｔ，ｙ）を以下の式で定義する。
【００３８】
【数５】

【００３９】
また、点（ｔ，ｙ）を終点とする標準パターンと入力系列との最適マッチングするときの累積距離をＳ（ｔ，ｙ）で表す。
【００４０】
このとき、連続ＤＰはＳ（ｔ，ｙ）を以下のように定義する。
【００４１】
【数６】

【００４２】
【数７】

【００４３】
【数８】

【００４４】
【数９】

【００４５】
で与える。ここで、時刻ｔにおいて動作が終了したと仮定する、すなわち、ｙ＝Ｔとおくと、図２のようにＳ（ｔ，Ｔ）は標準パターンの区間［１，Ｔ］について入力時系列に最適に整合したときの累積距離を表す。網掛けの領域はＣＤＰの検索領域であり、１／２〜２倍の時間方向の伸縮があってもマッチング可能である。
【００４６】
この累積距離Ｓ（ｔ，Ｔ）を重みの和３・Ｔで正規化したもの
【００４７】
【数１０】

【００４８】
がその時刻での標準パターンに対する連続ＤＰの出力値である。連続ＤＰはこの正規化操作によって各標準パターンのフレーム数の違いを吸収する。
【００４９】
さて、今Ｉ個の標準パターンがあると仮定すると、各時刻ｔにおいてそれと同数のＡ（ｔ）が生成される。これをＡ_ｖ（ｔ）（ｖ＝１，２，…，Ｉ）と表現すると、被験者があるジェスチャーをしたときのＡ_ｖ（ｔ）の理想的な値は図３に示すようになり、入力ジェスチャーに対応するＡ_ｖ（ｔ）だけが動作終了時付近において極小になると期待される。故に、本手法では各時刻におけるジェスチャーを表すカテゴリー番号を
【００５０】
【数１１】

【００５１】
として定める。ここで、Ａｒｇは引数を返す関数、ｈ_ｖは各ジェスチャーごとに定められたしきい値、ｎｕｌｌは空のカテゴリーを表す。
【００５２】
実験装置として、ＳＧＩ社のＩｎｄｙ（Ｒ４４００２００ＭＨｚ）と、付属のＩｎｄｙＣｏｍというカメラを用いた。実験は、オフィス内で椅子に座った１人の被験者に対して行った。カメラの視野は被験者のジェスチャーが適切に入るように設定した。また、照明は建物の天井に設置されている蛍光灯のみを用いた。
【００５３】
ＣＣＤカメラの出力映像をＡＤ変換して得られる画像は、サイズ１６０×１２０、１画素２５６階調のＲＧＢ画像であるが、認識には比較的輝度に強い影響を与えるグリーン成分のみを用いた。この画像を空間的リダクションしサイズ６４×６４の画像を特徴抽出部への入力とした。
【００５４】
実験に用いたジェスチャーは、（１）ばんざい（両手）、（２）バイバイ（右手）、（３）まる（両手）、（４）手をたたく（両手）、（５）こちらへ（右手）、（６）左へ（左手）、（７）右へ（右手）、（８）いいえ（右手）の８種類である。これを、ジェスチャーｖ（ｖ＝１，２，…，８）と表記する。図４に各ジェスチャーのスナップショット、図５にジェスチャー「バンザイ」の画像系列を示す。被験者は各動作を通常のスピードで行い、画像は１５Ｈｚでサンプリングした。また、数１式の閾値ｈ_ｃはカメラの熱雑音を考慮し１０とした。
【００５５】
標準パターンｖ（ｖ＝１，２，…，８）は、それぞれのジェスチャーを捕らえた画像系列から人手でジェスチャー部分のみを切り出し作成した。この実験で用いた標準パターンのフレーム長Ｔは１１から１５であった。また、同じジェスチャーを２０回繰り返した入力画像列ｖを作成した。次に、入力画像列ｖを認識システムに入力し、１位認識率と正解候補率を求めた。
【００５６】
【数１２】

【００５７】
【数１３】

【００５８】
ここで、正答ジェスチャー数ｖは入力画像列ｖ中の２０個のジェスチャーの内で正しく認識できたジェスチャー数である。また、３フレーム以上連続して同じ認識結果になった場合に「検出」されたとした。
【００５９】
ここで、特徴ベクトルの次元数（Ｎ×Ｎ）のＮの最適な値を求めるため、Ｎ＝１，２，３，４，５，７，１０，１６と変化させた。また、衣服および背景の影響を調べるため、
Ｓ１標準パターンの作成時と衣服および背景が等しい場合
Ｓ２標準パターンの作成時と衣服および背景の明るさがともに異なる場合
を設定した（図６）。ここで、標準パターンはＳ１の場合において作成し、しきい値ｈ_ｖはＳ１の場合の１位認識率が極力大きくなるよう人手で設定した。Ｓ２にはこのＳ１で作成した標準パターンとしきい値を用いて認識実験を行った。
【００６０】
認識実験の結果を図７に示す。衣服と背景が異なる場合（Ｓ２）でも、Ｎ＝３，４，５で約８０％と高い１位認識率が得られたため、本手法が衣服と背景の変化にロバストであることが示せた。計算量を考慮すると、Ｎが３のときに今回用いた８種類のジェスチャーに対する最適な認識システムとなる。また、Ｎが７以上で１位認識率が低下しているが、これはリダクションサイズが大き過ぎて動作の軌跡の変動を吸収できなかったためと考えられる。
【００６１】
Ｉｎｄｙを１台を用い本手法を用い本手法を用いた実時間ジェスチャー認識システムを作成した（図８）。Ｎ＝３、サンプリングレートは１５Ｈｚであり、入力画像を実時間で表示、認識し結果を表示する。実時間での認識実験を行った結果、衣服、背景が異なっても約８割の認識率が得られた。
【００６２】
人間のジェスチャーは、同一動作であっても途中で戸惑ったり考えて止まったりすることがある。ところが、標準パターン全体との距離を求める連続ＤＰでは、このような躊躇した動作は認識できない。そこで、標準パターン中の部分区間を順方向だけでなく逆方向や停止時でもマッチングできるようなＮｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰを提案する。
【００６３】
連続ＤＰで用いた数３式、数４式、数５式と同様な変数を定義する。このとき、Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰは点（ｔ，ｖ）での累積距離Ｓ（ｔ，ｖ）を以下のような漸化式で更新する。
【００６４】
【数１４】

【００６５】
【数１５】

【００６６】
ここで、αは正規化係数（０≦α≦１）であり、式を簡単にするために、以下の２項を仮定した。
【００６７】
（仮定１）標準パターンは、特徴ベクトルの１次元系列で表現できる（本手法は、分岐のある場合や２次元系列に拡張可能）。
【００６８】
（仮定２）入力パターンの速度変化は、標準パターンの１倍以下
（仮定２）では、図９（ａ）のような傾斜パターンを採用している。しかし、数１５式のｍの範囲を変化させれば、入力パターンの速度変化に対して様々な制限を付加できる（図９（ｂ）など）。
【００６９】
数１４式、数１５式の漸化式を解くと次式のようになる。
【００７０】
【数１６】

【００７１】
ここでｐ（ｋ）は以下のように定義する。
【００７２】
【数１７】

【００７３】
つまり、Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰは、点（ｔ，ｙ）を終点として図１０の斜線領域内において最小の累積距離となるマッチング経路を求めている。
【００７４】
よく知られている「連続ＤＰ」では、終点となる点は（ｔ，Ｔ）とされてきた。また、それへの最適パスは（ｔ，ｙ）平面においてｔ，ｙについて単調に増加するものとされてきた。これは、傾斜の取り方に依っている。従って、「連続ＤＰ」はその最適パスの形式においてｍｏｎｏｔｏｎｉｃなものといえるものである。しかし、Ｎｏｎ−ｍｏｎｏｔｏｎｉｃＣＤＰでは、図９（ａ）のように（ｔ，ｙ）において（ｔ−１，ｙ−１），（ｔ−１，ｙ），（ｔ−１，ｙ＋１）の各点から局所最適パスがとられ、図１０の実線のように（ｔ，ｙ）平面での最適パスがｙに関して単調に増加するものとはなっていない。この意味により、ここで提案するものを「Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰ」と呼ぶこととする。
【００７５】
また、数１５式のｄ（ｋ，ｐ（ｋ））に対する重みをｗ（ｋ）とする、重みｗ（ｋ）の和は、
【００７６】
【数１８】

【００７７】
となり、いかなるｔにおいても重みｗ（ｋ）の和が１に正規化された累積距離が得られることが分かる。これにより、各ｔにおいて点の集合｛（ｔ，ｙ）｜１≦ｙ≦Ｔ｝における累積距離の集合｛Ｓ（ｔ，ｙ）｜１≦ｙ≦Ｔ｝の中での比較が可能であり、また、異なる標準パターンの最短累積距離の比較も可能となる。これは、数１５式の漸化式において、重みの和がα＋（１−α）＝１になることからも、常に重みの和が正規化がされていることが分かる（このことは、正規化係数αが、時間的に変化する場合でも同様である）。
【００７８】
重みｗ（ｋ）の値は、現時点に近いほど大きくなり、特に、ｔがある程度大きい定常状態では、数１６式は
【００７９】
【数１９】

【００８０】
と簡略化できる。このとき、重み係数ｗ（ｋ）の半値幅ｗ_１／２（α）を
【００８１】
【数２０】

【００８２】
と定義するとき、
【００８３】
【数２１】

【００８４】
と、半値幅ｗ_１／２（α）からαを決定できる。
【００８５】
通常、入力される特徴ベクトルの変化が小さい場合は、過去の履歴を多く持つ（ｗ_１／２（α）を大きくする）方が良い。このためには、正規化係数αを、特徴ベクトルの変化に比例するように時間的に変化させれば可能である。一例として次のようにα（ｔ）を可変にすればよい。
【００８６】
【数２２】

【００８７】
ここで、ｕ’_ｔは入力される特徴ベクトルの微分値、α_１，α_２は標準パターンの長さＴを考慮して定めた定数である。
【００８８】
ここで、標準パターンがＬ個存在するとし、各パターンの累積距離をＳ_ｖ（ｔ，ｙ）（１≦ｖ≦Ｌ）、閾値をｈ_ｖ、標準パターンのフレーム数をＴ_ｖとする。Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰの出力は、マッチングした標準パターン番号ｖ^＊（ｔ）とその標準パターン内でマッチングしたフレーム番号（ｙ^＊（ｔ））であり、
【００８９】
【数２３】

【００９０】
と表せる。ここで、Ａｒｇは引数｛ｖ（ｔ），ｙ（ｔ）｝を返す関数、ｎｕｌｌは空のカテゴリーを表す。この出力結果を一つの標準パターンに着目して考えると、図１１のように点（ｔ，ｙ^＊（ｔ））の軌跡から様々な動作を認識できる。
【００９１】
特徴抽出法において、時間差分ではなく背景画像との差分を用い、Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰの効果を調べた。ジェスチャーは、（１）ばんざい、（２）右手を上げる、（３）左手を上げる、（４）右手を大きく振る、（５）おぎじをする、の５種類とした。標準パターンは、これらのジェスチャーの片道のみを用いた。例えば、（４）手を大きく振るでは左から右へ振り、さらに右から左へ振ることが往復の運動であるが、標準パターンでは「左から右へ振る」部分のみを用いた。
【００９２】
図１２に、次々にジェスチャーを行った結果を示す。ジェスチャーの順序は、（２）右手を途中まで上げて少し下げ、再び大きく上げて降ろした、（３）左手を大きく上げて降ろしてから少し上げた、（１）両手を上まで上げ降ろした、（５）おじぎをした、（２）右手を上げて下げた、（４）手を大きく左から右へ振り、少し戻して右に振り切り左に戻した、（５）おじぎをした、（１）両手を上げて下げた、（２）右手を上げて下げた、である。この結果から、標準パターンの順方向だけでなく逆方向の認識可能、停止可能、部分的なジェスチャー検出可能、であることが示せた。従って、Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰは、５種類のうちのどのジェスチャーであるか、認識すると同時にマッチングした標準パターン中のフレーム番号の変化から、さらに細かな動きを検出できる可能性を示せた。
【００９３】
さらに、Ｉｎｄｙを１台用い実時間認識システムを作成した。認識結果はジェスチャー名を赤色、緑色、黄色で表示し、それぞれ、停止時、順方向時、逆方向時とした。このシステムを用い、２個のジェスチャーに重なりがある場合を調べた。ジェスチャー（２）右手を上げると、（４）右手を大きく振るとは、右手を上げきった状態が共通している。従って、この状態を認識しようとすると混乱が生じるはずである。そこで、この二つのジェスチャーを行い、右手を上げきった状態で停止する実験を行った。過去の情報を多く用いない場合（α＝０．３）は、すぐに混乱が生じた。しかし、過去の情報を多く用いること（α＝０．０５）でしばらくは、前の軌跡情報を維持できた。ただし、過去の情報を多く用いることによって認識に時間遅れが生じるようになった。
【００９４】
そこで、数２２式で示したように、αを時間的に変化させた。ここでは、入力画像の変化が大きいとき（ジェスチャーの動きが激しいとき）には過去の情報を少なくし、変化が小さい時には過去の情報を引きずるようになっている。この結果、認識の時間遅れが小さくなり、また、混乱も生じなくなることが認識できた。
【００９５】
以上述べたように本実施の形態では、入力画像の大幅な時間的リダクションにより特徴抽出を行う手法を提案し、８種類のジェスチャーを用いた評価実験にて衣服と背景の明るさの変化に対してロバストであることを示した。また、リダクションサイズは３×３のとき最適であることを示した。本手法を用いた実時間動作認識システムでは８種類のジェスチャーに対して約８割の認識率で認識できた。
【００９６】
さらに、標準パターン中の部分区間の逆方向や停止時の認識を実現するために、連続ＤＰの機能を拡張した。
【００９７】
Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰを提案し、評価実験にて逆方向の認識可能、停止可能、部分的なジェスチャー検出可能、であることを示した。
【００９８】
今後の課題としては、（１）大幅リダクション画像特徴を用いた連続ＤＰでは、ジェスチャー数を増やし本手法の限界を見極めること、（２）Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ連続ＤＰでは、評価実験を行い認識率を求めることが挙げられる。また、本手法では（１）原理的にジェスチャーのスピード変化に対応不可能、（２）手のひらの向きや微小な動きの違いを認識できない、という問題点がある。そこで、本手法の高いロバスト性と少ない計算量という特徴を生かしつつ、（１）空間的リダクション時のメッシュの形状や大きさを場所によって変化させる、（２）原画像のエッジ情報の効率的な利用などにより本手法の改良を行い手話認識を狙いたいと考えている。
【００９９】
【発明の効果】
以上、説明したように、請求項１の発明では、被写体の照明環境に変化生じても、認識精度を損ねることはなく、また、特徴パターンおよび標準パターンのデータ量を減じることができるので、従来よりも認識処理時間が向上するという効果が得られる。
【０１００】
請求項２、３の発明によれば、１つの標準パターンで、複数のジェスチャーを認識できるので、さらにジェスチャー認識性能を高めることが可能となる。
【図面の簡単な説明】
【図１】本発明の特徴パターンの抽出手順を示す説明図である。
【図２】ＣＤＰのパス探索を説明するための説明図である。
【図３】ＣＤＰ出力の変化を示す説明図である。
【図４】８種類のジェスチャ画像を模式的に示す説明図である。
【図５】特徴ベクトルの作成に使用したジェスチャー画像を模式的に示す説明図である。
【図６】ばんざいのジェスチャーのフレーム画像を模式的に示す説明図である。
【図７】リダクションサイズＮと認識率を示す説明図である。
【図８】ジェスチャー認識システムの外観を示す正面図である。
【図９】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニック）連続ＤＰでの傾斜パターン例を示す説明図である。
【図１０】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニック）連続ＤＰでのパスの」探索範囲を示す説明図である。
【図１１】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニック）連続ＤＰによるスポッティング認識方法を説明するための説明図である。
【図１２】Ｎｏｎ−ｍｏｎｏｔｏｎｉｃ（ノンモノトニック）連続ＤＰによる認識結果を示す説明図である。
【図１３】特徴ベクトルを作成する手順を説明するための説明図である。
【図１４】特徴ベクトルを作成する手順を説明するための説明図である。
【符号の説明】
１ＩｎｐｕｔＩｍａｇｅ（入力イメージ）
２ＴｅｍｐｏｒａｌＥｄｇｅ（テンポラルエッジ、時間差分画像）
３２値化画像
４空間リダクションを施した特徴データ

Claims

撮像装置により被写体のジェスチャーを撮像し、撮像装置から各時刻毎に得られる多値の画像データＩ（ｉ，ｊ，ｔ）、ここで、ｉ、ｊは１画面の横、縦の画素位置で、ｔは時刻、から特徴パターンを情報処理装置により抽出し、当該抽出した特徴パターンをジェスチャー内容が規定されている標準パターンと前記情報処理装置により比較することによりジェスチャー認識するジェスチャー認識方法において、
前記情報処理装置は、
前記画像データＩ（ｉ，ｊ，ｔ）と前の時刻の画像データＩ（ｉ，ｊ，ｔ−１）との間の時間差分画像を取得し、
当該取得した時間差分画像データを２値化して、ビット“１”およびビット“０”の画像データで表される２値化画像を取得し、
当該２値化した画像データの集合を複数の升目に分割し、
当該分割した升目個々に含まれるビット“１”およびビット“０”のいずれかのビット値の個数を取得し、
当該取得した個数を前記升目位置と時間ｔに関連づけた特徴ベクトルｆ（ｋ，ｖ，ｔ）、ここでｋ、ｖは横、縦の升目位置、を前記特徴パターンまたは前記標準パターンとする前記ジェスチャー認識方法であって、
前記標準パターンと前記特徴パターンとの比較を、標準パターンの時間的逆方向にも行うことを特徴とするジェスチャー認識方法。
請求項１に記載のジェスチャー認識方法において、前記標準パターンを構成する特徴ベクトルの中のある時間の特徴ベクトルを停止動作のパターンとみなし、該停止動作のパターンと前記特徴パターンとを比較してジェスチャー認識することを特徴とするジェスチャー認識方法。