JP2002170121A

JP2002170121A - 画像処理装置および方法、並びに記録媒体

Info

Publication number: JP2002170121A
Application number: JP2000368493A
Authority: JP
Inventors: Shinichiro Gomi; 信一郎五味
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-12-04
Filing date: 2000-12-04
Publication date: 2002-06-14
Anticipated expiration: 2020-12-04
Also published as: JP4790113B2

Abstract

(57)【要約】【課題】手の握り動作を高精度に認識することができ
るようにする。【解決手段】動き検出部５６は、画像記憶部２１より
供給される１フレーム前の画素とビデオカメラ２より供
給される現フレームの画素を用いて、フレーム間差分値
を算出し、その算出結果から動き方向をする。エッジ検
出部５７は、ラベリングされた動き領域のエッジ情報を
検出する。DP値算出部６２は、エッジ検出部５７で検出
されたエッジ情報に基づいて、DP手法を用いて、DP値を
算出する。握り動作判定部６１は、動き検出部５６より
供給された動き方向と、DP値算出部６２より供給された
DP値に基づいて、手の握り動作を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理装置およ
び方法、並びに記録媒体に関し、特に、画像処理によ
り、ユーザの手の握りおよび開き動作を認識することが
できるようにした画像処理装置および方法、並びに記録
媒体に関する。

【０００２】

【従来の技術】従来、ユーザの身振りや手振りをコンピ
ュータグラフィックスとして取り入れることにより、人
とコンピュータとのインタフェースをとる手法がいくつ
か提案されている。

【０００３】例えば、特開平１１−１９５１４０号公報
には、データグローブを用いて身振りや手振りでコンピ
ュータを操作することにより、３次元コンピュータグラ
フィックスデータを編集する技術が開示されている。

【０００４】また、例えば、特開平９−３１１７５９号
公報には、所定色に点灯・点滅するペンライトを用いて
ユーザがジェスチャし、そのペンライトをカメラで撮像
・画像認識することにより、コンピュータと人とのイン
タフェースを行う技術が開示されている。

【０００５】さらにまた、例えば、特開平９−１０２０
４６号公報には、カメラで撮像したシルエット画像から
手の形状を推定、認識することにより、コンピュータと
人とのインタフェースを行う技術が開示されている。

【０００６】さらにまた、例えば、特開平８−２１２３
２７号公報には、カメラで撮像した手の画像のオリエン
テーション一次元ヒストグラム、および、二次元空間時
間オリエンテーションヒストグラムを用いて身振りを認
識することにより、コンピュータと人とのインタフェー
スを行う技術が開示されている。

【０００７】さらにまた、例えば、特開平９−１７９９
８８号公報には、２台のカメラを用いて手の三次元的な
姿勢、身振りを認識することにより、コンピュータと人
とのインタフェースを行う技術が開示されている。

【０００８】さらにまた、例えば、特開平１１−１６２
１５１号公報には、連続DP（Continuous Dynamic Progr
amming）の手法を用いて、ユーザの身振りを認識するこ
とにより、コンピュータと人とのインタフェースを行う
技術が開示されている。

【０００９】

【発明が解決しようとする課題】データグローブを用い
る手法（特開平１１−１９５１４０号公報）の場合、手
の形や手の動きを認識することができる反面、データグ
ローブの着脱が不便であり、かつ、データグローブとコ
ンピュータとを接続するケーブルが煩わしくなる課題が
あった。

【００１０】そこで、ユーザの使い勝手を考慮して、ペ
ンライトを用いる手法（特開平９−３１１７５９号公
報）が提案されているが、ユーザがペンライトを持たな
ければならず、ユーザに対する煩わしさが依然として残
り、また、特殊なデバイス（ペンライト）を用いている
ため、汎用性に欠ける課題があった。

【００１１】また、ユーザに対する煩わしさを軽減させ
るため、カメラで撮像した手の形状を画像認識する手法
が提案されている（特開平９−１０２０４６号公報、お
よび、特開平８−２１２３２７号公報）が、照明変化な
どにより、手の形状が正確に検出されない恐れがあり、
誤認識する課題があった。

【００１２】そこで、誤認識を防止するため、複数台の
カメラを用いて画像認識する手法も提案されている（特
開平９−１７９９８８号公報）が、低コストで実現する
ことができない課題があった。

【００１３】さらに、連続DPを用いたジェスチャ認識手
法が提案されている（特開平１１−１６２１５１号公
報）が、掴む（握る）というような手の動作を認識する
ことができない課題があった。

【００１４】そこで、特開平１１−２９６６７３号公報
などには、ユーザが指し示した位置を特定することが開
示されているが、手で掴んで（握って）、選択するとい
った動作を簡易な手法で認識することが困難である課題
があった。

【００１５】本発明はこのような状況に鑑みてなされた
ものであり、低コストで、かつ、高精度に、ユーザの身
振りを認識し、かつ、手で掴む動作を画像処理により認
識することができるようにするものである。

【００１６】

【課題を解決するための手段】本発明の画像処理装置
は、対象物を撮像する撮像手段と、撮像手段により撮像
された画像を輝度情報に変換する変換手段と、変換手段
により変換された輝度情報に基づいて、動き領域を検出
する動き領域検出手段と、動き領域検出手段により検出
された動き領域のエッジ情報を抽出するエッジ情報抽出
手段と、エッジ情報抽出手段により抽出されたエッジ情
報に基づいて、特徴量を算出する特徴量算出手段と、特
徴量算出手段により算出された特徴量に基づいて、対象
物の握り動作を認識する認識手段とを備えることを特徴
とする。

【００１７】動き領域検出手段は、現フレームの輝度情
報と、１フレーム前の輝度情報の差を算出し、その差が
所定の閾値以上であるか否かを判断することにより、動
き領域を検出するようにすることができる。

【００１８】本発明の画像処理装置は、動き領域検出手
段により検出された動き領域の重心を算出する重心算出
手段をさらに設けるようにすることができ、エッジ情報
抽出手段は、重心算出手段により算出された動き領域の
重心を中心とする所定の矩形領域を上下方向に３等分
し、各領域のそれぞれにおいて、垂直方向および水平方
向のエッジ情報を抽出するようにすることができる。

【００１９】本発明の画像処理装置は、動き領域検出手
段により検出された動き領域内の評価値を算出する評価
値算出手段と、評価値算出手段の算出結果から、評価値
の最も小さい動き領域を選択する選択手段とをさらに設
けるようにすることができ、エッジ情報抽出手段は、選
択手段により選択された評価値の最も小さい動き領域の
エッジ情報を抽出するようにすることができる。

【００２０】本発明の画像処理装置は、特徴量算出手段
により算出された特徴量が所定値より小さいか否かを判
定する判定手段をさらに設けるようにすることができ、
認識手段は、判定手段により、特徴量が所定値より小さ
いと判定された場合、対象物の握り動作を認識するよう
にすることができる。

【００２１】本発明の画像処理方法は、対象物を撮像す
る撮像ステップと、撮像ステップの処理により撮像され
た画像を輝度情報に変換する変換ステップと、変換ステ
ップの処理により変換された輝度情報に基づいて、動き
領域を検出する動き領域検出ステップと、動き領域検出
ステップの処理により検出された動き領域のエッジ情報
を抽出するエッジ情報抽出ステップと、エッジ情報抽出
ステップの処理により抽出されたエッジ情報に基づい
て、特徴量を算出する特徴量算出ステップと、特徴量算
出ステップの処理により算出された特徴量に基づいて、
対象物の握り動作を認識する認識ステップとを含むこと
を特徴とする。

【００２２】本発明の記録媒体に記録されているプログ
ラムは、対象物を撮像する撮像ステップと、撮像ステッ
プの処理により撮像された画像を輝度情報に変換する変
換ステップと、変換ステップの処理により変換された輝
度情報に基づいて、動き領域を検出する動き領域検出ス
テップと、動き領域検出ステップの処理により検出され
た動き領域のエッジ情報を抽出するエッジ情報抽出ステ
ップと、エッジ情報抽出ステップの処理により抽出され
たエッジ情報に基づいて、特徴量を算出する特徴量算出
ステップと、特徴量算出ステップの処理により算出され
た特徴量に基づいて、対象物の握り動作を認識する認識
ステップとを含むことを特徴とする。

【００２３】本発明の画像処理装置、画像処理方法、並
びに記録媒体に記録されているプログラムにおいては、
対象物が撮像され、撮像された画像が輝度情報に変換さ
れ、変換された輝度情報に基づいて動き領域が検出さ
れ、その動き領域のエッジ情報が抽出され、抽出された
エッジ情報に基づいて特徴量が算出され、算出された特
徴量に基づいて対象物の握り動作が認識される。

【００２４】

【発明の実施の形態】図１は、本発明に係る画像処理シ
ステムの一実施の形態を示すブロック図である。

【００２５】ビデオカメラ２は、ユーザ１の身振り、手
振り、および手の握り動作を撮像し、撮像された画像デ
ータを、後述する処理で利用する輝度データ（Ｙデー
タ）に変換し、それを画像処理装置３に供給する。画像
処理装置３は、ビデオカメラ２より供給された画像デー
タに対して、画像処理およびジェスチャ認識処理などの
所定の処理を施し、表示・出力装置４に出力する。表示
・出力装置４は、画像処理装置３より供給された、ユー
ザ１の身振り、手振り、あるいは手の握り動作に対応す
る画像データに基づいて、画面にアプリケーションを起
動させたり、画面に表示されているウィンドウを移動さ
せたりする。

【００２６】図２は、画像処理装置３の構成例を示すブ
ロック図である。

【００２７】画像処理部１１は、ビデオカメラ２より供
給された画像データに対して、フレーム間差分処理、重
心検出処理、および、動き検出処理などを行い、その画
像処理結果をジェスチャ認識部１２に供給する。ジェス
チャ認識部１２は、画像処理部１１より供給された画像
処理結果に基づいて、ジェスチャ認識処理を行い、その
認識結果を表示・出力装置４に供給する。

【００２８】図３は、画像処理部１１およびジェスチャ
認識部１２の詳細な構成例を示すブロック図である。

【００２９】画像処理部１１は、画像記憶部２１、領域
分割部２２、および、領域処理部２３で構成される。ジ
ェスチャ認識部１２は、握り動作認識部３１および重心
軌跡認識部３２で構成される。さらに、画像処理部１１
の領域分割部２２は、フレーム間差分部４１、閾値処理
部４２、ブロック内カウント部４３、閾値処理部４４、
周辺探索部４５、および、ラベリング部４６で構成さ
れ、画像処理部１１の領域処理部２３は、重心検出部５
１、外接枠検出部５２、面積検出部５３、領域評価部５
４、領域記憶部５５、動き検出部５６、および、エッジ
検出部５７で構成される。また、ジェスチャ認識部１２
の握り動作認識部３１は、握り動作判定部６１およびDP
値算出部６２で構成される。

【００３０】画像記憶部２１は、ビデオカメラ２より供
給された画像データの輝度データをフレーム毎に記憶す
る。

【００３１】フレーム間差分算出部４１は、画像記憶部
２１に記憶されている１フレーム前の画像データの輝度
データ（Ｙデータ）を読み出し、その１フレーム前の輝
度データとビデオカメラ２より供給された現フレームの
画像データの輝度データから、画素毎に輝度差（フレー
ム間差分値）を算出し、算出結果を閾値処理部４２に供
給する。

【００３２】閾値処理部４２は、フレーム間差分算出部
４１より供給された算出結果（フレーム間差分値）に基
づいて、所定の閾値以上の差分値がある画素を１とし、
所定の閾値に満たない差分値の画素を０として２値化
し、それをブロック内カウント部４３に供給するととも
に、領域処理部２３のエッジ検出部５７に供給する。

【００３３】ブロック内カウント部４３は、閾値処理部
４２より供給された２値化画像を所定のブロックに分割
し、各ブロック毎に、ブロック内の画素値が１の画素を
カウントし、カウント数を閾値処理部４４に供給する。

【００３４】閾値処理部４４は、ブロック内カウント部
４３より供給された各ブロック毎のカウント数に基づい
て、所定の閾値以上のカウント数があるブロックを動き
ブロックとして認識し、認識結果を周辺探索部４５に供
給する。

【００３５】周辺探索部４５は、閾値処理部４４より供
給された認識結果に基づいて、動きブロックとして認識
されなかったブロックを中心とする所定の領域内の動き
ブロック数をさらにカウントする。周辺探索部４５は、
カウント数が所定の閾値以上であれば、そのブロックを
新たに動きブロックとして認識し、認識結果をラベリン
グ部４６に供給する。

【００３６】ラベリング部４６は、周辺探索部４５より
供給された認識結果（動きブロックとして認識されたブ
ロック）に基づいて、ラベリング処理し、処理結果を領
域処理部２３の重心検出部５１に供給する。

【００３７】重心検出部５１は、ラベリング部４６より
供給されたラベリング処理結果に基づいて、ラベリング
された各領域内の重心を検出し、検出結果を外接枠検出
部５２に供給する。

【００３８】外接枠検出部５２は、重心検出部５１より
供給されたラベリング処理結果に基づいて、ラベリング
された各領域を外側から囲む矩形（外接枠）を検出し、
検出結果を面積検出部５３に供給する。

【００３９】面積検出部５３は、外接枠検出部５２より
供給された検出結果（外接枠）に基づいて、外接枠内に
含まれる動きブロックの画素数をカウントすることによ
り、面積を算出し、算出結果を領域評価部５４に供給す
る。面積検出部５３はまた、外接枠検出部５２より供給
された検出結果に基づいて、外接枠の縦横比（アスペク
ト比）を算出し、その算出結果も領域評価部５４に供給
する。

【００４０】領域評価部５４は、面積検出部５３より供
給された、ラベリングされた各領域の重心、面積、およ
び、外接枠のアスペクト比に基づいて、評価値を算出
し、評価値の最も小さい領域を選択し、その選択結果を
動き検出部５６、エッジ検出部５７、および、重心軌跡
認識部３２にそれぞれ供給する。

【００４１】領域記憶部５５は、領域評価部５４で選択
された評価値の最も小さい領域を記憶する。

【００４２】動き検出部５６は、画像記憶部２１より供
給される１フレーム前の画素とビデオカメラ２より供給
される現在の画素を用いて、フレーム間差分値および空
間方向差分値を算出し、その算出結果から動き方向を検
出し、検出結果を握り動作認識部３１の握り動作判定部
６１に供給する。

【００４３】エッジ検出部５７は、領域分割部２２の閾
値処理部４２より供給された２値化されたフレーム間差
分値と、領域評価部５４より供給された領域選択結果に
基づいて、後述するジェスチャ認識部１２の握り動作認
識部３１でDP値を算出する際に必要となるエッジ情報
（特徴ベクトル）を検出する。

【００４４】握り動作判定部６１は、動き検出部５６よ
り供給された検出結果（動き方向）、および、後述する
DP値算出部６２より供給されるDP値に基づいて、手の握
りおよび開き動作を認識し、認識結果を表示・出力装置
４に供給する。

【００４５】DP値算出部６２は、エッジ検出部５７より
供給されたエッジ情報（特徴ベクトル）に基づいて、連
続DP手法を用いて、DP値を算出する。なお、連続DP(Con
tinuous DynamicProgramming)手法は、あらかじめ用意
されている参照パターンと、所定のパターンとの間の類
似度を算出するアルゴリズムが用いられており、その詳
細が、例えば、高橋他: ジェスチャ動画像のスポッテ
ィング認識, 信学論D-II vol. J77-D-II no.8 pp.1552-
1561 (1994)に記載されている。これは、参照パターン
Ｒと認識対象となるパターンＱの長さが異なっていても
効率的に対応づけを行いながらマッチングできる手法で
ある。また、認識対象パターンの始点および終点を決定
する必要がないため、時系列パターンを認識する際に有
効な手法の一つである。

【００４６】重心軌跡認識部３２は、領域処理部２３の
領域評価部５４より供給された評価値の最も小さい現フ
レームの領域の重心と１フレーム前に選択された領域の
重心の間の距離を算出し、その算出結果から重心の軌跡
（移動）を認識し（すなわち、手の振り動作を認識
し）、認識結果を表示・出力装置４に供給する。

【００４７】次に、図４のフローチャートを参照して、
画像処理装置３が実行する、手の握り・振り動作認識処
理について説明する。

【００４８】ステップＳ１において、ビデオカメラ２
は、ユーザ１の身振りや手振りを撮像し、撮像された画
像データを輝度データ（Ｙデータ）に変換し、画像記憶
部２１に記憶する。例えば、ビデオカメラ２の出力がRG
Bの色データである場合、ビデオカメラ２は、撮像され
た画像データのRGBの色データから、次式（１）に従っ
て、各画素におけるＹデータを算出する。Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ・・・（１）

【００４９】ステップＳ２において、領域分割部２２
は、ステップＳ１の処理で撮像された画像の領域分割を
行う。

【００５０】ここで、図５のフローチャートを参照し
て、領域分割処理について詳しく説明する。

【００５１】ステップＳ３１において、領域分割部２２
のフレーム間差分算出部４１は、ビデオカメラ２より供
給された現フレームの画像データの輝度データ（Ｙデー
タ）と、画像記憶部２１より記憶された１フレーム前の
画像データの輝度データとの間のフレーム間差分値（輝
度差）を算出する。閾値処理部４２は、フレーム間差分
算出部４１で算出されたフレーム間差分値のうち、所定
の閾値以上のフレーム間差分値がある画素を１とし、所
定の閾値に満たないフレーム間差分値の画素を０として
２値化する。これにより、図６（Ａ）に示されるような
２値画像が生成される。

【００５２】図６（Ａ）の例の場合、フレーム間差分値
が所定の閾値より大きい画素（すなわち、画素値１の画
素）が黒で表わされ、フレーム間差分値が所定の閾値よ
り小さい画素（すなわち、画素値０の画素）が白で表わ
されている。

【００５３】ステップＳ３２において、ブロック内カウ
ント部４３は、ステップＳ３１の処理で生成された２値
画像を、例えば、図６（Ｂ）に示されるように、Ｂｗ×
Ｂｈの大きさのブロックに分割し、各ブロック毎に、ブ
ロック内の画素値が１の画素（すなわち、黒で表示され
ている画素）をカウントする。

【００５４】ステップＳ３３において、閾値処理部４４
は、ステップＳ３２の処理でカウントされた各ブロック
毎のカウント数に基づいて、そのカウント数が所定の閾
値より大きいブロックを動きブロックとして認識する。
これにより、例えば、図６（Ｃ）に示されるような動き
ブロックが検出される。図６（Ｃ）の例の場合、網掛け
表示されているブロックが動きブロックとされる。な
お、カウント数が所定の閾値より小さいブロックは、ノ
イズとして認識される。

【００５５】ステップＳ３４において、周辺探索部４５
は、ステップＳ３３の処理で動きブロックと認識されな
かったブロック（すなわち、図６（Ｃ）で網掛け表示さ
れていない白ブロック）を中心とする所定の領域内の動
きブロック数をそれぞれカウントする。例えば、図６
（Ｃ）に示されるように、周辺探索部４５は、動きブロ
ックと認識されなかったブロック８１を中心とする３×
３の領域８２内の動きブロック数をカウントする。

【００５６】ステップＳ３５において、周辺探索部４５
は、ステップＳ３４の処理でカウントされたカウント数
が所定の閾値より大きいブロックを新たに動きブロック
として認識する。すなわち、図６（Ｄ）に示されるよう
に、動きブロックと認識されなかったブロック８１を中
心とする３×３の領域８２内の動きブロック（すなわ
ち、黒で示されているブロック）の数が６個であり、例
えば、閾値が領域８２のブロック数（いまの場合、９
個）の過半数（すなわち、５個）に設定されているとす
ると、このブロック８１は、新たな動きブロックとして
認識される。

【００５７】このような処理を、ステップＳ３３の処理
で動きブロックと認識されなかったブロック全てに対し
て行う。これにより、図６（Ｅ）に示されるように、ス
テップＳ３３の処理では動きブロックとして認識されな
かったブロック８１，８３および８４が、新たな動きブ
ロックとして認識される。

【００５８】ステップＳ３６において、ラベリング部４
６は、ステップＳ３３およびＳ３５の処理で認識された
動きブロックに基づいて、領域毎に、ラベリング処理す
る。これにより、図６（Ｆ）に示されるように、領域８
５および領域８６の２つの領域が検出される。

【００５９】図４のステップＳ３に戻り、重心検出部５
１は、ステップＳ２の処理でラベリングされた各領域内
の重心を検出（算出）する。

【００６０】ここで、図７を参照して、ラベリングされ
た領域内の重心の算出方法について説明する。

【００６１】図７（Ａ）の例の場合、ラベリングされた
領域の外接枠内の画素を使って平均位置を算出し、それ
を重心Ｃとする。

【００６２】図７（Ｂ）の例の場合、画面上方に重み付
け加重平均を算出し、それを重心Ｃとする。すなわち、
ラベリングされた領域の外接枠の左上の座標（Ｘ_ul，Ｙ
_ul）、右下の座標（Ｘ_br,Ｙ_br）から、ある画素（ｘ，
ｙ）に対応する重みを次式（２）に従って算出し、その
算出結果を次式（３）に代入し、重み付き加重平均を算
出する。なお、この例は、ビデオカメラ２に対して手が
差し出される場合、指先が画面上方になる確率が高いこ
とを利用して、画面上方に重み付けされる。（Ｙ_br−ｙ）／（Ｙ_br−Ｙ_ul）・・・（２）

【００６３】

【数１】

【００６４】図７（Ｃ）の例の場合、第１回目では、図
７（Ａ）の例で示したように、ラベリングされた領域の
外接枠内の画素を使って平均位置Ｃ１を算出する。第２
回目では、平均位置Ｃ１より画面上方にある画素を使っ
て平均位置Ｃ２を算出する。同様に、第３回目以降の平
均位置を順次繰り返し算出する。そして、第ｎ回目の平
均位置Ｃｎを、最終的な重心Ｃとする。

【００６５】以上のような重心算出方法のいずれかを用
いて、ラベリングされた領域（いまの場合、領域８５お
よび８６）の重心が検出されると、ステップＳ４に進
み、領域処理部２３の外接枠検出部５２は、ステップＳ
２の処理でラベリングされた各領域（いまの場合、領域
８５および８６）を外側から囲む外接枠（矩形）を検出
する。

【００６６】ステップＳ５において、面積検出部５３
は、ステップＳ４の処理により検出された外接枠内に含
まれる動きブロックの画素数をカウントすることにより
面積を算出（検出）する。すなわち、図６（Ｆ）の領域
８５の場合、動きブロック（すなわち、黒で示されてい
るブロック）は１３個であり、例えば、１ブロックが１
６画素で構成されているとすると、動き画素数は２０８
個とカウントされ、そのカウントされた画素数から面積
が算出される。

【００６７】ステップＳ６において、面積検出部５３
は、ステップＳ４の処理により検出された外接枠のアス
ペクト比（縦横比）を算出する。すなわち、図６（Ｆ）
の領域８５の場合、縦のブロック数が５個であり、横の
ブロック数が４個であり、アスペクト比は、１．２５
（＝５／４）と算出される。

【００６８】ステップＳ７において、領域評価部５４
は、ステップＳ３の処理で検出された、ラベリングされ
た領域（いまの場合、領域８５および８６）の重心、ス
テップＳ５の処理で算出された各領域の動きブロックの
面積、ステップＳ６の処理で算出された領域の外接枠の
アスペクト比に基づいて、次式（４）に従って、評価値
を算出する。 Φ（ｉ）＝α_c｜Ｃ_i−Ｃ_p｜＋α_a｜Ａ_i−Ａ_p｜＋α_s｜Ｓ_i−Ｓ_p｜−α_mＮｍ_i ・・・（４）

【００６９】なお、上記式（４）において、Ｃ_iは領域
ｉの重心位置、Ａ_iは領域ｉのアスペクト比、Ｓ_iは領域
ｉの面積、Ｎｍ_iは領域ｉの動き画素数を表わし、Ｃ_p，
Ａ_p,Ｓ_pは前フレームで選択された領域ｐの重心位置、
アスペクト比、面積をそれぞれ表わし、α_c，α_a，
α_s，α_mは、重心位置、アスペクト比、面積、動き画素
数の重要度を示すそれぞれの重み付け係数である。例え
ば、重み付け係数には、α _c＝１０．０，α_a＝１０．
２，α_s＝０．２などの値が用いられる。

【００７０】ステップＳ８において、領域評価部５４
は、ステップＳ７の処理で算出された評価値のうち、評
価値の最も小さい領域（例えば、領域８５）を選択す
る。

【００７１】ステップＳ９において、動き検出部５６
は、ステップＳ２の処理でラベリングされた領域（いま
の場合、領域８５および８６）の動き方向を検出する。

【００７２】ここで、図８のフローチャートを参照し
て、動き方向検出処理について説明する。なお、図９に
示すように、３×３画素からなる現フレームの領域と１
フレーム前の領域を比較し、現フレームの領域の動き方
向を検出するものとして説明する。

【００７３】ステップＳ４１において、動き検出部５６
は、動きの方向を示す変数ｈ，ｖに０を代入する。ステ
ップＳ４２において、動き検出部５６は、縦および横の
両方向の動きが検出されたのか否かを判定し、未だ、縦
および横の両方向の動きが検出されていないと判定した
場合、ステップＳ４３に進み、現フレームの中心画素Ｐ
（i,j）と１フレーム前の中心画素Ｐ´（i,j）の輝度差
が所定の正の閾値より大きいのか否かを判定する。な
お、ｉは、ｙ座標を表わし、ｊはｘ座標を表わしてい
る。

【００７４】ステップＳ４３において、Ｐ（i,j）−Ｐ
´（i,j）が所定の正の閾値より大きいと判定された場
合、ステップＳ４４に進み、動き検出部５６は、横方向
の動きを検出するのか否か、すなわち、縦方向の動きが
検出済みであるのか否かを判定し、横方向の動きを検出
すると判定した場合（縦方向の動きが検出済みであると
判定した場合）、ステップＳ４５に進む。ステップＳ４
５において、動き検出部５６は、中心画素Ｐ（i,j）と
画素Ｐ（i,j+1）の輝度差が所定の閾値より大きいのか
否かを判定し、Ｐ（i,j）−Ｐ（i,j+1）が所定の閾値よ
り大きいと判定した場合、ステップＳ４６に進み、変数
ｈに１を代入し、ステップＳ４２に戻る。

【００７５】ステップＳ４５において、Ｐ（i,j）−Ｐ
（i,j+1）が所定の閾値より大きくはないと判定された
場合、ステップＳ４７に進み、動き検出部５６は、さら
に、中心画素Ｐ（i,j）と画素Ｐ（i,j-1）の輝度差が所
定の閾値より大きいのか否かを判定し、Ｐ（i,j）−Ｐ
（i,j-1）が所定の閾値より大きいと判定した場合、ス
テップＳ４８に進み、変数ｈに−１を代入し、ステップ
Ｓ４２に戻る。ステップＳ４７において、Ｐ（i,j）−
Ｐ（i,j-1）が所定の閾値より大きくはないと判定され
た場合、ステップＳ４２に戻る。

【００７６】また、ステップＳ４４において、横方向の
動きではなく、縦方向の動きを検出すると判定された場
合、ステップＳ４９に進み、動き検出部５６は、中心画
素Ｐ（i,j）と画素Ｐ（i+1,j）の輝度差が所定の閾値よ
り大きいのか否かを判定し、Ｐ（i,j）−Ｐ（i+1,j）が
所定の閾値より大きいと判定した場合、ステップＳ５０
に進み、変数ｖに１を代入し、ステップＳ４２に戻る。

【００７７】ステップＳ４９において、Ｐ（i,j）−Ｐ
（i+1,j）が所定の閾値より大きくはないと判定された
場合、ステップＳ５１に進み、動き検出部５６は、さら
に、中心画素Ｐ（i,j）と画素Ｐ（i-1,j）の輝度差が所
定の閾値より大きいのか否かを判定し、Ｐ（i,j）−Ｐ
（i-1,j）が所定の閾値より大きいと判定した場合、ス
テップＳ５２に進み、変数ｖに−１を代入し、ステップ
Ｓ４２に戻る。ステップＳ５１において、Ｐ（i,j）−
Ｐ（i-1,j）が所定の閾値より大きくはないと判定され
た場合、ステップＳ４２に戻る。

【００７８】また、ステップＳ４３において、Ｐ（i,
j）−Ｐ´（i,j）が所定の正の閾値より大きくはないと
判定された場合、ステップＳ５３に進み、動き検出部５
６は、さらに、現フレームの中心画素Ｐ（i,j）と１フ
レーム前の中心画素Ｐ´（i,j）の輝度差が所定の負の
閾値より小さいのか否かを判定する。

【００７９】ステップＳ５３において、Ｐ（i,j）−Ｐ
´（i,j）が所定の負の閾値より小さいと判定された場
合、ステップＳ５４に進み、動き検出部５６は、横方向
の動きを検出するのか否か、すなわち、縦方向の動きが
検出済みであるのか否かを判定し、横方向の動きを検出
すると判定した場合（縦方向の動きが検出済みであると
判定した場合）、ステップＳ５５に進む。ステップＳ５
５において、動き検出部５６は、画素Ｐ（i,j+1）と中
心画素Ｐ（i,j）の輝度差が所定の閾値より大きいのか
否かを判定し、Ｐ（i,j+1）−Ｐ（i,j）が所定の閾値よ
り大きいと判定した場合、ステップＳ５６に進み、変数
ｈに１を代入し、ステップＳ４２に戻る。

【００８０】ステップＳ５５において、Ｐ（i,j+1）−
Ｐ（i,j）が所定の閾値より大きくはないと判定された
場合、ステップＳ５７に進み、動き検出部５６は、さら
に、中心画素Ｐ（i,j-1）と画素Ｐ（i,j）の輝度差が所
定の閾値より大きいのか否かを判定し、Ｐ（i,j-1）−
Ｐ（i,j）が所定の閾値より大きいと判定した場合、ス
テップＳ５８に進み、変数ｈに−１を代入し、ステップ
Ｓ４２に戻る。ステップＳ５７において、Ｐ（i,j-1）
−Ｐ（i,j）が所定の閾値より大きくはないと判定され
た場合、ステップＳ４２に戻る。

【００８１】また、ステップＳ５４において、横方向の
動きではなく、縦方向の動きを検出すると判定された場
合、ステップＳ５９に進み、動き検出部５６は、画素Ｐ
（i+1,j）と中心画素Ｐ（i,j）の輝度差が所定の閾値よ
り大きいのか否かを判定し、Ｐ（i+1,j）−Ｐ（i,j）が
所定の閾値より大きいと判定した場合、ステップＳ６０
に進み、変数ｖに１を代入し、ステップＳ４２に戻る。

【００８２】ステップＳ５９において、Ｐ（i+1,j）−
Ｐ（i,j）が所定の閾値より大きくはないと判定された
場合、ステップＳ６１に進み、動き検出部５６は、さら
に、画素Ｐ（i-1,j）と中心画素Ｐ（i,j）の輝度差が所
定の閾値より大きいのか否かを判定し、Ｐ（i-1,j）−
Ｐ（i,j）が所定の閾値より大きいと判定した場合、ス
テップＳ６２に進み、変数ｖに−１を代入し、ステップ
Ｓ４２に戻る。ステップＳ６１において、Ｐ（i-1,j）
−Ｐ（i,j）が所定の閾値より大きくはないと判定され
た場合、ステップＳ４２に戻る。

【００８３】そして、ステップＳ４２において、縦およ
び横の両方向の動きが検出されたと判定された場合、ま
たは、ステップＳ５３において、Ｐ（i,j）−Ｐ´（i,
j）が所定の負の閾値より小さくはないと判定された場
合、図４のステップＳ９にリターンする。

【００８４】図４のステップＳ９において、動き検出部
５６は、上述した処理により算出された変数ｈ，ｖの値
を、図１０に示す対応図に対応付け、動き方向を示す画
素値（インデックス値）を設定する。

【００８５】図１０の例の場合、LU（Left Upper）は、
左上に画素が動いたことを表わし、U（Upper）は、上に
画素が動いたことを表わし、RU（Right Upper）は、右
上に画素が動いたことを表わし、L（Left）は、左に画
素が動いたことを表わし、N（No move）は、画素が動い
ていないことを表わし、R（Right）は、右に画素が動い
たことを表わし、LD（Left Down）は、左下に動いたこ
とを表わし、D（Down）は、下に画素が動いたことを表
わし、そして、RD（Right Down）は、右下に画素が動い
たことを表わす。

【００８６】図１０において、例えば、N＝０，LU＝
１，U＝２，RU＝３，L＝４，R＝５，LD＝６，D＝７，RD
＝８であるとする。算出された変数ｈ，ｖがいずれも−
１である場合、動き方向を示す画素値は１に設定され
る。算出された変数ｈが０、変数ｖが−１である場合、
動き方向を示す画素値は２に設定される。算出された変
数ｈが１、変数ｖが−１である場合、動き方向を示す画
素値は３に設定される。算出された変数ｈが−１、変数
ｖが０である場合、動き方向を示す画素値は４に設定さ
れる。算出された変数ｈ，ｖがいずれも０である場合、
動き方向を示す画素値は０に設定される。算出された変
数ｈが１、変数ｖが０である場合、動き方向を示す画素
値は５に設定される。算出された変数ｈが−１、変数ｖ
が１である場合、動き方向を示す画素値は６に設定され
る。算出された変数ｈが０、変数ｖが１である場合、動
き方向を示す画素値は７に設定される。そして、算出さ
れた変数ｈ，ｖがいずれも１である場合、動き方向を示
す画素値は８に設定される。

【００８７】すなわち、画素値が１である場合、左上に
画素が動いたことになり、画素値が２である場合、上に
画素が動いたことになり、画素値が３である場合、右上
に画素が動いたことになり、画素値が４である場合、左
に画素が動いたことになり、画素値が０である場合、画
素が動いていないことになり、画素値が５である場合、
右に画素が動いたことになり、画素値が６である場合、
左下に動いたことになり、画素値が７である場合、下に
画素が動いたことになり、そして、画素値が８である場
合、右下に画素が動いたことになる。

【００８８】なお、本願発明では、これに限らず、ブロ
ックマッチングや動きベクトルマッチングなどの手法を
用いて、動き方向を検出することも可能である。

【００８９】例えば、ステップＳ８の処理で選択された
領域のU，Dの画素値を持つ画素数Ｎ _U，Ｎ_Dをそれぞれカ
ウントし、Ｎ_Uが所定の閾値を越えていた場合、領域内
で「上向きの動きが発生した」と認識され、Ｎ_Dが所定
の閾値を越えていた場合、領域内で「下向きの動きが発
生した」と認識される。また、Ｎ_U，Ｎ_Dが、ともに所定
の閾値を越えていた場合、「動きなし」と認識される。

【００９０】図４のステップＳ１０に戻って、エッジ検
出部５７は、ステップＳ２の処理でラベリングされた領
域（図６（Ｆ）の例の場合、領域８５および８６）のう
ち、ステップＳ８の処理で選択された評価値の最も小さ
い領域（例えば、領域８５）のエッジ情報を検出する。

【００９１】ここで、図１１を参照して、エッジ情報を
検出する処理についてさらに詳しく説明する。なお、ス
テップＳ８の処理で、評価値が最も小さい領域として領
域８５が選択されたものとして以下に説明する。

【００９２】図１１（Ａ）は、ステップＳ３の処理によ
り検出された領域８５の重心Ｃを示している。図１１
（Ｂ）は、ステップＳ２の処理により２値化されたフレ
ーム間差分画像を示している。

【００９３】エッジ検出部５７は、ステップＳ２の処理
で２値化されたフレーム間差分画像（図１１（Ｂ））の
垂直方向および水平方向のエッジ情報をそれぞれ検出す
る。これにより、図１１（Ｃ）および図１１（Ｄ）に示
されるように、垂直方向のエッジ情報と水平方向のエッ
ジ情報が検出される。

【００９４】次に、エッジ情報の検出処理についてさら
に詳しく説明する。なお、エッジ情報の検出には、図１
２に示されるようなフィルタが用いられる。

【００９５】エッジ検出部５７は、エッジ情報を検出し
たい画素を中心に、図１２に示されるフィルタと画素値
の積和（畳み込み）演算を行い、その演算結果の絶対値
を２値化することによりエッジ画素を算出する。そし
て、エッジ検出部５７は、積和演算の絶対値が所定の閾
値より大きい場合、それをエッジ画素として検出する。

【００９６】まず、現フレームにおける中心画素Ｐ
（ｉ，ｊ）（図９）が垂直方向のエッジ画素か否かを判
定する例について説明する。エッジ検出部３７は、次式
（５）に従って、図１２（Ａ）に示されるフィルタと画
素値の積和演算Ｌｖを行う。Ｌｖ＝−１・Ｐ（i-1,j-1）＋０・Ｐ（i-1,j）＋１・Ｐ（i-1,j+1）−２・Ｐ（i ,j-1）＋０・Ｐ（i,j）＋２・Ｐ（i,j+1）−１・Ｐ（i+1,j-1）＋０・Ｐ（i+1,j ）＋１・Ｐ（i+1,j+1）・・・（５）

【００９７】エッジ検出部５７は、上記式（５）の算出
の結果、積和演算Ｌｖの絶対値が所定の閾値Ｔｖより大
きいか否かを判定し、積和演算Ｌｖの絶対値が所定の閾
値Ｔｖより大きいと判定した場合、画素Ｐ（ｉ，ｊ）を
垂直方向のエッジ画素（エッジ情報）として検出する。

【００９８】次に、現フレームにおける中心画素Ｐ
（ｉ，ｊ）（図９）が水平方向のエッジ画素か否かを判
定する例について説明する。エッジ検出部３７は、次式
（６）に従って、図１２（Ｂ）に示されるフィルタと画
素値の積和演算Ｌｈを行う。Ｌｈ＝−１・Ｐ（i-1,j-
1）−２・Ｐ（i-1,j）−１・Ｐ（i-1,j+1）＋０・Ｐ
（i,j-1）＋０・Ｐ（i,j）＋０・Ｐ（i,j+1）＋１・Ｐ（i+1,j-1）＋２・Ｐ（i+1,j ）＋１・Ｐ（i+1,j+1）・・・（６）

【００９９】エッジ検出部５７は、上記式（６）の算出
の結果、積和演算Ｌｈの絶対値が所定の閾値Ｔｈより大
きいか否かを判定し、積和演算Ｌｈの絶対値が所定の閾
値Ｔｈより大きいと判定した場合、画素Ｐ（ｉ，ｊ）を
水平方向のエッジ画素（エッジ情報）として検出する。

【０１００】このような処理を、２値化されたフレーム
間差分画像の各画素に対して行うことにより、垂直方向
のエッジ情報と水平方向のエッジ情報が検出される。

【０１０１】次に、Ｆｗ×Ｆｈの矩形領域９１（図１１
（Ｅ））を縦方向に３等分したtop，middle，bottomの
３領域について考える。

【０１０２】エッジ検出部５７は、Ｆｗ×Ｆｈの矩形領
域９１の中心が、図１１（Ａ）で示された重心Ｃとなる
ように設定し、それぞれの領域内の垂直方向のエッジピ
クセルの数をカウントするとともに（図１１（Ｆ））、
水平方向のエッジピクセルの数をカウントする（図１１
（Ｇ））。

【０１０３】すなわち、ユーザ１の手７１（図１８
（Ａ））が、指先を画面上方に向けて撮像されている場
合、撮像された画像を３分割して各領域毎のエッジピク
セルの数をカウントすることにより、手の握り動作時に
発生する時間的特徴変化に、手の構造を反映させること
ができる。

【０１０４】従って、手を握る動作の場合には、動作開
始直後は、領域上部（図１１（Ｅ）のtopの領域）にピ
クセルエッジ分布が集中し、動作終了時には、領域中央
部（図１１（Ｅ）のmiddleの領域）にピクセルエッジ分
布が集中する。一方、領域下部（図１１（Ｅ）のbottom
の領域）には、ピクセルエッジ分布がほとんど生じな
い。これに対して、手を開く動作の場合には、動作開始
直後は、領域中央部にピクセルエッジが集中し、動作終
了時には、領域上部にピクセルエッジ分布が集中する。
一方、領域下部には、手を握る動作と同様に、ピクセル
エッジ分布がほとんど生じない。

【０１０５】図４に戻って、ステップＳ１１において、
エッジ検出部５７は、topの領域に属する垂直エッジピ
クセル数をｅ_t ^v、middleの領域の属する垂直エッジピク
セル数をｅ_m ^v、および、bottomの領域に属する垂直エッ
ジピクセル数をｅ_b ^v、並びに、topの領域に属する水平
エッジピクセル数をｅ_t ^h、middleの領域の属する水平エ
ッジピクセル数をｅ_m ^h、および、bottomの領域に属する
水平エッジピクセル数をｅ_b ^hとして、次式（７）に従っ
て、特徴ベクトルｆを算出する。ここで、Ｆｓ＝Ｆｗ×
Ｆｈである。ｆ≡（Ｒ_t ^v，Ｒ_t ^h，Ｒ_m ^v，Ｒ_m ^h，Ｒ_b ^v，Ｒ_b ^h）＝１／Ｆｓ・（ｅ_t ^v，ｅ_t ^h，ｅ_m ^v，ｅ_m ^h，ｅ_b ^v，ｅ_b ^h）・・・（７）

【０１０６】ステップＳ１２において、DP値算出部６２
は、連続DPの手法を用いて、ステップＳ１１の処理で算
出された特徴ベクトルｆに基づいて、DP値を算出する。
ここで、認識対照パターンとして、ステップＳ１１の処
理で算出された特徴ベクトルｆが用いられ、参照パター
ンとして、例えば、予め、手を握ったり開いたりしてい
る動作がビデオカメラ２で撮像され、エッジ検出部５７
で算出される特徴ベクトルｆの時系列のうち、手の握り
あるいは開き動作に相当する部分が切り出されている。

【０１０７】DP値算出部６２は、時刻ｔにおいて、参照
パターンＲ＝｛ｒ（γ）｜１≦γ≦Ｔ｝と認識対象パタ
ーンｑ（ｔ）との距離ｄ（ｔ，γ）＝‖ｑ（ｔ）−ｒ
（γ）‖を用いて、累積距離Ｓ（ｔ，γ）を、次式
（８）および式（９）に従って算出する。ここで、次式
（８）は、累積距離Ｓ（ｔ，γ）を算出するための初期
条件とされる。Ｓ（−１，γ）＝Ｓ（０，γ）＝∞（１≦γ≦Ｔ）・・・（８）

【０１０８】１≦γにおける累積距離Ｓ（ｔ，γ）は、
次式（９）で表わされる。

【数２】

【０１０９】ここで、γ＝Ｔとすると、Ｓ（ｔ，Ｔ）
は、参照パターンＲの区域（１，Ｔ）について入力時系
列パターンに最適に適合したときの累積距離を表わすこ
とになる。これを重みの和３・Ｔで正規化すると、次式
（１０）で表わされる。

【数３】これを時刻ｔにおける連続DP値に決定する。

【０１１０】図１３に示されるように、参照パターンＲ
に類似したパターンが発生したときに、この連続DP値は
最小値minを取る。この最小値minが所定の閾値以下にな
れば、参照パターンＲとマッチングしたと判定される。
従って、最小値minが検出されたとき、握り動作が認識
されることになる。

【０１１１】このように、DP値算出部６２は、認識対象
パターンが手の握り参照パターンにマッチした場合、
「握り」を握り動作判定部６１へ出力し、認識対象パタ
ーンが手の開き参照パターンにマッチした場合、「開
き」を握り動作判定部６１へ出力する。

【０１１２】握り動作判定部６１は、動き検出部５６か
ら「上向きの動き」が入力された後、Ｆmoveフレームの
間にDP値算出部６２から「開き」が入力されたとき、手
の開き動作を認識することができる。また、握り動作判
定部６１は、動き検出部５６から「下向きの動き」が入
力された後、Ｆmoveフレームの間にDP算出部６２から
「握り」が入力されたとき、手の握り動作を認識するこ
とができる。なお、Ｆmoveの値は、任意に設定すること
が可能であり、例えば、１５フレームなどの値が設定さ
れる。

【０１１３】ステップＳ１３において、重心軌跡認識部
３２は、ステップＳ３の処理で検出された重心に基づい
て、手の振り動作を認識する。

【０１１４】ここで、図１４および図１５のフローチャ
ートを参照して、手の振り動作認識処理について説明す
る。

【０１１５】ステップＳ１０１において、重心軌跡認識
部３２は、図１６に示すような１０個のバッファで構成
されるリングバッファに、各フレームで選択された領域
の重心位置をそれぞれ代入する。ステップＳ１０２にお
いて、重心軌跡認識部３２は、ステップＳ１０１の処理
で代入された現フレームの重心位置Ｘ，Ｙと、１フレー
ム前の重心位置Ｘ´，Ｙ´の更新を行う。いまの場合、
現フレームの重心位置Ｘ＝Ｘ₅，Ｙ＝Ｙ₅、１フレーム前
の重心位置Ｘ´＝Ｘ₄，Ｙ´＝Ｙ₄に更新される。

【０１１６】ステップＳ１０３において、重心軌跡認識
部３２は、Ｘ−Ｘ´の絶対値が所定の正の閾値より大き
いのか否か、すなわち、現フレームのＸ座標とｎフレー
ム（いまの場合、１フレーム）前のＸ´座標を比較し、
変化があったのか否かを判定し、Ｘ−Ｘ´の絶対値が所
定の正の閾値より大きくないと判定された場合、すなわ
ち、変化がないと判定された場合、ステップＳ１０４に
進む。

【０１１７】ステップＳ１０４におてい、重心軌跡認識
部３２は、リングバッファが１周したのか否かを判定
し、リングバッファが未だ１周していないと判定した場
合、ステップＳ１０２に戻り、現フレームの重心位置
Ｘ，Ｙと、１フレーム前の重心位置Ｘ´，Ｙ´の更新を
行い（いまの場合、現フレームの重心位置Ｘ＝Ｘ₄，Ｙ
＝Ｙ₄、１フレーム前の重心位置Ｘ´＝Ｘ₃，Ｙ´＝Ｙ₃
に更新し）、それ以降の処理を繰り返す。すなわち、Ｘ
座標が変化するまで、１フレームずつさかのぼった、現
フレームの重心位置Ｘ，Ｙと１フレーム前の重心位置Ｘ
´，Ｙ´に更新される。また、ステップＳ１０４におい
て、リングバッファが１周したと判定された場合、ステ
ップＳ１２８に進む。

【０１１８】また、ステップＳ１０３において、Ｘ−Ｘ
´の絶対値が所定の正の閾値より大きいと判定された場
合、ステップＳ１０５に進み、重心軌跡認識部３２は、
変化したときの座標Ｘ´，Ｙ´をＸｓ，Ｙｓにそれぞれ
代入し、変数ｍａｘを０に、変数BigSkipをFALSEに初期
設定する。ステップＳ１０６において、重心軌跡認識部
３２は、Ｘ−Ｘ´が０より大きいのか否かを判定し、０
より大きい場合（Ｘ−Ｘ´が正の値の場合）、ステップ
Ｓ１０７に進み、さらに、Ｘ−Ｘ´が所定の正の閾値よ
り大きいのか否かを判定する。

【０１１９】ステップＳ１０７において、Ｘ−Ｘ´が所
定の正の閾値より大きいと判定された場合、ステップＳ
１０８に進み、重心軌跡認識部３２は、変数BigSkipにT
RUEを代入する。また、ステップＳ１０７において、Ｘ
−Ｘ´が所定の正の閾値より大きくはないと判定された
場合、ステップＳ１０９に進み、重心軌跡認識部３２
は、さらに、Ｘ−Ｘ´が所定の負の閾値より小さいのか
否かを判定し、所定の負の閾値より小さいと判定した場
合、ステップＳ１２３に進み、所定の負の閾値より小さ
くはないと判定した場合、ステップＳ１１０に進む。

【０１２０】ステップＳ１０８またはＳ１０９の処理の
後、ステップＳ１１０において、重心軌跡認識部３２
は、Ｘ−Ｘｓの絶対値が変数ｍａｘの絶対値（いまの場
合、０）より大きいのか否かを判定し、Ｘ−Ｘｓの絶対
値が変数ｍａｘの絶対値より大きいと判定した場合、ス
テップＳ１１１に進み、変数ｍａｘにＸ−Ｘｓの値を代
入する。また、ステップＳ１１０において、Ｘ−Ｘｓの
絶対値が変数ｍａｘの絶対値より大きくはないと判定し
た場合、ステップＳ１１１の処理をスキップし、ステッ
プＳ１１２に進む。

【０１２１】ステップＳ１１０またはステップＳ１１１
の処理の後、ステップＳ１１２において、重心軌跡認識
部３２は、Ｙ−Ｙｓの絶対値が所定の閾値より小さいの
か否かを判定し、所定の閾値より小さいと判定した場
合、ステップＳ１１３に進み、Ｙ−Ｙｓの絶対値が所定
の閾値より小さくはないと判定した場合、ステップＳ１
２８に進む。

【０１２２】ステップＳ１１３において、重心軌跡認識
部３２は、リングバッファが１周したのか否かを判定
し、リングバッファが未だ１周していないと判定した場
合、ステップＳ１１４に進み、重心軌跡認識部３２は、
現フレームの重心位置Ｘ，Ｙと、１フレーム前の重心位
置Ｘ´，Ｙ´の更新を行い、ステップＳ１０７に戻る。
いまの場合、１フレームずつさかのぼった、現フレーム
の重心位置Ｘ＝Ｘ₄，Ｙ＝Ｙ₄、１フレーム前の重心位置
Ｘ´＝Ｘ₃，Ｙ´＝Ｙ₃に更新される。また、ステップＳ
１１３において、リングバッファが１周したと判定され
た場合、ステップＳ１２３に進む。

【０１２３】また、ステップＳ１０６において、Ｘ−Ｘ
´が０より大きくはないと判定された場合（Ｘ−Ｘ´が
負の値であると判定された場合）、ステップＳ１１５に
進み、重心軌跡認識部２３は、Ｘ−Ｘ´が所定の負の閾
値より小さいのか否かを判定し、所定の負の閾値より小
さいと判定した場合、ステップＳ１１６に進む。ステッ
プＳ１１６において、重心軌跡認識部３２は、変数BigS
kipにTRUEを代入する。また、ステップＳ１１５におい
て、Ｘ−Ｘ´が所定の負の閾値より小さくはないと判定
された場合、ステップＳ１１７に進み、重心軌跡認識部
３２は、さらに、Ｘ−Ｘ´が所定の正の閾値より大きい
のか否かを判定し、所定の正の閾値より大きくはないと
判定した場合、ステップＳ１１８に進み、所定の正の閾
値より大きいと判定した場合、ステップＳ１２３に進
む。

【０１２４】ステップＳ１１６またはＳ１１７の処理の
後、ステップＳ１１８において、重心軌跡認識部３２
は、Ｘ−Ｘｓの絶対値が変数ｍａｘの絶対値より大きい
のか否かを判定し、Ｘ−Ｘｓの絶対値が変数ｍａｘの絶
対値より大きいと判定した場合、ステップＳ１１９に進
み、変数ｍａｘにＸ−Ｘｓの値を代入する。また、ステ
ップＳ１１８において、Ｘ−Ｘｓの絶対値が変数ｍａｘ
の絶対値より大きくはないと判定した場合、ステップＳ
１１９の処理をスキップし、ステップＳ１２０に進む。

【０１２５】ステップＳ１１８またはステップＳ１１９
の処理の後、ステップＳ１２０において、重心軌跡認識
部３２は、Ｙ−Ｙｓの絶対値が所定の閾値より小さいの
か否かを判定し、所定の閾値より小さいと判定した場
合、ステップＳ１２１に進み、Ｙ−Ｙｓの絶対値が所定
の閾値より小さくはないと判定した場合、ステップＳ１
２８に進む。

【０１２６】ステップＳ１２１において、重心軌跡認識
部３２は、リングバッファが１周したのか否かを判定
し、リングバッファが未だ１周していないと判定した場
合、ステップＳ１２２に進み、重心軌跡認識部３２は、
現フレームの重心位置Ｘ，Ｙと、１フレーム前の重心位
置Ｘ´，Ｙ´の更新を行い、ステップＳ１１５に戻る。
いまの場合、１フレームずつさかのぼった、現フレーム
の重心位置Ｘ＝Ｘ₄，Ｙ＝Ｙ₄、１フレーム前の重心位置
Ｘ´＝Ｘ₃，Ｙ´＝Ｙ₃に更新される。また、ステップＳ
１２１において、リングバッファが１周したと判定され
た場合、ステップＳ１２３に進む。

【０１２７】ステップＳ１０９，１１３，１１７、また
はステップＳ１２１の処理の後、ステップＳ１２３にお
いて、重心軌跡認識部３２は、変数BigSkipがFALSEであ
るのか否かを判定し、変数BigSkipがFALSEであると判定
した場合、ステップＳ１２４に進む、ステップＳ１２４
において、重心軌跡認識部３２は、変数ｍａｘの値が所
定の正の閾値より大きいのか否かを判定し、変数ｍａｘ
の値が所定の正の閾値より大きいと判定した場合、ステ
ップＳ１２５に進み、右の振りがあったと認識し、図４
のステップＳ１４にリターンする。

【０１２８】また、ステップＳ１２４において、変数ｍ
ａｘが所定の正の閾値より大きくはないと判定された場
合、ステップＳ１２６に進み、重心軌跡認識部３２は、
さらに、変数ｍａｘが所定の負の閾値より小さいのか否
かを判定し、変数ｍａｘの値が所定の負の閾値より小さ
いと判定した場合、ステップＳ１２７に進み、左の振り
があったと認識し、図４のステップＳ１４にリターンす
る。

【０１２９】ステップＳ１２３において、変数BigSkip
がFALSEではないと判定された場合、ステップＳ１２６
において、変数ｍａｘが所定の負の閾値より小さくはな
いと判定された場合、また、ステップＳ１０４，１１
２，またはステップＳ１２０の処理の後、ステップＳ１
２８において、重心軌跡認識部３２は、手の振りはなか
ったと認識し、図４のステップＳ１４にリターンする。

【０１３０】また、他の例の振り動作認識処理につい
て、図１７のフローチャートを参照して説明する。ステ
ップＳ１４１において、重心軌跡認識部３２は、curr_g
esにRight，Left、またはNoneを代入する。すなわち、
図１５のステップＳ１２５，Ｓ１２７、または、Ｓ１２
８での処理結果（右振り、左振り、または手振りなし）
を代入する。ステップＳ１４２において、重心軌跡認識
部３２は、現フレームの時刻と基準時刻とを比較し、現
フレームの経過時間を算出する。ステップＳ１４３にお
いて、重心軌跡認識部３２は、現フレームが右方向また
は左方向の動きがあったのか否かを判定し、右方向また
は左方向の動きがあったと判定した場合、ステップＳ１
４４に進む。ステップＳ１４４において、重心軌跡認識
部３２は、経過時間を算出するための基準時刻を現フレ
ームの時刻に更新する。

【０１３１】また、ステップＳ１４３において、右方向
または左方向の動きがなかったと判定された場合、ステ
ップＳ１４４の処理をスキップし、ステップＳ１４５に
進む。ステップＳ１４５において、重心軌跡認識部３２
は、ステップＳ１４２の処理で算出された現フレームの
経過時間が所定の閾値より長いのか否かを判定し、現フ
レームの経過時間が所定の閾値より長いと判定した場
合、ステップＳ１４６に進み、変数prev_gesに保存され
ているジェスチャ（右振りまたは左振り）を出力する。

【０１３２】ステップＳ１４５において、現フレームの
経過時間が所定の閾値より長くはないと判定された場
合、ステップＳ１４７に進み、重心軌跡認識部３２は、
現フレームのジェスチャ（右振りまたは左振り）である
curr_gesを出力する。ステップＳ１４８において、重心
軌跡認識部３２は、ステップＳ１４７の処理で出力され
た現フレームのジェスチャであるcurr_gesをprev_gesに
代入（保存）する。

【０１３３】ステップＳ１４９において、重心軌跡認識
部３２は、ステップＳ１４６またはＳ１４７の処理で出
力されたジェスチャから、振り動作を認識し、図４のス
テップＳ１４にリターンする。

【０１３４】上述した処理は、短時間で一方の動き（例
えば、左方向の動き）から他方の動き（例えば、右方向
の動き）に変化した場合、一方（左方向）の動きを排除
して、他方（右方向）の動きを認識するので、処理を高
速化することができる。なお、図１４および図１５、ま
たは図１７による処理と同様にして上下方向の手振りを
認識することもできる。

【０１３５】図４に戻って、ステップＳ１４において、
表示・出力装置４は、画像処理装置３の握り動作判定部
６１より供給された認識結果（握りまたは開き動作）、
および、重心軌跡認識部３２より供給された認識結果
（身振りや手振り）を表示する。ステップＳ１５におい
て、画像処理装置３は、ユーザ１の動作が終了したのか
否かを判定し、未だ、動作が終了していないと判定した
場合、ステップＳ１に戻り、上述した処理を繰り返す。
そして、ステップＳ１５において、ユーザ１の動作が終
了したと判定されると、処理は終了される。

【０１３６】以上の握り動作認識処理の順序が明らかな
ようにまとめると、図１８に示されるようになる。そこ
で、次に、図１８を参照して、手の握り動作認識処理に
ついて説明する。なお、簡単のため、動きブロックの領
域は、領域７２のみとされ、動きブロックの領域が複数
存在した場合に行われる評価値の最も小さい領域を選択
するための処理はここでは省略する。

【０１３７】ビデオカメラ２は、ユーザ１の手７１を撮
像し（図１８（Ａ））、撮像された画像データを輝度デ
ータに変換し、画像記憶部２１に記憶させる。領域分割
部２２のフレーム間差分算出部４１は、ビデオカメラ２
で変換された現フレームの画像データの輝度データと画
像記憶部２１に記憶されている１フレーム前の画像デー
タの輝度データとの間のフレーム間差分値を算出する。
閾値処理部４２は、フレーム間差分値のうち、所定の閾
値以上のフレーム間差分値がある画素を１とし、所定の
閾値に満たないフレーム間差分値の画素を０として２値
化する（図１８（Ｂ））。

【０１３８】ラベリング部４６は、２値化された画像の
動きブロックの領域７２をラベリング処理する。重心検
出部５１は、ラベリングされた領域７２内の重心を検出
する（図１８（Ｃ））。

【０１３９】エッジ検出部５７は、領域７２の垂直方向
および水平方向のエッジ情報をそれぞれ検出する。すな
わち、エッジ検出部５７は、領域７２の重心Ｃが矩形領
域９１の中心になるように設定して矩形領域９１を３等
分したtop，middle，bottomの３領域内の垂直方向のエ
ッジピクセルの数をカウントするとともに（図１８
（Ｅ））、水平方向のエッジピクセルの数をカウントす
る（図１８（Ｆ））。

【０１４０】エッジ検出部５７は、カウントされたエッ
ジピクセル数に基づいて、上記式（７）に従って、特徴
ベクトルｆを算出する。DP値算出部６２は、連続DPの手
法を用いて、算出された特徴ベクトルｆから連続DP値を
算出し、参照パターンにマッチした動作を握り動作判定
部６１に出力する。これにより、握り動作判定部６１
は、手の握りまたは開き動作を認識することができる。

【０１４１】以上のように、ビデオカメラで撮像した画
像データから、ユーザの手の握りまたは開き動作を認識
することができるので、マウスやキーボードなどの入力
装置を用いることなく、離れた場所から容易にコンピュ
ータ等を操作することができる。

【０１４２】また、特別なデバイスや複数台のビデオカ
メラを使用していないため、低コストなシステムを実現
することができる。

【０１４３】また、以上においては、手の握り・開き動
作を認識することは勿論、手の移動（軌跡）動作および
手の振り動作も認識することができるので、例えば、コ
ンピュータに対応付けた場合、手を移動（マウス移
動）、手を握る（アイコン選択）、手を握ったまま移動
（アイコンを選択したままドラッグ）、手を開く（アイ
コン選択解除）という操作を行ったり、左方向の振り
（マウス左ボタンクリック）、右方向の振り（マウス右
ボタンクリック）という操作を行ったりすることができ
る。従って、ユーザは、マウスを用いなくても、直感的
な操作で、画面にアプリケーションを起動させたり、画
面に表示されているウィンドウを移動させたりすること
ができる。

【０１４４】これにより、例えば、ディスプレイに表示
されているファイルを、手を握ることにより選択し、手
を移動させることによりドラッグし、所定の場所（例え
ば、ハードディスクドライブなど）で手を開くことによ
り、所望のファイルの移動やコピーなどを直感的な動作
で行うことができる。

【０１４５】上述した一連の処理は、ハードウェアによ
り実行させることもできるが、ソフトウェアにより実行
させることもできる。一連の処理をソフトウェアにより
実行させる場合には、そのソフトウェアを構成するプロ
グラムが、専用のハードウェアに組み込まれているコン
ピュータ、または、各種のプログラムをインストールす
ることで、各種の機能を実行することが可能な、例えば
汎用のパーソナルコンピュータなどに、記録媒体からイ
ンストールされる。

【０１４６】この記録媒体は、コンピュータとは別に、
ユーザにプログラムを提供するために配布される、プロ
グラムが記録されている磁気ディスク（フロッピディス
クを含む）、光ディスク（CD-ROM（Compact Disk-Read
Only Memory），DVD（Digital Versatile Disk）を含
む、光磁気ディスク（MD（Mini-Disk）を含む）、若し
くは半導体メモリなどよりなるパッケージメディアによ
り構成されるだけでなく、コンピュータに予め組み込ま
れた状態でユーザに提供される、プログラムが記録され
ているROMや、ハードディスクなどで構成される。

【０１４７】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に沿って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。

【０１４８】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。

【０１４９】

【発明の効果】以上のように、本発明の画像処理装置、
画像処理方法、および記録媒体に記録されているプログ
ラムによれば、対象物を撮像し、撮像された画像を輝度
情報に変換し、変換された輝度情報に基づいて動き領域
を検出し、その動き領域のエッジ情報を抽出し、抽出さ
れたエッジ情報に基づいて特徴量を算出し、算出された
特徴量に基づいて対象物の握り動作を認識するようにし
たので、低コストに、かつ、高精度に、ユーザの手の握
りおよび開き動作を画像処理により認識することができ
る。

【図面の簡単な説明】

【図１】本発明を適用した画像処理システムの構成例を
示す図である。

【図２】図１の画像処理装置の構成を示すブロック図で
ある。

【図３】図２の画像処理部およびジェスチャ認識部の詳
細な構成を示すブロック図である。

【図４】手の握り・振り動作認識処理を説明するフロー
チャートである。

【図５】図４のステップＳ２の領域分割処理を説明する
フローチャートである。

【図６】領域分割処理を説明するための図である。

【図７】重心を算出する動作を説明するための図であ
る。

【図８】図４のステップＳ９の動き方向検出処理を説明
するフローチャートである。

【図９】動き方向を検出するフレームを説明するための
図である。

【図１０】動き方向を示す画素値を設定するための対応
図である。

【図１１】エッジ情報検出処理を説明するための図であ
る。

【図１２】エッジ情報検出処理に利用されるフィルタを
示す図である。

【図１３】DPマッチングを説明するための図である。

【図１４】図４のステップＳ１３の振り動作認識処理を
説明するフローチャートである。

【図１５】図１４に続くフローチャートである。

【図１６】リングバッファを説明する図である。

【図１７】図４のステップＳ１３の他の例の振り動作認
識処理を説明するフローチャートである。

【図１８】握り動作認識処理を説明するための図であ
る。

【符号の説明】

２ビデオカメラ，３画像処理装置，４表示・
出力装置，１１画像処理部，１２ジェスチャ認
識部，２１画像記憶部, ２２領域分割部，２
３領域処理部，３１握り動作認識部, ３２重
心軌跡認識部,４１フレーム間差分算出部，４２
閾値処理部, ４３ブロック内カウント部, ４４閾
値処理部, ４５周辺探索部, ４６ラベリング部,
５１重心検出部, ５２外接枠検出部, ５３面積
検出部, ５４領域評価部,５５領域記憶部, ６１
握り動作判定部, ６２ DP値算出部

Claims

【特許請求の範囲】

【請求項１】対象物を撮像する撮像手段と、前記撮像手段により撮像された画像を輝度情報に変換す
る変換手段と、前記変換手段により変換された前記輝度情報に基づい
て、動き領域を検出する動き領域検出手段と、前記動き領域検出手段により検出された前記動き領域の
エッジ情報を抽出するエッジ情報抽出手段と、前記エッジ情報抽出手段により抽出された前記エッジ情
報に基づいて、特徴量を算出する特徴量算出手段と、前記特徴量算出手段により算出された前記特徴量に基づ
いて、前記対象物の握り動作を認識する認識手段とを備
えることを特徴とする画像処理装置。
【請求項２】前記動き領域検出手段は、現フレームの
前記輝度情報と、１フレーム前の前記輝度情報の差を算
出し、その差が所定の閾値以上であるか否かを判断する
ことにより、前記動き領域を検出することを特徴とする
請求項１に記載の画像処理装置。
【請求項３】前記動き領域検出手段により検出された
前記動き領域の重心を算出する重心算出手段をさらに備
え、前記エッジ情報抽出手段は、前記重心算出手段により算
出された前記動き領域の重心を中心とする所定の矩形領
域を上下方向に３等分し、各領域のそれぞれにおいて、
垂直方向および水平方向のエッジ情報を抽出することを
特徴とする請求項１に記載の画像処理装置。
【請求項４】前記動き領域検出手段により検出された
前記動き領域内の評価値を算出する評価値算出手段と、前記評価値算出手段の算出結果から、評価値の最も小さ
い前記動き領域を選択する選択手段とをさらに備え、前記エッジ情報抽出手段は、前記選択手段により選択さ
れた評価値の最も小さい前記動き領域のエッジ情報を抽
出することを特徴とする請求項１に記載の画像処理装
置。
【請求項５】前記特徴量算出手段により算出された前
記特徴量が所定値より小さいか否かを判定する判定手段
をさらに備え、前記認識手段は、前記判定手段により、前記特徴量が前
記所定値より小さいと判定された場合、前記対象物の握
り動作を認識することを特徴とする請求項１に記載の画
像処理装置。
【請求項６】対象物を撮像する撮像ステップと、前記撮像ステップの処理により撮像された画像を輝度情
報に変換する変換ステップと、前記変換ステップの処理により変換された前記輝度情報
に基づいて、動き領域を検出する動き領域検出ステップ
と、前記動き領域検出ステップの処理により検出された前記
動き領域のエッジ情報を抽出するエッジ情報抽出ステッ
プと、前記エッジ情報抽出ステップの処理により抽出された前
記エッジ情報に基づいて、特徴量を算出する特徴量算出
ステップと、前記特徴量算出ステップの処理により算出された前記特
徴量に基づいて、前記対象物の握り動作を認識する認識
ステップとを含むことを特徴とする画像処理方法。
【請求項７】対象物を撮像する撮像ステップと、前記撮像ステップの処理により撮像された画像を輝度情
報に変換する変換ステップと、前記変換ステップの処理により変換された前記輝度情報
に基づいて、動き領域を検出する領域検出ステップと、前記領域検出ステップの処理により検出された前記動き
領域のエッジ情報を抽出するエッジ情報抽出ステップ
と、前記エッジ情報抽出ステップの処理により抽出された前
記エッジ情報に基づいて、特徴量を算出する特徴量算出
ステップと、前記特徴量算出ステップの処理により算出された前記特
徴量に基づいて、前記対象物の握り動作を認識する認識
ステップとを含むことを特徴とするコンピュータが読み
取り可能なプログラムが記録されている記録媒体。