JP2011076255A

JP2011076255A - ジェスチャ認識装置、ジェスチャ認識方法、およびジェスチャ認識プログラム

Info

Publication number: JP2011076255A
Application number: JP2009225369A
Authority: JP
Inventors: Satoru Nakajima; 哲中島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-09-29
Filing date: 2009-09-29
Publication date: 2011-04-14
Anticipated expiration: 2029-09-29
Also published as: JP5381569B2

Abstract

【課題】カメラにより得られる画像を利用してジェスチャを安定して認識する。
【解決手段】対象物の移動軌跡に基づいてジェスチャを認識するジェスチャ認識装置は、異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出する対象領域抽出部と、前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出する着目点抽出部と、前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定する移動方向判定部と、前記複数の画像フレームについての前記移動方向判定部の判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する移動軌跡検出部、を有する。
【選択図】図３

Description

本発明は、カメラにより得られる画像を利用してジェスチャを認識する装置、方法、およびプログラムに係わる。

表示装置に表示されている対象物を選択するインタフェースの１つとして、カメラにより得られる画像を利用して、ユーザの手の動きとして例えばジャンケンのパーの形など所定の形状を保ったまま動かした手の動きを検出するジェスチャ認識が提案および実用化されている。ジェスチャ認識によるインタフェースは、ユーザが特別な機器を装着することなく、ユーザを撮影するカメラを用意することで実現される。このため、ジェスチャ認識によるインタフェースは、キーボードやマウス等の入力装置が適さない環境（たとえば、公共スペースに設けられる大型ディスプレイ等を利用するインタラクション）への適用が期待されている。

ジェスチャ認識は、例えば、ユーザを撮影した動画像データからそのユーザの手の動きを検出することにより実現される。以下、図１を参照しながら、動画像データを利用してユーザの手の動きを検出する方法の一例を説明する。

図１において、画像フレーム１〜３は、カメラにより得られる動画像データの一部である。画像フレーム２は、画像フレーム１よりも後のピクチャであり、画像フレーム３は、画像フレーム２よりも後のピクチャである。また、画像フレーム１〜３は、ユーザの手１０１の画像を含んでいる。

ジェスチャ認識は、図１に示す方法では、手１０１に対応する領域内の特徴点を追跡することにより実現される。たとえば、画像フレーム１の特徴点ａ１は、画像フレーム２では特徴点ａ２として検出され、画像フレーム３では特徴点ａ３として検出される。この場合、手１０１は、特徴点ａ１から特徴点ａ２を経由して特徴点ａ３に至る経路で移動したものと判断される。これにより、ユーザがどのように手を動かしたのかが認識される。なお、動画像データからユーザの手に対応する領域を抽出して追跡することにより、特定の動作パターンを検出する方法は、例えば、非特許文献１に記載されている。

情報処理学会論文誌、Vol.44、No.SIG5(CVIM 6)、Apr.2003「拡張机型インタフェースのための複数指先の追跡とその応用」

図１に示す方法では、ジェスチャを安定して認識することは難しい。特に、ユーザの手の動きを検出する場合は、画像上で手の形状が大きく変化することがあり、また、手と背景（例えば、ユーザの衣服、或いはそのユーザの後ろで動く別の人）とを識別することが困難なことがあり、特徴点の追跡が難しい。

例えば、図１に示す例では、画像上で手１０１の形状が変化しており、画像フレーム２において、画像フレーム１の特徴点ｂ１に対応する特徴点は検出されない。すなわち、特徴点ｂ１の追跡は失敗している。この場合、手１０１の動きを検出することができない。また、画像フレーム２においては、ノイズ１０２が発生している。ノイズ１０２は、例えば、背景の動きに起因する。このとき、画像フレーム１の特徴点ｃ１は、誤追跡により、画像フレーム２において特徴点ｃ２として検出されたとすると、実際の手の動きとは異なるジェスチャが認識されてしまう。このように、特徴点を追跡する方法においては、特徴点の誤検出あるいは未検出が発生することがあり、安定してジェスチャを認識することができない。

本発明の課題は、カメラにより得られる画像を利用してジェスチャを安定して認識することである。

本発明の１つの態様のジェスチャ認識装置は、対象物の移動軌跡に基づいてジェスチャを認識する装置であって、異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出する対象領域抽出部と、前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出する着目点抽出部と、前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定する移動方向判定部と、前記複数の画像フレームについての前記移動方向判定部の判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する移動軌跡検出部、を有する。

本出願において開示される構成または方法によれば、カメラにより得られる画像を利用してジェスチャを安定して認識することができる。

ユーザの手の動きを検出する方法の一例を説明する図である。ジェスチャ認識システムの一例を示す図である。第１の実施形態のジェスチャ認識装置の構成を示す図である。ジェスチャ認識装置の動作を説明する図である。着目点の動きベクトルを計算する方法の一例を説明する図である。方向領域について説明する図である。遷移データ照合部の動作を説明する図である。第１の実施形態のジェスチャ認識方法を示すフローチャートである。第２の実施形態のジェスチャ認識方法を説明する図である。アイコン画像データ格納部の実施例である。第３の実施形態のジェスチャ認識方法を説明する図である。複数の対象領域が抽出された画像フレームを示す図である。ジェスチャ認識装置のハードウェア構成を示す図である。

図２は、実施形態のジェスチャ認識方法を提供するジェスチャ認識システムの一例を示す図である。ジェスチャ認識システムは、この実施例では、ジェスチャ認識装置１、カメラ２、表示装置３を備える。そして、ジェスチャ認識装置１は、この実施例では、コンピュータを用いてジェスチャ認識プログラムを実行することにより実現され、カメラ２により撮影される人物（以下、ユーザ）のジェスチャを認識する。

カメラ２は、表示装置３の正面方向（表示画面にほぼ垂直な方向）を撮影するように、表示装置３の近傍に設置されている。なお、カメラ２は、表示装置３に取り付けられていてもよいし、表示装置３に内蔵されていてもよい。また、カメラ２は、例えばデジタルビデオカメラであり、カメラ２により得られる動画像データはジェスチャ認識装置１に有線または無線通信により送信される。表示装置３はジェスチャ認識装置１に有線または無線通信により接続されており、カメラ２により撮影される動画像をリアルタイムで表示することができる。したがって、表示装置３の正面にユーザが位置すると、そのユーザを含む画像のデータがジェスチャ認識装置１に送信されると共に、そのユーザを含む画像が表示装置３に表示される。

ジェスチャ認識装置１は、カメラ２により得られる動画像データを利用して、表示装置３の正面に位置するユーザ（すなわち、カメラ２により撮影されるユーザ）のジェスチャを認識する。この実施例では、ジェスチャ認識装置１は、ユーザの手がどのような軌道パターンで動かされたのかを検出する。図２においては、ジェスチャ認識装置１は、ユーザが手で「輪」を描いたことを認識する。

なお、この実施例では、ユーザは、あたかも鏡に映った自分の姿を見ているかのように、表示装置３に表示されている自分の姿を見ながら所望のジェスチャを行うことができる。したがって、特に限定されるものではないが、表示装置３には、図２に示すように、カメラ２で得られる画像の左右反転画像が表示されるようにしてもよい。ただし、表示装置３は、実施形態のジェスチャ認識方法を実現するための必須の構成要素ではない。

＜第１の実施形態＞
図３は、第１の実施形態のジェスチャ認識装置１の構成を示す図である。ジェスチャ認識装置１は、この実施例では、対象領域抽出部１１、着目点抽出部１２、移動方向判定部１３、移動軌跡検出部１４を備える。そして、ジェスチャ認識装置１には、カメラ２により得られる動画像データが入力される。動画像データは、特に限定されるものではないが、例えば、３０フレーム／秒である。なお、後述する第２および第３の実施形態においても、ジェスチャ認識装置の基本的な構成は同じである。

対象領域抽出部１１は、異なる時刻に得られる複数の画像フレームにおいて、それぞれ対象物に対応する対象領域を抽出する。このとき、ジェスチャ認識装置１は、例えば、入力される動画像データを構成する各画像フレームにおいてそれぞれ対象領域を抽出する。ただし、対象領域抽出部１１は、所定の割合で間引きが行われた動画像データの各画像フレームから対象領域を抽出するようにしてもよい。

上記対象物は、この実施例では、カメラ２により撮影されるユーザの「手」である。したがって、対象領域抽出部１１は、各画像フレームにおいて、ユーザの手に対応する画像領域を抽出する。ユーザの手に対応する画像領域は、例えば、画素の色に基づいて抽出される。また、ジェスチャ認識装置１は、ユーザのジェスチャ（すなわち、「動き」）を検出して認識する。よって、対象領域抽出部１１は、画像フレーム内で動いている領域を、ユーザの手に対応する画像領域として抽出するようにしてもよい。さらに、対象領域抽出部１１は、上記２つの抽出条件を組み合わせてユーザの手に対応する画像領域を抽出するようにしてもよい。

図４は、ジェスチャ認識装置１の動作を説明する図である。図４（ａ）において、画像フレーム１〜３は、カメラ２により得られる動画像データの一部である。画像フレーム２は、画像フレーム１よりも後のピクチャであり、画像フレーム３は、画像フレーム２よりも後のピクチャである。ここで、画像フレーム１〜３は、例えば、連続する３枚の画像フレームであってもよい。

対象領域２１は、この実施例では、上述したように、カメラ２により撮影されるユーザの手に対応する画像領域である。ここで、図４（ａ）に示す例では、時間経過に伴って、ユーザの手の位置が移動するとともに、その形状も変化している。このため、画像フレーム１〜３において、対象領域２１の位置が移動しており、また、対象領域２１の形状も変化している。なお、画像フレーム１、３においては、対象領域２１のみが検出されているが、画像フレーム２においては、対象領域２１および対象領域２２が検出されている。対象領域２２は、上述した抽出条件に従って検出された領域ではあるが、ユーザの手に対応する画像領域でないものとする。すなわち、対象領域２２は、ノイズ画像領域である。なお、ノイズ画像領域は、例えば、ユーザの背景の動きに起因して生じる。

着目点抽出部１２は、各画像フレームにおいて、それぞれ、対象領域抽出部１１により抽出された対象領域（２１、２２）の中から、１以上の着目点を抽出する。この実施例では、各画像フレームにおいて複数の着目点が抽出される。画像フレーム１においては、対象領域２１から着目点ａ１〜ｇ１が抽出されている。また、画像フレーム２においては、対象領域２１から着目点ａ２〜ｇ２が抽出され、対象領域２２から着目点ｈ２が抽出されている。さらに、画像フレーム３においては、対象領域２１から着目点ａ３〜ｇ３が抽出されている。

着目点は、特に限定されるものではないが、画像上の特徴点である。特徴点は、画素値の変化が大きい点（または、画素値の変化が大きい位置の画素）であり、公知の技術（例えば、デジタルフィルタ）を利用して抽出することができる。なお、特徴点は、例えば、画像上のエッジの角に存在する。また、画素値は、例えば、各画素の輝度情報または色情報である。ここで、着目点として特徴点を使用すれば、後述する動きベクトル計算の精度が向上する。ただし、着目点は、特徴点である必要はなく、例えば、対象領域の重心点であってもよい。なお、着目点抽出部１２は、画像フレーム毎に独立して、それぞれ、１以上の着目点を抽出することができる。すなわち、着目点抽出部１２は、画像フレーム１において抽出される着目点ａ１〜ｇ１とは無関係に、着目点ａ２〜ｇ２、ａ３〜ｇ３を抽出することができ、画像フレーム２において抽出される着目点ａ２〜ｇ２とは無関係に、着目点ａ３〜ｇ３を抽出することができる。このように、実施形態のジェスチャ認識方法においては、画像フレーム間で着目点（または、特徴点）を追跡する必要はなく、また、画像フレーム間で着目点を対応づける必要もない。

移動方向判定部１３は、動きベクトル計算部１３ａおよびヒストグラム作成部１３ｂを備える。そして、移動方向判定部１３は、各画像フレームにおいて、対象領域抽出部１１により抽出された対象領域の移動方向を判定する。ここで、対象領域の移動方向は、その対象領域から抽出された各着目点の移動方向に基づいて判定される。

動きベクトル計算部１３ａは、各着目点の動きベクトルを計算する。ここで、動画像データにおいて任意の画像領域の動きベクトルを計算する方法は、特に限定されるものではなく、公知の技術を利用することができる。

図５は、着目点の動きベクトルを計算する方法の一例を説明する図である。ここで、図５（ａ）は、着目点の動きベクトルを計算すべき画像フレーム（以下、当該フレーム）を示している。以下の説明では、図５（ａ）において、座標（４，４）に位置する画素が着目点であるものとする。また、図５（ｂ）は、当該フレームの直前の画像フレームを示している。なお、図５（ａ）および図５（ｂ）において、各画素に対応する数値は、たとえば、輝度情報などの画素値、または画像フレーム全体に対して所定のフィルタ演算を行った演算結果に相当する。

動きベクトル計算部１３ａは、まず、図５（ａ）に示す当該フレームにおいて、着目点画素および着目点画素に隣接する８個の画素を備える３×３画素領域（以下、領域４１）を抽出する。続いて、動きベクトル計算部１３ａは、図５（ｂ）に示す画像フレームにおいて、領域４１と最も相関の高い３×３画素領域をサーチする。領域間の相関は、たとえば、対応する画素間の画素値の差分の絶対値の総和により計算される。この場合、例えば、総和が最小になる３×３画素領域が抽出される。図５に示す例では、破線枠で囲まれた領域４２が検出される。そして、領域４１、４２間に座標の差分に基づいて、着目点の動きベクトルが算出される。この例では、当該フレームにおける着目点の座標が（４，４）であり、その直前のフレームの領域４２の中心座標が（５，５）である。したがって、この着目点の動きベクトルとして「−１，−１」が得られる。なお、上記説明の座標系は、図５が示されている紙面において、右方向がＸ軸正方向であり、下方向がＹ軸正方向であるものとしている。

以下、同様に、動きベクトル計算部１３ａは、各画像フレームにおいて、各着目点の動きベクトルを計算する。なお、着目点の動きベクトルは、例えば、着目点を含む画像フレームおよびその直前の画像フレームを利用して計算されるが、これに限定されるものではない。すなわち、着目点を含む画像フレームおよびその画像フレームよりも２以上前の画像フレームを利用して動きベクトルが計算されてもよい。或いは、着目点を含む画像フレームおよびその画像フレームよりも後の画像フレームを利用して動きベクトルが計算されてもよい。

ヒストグラム作成部１３ｂは、各画像フレームにおいて、各着目点の移動方向が、図６に示す方向領域１〜９のいずれに属すのかを判定する。例えば、図５に示す例では、着目点の移動ベクトルは「−１，−１」である。この場合、この着目点の移動方向は１３５°である。そうすると、この着目点は、方向領域４に属すると判定される。さらに、他の着目点についても、同様に、移動方向が属する方向領域が判定される。そして、ヒストグラム作成部１３ｂは、各方向領域に属する着目点の数をカウントすることにより、移動方向ヒストグラムを作成する。

図４（ｂ）は、図４（ａ）に示す画像フレーム１〜３について作成された移動方向ヒストグラムの例である。画像フレーム１においては、多くの着目点（例えば、ａ１、ｄ１、ｅ１、ｆ１）が右方向または概ね右方向に移動している。したがって、画像フレーム１についてのヒストグラムでは、方向領域１（０〜４０°）に属する着目点の個数が最も多くなっている。また、画像フレーム２においては、多くの着目点（例えば、ｂ２、ｄ２、ｆ２、ｇ２）が右下方向または概ね右下方向に移動している。したがって、画像フレーム２についてのヒストグラムでは、方向領域８（２８０〜３２０°）に属する着目点の個数が最も多くなっている。さらに、画像フレーム３についてのヒストグラムにおいては、方向領域７（２４０〜２８０°）に属する着目点の個数が最も多くなっている。

ヒストグラム作成部１３ｂは、各画像フレームについて、作成した移動方向ヒストグラムに基づいて、対象領域２１の移動方向を判定する。この例では、着目点の個数が最も多い方向領域（着目点の属する頻度が最も高い方向領域）が、対象領域２１の尤らしい移動方向と判定される。したがって、図４に示す例では、画像フレーム１、２、３に対して、対象領域２１の移動方向の判定結果として、それぞれ「１」「８」「７」が出力される。

移動軌跡検出部１４は、遷移データ作成部１４ａ、遷移データ照合部１４ｂ、ジェスチャ判定部１４ｃを備える。そして、移動軌跡検出部１４は、各画像フレームについての移動方向判定部１３の判定結果を時系列に並べることにより生成されるデータに基づいて、対象物の移動軌跡を検出する。ここで、この時系列データは、各画像フレームにおける対照領域２１の移動方向の時間変化を表している。したがって、以下では、この時系列データを、方向遷移データと呼ぶことがある。

遷移データ作成部１４ａは、各画像フレームにおける対象領域の移動方向の判定結果を時系列に並べることにより、方向遷移データを生成する。例えば、図４（ａ）に示す画像フレーム１〜３に対して、図４（ｂ）に示す移動方向ヒストグラムが作成された場合は、判定結果「１」「８」「７」が得られる。この場合、図４（ｃ）に示す方向遷移データが生成される。

遷移データ照合部１４ｂは、遷移データ作成部１４ａにより生成された方向遷移データと、予め決められた移動軌跡を方向遷移データと同じ形式で表した参照パターンデータとを比較する。ここで、予め決められた移動軌跡が「円」であるものとする。移動軌跡が円である場合、対象物の移動方向は、時間経過に伴って連続的に変化する。すなわち、この場合、参照パターンデータは、例えば以下のように表される。なお、下記の例では、参照パターンデータは、１８桁で表されている。
参照パターンデータ（円）＝１１２２３３４４５５６６７７８８９９
また、この例では、下記の方向遷移データが得られているものとする。
方向遷移データ＝１３２２３３４５５５６５６７８８８９

遷移データ照合部１４ｂは、図７に示すように、桁ごとに、方向遷移データと参照パターンデータとの間の差分値の絶対値を計算する。ここで、方向遷移データの各桁の値は、上述したように、図６に示す方向領域（すなわち、対象領域２１の移動方向）を表す。

遷移データ照合部１４ｂは、各桁の差分絶対値の総和を計算する。図７に示す例では、「６」が得られている。さらに、遷移データ照合部１４ｂは、この総和と予め設定されている照合閾値とを比較する。そして、この比較結果は、ジェスチャ判定部１４ｃに与えられる。

ジェスチャ判定部１４ｃは、上記総和が照合閾値よりも小さければ、方向遷移データにより表される移動軌跡と参照パターンデータにより表される移動軌跡が類似していると判定する。上述の例では、対象物（すなわち、カメラ２により撮影されるユーザの手）の移動軌跡が円であると判定される。換言すれば、ジェスチャ判定部１４ｃは、ユーザが手で円を描くジェスチャを行った、と判定する。

図８は、第１の実施形態のジェスチャ認識方法を示すフローチャートである。ステップＳ１では、カメラ２により得られる動画像データの各画像フレームがジェスチャ認識装置１に入力される。ステップＳ２において、対象領域抽出部１１は、各画像フレームにおいて、対象領域を抽出する。対象領域は、上述の例では、カメラ２により撮影されるユーザの手に対応する画像領域である。ステップＳ３において、着目点抽出部１２は、各画像フレームにおいて、抽出されている対象領域から複数の着目点を抽出する。着目点は、例えば、画像の特徴点である。

ステップＳ４において、動きベクトル計算部１３ａは、各画像フレームにおいて、各着目点の動きベクトルを計算する。そして、動きベクトル計算部１３ａは、算出した動きベクトルに基づいて、各着目点の移動方向（上述の例では、図６に示す方向領域）を判定する。ステップＳ５において、ヒストグラム作成部１３ｂは、各画像フレームについて、各着目点の移動方向についての出現頻度を表す移動方向ヒストグラムを作成する。画像フレームごとに作成された移動方向ヒストグラムは、ジェスチャ認識装置１が備えるメモリ領域に格納される。このとき、ジェスチャ認識装置１は、最新の数秒間分の画像フレームについての移動方向ヒストグラムのみを保持するようにしてもよい。

ステップＳ６において、遷移データ作成部１４ａは、各画像フレームについての移動方向ヒストグラムを参照し、最も出現頻度の高い移動方向を判定する。そして、遷移データ作成部１４ａは、各画像フレームについての判定結果（すなわち、対象領域の尤らしい移動方向を表すデータ）を時系列に並べることにより、方向遷移データを生成する。ステップＳ７において、遷移データ照合部１４ｂは、作成された方向遷移データと参照パターンデータとの差分を計算する。参照パターンデータは、予め決められた特定のジェスチャを表す。

ステップＳ８において、ジェスチャ判定部１４ｃは、方向遷移データと参照パターンデータとの差分と照合閾値とを比較する。そして、上記差分が照合閾値よりも小さければ、ジェスチャ判定部１４ｃは、ユーザが上記特定のジェスチャを行ったと判定する。一方、上記差分が照合閾値以上であれば、ジェスチャ判定部１４ｃは、ユーザが上記特定のジェスチャを行っていないと判定する。

このように、第１の実施形態のジェスチャ認識装置１は、画像フレームごとに対象領域（ユーザの手に対応する画像領域）を抽出するとともに、その対象領域から着目点を抽出する。そして、抽出された着目点について前画像フレームからの移動方向が特定され、その移動方向の時間変化に基づいて対象物（ユーザの手）の移動軌跡が検出される。すなわち、ユーザのジェスチャが認識される。これにより、画像上で対象物の位置および形状の時間変化が大きくても、その移動軌跡を検出することができる。

また、ジェスチャ認識装置１は、画像フレーム毎に複数の着目点を抽出し、各着目点の動きベクトル（すなわち、移動方向）を計算する。各着目点の移動方向は、所定角度幅ごとに出現数をカウントするヒストグラムで管理される。このヒストグラムを利用して、最も出現頻度の高い移動方向が特定され、この特定された移動方向が対象物の移動方向と判定される。このため、例えば、対象物（ユーザの手）の形状が変わることに起因して、各着目点の移動方向が一定でない場合であっても、対象物全体としての移動方向を精度よく検出できる。また、図４（ａ）に示すように、画像フレーム２においてノイズ（対象領域２２）が発生しても、そのノイズの影響は適切に除去または抑制される。よって、第１の実施形態のジェスチャ認識装置１は、対象物の移動軌跡を精度よく検出でき、ユーザのジェスチャを精度よく認識できる。

次に、図１に示す方法と、第１の実施形態の方法とを比較する。図１に示す方法では、まず、ある画像フレームにおいて特徴点を抽出し、以降の画像フレームにおいてその特徴点が追跡される。すなわち、特徴点が複数の画像フレームに渡って時系列に対応づけられる。このため、ユーザの手の位置および形状の変化が大きいと、画像フレーム間で対応づけられるべき特徴点の検出が困難（或いは、不可能）である。

これに対して、第１の実施形態の方法によれば、各画像フレームにおいてそれぞれユーザの手に対応する領域から複数の着目点を抽出し、各着目点の移動方向を特定する。そして、最も出現頻度の高い移動方向に基づいて、支配的な移動方向が判定される。このとき、移動方向を判定する処理は、画像フレーム毎に独立して行うことができ、複数の画像フレームに渡って着目点を追跡して対応づける必要はない。このため、第１の実施形態の方法によれば、特徴点の誤検出あるいは未検出の問題が発生することはなく、認識精度が低下することはない。

なお、ユーザがカメラ２の前でジェスチャを行うとき、手の移動速度はユーザ毎に異なる。このため、ジェスチャ認識装置１は、データ長の異なる複数の参照パターンデータを保持し、方向遷移データを各参照パターンデータにそれぞれ照合するようにしてもよい。この場合、ジェスチャ認識装置１は、例えば、下記の参照パターンデータを保持する。
参照パターン（高速）＝１２３４５６７８９
参照パターン（中速）＝１１２２３３４４５５６６７７８８９９
参照パターン（低速）＝１１１２２２３３３４４４５５５６６６７７７８８８９９９
あるいは、ジェスチャ認識装置１は、必要に応じて、参照パターンデータのデータ長に合わせるように、生成した方向遷移データのデータ長を伸張または圧縮するようにしてもよい。

また、ユーザが手で円を描くジェスチャをするとき、その移動軌跡の開始位置はユーザ毎に異なる。例えば、あるユーザは、円の最下点から軌道を開始するかも知れないし、他のユーザは円の最上点から軌道を開始するかも知れない。したがって、ジェスチャ認識装置１は、開始位置の異なる複数の参照パターンデータを保持し、方向遷移データを各参照パターンデータに照合するようにしてもよい。この場合、ジェスチャ認識装置１は、例えば、下記の参照パターンデータを保持する。
参照パターン＝１１２２３３４４５５６６７７８８９９
参照パターン＝２２３３４４５５６６７７８８９９１１
参照パターン＝３３４４５５６６７７８８９９１１２２
参照パターン＝４４５５６６７７８８９９１１２２３３
参照パターン＝５５６６７７８８９９１１２２３３４４
参照パターン＝６６７７８８９９１１２２３３４４５５
参照パターン＝７７８８９９１１２２３３４４５５６６
参照パターン＝８８９９１１２２３３４４５５６６７７
参照パターン＝９９１１２２３３４４５５６６７７８８

さらに、ユーザが手で円を描くジェスチャをするとき、時計回りで円が描かれるかも知れないし、反時計回りで円が描かれるかも知れない。したがって、ジェスチャ認識装置１は、例えば下記の２つの参照パターンデータを保持し、方向遷移データを各参照パターンデータに照合するようにしてもよい。
参照パターン＝１１２２３３４４５５６６７７８８９９
参照パターン＝１１９９８８７７６６５５４４３３２２

また、上述の実施例では、各画像フレームについての移動方向ヒストグラムにおいて、それぞれ１つの移動方向が特定されているが、２以上の移動方向の出現頻度がほぼ同じになることがある。例えば、画像フレーム１において、方向領域１および方向領域２の出現頻度がほぼ同じ程度に高いものとする。この場合、移動軌跡検出部１４は、画像フレーム１の方向領域データが「１」である第１の方向遷移データ、および画像フレーム１の方向領域データが「２」である第２の方向遷移データを生成する。そして、移動軌跡検出部１４は、第１および第２の方向遷移データをそれぞれ参照パターンデータと照合する。このとき、第１または第２の方向遷移データのいずれか一方と参照パターンデータとの差分の総和が照合閾値よりも小さければ、移動軌跡検出部１４は、ユーザが参照パターンデータに対応するジェスチャを行ったと判定することができる。

さらに、上述の実施例では、各画像フレームにおいて複数の着目点が抽出され、各着目点の移動方向に基づいてジェスチャが認識されるが、本発明はこれに限定されるものではない。すなわち、各画像フレームにおいて対象領域から１つの着目点を抽出し、その着目点の移動方向に基づいてジェスチャを認識するようにしてもよい。ただし、各画像フレームにおいて抽出する着目点の数を多くすれば、ジェスチャの認識精度は高くなる。

さらに、上述の実施例では、ジェスチャ認識装置１は、ユーザが手で「円」を描くジェスチャを認識するが、本発明はこれに限定されるものではない。すなわち、第１の実施形態のジェスチャ認識装置１は、他のジェスチャを認識してもよい。たとえば、ジェスチャ認識装置１は、一筆書きで描くことができる図形、文字、数字などを認識することができる。この場合、ジェスチャ認識装置１は、各図形、文字、数字に対応する参照パターンデータを保持し、各画像フレームから作成される方向遷移データを各参照パターンデータに照合することにより、ユーザのジェスチャを認識する。

＜第２の実施形態＞
第２の実施形態のジェスチャ認識装置は、図９に示すように、カメラ２により得られる動画像に所望の画像を重畳させることができる。重畳される画像は、特に限定されるものではないが、例えば、ユーザにより選択される対象を表す画像（以下、アイコン画像）である。図９では、アイコン２３〜２５が表示装置３に表示されている。この場合、表示装置３の正面にユーザが位置すると、表示装置３には、カメラ２で撮影されたユーザの画像およびアイコン２３〜２５が重畳して表示される。このとき、ユーザは、表示装置３に表示されている自分の姿（および重畳表示されているアイコン２３〜２５）を見ることができる。

ユーザは、表示装置３に表示されている所望のアイコンを選択する場合には、表示装置３の画面上で、選択したいアイコンの近傍領域で自分の手に対応する画像が円を描くように、自分の手を動かす。図９に示す例では、アイコン２３が選択される。このとき、ジェスチャ認識装置１は、アイコン２３の近傍領域において、ユーザの手に対応する対象領域の移動軌跡が円であることを検出すると、ユーザがアイコン２３を選択したものと判断する。

第２の実施形態のジェスチャ認識装置１は、図３に示す構成に加えて、点線で示すアイコン画像データ格納部３１および画像重畳部３２を備える。アイコン画像データ格納部３１には、図１０に示すように、表示装置３に重畳して表示する各アイコンについて、画像データ、表示位置データ、および判定領域データが格納されている。画像データは、例えば、表示すべきアイコンのビットマップデータである。表示位置データは、表示装置３の表示画面上でのアイコンの表示領域の中心座標を表す。判定領域データは、表示装置３の表示画面において、対象物の移動軌跡を検出するための判定領域の範囲を指定する。この例では、判定領域は長方形であり、左上角および右下角の座標が格納されている。

画像重畳部３２は、カメラ２から入力される動画像データの各画像フレームにアイコン画像を重畳することにより表示データを作成する。各アイコンの表示位置は、アイコン画像データ格納部３１に格納されている表示位置データに従う。そして、表示装置３は、表示データに従ってカメラ画像およびアイコン画像を重畳して表示する。

対象領域抽出部１１は、各画像フレームにおいて、対象領域（ここでは、ユーザの手に対応する画像領域）を抽出する。ただし、第２の実施形態では、対象領域抽出部１１は、画像フレーム全体から対象領域を抽出するのではなく、判定領域データにより指定される判定領域内で対象領域を抽出するようにしてもよい。図９に示す例では、アイコン２３〜２５に対してそれぞれ判定領域２６〜２８が設定されている。なお、判定領域２６〜２８は、図９では破線で描かれているが、表示装置３の画面上には表示されない。ただし、表示装置３に判定領域が表示されるようにしてもよい。

着目点抽出部１２、移動方向判定部１３、移動軌跡検出部１４の動作は、基本的に、図２〜図８を参照しながら説明した手順と同じである。すなわち、対象領域から複数の着目点が抽出され、各着目点の移動方向が計算され、出現頻度の高い移動方向に基づいて各画像フレームにおける対象物の移動方向が判定される。そして、対象物の移動方向の時間変化に基づいてその対象物の移動軌跡が検出される。

ただし、第２の実施形態のジェスチャ認識装置は、ユーザのジェスチャによる対象物の移動軌跡が、いずれの判定領域２６〜２８において検出されたのかを特定する機能を備えている。そして、例えば、判定領域２６において予め決められた所定の移動軌跡（この例では、円を描く軌跡）が検出されたときは、ジェスチャ認識装置は、ユーザによりアイコン２３が選択されたと判断する。この場合、ジェスチャ認識装置（または、ジェスチャ認識装置に接続された他のコンピュータ）は、選択されたアイコンに対応する処理を実行する。

このように、第２の実施形態のジェスチャ認識装置は、ユーザのジェスチャを認識することにより、表示装置３に表示された選択対象物の中からユーザが選択した対象物を検出することができる。なお、第２の実施形態では、判定領域についてのみ画像処理（領域抽出、着目点抽出、動きベクトル計算など）を行うようにすれば、ジェスチャ認識装置の処理量を少なくなる。

＜第３の実施形態＞
第３の実施形態のジェスチャ認識装置は、第１または第２の実施形態と同様に、対象領域抽出部１１、着目点抽出部１２、移動方向判定部１３、移動軌跡検出部１４を備え、対象物の移動方向の時間変化に基づいて移動軌跡を検出する。そして、第３の実施形態のジェスチャ認識装置は、画像フレーム上での対象物の位置情報の時間変化を表すデータを利用して、上記移動軌跡の検出処理を補完する。以下、図１１を参照しながら第３の実施形態について説明する。

第３の実施形態においても、対象領域抽出部１１は、各画像フレームにおいて、対象領域（ユーザの手に対応する画像領域）を抽出する。続いて、ジェスチャ認識装置は、各画像フレームにおいて、抽出した対象領域の重心位置を計算する。重心位置は、たとえば、着目点抽出部１２により抽出された複数の着目点の重心座標を計算することにより得られる。重心位置は、図１１に示す位置検出ブロック１〜９によって表される。なお、位置検出ブロックは、画像フレームまたはその一部領域を複数の領域に分割することで設定される。

第３の実施形態のジェスチャ認識装置は、各画像フレームの重心位置を時系列に並べることにより得られる位置遷移データと、参照パターンデータとを比較する。この参照パターンは、位置遷移データと同じデータ形式であり、所定のジェスチャに対応する対象物の移動軌跡を表す。ここで、対象物の移動軌跡が円であるものとすると、対象物は、画像フレーム上で、図１１に示すように、例えば、位置検出ブロック１から、位置検出ブロック２、３、６、９、８、７、４を順番に通過した後に、位置対象ブロック１に戻る経路を移動する。この場合、参照パターンデータは、例えば以下のように表される。なお、下記の例では、参照パターンデータは、１９桁で表されている。
参照パターンデータ（円）＝１１２２３３６６９９８８７７４４１１２
また、この例では、各画像フレームの対象領域の重心位置を時系列に並べることにより、下記の位置遷移データが得られているものとする。
遷移データ＝１１２２２３３６６９８８８７７４４１１

続いて、ジェスチャ認識装置は、位置遷移データと参照パターンデータとの相違度を計算する。相違度は、桁ごとに、位置遷移データおよび参照パターンデータの値の差分の絶対値を算出し、各差分絶対値の和を計算することで得られる。そして、この相関度が予め決められた閾値よりも小さければ、対象物の移動軌跡が円であると判定される。

なお、ジェスチャ認識装置は、位置遷移データと参照パターンデータとの間の相関度を計算してもよい。相関度は、桁ごとに、位置遷移データおよび参照パターンデータの値を互いに比較し、一致している桁の数をカウントすることで得られる。この場合、相関度が予め決められた閾値よりも高ければ、対象物の移動軌跡が円であると判定される。

さらに、ジェスチャ認識装置は、対象物の移動方向の時間変化に基づく検出結果と、対象物の位置情報の時間変化に基づく検出結果とを比較する。そして、これらの検出結果が互いに一致していれば、その検出結果を出力する。例えば、移動方向の時系列データに基づいて得られる移動軌跡が円であり、位置情報の時系列データに基づいて得られる移動軌跡も円であった場合に、ジェスチャ認識装置は、ユーザが円を描くジェスチャを行ったと認識する。一方、移動方向の時系列データに基づいて得られる移動軌跡が円であっても、位置情報の時系列データに基づいて同様の検出結果が得られなければ、ジェスチャ認識装置は、ユーザが円を描くジェスチャを行ったと認識しないようにすることができる。したがって、第３の実施形態によれば、ユーザのジェスチャの認識精度がさらに向上する。

このように、第３の実施形態では、画像上での対象物の移動方向に基づいてその対象物の移動軌跡が検出され、さらに、画像上での対象物の位置情報を利用してその検出処理が補完される。したがって、例えば、図１２に示すように、対象領域抽出部１１により複数の対象領域２１、２２が検出され、各対象領域上の着目点の移動方向が互いに異なっている場合などにおいて、対象物の移動軌跡の検出精度が向上する。或いは、ユーザのジェスチャを誤って認識する可能性が低下する。

なお、第１〜第３の実施形態の構成および動作は、互いに矛盾の生じない限りにおいて任意に組み合わせるようにしてもよい。

＜ジェスチャ認識装置のハードウェア構成＞
図１３は、ジェスチャ認識装置のハードウェア構成を示す図である。図１３において、ＣＰＵ５１は、メモリ５３を利用してジェスチャ認識プログラムを実行することにより、実施形態のジェスチャ認識方法を提供する。記憶装置５２は、例えばハードディスクであり、ジェスチャ認識プログラムを格納する。なお、記憶装置５２は、外部記録装置であってもよい。メモリ５３は、例えば半導体メモリであり、ＲＡＭ領域およびＲＯＭ領域を含んで構成される。なお、参照パターンデータは、例えば、記憶装置５２またはメモリ５３に格納される。

読み取り装置５４は、ＣＰＵ５１の指示に従って可搬型記録媒体５５にアクセスする。可搬性記録媒体５５は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体を含むものとする。通信インタフェース５６は、ＣＰＵ５１の指示に従って、ネットワークを介してデータを送受信する。入出力装置５７は、例えば、ユーザからの指示を受け付けるデバイス等に相当する。

実施形態に係わるジェスチャ認識プログラムは、例えば、下記の形態で提供される。
（１）記憶装置５２に予めインストールされている。
（２）可搬型記録媒体５５により提供される。
（３）プログラムサーバ６０からダウンロードする。

そして、上記構成のコンピュータでジェスチャ認識プログラムを実行することにより、実施形態に係わるジェスチャ認識装置が実現される。すなわち、上記構成のコンピュータでジェスチャ認識プログラムを実行することにより、対象領域抽出部１１、着目点抽出部１２、移動方向判定部１３、移動軌跡検出部１４の一部または全部が実現される。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
（付記１）
対象物の移動軌跡に基づいてジェスチャを認識するジェスチャ認識装置であって、
異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出する対象領域抽出部と、
前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出する着目点抽出部と、
前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定する移動方向判定部と、
前記複数の画像フレームについての前記移動方向判定部の判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する移動軌跡検出部、
を有するジェスチャ認識装置。
（付記２）
付記１に記載のジェスチャ認識装置であって、
前記着目点抽出部は、前記複数の画像フレームのそれぞれにおいて、前記対象領域の中から複数の着目点を抽出し、
前記移動方向判定部は、前記複数の画像フレームのそれぞれにおいて、各着目点の移動方向に基づいて、前記対象領域の尤らしい移動方向を判定する
ことを特徴とするジェスチャ認識装置。
（付記３）
付記２に記載のジェスチャ認識装置であって、
前記移動方向判定部は、前記複数の画像フレームのそれぞれにおいて、各着目点の移動方向が、所定角度に区切られた複数の方向領域のいずれに属すのかを決定し、前記着目点の移動方向が属する頻度が高い方向領域に基づいて、前記尤らしい移動方向を判定する
ことを特徴とするジェスチャ認識装置。
（付記４）
付記３に記載のジェスチャ認識装置であって、
第１および第２の方向領域において前記着目点の移動方向が属する頻度が高いときは、前記移動軌跡検出部は、前記第１の方向領域に基づいて判定される移動方向を含む第１の遷移データおよび前記第２の方向領域に基づいて判定される移動方向を含む第２の遷移データを利用して、前記対象物の移動軌跡を検出する
ことを特徴とするジェスチャ認識装置。
（付記５）
付記１〜４のいずれか１つに記載のジェスチャ認識装置であって、
人物を撮影したカメラ画像に選択対象画像を重畳することで画像フレームを生成する画像重畳部、をさらに備え、
前記対象物は、前記人物の手であり、
前記対象領域抽出部は、前記画像フレーム内の前記選択対象画像を含む所定の判定領域において、前記人物の手に対応する対象領域を抽出する
ことを特徴とするジェスチャ認識装置。
（付記６）
付記１〜５のいずれか１つに記載のジェスチャ認識装置であって、
前記移動軌跡検出部は、予め決められた移動軌跡を表す参照パターンデータと前記遷移データとを比較することにより、前記対象物の移動軌跡を検出する
ことを特徴とするジェスチャ認識装置。
（付記７）
付記１〜６のいずれか１つに記載のジェスチャ認識装置であって、
移動軌跡検出部は、前記複数の画像フレームを利用して前記対象物の位置の時間変化を表す位置情報を生成し、前記遷移データおよび前記位置情報に基づいて前記対象物の移動軌跡を検出する
ことを特徴とするジェスチャ認識装置。
（付記８）
対象物の移動軌跡に基づいてジェスチャを認識するために、コンピュータを、
異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出する対象領域抽出部、
前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出する着目点抽出部、
前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定する移動方向判定部、
前記複数の画像フレームについての前記移動方向判定部の判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する移動軌跡検出部、
として機能させるためのジェスチャ認識プログラム。
（付記９）
対象物の移動軌跡に基づいてジェスチャを認識するジェスチャ認識方法であって、
異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出し、
前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出し、
前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定し、
前記複数の画像フレームについての前記判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する、
ことを特徴とするジェスチャ認識方法。

１ジェスチャ認識装置
２カメラ
３表示装置
１１対象領域抽出部
１２着目点抽出部
１３移動方向判定部
１３ａ動きベクトル計算部
１３ｂヒストグラム作成部
１４移動軌跡検出部
１４ａ遷移データ作成部
１４ｂ遷移データ照合部
１４ｃジェスチャ判定部
３１アイコン画像データ格納部
３２画像重畳部

Claims

対象物の移動軌跡に基づいてジェスチャを認識するジェスチャ認識装置であって、
異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出する対象領域抽出部と、
前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出する着目点抽出部と、
前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定する移動方向判定部と、
前記複数の画像フレームについての前記移動方向判定部の判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する移動軌跡検出部、
を有するジェスチャ認識装置。
請求項１に記載のジェスチャ認識装置であって、
前記着目点抽出部は、前記複数の画像フレームのそれぞれにおいて、前記対象領域の中から複数の着目点を抽出し、
前記移動方向判定部は、前記複数の画像フレームのそれぞれにおいて、各着目点の移動方向に基づいて、前記対象領域の尤らしい移動方向を判定する
ことを特徴とするジェスチャ認識装置。
請求項２に記載のジェスチャ認識装置であって、
前記移動方向判定部は、前記複数の画像フレームのそれぞれにおいて、各着目点の移動方向が、所定角度に区切られた複数の方向領域のいずれに属すのかを決定し、前記着目点の移動方向が属する頻度が高い方向領域に基づいて、前記尤らしい移動方向を判定する
ことを特徴とするジェスチャ認識装置。
請求項１〜３のいずれか１つに記載のジェスチャ認識装置であって、
人物を撮影したカメラ画像に選択対象画像を重畳することで画像フレームを生成する画像重畳部、をさらに備え、
前記対象物は、前記人物の手であり、
前記対象領域抽出部は、前記画像フレーム内の前記選択対象画像を含む所定の判定領域において、前記人物の手に対応する対象領域を抽出する
ことを特徴とするジェスチャ認識装置。
請求項１〜４のいずれか１つに記載のジェスチャ認識装置であって、
移動軌跡検出部は、前記複数の画像フレームを利用して前記対象物の位置の時間変化を表す位置情報を生成し、前記遷移データおよび前記位置情報に基づいて前記対象物の移動軌跡を検出する
ことを特徴とするジェスチャ認識装置。
対象物の移動軌跡に基づいてジェスチャを認識するために、コンピュータを、
異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出する対象領域抽出部、
前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出する着目点抽出部、
前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定する移動方向判定部、
前記複数の画像フレームについての前記移動方向判定部の判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する移動軌跡検出部、
として機能させるためのジェスチャ認識プログラム。
対象物の移動軌跡に基づいてジェスチャを認識するジェスチャ認識方法であって、
異なる時刻に得られる複数の画像フレームにおいて、それぞれ、前記対象物に対応する対象領域を抽出し、
前記複数の画像フレームにおいて、それぞれ、前記対象領域の中から着目点を抽出し、
前記複数の画像フレームにおいて、それぞれ、前記着目点の移動方向に基づいて前記対象領域の移動方向を判定し、
前記複数の画像フレームについての前記判定結果を時系列に並べることにより得られる遷移データに基づいて、前記対象物の移動軌跡を検出する、
ことを特徴とするジェスチャ認識方法。