JP6141108B2

JP6141108B2 - 情報処理装置およびその方法

Info

Publication number: JP6141108B2
Application number: JP2013121187A
Authority: JP
Inventors: 勇樹釜森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-06-07
Filing date: 2013-06-07
Publication date: 2017-06-07
Anticipated expiration: 2033-06-07
Also published as: US9747023B2; US20140361981A1; JP2014238727A

Description

本発明は、ジェスチャ認識を行う情報処理に関する。

ジェスチャによる入力が可能なユーザインタフェイス(UI)が多方面で利用され、ジェスチャ入力UIの一つとしてテーブルトップインタフェイスが知られている。テーブルトップインタフェイスにおいては、ジェスチャ入力が、テーブルの例えば四辺のどの辺側から、辺に対してどのような角度で行われたか（以下、ユーザの位置や向き）に応じて、表示内容やジェスチャ入力に対する挙動を切り替える必要がある。

とくに、ジェスチャを認識する際、ユーザの位置や向きによって検出される特徴量が大きく異なり、ユーザの位置や向きごとにジェスチャをクラス分けした認識が必要になる。しかし、クラス分けした認識はクラスごとのジェスチャ学習データを伴い、必要なデータの総数が増大する。また、ユーザの位置や向きをクラス分けする基準を適切に定義することは困難である。このような理由から、ジェスチャ入力ごとに、検出した特徴量をユーザの位置や向きに応じた座標系に動的に変換することが望まれる。

特許文献1が開示する技術は、画像の投影面に向かってユーザの手が挿入された方向（挿入方向）を投影面の撮影画像から検出し、挿入方向に応じて、UIの表示位置または向きを決定する。この技術によれば、ユーザの位置や向きに応じたUIの表示座標系を動的に決定して、検出した特徴量をユーザの位置や向きに依存しない座標系に変換することができる。つまり、ユーザの位置や向きに依存しない特徴量の抽出と、それを利用したジェスチャの認識が可能になる。

しかし、投影面に手を入れたり、投影面から手を抜いたりする直線的なジェスチャだけではなく、投影面において腕などジェスチャに用いる物体（操作物体）を振るようなジェスチャも考えられる。このようなジェスチャを考慮すると、挿入方向によって座標系を決定する特許文献1の技術では、ユーザの位置や向きに応じた座標系を決定することができない。

特開2009-064109号公報

本発明は、ジェスチャ認識において、操作物体の動きに応じたジェスチャ座標系を決定することを目的とする。

本発明は、前記の目的を達成する一手段として、以下の構成を備える。

本発明にかかる情報処理装置は、ジェスチャ認識を行う情報処理装置であって、
ジェスチャ入力が行われるジェスチャ入力領域を撮影した画像を取得する取得手段と、
前記画像からジェスチャ入力のために使用する物体を検出する第一の検出手段と、
前記検出された物体が前記画像内に設けられた判定領域と交わる交点の画像座標を検出する第二の検出手段と、
前記ジェスチャ入力領域を撮影した画像群から前記第二の検出手段が検出した画像座標群に基づき、１つの基点画像座標を算出する算出手段と、
前記物体によりなされるジェスチャを認識するために用いられるジェスチャ座標系を、１つの基準画像座標と前記１つの基点画像座標とに基づいて決定する第一の決定手段と、
前記画像群から前記第一の検出手段が検出した前記物体の特徴量群を、前記ジェスチャ座標系における前記物体の特徴量群に変換し、該変換された特徴量群に基づいて、前記画像群における前記物体の動きを、前記物体によりなされるジェスチャとして認識する認識手段と
を有することを特徴とする。

本発明によれば、操作物体の動きに応じたジェスチャ座標系を決定することができ、ユーザの位置や向きに依存しないジェスチャ認識が可能になる。

実施例の情報処理装置の構成例を示すブロック図。実施例1の情報処理装置の機能構成例を示すブロック図。実施例の情報処理装置の概観例を示す図。実施例1のジェスチャ認識処理を説明するフローチャート。実施例1のジェスチャ認識処理を説明するフローチャート。カメラからテーブル上の空間を撮影した画像を示す図。操作対象位置の別の決定方法を説明する図。実施例2の情報処理装置の機能構成例を示すブロック図。実施例2のジェスチャ認識処理を説明するフローチャート。実施例2のジェスチャ認識処理を説明するフローチャート。ジェスチャ座標系の決定処理を説明する図。変形例の情報処理装置の機能構成例を示すブロック図。

以下、本発明にかかる実施例の情報処理を図面を参照して詳細に説明する。なお、実施例に記載する構成は例示であり、本発明の範囲を、それら構成に限定する趣旨のものではない。

以下では、ジェスチャ入力用のUIのジェスチャ入力領域（以下、単に入力領域）においてユーザが実行するジェスチャを認識する情報処理（以下、ジェスチャ認識処理）を説明する。なお、ジェスチャに用いる物体（以下、操作物体）として、ユーザの腕を例に説明するが、その他の部位（指や足など）、あるいは、ユーザが把持する物体（例えば棒）なども操作物体に利用可能である。

また、ジェスチャの認識に利用する特徴量（以下、ジェスチャ特徴量）として、指先の座標を例に説明するが、指先の座標に限らず、掌や腕の重心座標および座標変化量などをジェスチャ特徴量に用いることも可能である。また、入力領域として、映像表示機能を備えたテーブル上の空間を例に説明するが、テーブル上の空間に限らず、カメラが撮影可能な範囲の全体またはその一部を入力領域に定めることも可能である。

［装置の構成］
図1のブロック図により実施例の情報処理装置の構成例を示す。

中央処理ユニット(CPU)101は、RAM103をワークメモリとして、ROM102や記憶装置104に格納されたOSやプログラムを実行し、システムバス106に接続された各構成を制御して、各種処理の演算や論理判断などを行う。CPU101が実行する処理には、実施例のジェスチャ認識処理が含まれる。

記憶装置104は、ハードディスクドライブや外部記憶装置などであり、実施例のジェスチャ認識処理にかかるプログラムや各種データを記憶する。カメラ105は、CPU101の制御に従い、ジェスチャ入力UIの入力領域を含む空間（以下、単に入力領域）と入力領域内の操作物体の撮影し、撮影した画像をシテムバス106に出力する。

入力部107は、ユーザ指示を入力するためのボタン、キーボード、タッチパネルなどの入力デバイスである。なお、記憶装置104は例えばSATAなどのインタフェイスを介して、カメラ105や入力部107は例えばUSBなどのシリアルバスを介して、それぞれシステムバス106に接続されるが、それらの詳細は省略する。

［機能構成］
図2のブロック図により実施例1の情報処理装置の機能構成例を示す。なお、図2に示す機能構成はCPU101がプログラムを実行し、カメラ105などを制御することにより実現される。

撮像部201は、入力領域と入力領域内の操作物体を撮影する。操作物体検出部202は、撮像部201によって撮影された画像から操作物体を検出する。なお、実施例においては、操作物体としてユーザの腕が検出される。

交点位置検出部203は、操作物体検出部202により検出された操作物体と、後述する判定領域の交点位置を検出する。基点位置算出部204は、交点位置検出部203が検出した交点位置に基づき、ジェスチャの基点位置を算出する。基点位置は、後述するように、ジェスチャの座標系（以下、ジェスチャ座標系）を決定する要素の一つである。

操作対象位置決定部205は、ジェスチャによる操作対象の位置（以下、操作対象位置）を決定する。なお、撮像部201が撮影した画像から操作対象を検出したり、操作物体検出部202が検出した操作物体の情報を利用して操作対象位置を検出してもよいが、実施例1では、それら情報を利用せずに操作対象位置を決定する。

座標系決定部206は、基点位置算出部204が算出した基点位置と、操作対象位置決定部205が決定した操作対象位置に基づき、ジェスチャ座標系を決定する。特徴量抽出部207は、交点位置に基づき、操作物体検出部202が検出した操作物体からジェスチャ特徴量を抽出する。座標変換部208は、特徴量抽出部207が抽出したジェスチャ特徴量を、座標系決定部206が決定したジェスチャ座標系に変換する。

学習部209は、座標変換部208が出力するジェスチャ座標系の特徴量に基づき、ジェスチャモデル210を学習する。ジェスチャモデル210は記憶装置104に保持される。なお、学習部209は、ジェスチャモデル210の学習時のみに機能し、ジェスチャ認識時には機能しない。

ジェスチャ認識部211は、座標変換部208が出力するジェスチャ座標系の特徴量とジェスチャモデル210に基づき、ユーザのジェスチャを認識する。なお、ジェスチャ認識部211は、ジェスチャ認識時のみに機能し、ジェスチャモデル210の学習時には機能しない。

［装置の概観］
図3により実施例の情報処理装置の概観例を示す。テーブル301は、映像表示機能を備え、操作対象の画像（または映像）302がテーブル301に表示される。テーブル301の上部にはカメラ105が設置され、カメラ105によって俯瞰撮影された画像に基づき、テーブル301の上部の空間（入力領域）で実行されたユーザのジェスチャが認識される。

［ジェスチャ認識処理］
図4、図5のフローチャートにより実施例1のジェスチャ認識処理を説明する。情報処理装置は、入力部107を介して入力されるユーザ指示に従い、カメラ105に撮影を開始させ、ジェスチャ認識処理を開始する。

ジェスチャ認識処理が開始されると、操作対象位置決定部205は、例えば、入力領域の中心付近の座標を操作対象位置として決定する(S401)。ユーザは入力領域であるテーブル301の中心を向いてジェスチャを行う可能性が高いと想定され、実施例では、テーブル301の中心座標を操作対象位置とする。なお、実施例において、撮像部201によって撮影された画像中の二次元情報に基づきジェスチャを認識する。従って、実施例における座標は、撮影された画像中の二次元座標を指す。

次に、操作物体検出部202は、入力領域を撮影した画像を撮像部201から取得し(S402)、取得した画像から操作物体を検出する(S403)。例えば、画像中の肌色領域を腕として検出することができるが、撮影環境やセンサの種類に応じて検出方法を選択することが望ましい。例えば、背景が既知であり、操作物体のみが画像に映る場合は、背景差分による検出が可能である。また、プロジェクタなどによる投影映像が操作物体に重畳し、色に基づく検出が困難になる場合は、赤外光の反射強度に基づく検出を行うことにより、操作物体の検出が可能になる。

次に、操作物体検出部202は、入力領域内に操作物体があるか否かを判定する(S404)。例えば、ステップS403で検出した肌色領域の大きさに基づき、入力領域内の腕の有無を判定する。また、肌色領域の形状や動きに対するパターン認識に基づき、入力領域内の腕の有無をより高精度に判定することも可能である。入力領域内に、操作物体があると判定された場合、処理はステップS405に進み、操作物体がないと判定された場合、処理はステップS407に進む。

入力領域内に操作物体があると判定された場合、交点位置検出部203は、画像における操作物体と判定領域の交点位置を検出し、検出した交点位置をRAM103などに割り当てられた保持部に保持する(S405)。ステップS405の検出においては、例えば、画像中のテーブル301の辺に当る領域を判定領域とし、腕と判定領域が重畳した領域の重心座標が交点位置として検出される。なお、判定領域は、テーブル301の辺（入力領域の境界）に限らず、任意に定めることができる。例えば、カメラ105が撮影可能な領域（撮影範囲）の境界を判定領域とすれば、撮影範囲外のあらゆる位置から撮影可能な領域に操作物体が挿入される場合に対応することができる。また、操作物体が挿入される位置が想定される場合は、当該位置周辺の領域を判定領域として、不要な交点検出処理を削減することができる。このように、判定領域は、入力領域に対する操作物体の位置を判定し、特定するための領域である。

次に、特徴量抽出部207は、操作物体からジェスチャ特徴量を抽出し、ジェスチャ特徴量を保持部に保持する(S406)。ステップS406の抽出においては、例えば、交点位置から最も遠い操作物体の先端部の座標が特徴量として抽出される。例えば、操作物体が腕の場合、その先端部は、通常、指先と考えられるから特徴量として検出される座標を「指先位置」と呼ぶ。また、指先位置のみではなく、腕領域の重心座標や、それらの単位時間当りの移動量をジェスチャ特徴量として抽出してジェスチャ認識処理に利用することも可能である。

一方、ステップS404で操作物体がないと判定した場合、操作物体検出部202は、入力領域にあった操作物体が入力領域から退いたかを判定する(S407)。例えば、前回のステップS405の判定において入力領域に操作物体があると判定した場合は入力領域から操作物体が退いたと判定する。入力領域から操作物体が退いたと判定された場合、処理はステップS408に進み、入力領域から操作物体が退いたとは判定されなかった場合、処理はステップS413に進む。

操作物体が入力領域から退いたと判定された場合、基点位置算出部204は、入力領域に操作物体が挿入されて退くまでを一つのジェスチャと見做して、その間の操作物体と判定領域の交点位置の平均的な位置を基点位置として算出する(S408)。ステップS408の算出には、保持部に保持された交点位置が用いられる。なお、平均的な位置とは座標の平均値である。また、操作物体の移動速度の変遷に基づく状態遷移などからジェスチャの開始と終了のタイミングを検出可能な場合、ジェスチャの開始から終了までの交点位置の平均的な位置を基点位置としてもよい。

次に、座標系決定部206は、基点位置をジェスチャ座標系の原点とし(S409)、原点と操作対象位置（テーブル301の中心）を通る直線に基づき、ジェスチャ座標系を決定する(S410)。実施例では、原点（基点）から操作対象位置へ向かうベクトルをV軸、V軸を時計回りに90度回転した軸をU軸とするジェスチャ座標系を決定する。

次に、座標変換部208は、後述の変換式に基づき、ジェスチャ特徴量の座標系をジェスチャ座標系に変換する(S411)。ステップS411の変換には、保持部に保持されたジェスチャ特徴量が用いられる。そして、学習時か、認識時かが判定され(S412)、学習時は学習部209により学習処理が行われ(S413)、認識時はジェスチャ認識部211によりジェスチャ認識が行われる(S414)。実施例では、ジェスチャモデルとして、特徴量の出力分布を有する状態と状態間の遷移確率からなる確率モデルであるHMM (Hidden Markov Model)を用いる。

学習部209は、ジェスチャ座標系の特徴量に基づき、ジェスチャモデル210を学習する(S413)。実施例では、ジェスチャモデルとしてHMMを学習し、EMアルゴリズムなどの学習アルゴリズムによってパラメータを計算する。なお、ステップS413の学習処理は学習時にのみ実施される。なお、学習時か、認識時かは、ジェスチャ認識処理が開始時点でユーザに指定される。

また、ジェスチャ認識部211は、ジェスチャ座標系の特徴量とジェスチャモデル210とのマッチングに基づきジェスチャを認識する(S414)。実施例では、特徴量とジェスチャモデルのマッチングを行い、尤度が最大のモデルが表すジェスチャを認識結果として出力する。また、マッチング時の最尤経路探索にはビタビアルゴリズムを用いる。なお、ステップS414の認識処理はジェスチャ認識時にのみ実施される。

ステップS406、S413またはS414の処理が終了するか、ステップS407で操作物体が入力領域から退いたタイミングではないと判定された場合、操作物体検出部202は、撮像部201からの画像入力が終了したか否かを判定する(S415)。画像入力が終了した場合はジェスチャ認識処理を終了し、画像入力が継続している場合は処理をステップS402に戻し、新たに取得した画像に対するジェスチャ認識処理を行う。

［座標変換］
ジェスチャ特徴量の座標をジェスチャ座標系に変換する処理を説明する。図6によりカメラ105からテーブル301上の空間を撮影した画像を示す。

ユーザ501は、テーブル301上の空間の入力領域503において、腕502を動かすことでジェスチャを実行する。なお、図5(a)は入力領域503に腕が挿入された状態を、図5(b)(c)は入力領域503における腕の動作を、図5(d)は入力領域503から腕が退く様子をそれぞれ表す。

●操作対象位置の決定から指先位置の検出
まず、画像において定義される基本座標系504において、テーブル301の中心位置が操作対象位置505として決定される。式(1)は操作対象位置Targetを示す。
Target = (x_T, y_T)_o ^T …(1)
ここで、式末尾の「o」は基本座標系504の座標を示す、
式末尾の「T」は転置行列を示す。

次に、腕領域が検出され、座標(x, y)_o ^Tが腕領域に含まれるか否かに応じて、式(2)によりArm(x, y)_oの値が決定される。
if ((x, y)_o ^T ∈ 腕領域)
Arm(x, y)_o =‘1’；
else
Arm(x, y)_o =‘0’； …(2)

次に、座標(x, y)_o ^Tが判定領域506に含まれるか否かに応じて、式(3)によりBorder(x, y)_ooの値が決定される。なお、判定領域506は既知とする。
if ((x, y)_o ^T ∈ 判定領域)
Border(x, y)_o =‘1’；
else
Border(x, y)_o =‘0’； …(3)

次に、式(4)により、判定領域506上の腕領域の重心点の平均的な位置を交点位置507として計算する。
Cross = (x_C, y_C)_o ^T
= Σ_AB=1(x, y)_o ^T/ΣAB …(4)
ここで、Crossは交点位置、
AB = Arm(x, y)_o×Border(x, y)_o。

さらに、式(5)により、交点位置507から最も遠い腕領域の座標が指先位置508として検出される。
Hand = (x_H, y_H)_o ^T
= arg_Smax(‖Cross - (x, y)_o ^T‖₂｜Arm(x, y)_o=1) …(5)
ここで、Handは指先位置、
S=(x, y)_o ^T。

以上の処理が、入力領域に腕が検出された各画像に対して行われる。

●基点位置の算出から指先位置の変換
次に、入力領域から腕が退いたことが検出されると、各画像から計算された交点位置Crossに基づき、式(6)により交点位置Crossの平均的な位置が基点位置509として算出される。
Base = (x_B, y_B)_o ^T
= Σ_Nin ^NoutCross/(Nout - Nin) …(6)
ここで、Baseは基点位置、
Ninは入力領域に腕が挿入された画像の番号（フレーム番号）、
Noutは入力領域から腕が退いたと判定された画像の前画像の番号。

ここで、ジェスチャ座標系510の原点を基点位置509に定める。式(7)はジェスチャ座標系の原点Originを示す。
Orign = (0, 0)_g ^T
= Base = (x_B, y_B)_o ^T …(7)
ここで、式末尾の「g」はジェスチャ座標系を示す。

次に、原点Originから操作対象位置Targetへ向うベクトルBTをジェスチャ座標系のV軸とする。式(8)はV軸の単位ベクトルを示す。
↑V = ↑BT/‖↑BT‖₂ …(8)
ここで、↑はベクトルを表す、
‖↑X‖₂はベクトルXの長さを表す。

さらに、ベクトルVを時計回りに90度回転したベクトルをU軸の単位ベクトルとする。式(9)はU軸の単位ベクトルを示す。
┌ ┐
│0 -1│
↑U =│ │↑V …(9)
│1 0│
└ ┘

以上でジェスチャ座標系が決定する。そして、式(5)により計算される各画像の指先位置Handを式(10)によりジェスチャ座標系の指先位置Hand'に変換する。
Hand' = (u_H, v_H)_g ^T …(10)
ここで、u_H = {(x_H-x_B)(y_T-y_B)-(y_H-y_B)(x_T-x_B)}/√{(x_T-x_B)²+(y_T-y_B)²}、
v_H = {(x_H-x_B)(x_T-x_B)+(y_H-y_B)(y_T-t_B)}/√{(x_T-x_B)²+(y_T-y_B)²}。

このように、ジェスチャ特徴量を、操作物体の動きに基づく座標系に変換することで、ユーザの位置や向きに依存しないジェスチャ認識処理が可能になる。

［変形例］
上記では、操作対象位置決定部205は、入力領域の中心付近を操作対象位置に決定する例を説明した。しかし、テーブル301上に載置された物体、または、表示された画像の位置に基づき、操作対象位置を決定することも可能である。

図7により操作対象位置の別の決定方法を説明する。図7(a)は、テーブル301上の物体（または画像）601の重心位置602を操作対象位置に決定してもよい。ジェスチャによる操作対象の画像がテーブル301上に表示されている場合、ユーザは、当該画像にほぼ正対してジェスチャを行うと想定され、ジェスチャ座標系のより高精度な決定が期待される。

また、ジェスチャ開始時、終了時または実行中の指先位置に基づき、操作対象位置を決定することも可能である。例えば、図7(b)に示すように、ジェスチャ実行中の指先位置の平均的な位置603を操作対象位置に決定してもよい。こうすれば、入力領域の明示的な指定がなく、操作対象位置を一意に定めることができない場合も、ジェスチャ実行中の指先位置からジェスチャ座標系を定めることができる。

また、上記では、カメラ105が撮影した画像の二次元情報に基づきジェスチャ座標系の定義し、ジェスチャ認識を行う例を示したが、ステレオカメラなどの距離センサを用いた三次元情報に基づきジェスチャ認識を行うことも可能である。

また、上記では、映像表示機能を備えたテーブル301を利用するテーブルトップインタフェイスの一例を説明した。これに限らず、本発明は、プロジェクタとスクリーンを備えるシステムやMR (Mixed Reality)システムなど、ジェスチャ認識機能を搭載する様々なシステムに適用することができる。

以下、本発明にかかる実施例2の情報処理を説明する。なお、実施例2において、実施例1と略同様の構成については、同一符号を付して、その詳細説明を省略する。

図8のブロック図により実施例2の情報処理装置の機能構成例を示す。なお、図8に示す機能構成はCPU101がプログラムを実行し、カメラ105などを制御することにより実現される。

図8に示す実施例2の機能構成において、操作対象位置決定部205の構成が実施例1と異なる。操作対象位置決定部205は、推定部701、判定部702、決定部703を有する。

推定部701は、ジェスチャを実行中の操作物体の平均的な位置を、操作対象の凡の位置（操作対象位置）と推定する。判定部702は、推定された操作対象位置に基づき、テーブル301上に載置された複数の物体または表示された複数の画像から、ジェスチャによる操作対象を判定する。決定部703は、判定された操作対象の位置に基づき操作対象位置を決定する。

図9、図10のフローチャートにより実施例2のジェスチャ認識処理を説明する。情報処理装置は、入力部107を介して入力されるユーザ指示に従い、カメラ105に撮影を開始させ、ジェスチャ認識処理を開始する。

なお、図9、図10において、ステップS402からS415の処理は、実施例1の処理と同様であり、詳細説明を省略する。

実施例1においては、ジェスチャ認識処理の開始後、入力領域の中心座標を操作対象位置に決定(S401)したが、実施例2においては、操作対象位置の決定を行わずに、入力領域の画像の取得(S402)と操作物体の検出(S403)を行う。

ステップS404の判定により、入力領域内に操作物体があると判定された場合は交点位置の検出(S405)とジェスチャ特徴量の抽出(S406)を行った後、推定部701が操作物体の重心位置を検出する(S801)。例えば、ステップS403において検出された肌色領域の重心位置を操作物体（腕）の重心位置とする。なお、推定部701の検出対象は、重心位置に限らず、指先位置や視線位置など、ジェスチャに関連する位置でもよい。その後、処理はステップS415に進む。

ステップS404とS407の判定により、操作物体が入力領域から退いたと判定された場合は基点位置の算出(S408)を行った後、推定部701が操作物体の重心位置の平均的な位置を操作対象の凡の位置として推定する(S802)。つまり、推定部701は、入力領域に操作物体が挿入されてから退くまでを一つのジェスチャとして見做し、その間の操作物体の重心位置の平均的な位置を操作対象の凡の位置（以下、推定位置）として算出する。なお、操作物体の移動速度の変遷に基づく状態遷移などからジェスチャの開始と終了のタイミングを検出可能な場合、ジェスチャの開始から終了までの重心位置の平均的な位置を操作対象の凡の位置としてもよい。

次に、判定部702は、算出された基点位置と推定位置を通る直線Lを求め(S803)、テーブル301に載置された複数の物体または表示された複数の画像からジェスチャによる操作対象を判定する(S804)。例えば、直線Lからの距離が最短の対象Gを操作対象と判定する。そして、決定部703は、操作対象（対象G）の重心位置を操作対象位置に決定する(S805)。その後、処理はステップS409に進む。

図11によりジェスチャ座標系の決定処理を説明する。図11はカメラ105からテーブル301上の空間を撮影した画像を示す。図11(a)に示すように、テーブル301上に複数の画像901が表示されているものとする。

図9(b)に示すように、ジェスチャ実行中のユーザの腕領域が検出され、その重心位置902が検出される。次に、入力領域から腕が退くと、腕領域の重心位置の平均的な位置903が計算され、実施例1と同様に、基点位置904が算出される。そして、重心位置の平均的な位置903と基点位置904を通る直線905（直線L）が計算される。直線905は、ジェスチャによる操作対象の方向を略表していると期待される。

次に、図9(c)に示すように、テーブル301上に表示された複数の画像901のうち、その重心位置906と直線Lの間の距離907が最短を示す画像Gを判定する。直線Lからの離間距離に基づき操作対象を判定することにより、操作対象位置がより正確に決定されることが期待される。そして、図9(d)に示すように、基点位置904を原点とし、基点位置904から対象Gの重心位置908へ向うベクトルを一軸とするジェスチャ座標系909を決定する。

このように、入力領域に複数の対象が配置（つまり、複数の物体が載置または複数の画像が表示）されている場合も、ジェスチャによる操作対象を推定し、ジェスチャ特徴量を、操作物体の動きと操作対象位置に基づく座標系に変換することができきる。従って、ユーザの位置や向きに依存しないジェスチャ認識処理が可能になる。

［変形例］
実施例2では、操作対象を特定し、操作対象に基づくジェスチャ座標系を決定し、ジェスチャ特徴量（指先位置）をジェスチャ座標系へ座標変換し、座標変換後の特徴量に基づきジェスチャ認識処理を行う例を説明した。逆に、ジェスチャ認識結果に基づき操作対象を特定することも可能である。

図12のブロック図により変形例の情報処理装置の機能構成例を示す。なお、図2に示す実施例1の機能構成と異なるのは、候補設定部711と決定部712を有する操作対象位置決定部205の構成である。

候補設定部711は、撮影画像からテーブル301上に載置された複数の物体または表示された複数の画像の重心位置を検出し、重心位置に基づき操作対象の候補を複数設定する。

座標系決定部206は、操作対象の各候補と基点位置に基づき複数のジェスチャ座標系を決定する。座標変換部208は、ジェスチャ特徴量を各ジェスチャ座標系に座標変換する。ジェスチャ認識部211は、各ジェスチャ座標系に変換された特徴量に基づきジェスチャを認識する。つまり、座標変換後の特徴量とジェスチャモデル210のマッチングを行い、尤度が最大のモデルが表すジェスチャを認識結果とする。

適切なジェスチャ座標系に座標変換された特徴量は、ジェスチャモデルとの適合度が高くなると期待される。決定部712は、ジェスチャ認識部211から供給される認識結果に基づき、尤度が最大のモデルに対応する特徴量の座標変換に利用されたジェスチャ座標系を判定し、当該ジェスチャ座標系の決定に使用された操作対象の候補を操作対象として選択する。そして、選択した操作対象の重心位置を操作対象位置と決定する。

［その他の実施例］
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記録媒体を介してシステム或いは装置に供給し、そのシステムあるいは装置のコンピュータ（又はCPUやMPU等）がプログラムを読み出して実行する処理である。

Claims

ジェスチャ認識を行う情報処理装置であって、
ジェスチャ入力が行われるジェスチャ入力領域を撮影した画像を取得する取得手段と、
前記画像からジェスチャ入力のために使用する物体を検出する第一の検出手段と、
前記検出された物体が前記画像内に設けられた判定領域と交わる交点の画像座標を検出する第二の検出手段と、
前記ジェスチャ入力領域を撮影した画像群から前記第二の検出手段が検出した画像座標群に基づき、１つの基点画像座標を算出する算出手段と、
前記物体によりなされるジェスチャを認識するために用いられるジェスチャ座標系を、１つの基準画像座標と前記１つの基点画像座標とに基づいて決定する第一の決定手段と、
前記画像群から前記第一の検出手段が検出した前記物体の特徴量群を、前記ジェスチャ座標系における前記物体の特徴量群に変換し、該変換された特徴量群に基づいて、前記画像群における前記物体の動きを、前記物体によりなされるジェスチャとして認識する認識手段と
を有することを特徴とする情報処理装置。
さらに、
前記画像群から前記第一の検出手段が検出した前記物体の特徴量群を、前記ジェスチャ座標系における前記物体の特徴量群に変換し、該変換された特徴量群に基づいて、前記画像群における前記物体の動きを、ジェスチャモデルとして学習する学習手段を有することを特徴とする請求項１に記載された情報処理装置。
前記物体の特徴量は、該物体において前記交点の画像座標から最も遠い先端部分の画像座標であることを特徴とする請求項１に記載された情報処理装置。
前記認識手段は、前記学習手段により学習済みの前記ジェスチャモデルと、前記変換された特徴量群と、に基づきジェスチャ認識を行うことを特徴とする請求項２に記載された情報処理装置。
前記算出手段は、前記基点画像座標として、前記第二の検出手段が前記画像群から検出した画像座標群の平均画像座標を算出することを特徴とする請求項１に記載された情報処理装置。
前記基準画像座標は、前記ジェスチャ入力領域の中心付近に対応する画像座標であることを特徴とする請求項１に記載された情報処理装置。
前記基準画像座標は、前記ジェスチャ入力領域に配置され且つ前記ジェスチャによる操作対象に対応する画像座標であることを特徴とする請求項１に記載された情報処理装置。
更に、
前記画像群から前記第一の検出手段が検出した前記物体の画像座標群の平均画像座標を推定する推定手段と、
前記平均画像座標と前記基点画像座標とを結ぶ直線に基づき、前記ジェスチャ入力領域に配置された複数の操作対象から１つの操作対象を決定する決定手段とを有し、
前記基準画像座標は、前記決定された１つの操作対象に対応する画像座標であることを特徴とする請求項１に記載された情報処理装置。
更に、
前記ジェスチャ入力領域に配置された操作対象の複数の候補のそれぞれについて、該候補の画像座標と前記基点画像座標とに基づいて、前記ジェスチャ座標系を決定する決定手段と、
前記画像群から前記第一の検出手段が検出した前記物体の特徴量群を、前記複数の候補のそれぞれについて決定したジェスチャ座標系における前記物体の特徴量群に変換し、該変換された特徴量群と前記ジェスチャモデルとに基づいて、前記複数の候補から１つの候補を決定し、該決定した１つの候補の画像座標を前記基準画像座標として設定する手段と
を有することを特徴とする請求項４に記載された情報処理装置。
前記ジェスチャ入力領域に配置された操作対象の複数の候補は、前記ジェスチャ入力領域に載置された複数の物体または前記ジェスチャ入力領域に表示された複数の画像であることを特徴とする請求項９に記載された情報処理装置。
前記第一の決定手段は、前記基点画像座標を原点とする前記ジェスチャ座標系を決定することを特徴とする請求項１に記載された情報処理装置。
前記第一の決定手段は、前記基点画像座標から前記基準画像座標に向かうベクトルを前記ジェスチャ座標系の一軸とする前記ジェスチャ座標系を決定することを特徴とする請求項１に記載された情報処理装置。
前記判定領域は、前記ジェスチャ入力領域の境界であることを特徴とする請求項1から請求項１２の何れか一項に記載された情報処理装置。
前記判定領域は、前記ジェスチャ入力領域を撮影する撮像手段の撮影範囲の境界であることを特徴とする請求項１乃至１２の何れか一項に記載された情報処理装置。
前記画像群は、前記物体が前記ジェスチャ入力領域に侵入してから退くまでの期間内に前記ジェスチャ入力領域を撮影した画像群であり、
前記認識手段は、前記期間中における前記物体の動きを前記物体によるジェスチャとして認識する
ことを特徴とする請求項１に記載の情報処理装置。
前記第二の検出手段は、前記ジェスチャ入力領域を撮影した画像から前記物体が検出されている間は前記交点の画像座標を検出し、
前記算出手段は、前記ジェスチャ入力領域を撮影した画像から前記物体が検出されなくなったことに応じて、前記ジェスチャ入力領域を撮影した画像から前記物体が検出されている間に前記第二の検出手段が検出した画像座標群に基づいて前記基点画像座標を算出する
ことを特徴とする請求項１に記載の情報処理装置。
ジェスチャを認識する情報処理装置であって、
ジェスチャ入力を行うために使用される物体が、該ジェスチャ入力が行われる領域であるジェスチャ入力領域に侵入してから退くまでの期間内に、該ジェスチャ入力領域を撮影した画像群から、該期間内の該物体の位置の変化を表す情報を検出する検出手段と、
基準位置と前記情報により表される変化とに基づいて、前記物体によるジェスチャを認識するために用いるジェスチャ座標系を決定する決定手段と、
前記ジェスチャ座標系における前記変化の特徴量に基づいて、前記物体によるジェスチャを認識する認識手段と
を備えることを特徴とする情報処理装置。
ジェスチャ認識を行う情報処理装置が行う情報処理方法であって、
前記情報処理装置の取得手段が、ジェスチャ入力が行われるジェスチャ入力領域を撮影した画像を取得し、
前記情報処理装置の第一の検出手段が、前記画像からジェスチャ入力のために使用する物体を検出し、
前記情報処理装置の第二の検出手段が、前記検出された物体が前記画像内に設けられた判定領域と交わる交点の画像座標を検出し、
前記情報処理装置の算出手段が、前記ジェスチャ入力領域を撮影した画像群から前記検出した画像座標群に基づき、１つの基点画像座標を算出し、
前記情報処理装置の第一の決定手段が、前記物体によりなされるジェスチャを認識するために用いられるジェスチャ座標系を、１つの基準画像座標と前記１つの基点画像座標とに基づいて決定し、
前記情報処理装置の認識手段が、前記画像群から検出した前記物体の特徴量群を、前記ジェスチャ座標系における前記物体の特徴量群に変換し、該変換された特徴量群に基づいて、前記画像群における前記物体の動きを、前記物体によりなされるジェスチャとして認識することを特徴とする情報処理方法。
ジェスチャを認識する情報処理装置が行う情報処理方法であって、
前記情報処理装置の検出手段が、ジェスチャ入力を行うために使用される物体が、該ジェスチャ入力が行われる領域であるジェスチャ入力領域に侵入してから退くまでの期間内に、該ジェスチャ入力領域を撮影した画像群から、該期間内の該物体の位置の変化を表す情報を検出し、
前記情報処理装置の決定手段が、基準位置と前記情報により表される変化とに基づいて、前記物体によるジェスチャを認識するために用いるジェスチャ座標系を決定し、
前記情報処理装置の認識手段が、前記ジェスチャ座標系における前記変化の特徴量に基づいて、前記物体によるジェスチャを認識することを特徴とする情報処理方法。
コンピュータを請求項１から請求項１７の何れか一項に記載された情報処理装置の各手段として機能させるためのプログラム。
請求項２０に記載されたプログラムが格納されたコンピュータ読み取り可能な記録媒体。