JP2012113714A

JP2012113714A - ユーザがコンピュータシステムとやり取りを行うことができる、ビデオストリームにおける動く非剛体オブジェクトをリアルタイムで検出し及び追跡する方法及び装置

Info

Publication number: JP2012113714A
Application number: JP2011252752A
Authority: JP
Inventors: Nicolas Livet; リベニコラ; Thomas Pasquier; パスキエトマ
Original assignee: Total Immersion
Current assignee: Total Immersion
Priority date: 2010-11-19
Filing date: 2011-11-18
Publication date: 2012-06-14
Anticipated expiration: 2031-11-18
Also published as: EP2455916B1; JP5967904B2; EP2455916A1; KR20120054550A; FR2967804B1; US20120129605A1; FR2967804A1

Abstract

【課題】本発明は、特に、イメージセンサの領域に位置するオブジェクトの動きに従ったソフトウェアアプリケーションとのやり取りの検出に関する。
【解決手段】第１の画像及び第２の画像を受信し、第１の画像の第１の関心のある領域を識別した後、第１の関心のある領域に対応する第２の関心のある領域を、第２の画像において識別する。第１の関心のある領域及び第２の関心のある領域が互いに比較され（４４０）、第１の関心のある領域及び第２の関心のある領域の対応するポイントの少なくとも一つの特徴の変化を特徴付ける関心のあるマスクを決定する。その後、オブジェクトの動きを、関心のあるマスクから決定する（４４５）。動きが分析され、それに応答して、予め決定された動作が、トリガがかけられ又はトリガがかけられない。
【選択図】図４

Description

本発明は、画像シーケンスを表すビデオストリームにおける画像の分析によるオブジェクトの検出及び追跡に関し、更に詳しくは、ユーザがコンピュータシステムとやり取りを行うことができる、ビデオストリームにおける動く非剛体オブジェクトをリアルタイムで検出し及び追跡する方法及び装置に関する。

拡張現実は、特に、画像シーケンスを表すビデオストリームの画像に一つ以上の仮想オブジェクトを挿入しようとしている。アプリケーションのタイプに応じて、それら仮想オブジェクトの位置及び向きを、画像によって表されるシーンの外部のデータ、例えば、ゲームシナリオから直接得られる座標又は当該シーンの所定の要素にリンクしたデータ、例えば、プレーヤーの手のようなシーン中の特定のポイントの座標によって決定することができる。現実シーンに存在するオブジェクトの性質が識別され、位置及び向きが、当該シーンの所定の要素にリンクしたデータによって決定されたとき、それらの要素をビデオカメラの動き又はシーン中のこれらの要素それ自体の動きに従って追跡する必要がある場合がある。要素を追跡する動作及び実像に仮想オブジェクトを嵌め込む動作を、異なるコンピュータ又は同一のコンピュータによって実行することができる。

さらに、そのようなアプリケーションにおいて、特に、例えば画像に重ね合わされた仮想要素とやり取りを行うことができる特定の動作又はシナリオにトリガをかけるために、画像ストリームによって少なくとも部分的に表わされる実像においてユーザがコンピュータとやり取りすることを提案することができる。

同様なことは、多数の他のタイプのアプリケーション、例えば、ビデオゲームアプリケーションに当てはまる。

これらの目的のために、一つ以上の予め決定されたコマンドを識別するために手の動きのような特定の動きを識別する必要がある。そのようなコマンドは、マウスのようなコンピュータポインティングデバイスによって引き起こされるコマンドに相当する。

出願人は、形状が変化するテクスチャオブジェクトを任意のマーカを用いることなく仮想的に追跡するアルゴリズムを開発し、その独創性は、ビデオストリームの現画像とシステムの初期化の際に自動的に得られるキー画像のセットとの間の特定のポイントのマッチングにある。しかしながら、フランス国特許出願第０７５３４８２号、フランス国特許出願第０７５２８１０号、フランス国特許出願第０９０２７６４号、フランス国特許出願第０７５２８０９号及びフランス国特許出願第０９５７３５３号は、テクスチャ加工されていない又はユーザの手のように実際には一様なテクスチャを有するオブジェクトの動きを検出することができない。さらに、これらは、実際には剛体オブジェクトの追跡を意図している。

画像シーケンスによって表されるシーンにおいてユーザがコンピュータとやり取りすることができる解決が知られているとしても、これらの解決は、一般的には実行するのに複雑である。

更に詳しくは、第１の解決は、例えばユーザ又は動作主の関節に関連した触覚センサの使用にある。このアプローチが、特に映画の特殊効果に対する動き追跡アプリケーションのためにしばしば設けられるとしても、仮想シーンにおいて動作主がコンピュータシステムとやり取りができるようにするために、動作主、特に、動作主の手及び足の位置及び向きを追跡することもできる。しかしながら、この技術の使用は、コストが高いことがわかっている。その理由は、分析された画像ストリームによって表されるシーンに煩わしい(cumbersome)センサを組み入れる必要があるからであり、これによって、これらの環境にリンクした妨害（例えば、電磁妨害）に遭う。

特に欧州プロジェクト“ＯＣＥＴＲＥ”及び“ＨＯＬＯＮＩＣＳ”で開発された他の解決は、環境及びユーザの空間的運動の３次元的な再構成をリアルタイムで行うことができるようにするために複数の画像ソース、例えば、複数のビデオカメラを用いることにある。そのようなアプローチの一例は、特に、２００７年８月に刊行されたSIGGRAPH'07, ACM SIGGRAPH 2007, Emerging TechnologiesにおけるT.Rodriguez, A.Cabo de Leon, B.Uzzan, N.Livet, E.Boyer, F.Geffray, T.Balogh, Z.Megyesi及びA.Barsiによる"Holographic and action capture techniques"の表題の文献に記載されている。これらのアプリケーションによって現実シーンの形状を生成できるが現在のところ正確な動きを識別できないことが知られている。さらに、リアルタイムの制約に適合するために、複雑かつコストが高いハードウェアアーキテクチャをセットアップする必要がある。

拡張現実シーンを見るためのタッチスクリーンも知られており、これによって、コンピュータシステムに対するユーザのやり取りを決定することができる。しかしながら、これらのタッチスクリーンは、コストが高く、拡張現実のアプリケーションに適合しにくい。

ビデオゲームの分野におけるユーザのやり取りに関して、画像は、典型的には、コンピュータ又はコンソールに接続したウェブ画像タイプのビデオカメラから取得される。この画像は、一般的に、ビデオカメラに接続されたシステムのメモリに格納した後にブロブス追跡(blob tracking)と称されるオブジェクト追跡アルゴリズムによって分析され、特にオプティカルフローアルゴリズムを用いることによって画像中で動くユーザの所定の要素の輪郭をリアルタイムで求める。画像中のこれらの形状の位置によって、表示された画像の所定の部分を修正し又は変形することができる。したがって、この解決によって、画像領域の妨害が２自由度で配置されうる。

しかしながら、このアプローチの制約は、主に、ビデオカメラの移動中の処理の適切な実行を維持することができないことに起因する正確さの欠如及び前景と背景との間の動きの区別ができないことに起因する動作(semantics)の欠如にある。さらに、この解決は、特に照明の変化又は雑音に対するロバストネスを提供しないオプティカルフロー画像分析を用いる。

画像中に存在するオブジェクトの表示の変化に起因する、拡張現実シーン中のユーザとコンピュータシステムとの間のやり取りを画像シーケンスの画像に基づいてリアルタイムで検出するアプローチも知られている。しかしながら、特にフランス国特許出願第０８５４３８２号に記載されている方法は、ユーザの正確な動きを識別することができず、画像の十分にテクスチャ加工された領域にのみ適用される。

本発明は、上述した問題の少なくとも一つを解決することができる。

したがって、本発明は、イメージセンサの領域に位置した少なくとも一つのオブジェクトの動きに従ってソフトウェアアプリケーションとのやり取りを検出するコンピュータ方法(computer method)であって、イメージセンサは、コンピュータ方法を実行するコンピュータに接続され、画像ストリームをコンピュータに供給する方法において、
少なくとも一つの第１の画像をイメージセンサから受け取るステップと、
第１の画像中の少なくとも一つの関心のある第１の領域を識別するステップであって、少なくとも一つの関心のある第１の領域は、少なくとも一つの第１の画像の一部に対応するステップと、
少なくとも一つの第２の画像をイメージセンサから受け取るステップと、
少なくとも一つの第２の画像中の少なくとも一つの関心のある第２の領域を識別するステップであって、少なくとも一つの関心のある第２の領域は、少なくとも一つの第１の画像の少なくとも一つの関心のある第１の領域に対応するステップと、
少なくとも一つの関心のある第１の領域と少なくとも一つの関心のある第２の領域とを比較し、少なくとも一つの関心のある第１の領域と少なくとも一つの関心のある第２の領域の対応するポイントの少なくとも一つの特徴の変化を特徴付ける関心のあるマスクを決定するステップと、
少なくとも一つのオブジェクトの動きを関心のあるマスクから決定するステップであって、少なくとも一つのオブジェクトは、少なくとも一つの関心のある第１の領域と少なくとも一つの関心のある第２の領域のうちの少なくとも一つで少なくとも部分的に表されているステップと、
動きを分析し、分析に応答して、予め決定された動作にトリガをかけ又はトリガをかけないステップと、を備えることを特徴とする方法を対象にする。

したがって、本発明による方法は、オブジェクト、特に、拡張現実アプリケーションに対するテクスチャ加工がほとんどない可変オブジェクトを追跡することができる。さらに、処理量を制限することによって、携帯プラットホーム(mobile platform)のような（特に計算に関して）制限されたリソースを有する装置で方法を実現することができる。さらに、方法を、低品質のイメージセンサとともに用いることができる。

本発明による方法によって、イメージセンサによって取得される画像にぼやけ(blur)が存在する場合でもオブジェクトの速い動きを追跡することができる。さらに、本発明の方法による処理は、動くオブジェクトの特定の色特性に依存せず、したがって、用いられるイメージセンサの前を動く手のようなオブジェクト又はテクスチャオブジェクトを追跡することができる。

追跡したオブジェクトのそれぞれの動きを規定する自由度の数を、関心のある領域のそれぞれに対して設定することができる。

特に複数の制御(multiple control)を可能にするために複数の関心のある領域を同時に追跡することができる。したがって、例えば、二つの手を追跡することによって、ユーザとソフトウェアアプリケーションとの間のあり得る反復回数(the number of possible iterations)を増大することができる。

好適には、動きを決定するステップは、少なくとも一つの第１の画像及び少なくとも一つの第２の画像中の少なくとも一対の関心のあるポイントを決定し及びマッチングするステップであって、少なくとも一対の関心のあるポイントのうちの少なくとも一つのポイントは、関心のあるマスクに属するステップを備える。したがって、本発明による方法によって、処理を制限するとともに追跡したオブジェクトに集中するために、ポイントが配置される領域を制限しながら関心のあるポイントの追跡にリンクする利点を組み込むことができる。

特定の実施の形態によれば、動きを決定するステップは、少なくとも一つの第１の画像及び少なくとも一つの第２の画像中の複数の対の関心のあるポイントを決定し及びマッチングするステップであって、複数の対の関心のあるポイントの各々のうちの少なくとも一つのポイントは、関心のあるマスクに属し、動きは、第１セットの関心のあるポイントの第２セットの関心のあるポイントへの変換に基づいて推定され、第１のセット及び第２のセットの関心のあるポイントは、複数の対の関心のあるポイントに属し、第１セットの関心のあるポイントの関心のあるポイントは、少なくとも一つの第１の画像にも属し、第２セットの関心のあるポイントの関心のあるポイントは、少なくとも一つの第２の画像にも属するステップを備える。したがって、オブジェクトの一部の一般的な動きを、関心のあるポイントのセットの動きから決定することができる。

好適には、追跡したオブジェクトの動きの推定を向上させるために、変換は、複数の対の関心のあるポイントの同一の対の関心のあるポイントからの二つの関心のあるポイント間の距離に基づく重み関数を実現する。

さらに、特定の実施の形態によれば、方法は、少なくとも一つの対の関心のあるポイントに属する、少なくとも一つの第１の画像の少なくとも一つの関心のあるポイントを、決定した動きに従って有効にするステップであって、少なくとも一つの有効にした関心のあるポイントを、少なくとも一つの第２の画像に続く少なくとも一つの第３の画像中のオブジェクトを追跡するために使用し、少なくとも一つの有効にした関心のあるポイントを、少なくとも一つの第２の画像及び少なくとも一つの第３の画像に基づいて形成された関心のあるマスクを変更するのに使用するステップを更に備える。したがって、画像間で同一の関心のあるポイントが、追跡したオブジェクトの一般的な動きの推定に有効に寄与する場合、これらのポイントを使用することができる。さらに、有効にした関心のあるポイントは、制限された領域に関心のあるポイントが過度に蓄積(accumulation)するのを回避するために新たな関心のあるポイントを選択するのに使用することができる。

少なくとも一つの関心のある第１の領域と少なくとも一つの関心のある第２の領域とを比較するステップは、少なくとも一つの関心のある第１の領域及び少なくとも一つの関心のある第２の領域の対応するポイントの値の減算をポイントごとに実行するステップと、減算の結果と予め決定されたしきい値とを比較するステップと、を備える。そのような実施の形態によって、方法の有効性と制限された処理リソースとを組み合わせることができる。

特定の実施の形態によれば、方法は、少なくとも一つの第１の画像中の少なくとも一つの予め決定された特徴を検出するステップを更に有し、少なくとも一つの関心のある領域を、検出ステップに応答して少なくとも部分的に識別する。したがって、本発明による方法を、処理された画像のコンテンツの要素に従って自動的に初期化又は再初期化することができる。そのような予め決定された特徴を、予め決定された形状及び／又は予め決定された色とする。

好適には、方法は、少なくとも一つの第２の画像中の少なくとも一つの変更した関心のある第２の領域を推定するステップであって、少なくとも一つの第２の画像中の少なくとも一つの変更した関心のある第２の領域は、少なくとも一つの第１の画像の少なくとも一つの関心のある第１の領域及び少なくとも一つの第２の画像の少なくとも一つの関心のある第２の領域に従って推定されるステップを更に備える。したがって、本発明による方法によって、オブジェクト追跡のための次の画像の処理を予測することができる。少なくとも一つの第２の画像中の少なくとも一つの変更した関心のある第２の領域の推定は、ＫＬＴタイプのオブジェクト追跡アルゴリズムを実現する。

動きは、移動(translation)、回転及び／又は倍率(scale factor)によって特徴付けられる。

動きが倍率によって特徴付けられるとき、予め決定された動作にトリガをかけるか否かを、倍率に基づいて決定する。したがって、倍率は、例えば、マウスクリックを特徴付ける。

特定の実施の形態によれば、イメージセンサの領域に位置した少なくとも二つのオブジェクトの動きを決定し、予め決定された動作にトリガをかけるか否かを、少なくとも二つのオブジェクトに関連した動きの組合せに従って決定する。したがって、オブジェクトの動きを、他のオブジェクト、特に、相対位置の制約が課された他のオブジェクトに基づいて決定することができる。

本発明は、上記方法のステップの各々を実行するのに適合した命令を備えるコンピュータプログラムであって、プログラムをコンピュータ上で実行するコンピュータプログラム及び上記方法のステップの各々を実行するのに適合した手段を備える装置も対象とする。コンピュータプログラム及びこの方法の利点は、これまで説明した利点と同様である。

本発明の他の利点、目的及び特徴を、添付図面に関連して限定されない例として与える以下の詳細な説明から明らかにする。

図１ａ及び図１ｂを備える図１は、オブジェクトの動き及びユーザのやり取りを決定するために用いることができる画像ストリームの二つの連続する画像を示す。図２ａ〜２ｄを備える図２は、画像の関心のある領域における次の画像の対応する関心のある領域の変化の例を示す。少なくとも一部が二つの連続する画像の関心のある領域及びマスクに表れるオブジェクトの動きの概略図である。画像シーケンスの二つの連続（又は近接）する画像の間のオブジェクトの位置の変化を連続的な動作において識別するために本発明において実現される所定のステップの概略図である。四つのパラメータが画像シーケンスの連続（又は近接）する画像中の追跡されたオブジェクトの動きを特徴付けるときの本発明の所定の態様を示す。画像シーケンスにおいて、二つの関心のある領域によってユーザの手の追跡をリアルタイムで行うことができ、車両のステアリングホイールの動きを特徴付ける本発明の実現例をドライビングシミュレーションゲームに関連して示す。画像シーケンスにおいて、二つの関心のある領域によってユーザの手の追跡をリアルタイムで行うことができ、車両のステアリングホイールの動きを特徴付ける本発明の実現例をドライビングシミュレーションゲームに関連して示す。画像シーケンスにおいて、二つの関心のある領域によってユーザの手の追跡をリアルタイムで行うことができ、車両のステアリングホイールの動きを特徴付ける本発明の実現例をドライビングシミュレーションゲームに関連して示す。本発明を実現するのに適合した装置の一例を示す。

一般論として、本発明は、画像ストリーム中の画像の特定の領域のオブジェクトの追跡に関連し、当該領域は、関心のある領域と称され、追跡したオブジェクトの一部及び画像中に表れるシーンの一部を備える。関心のある領域を分析することによって処理時間を短縮するとともにオブジェクトの動き検出を向上させることができることが観察された。

関心のある領域は、好適には、画像中で２次元形状として規定される。これらの形状を、例えば、矩形又は円形とする。これらは、好適には一定であり、予め決定される。関心のある領域を、関心のあるポイント、すなわち、高い輝度勾配を有する点のような特異点によって特徴付けることができ、関心のある領域の最初の位置を、予め決定し、ユーザによって決定し、形状若しくは色の出現のようなイベントによって決定し、又は予め規定された特徴に従って、例えば、キー画像(key image)を用いることによって決定することができる。これらの領域を、追跡したオブジェクトの動きに従って動かすこともでき、又はこれらの領域は、画像中に固定した位置及び向きを有することもできる。複数の関心のある領域を使用することによって、例えば、１人のユーザの複数の同時のやり取り（関心のある領域はユーザの手の各々に対応することができる。）及び／又は複数のユーザの複数の同時のやり取りを可能にする。

例えば、検出のためのＦＡＳＴという名前で知られているアルゴリズム及び次の画像の追跡のためのＫＬＴ（Kanade, Lucas及びTomasiのイニシャル）という名前で知られているアルゴリズムに基づいて関心のあるポイントを追跡する技術に従って、画像ストリームにおけるある画像から次の（又は近接する）画像までの関心のある領域の変化を見つけるために、関心のあるポイントを使用する。関心のある領域の関心のあるポイントは、特に、追跡したオブジェクトの歪み及び画像中に表れるシーンの部分をマスクし及び／又はこれらのオブジェクトの部分を関心のある領域から離すオブジェクトの動きに従って、分析した画像上で変化することがある。

さらに、動きによりやり取りが行われるオブジェクトは、関心のある領域で規定されたマスク中の関心のあるポイントを追跡するメカニズムに従って、関心のある領域の各々で追跡される。

図１及び図２は、本発明の一般的な原理を示す。
図１ａ及び図１ｂを備える図１は、オブジェクトの動き及びユーザのやり取りを決定するために用いることができる画像ストリームの二つの連続する画像を示す。

図１ａに示すように、画像１００−１は、装飾(decor)の要素のような固定要素（図示せず）及びここでは（現実の又は仮想的な）アニメのキャラクターにリンクした移動要素を有するシーンを表わす。ここでは、画像１００−１は、関心のある領域１０５−１を備える。上述したように、複数の関心のある領域を同時に処理することができるが、明瞭のために、ここでは単一の関心のある領域を示し、関心のある領域の処理は、領域の各々に対して同様である。関心のある領域１０５−１の形状及び最初の位置が予め決定されていると考える。

図１ｂの画像１００−２は、画像シーケンスにおける図１ａの画像１００−１の次の画像を表す。画像１００−２において、妨害(disturbance)が推定されうる、前画像で規定した関心のある領域１０５−１の位置及び寸法に対応する関心のある領域１０５−２を規定することができる。したがって、動きがあると考えられる画素（画素(pixel)は画像素子(PICture ELement)の頭文字）のマップを抽出するために、関心のある領域１０５−１は、これらの画像の部分を画素ごとに次々と減算することによって図１ｂの関心のある領域１０５−２と比較される。動きがあるこれらの画素は、（図２に示すように）関心のある画素のマスクを構成する。

図１ａにおいて総称的(generically)に１１０を付した関心のあるポイントを、画像分析用の標準的なアルゴリズムに従って、画像１００−１において、特に、関心のある領域１０５−１において決定することができる。これらの関心のあるポイントを、関心のある画素のマスクに属する関心のある領域の位置で有利に検出することができる。

関心のある領域１０５−１で規定された関心のあるポイント１１０は、例えば、関心のあるポイントの近傍(neighborhood)に関連した画像１００−１及び画像１００−２の部分を比較することによるＫＬＴ追跡原理を用いることによって、画像１００−２において、好適には関心のある領域１０５−２において追跡される。

画像１００−１と画像１００−２との間で１１５を付したこれらのマッチングによって、画像１００−１の参照番号１２０−１及び画像１００−２の参照番号１２０−２によって表わされる手の動きを推定することができる。したがって、画像１００−２における手の新たな位置を取得することができる。

次に、手の動きを、画像１００−２からの関心のある領域１０５−２を変更した関心のある領域１２５に動かすために有利に用いることができ、変更した関心のある領域１２５を、画像ストリームの画像１００−２の次の画像における手の動きを推定するのに用いることができる。したがって、オブジェクトを追跡する方法は、再帰的に継続することができる。

上述したように、画像１００−１に存在する所定の関心のあるポイントが特に手の存在及び動きにより画像１００−２から見えなくなったことに留意すべきである。

画像中の関心のあるポイントの決定は、好適には、現画像に配置される対応する関心のある領域に対応する領域又は動きがある画素の関心のあるマスクが対応する関心のある領域に規定されたときに関心のある領域の一部又は全てを備える領域に制限される。

特定の実施の形態によれば、画像が入力されるビデオカメラにリンクした基準（例えば、図１ａで参照番号１２０−１を付した手）に関連する追跡を行うためにオブジェクトの相対位置及び向きを特徴付ける情報の推定を行う。そのような情報を、例えば、２次元位置情報（ｘ，ｙ）、向き情報（θ）及びビデオカメラまでの距離の情報すなわち追跡するオブジェクトのスケールとする。

同様に、画像ストリームの画像１００−２と次の画像との間で推定された動きに従って画像１００−１の関心のある領域１０５−１に関連して画像１００−２で規定された関心のある領域１２５で生じた変更を追跡することができる。そのために、新たな関心のある領域は、先ず、関心のある領域１２５に基づいて次の画像で識別される。関心のある領域が識別されたとき、関心のある領域は、動きを決定する必要があるオブジェクトの部分を備えるマスクを形成する変更要素(modified elements)を決定するために関心のある領域１２５と比較される。

図２ａ〜２ｄを備える図２は、図１を参照して説明したようなある画像の関心のある領域と次の画像の対応する関心のある領域と比較したときの同一位置での変化を示す。このような比較に起因する画像は、関心のある領域と同一形状を有し、ここでは二つの状態をとる画素によって形成され、第１の状態を、デフォールト(default)により各画素に関連させる。第２の状態を、変化が予め決定されたしきい値を超える関心のある領域の画素に対応する画素に関連させる。ここでは、第２の状態は、追跡したオブジェクトの動きを特徴付け、場合によっては、特定の動作にトリガをかけるために、追跡したオブジェクトに位置し又は追跡したオブジェクトに近接する領域に関心のあるポイントの探索を制限するのに用いられるマスクを形成する。

図２ａは、第１の画像の関心のある領域を表し、それに対し、図２ｂは、同一位置における次の画像の対応する関心のある領域を表わす。図２ａに示すように、関心のある領域２００−１は、手２０５−１及び他のオブジェクト２１０−１を備える。同様に、図２ｂに示すように２００−２を付した対応する関心のある領域は、ここでは２０５−２及び２１０−２をそれぞれ付した手及びオブジェクトを備える。総称的に２０５を付した手は十分に動いたのに対し、総称的に２１０を付したオブジェクトはほとんど動かない。

図２ｃは、関心のある領域２００−１と関心のある領域２００−２との比較に起因する画像２１５を示す。関心のあるマスクを形成する黒い部分は、これらの差が予め決定されたしきい値より大きい画素を表わし、それに対し、白い部分は、これらの差がしきい値より小さい画素を表わす。黒い部分は、特に、関心のある領域２００−１と関心のある領域２００−２との間の手２０５の位置の差に対応する２２０を付した部分を備える。黒い部分は、関心のあるこれらの領域との間のオブジェクト２１０の位置の差に対応する部分２２５も備える。部分２３０は、関心のあるこれらの領域の両方に存在する手２０５の部分に対応する。

図２ｃに表わした画像２１５を、関心のある領域２００−１及び関心のある領域２００−２から抽出される画像が入力されるビデオカメラの領域で手を動かすユーザとこれらの画像を処理するコンピュータシステムとの間のやり取りを画像２１５から推定するために分析することができる。そのような分析は、特に、そのように形成された関心のあるマスクに属する関心のあるポイントの動きの識別にあり、この場合、関心のあるポイントの探索は、好適には関心のあるマスクに制限される。

しかしながら、特に２２５を付した動きのような隣接する動き(adjoining movement)を除去することができるスケルトン化(skeletonizing)ステップを、好適には関心のあるマスクに属する関心のあるポイントの動きを分析する前に実行する。このスケルトン化ステップは、例えば、関心のあるマスクに適用される開閉動作のような形態学的処理動作(morphological processing operation)の形態をとることができる。

さらに、好適には、取得した関心のあるマスクを、関心のある領域２００−１を抽出した画像とその前の画像との間で再帰的に識別された関心のあるポイントの周辺に配置された部分を除去するために変更される。

したがって、図２ｄは、図２ｃで表わした関心のあるマスクを示し、ここでは、関心のあるマスクに２３５を付し、２４５によって識別された関心のあるポイントの周辺に位置する部分２４０が除去される。部分２４０を、例えば、円形にする。ここでは、部分２４０は、予め決定された半径を有する。

したがって、関心のある領域２３５は、既に検出した関心のあるポイントに位置するために新たな関心のあるポイントを検出する必要のない領域から切り取られた。換言すれば、このように変更された関心のあるマスク２３５は、関心のある領域の同一領域に関心のあるポイントが蓄積されるのを回避するために関心のあるマスク２２０の一部を除外した。

また、関心のあるマスク２３５を、あるケースが生じた場合に特定の動作にトリガをかけるために動きを分析することができる関心のあるポイントを識別するのに用いることができる。

図３は、少なくとも一部が二つの連続（又は近接）する画像の関心のある領域及びマスクに表れるオブジェクトの動きの概略図である。ここでは、画像３００は、図２ｄを参照しながら上述したような関心のある領域２００−１と関心のある領域２００−２との間の比較に起因する関心のあるマスクに対応する。しかしながら、妨害（特に妨害２２５）を除去するためにスケルトン化ステップを実行する。したがって、画像３００は、動きが当該関心のある領域のオブジェクトの動きを特徴付ける新たな関心のあるポイントを識別するために用いることができるマスク３０５を備える。

実例として、ユーザの人差し指の先端に対応する関心のあるポイントを示す。参照番号３１０−１は、関心のある領域２００−１における位置に従う関心のあるポイントを示し、参照番号３１０−２は、関心のある領域２００−２における位置に従う関心のあるポイントを示す。したがって、関心のあるポイントを追跡する標準的な技術、例えば、オプティカルフローによる追跡を行うアルゴリズムを用いることによって、関心のある領域２００−１の関心のあるポイント３１０−１に基づいて、関心のある領域２００−２の対応する関心のあるポイント３１０−２を見つけることができ、その結果、対応する移動(translation)を見つけることができる。

複数の関心のあるポイント、特に、関心のあるポイント３１０−１並びに以前に検出し及び有効にした関心のあるポイント、例えば、関心のあるポイント２４５を分析することによって、特に移動、回転及び／又はスケールの変更にリンクした追跡したオブジェクトの動きパラメータのセットを決定することができる。

図４は、画像シーケンスの二つの連続（又は近接する）画像の間のオブジェクトの位置の変化を連続的な動作において識別するために本発明において実現される所定のステップの概略図である。

ここでは、画像を、上述した方法を実現するコンピュータシステムに接続されたビデオカメラ、特に、ウェブ画像タイプのビデオカメラのようなイメージセンサを通じて取得する。

現画像４００を取得した後、当該画像が最初に処理すべきものである場合、すなわち、同一のビデオストリームからの前画像４０５が事前に処理されなかった場合、初期化の最初のステップ（ステップ４１０）を実行する。このステップの目的は、特に、少なくとも一つの関心のある領域の特徴、例えば、形状、サイズ及び最初の位置を規定することである。

上述したように、関心のある領域を、（初期化４１０が必要でない再帰的な追跡の段階において）前画像で決定した対応する関心のある領域に対して又は（初期化段階に対応する）予め決定した特徴及び／又は特定のイベントに従って規定することができる。

したがって、実例として、関心のある領域を初期状態で規定しないようにすることができ、システムは、トリガーイベント、例えば、ビデオカメラに対面するユーザの特定の動き（画像中の動きがある画素は、特定の動きに対する探索中に分析される。）、肌の色のような特定の色の配置又は位置が関心のある領域の位置を規定する特定の予め決定されたオブジェクトの認識を待機する。位置のように、関心のある領域のサイズ及び形状を、検出したイベントの特徴に従って予め規定し又は決定することができる。

したがって、初期化ステップ４１０は、画像シーケンス中で追跡するオブジェクト及び実行されるアプリケーションに応じて複数の形態をとる。

初期化ステップ４１０を、特に、静的初期化(static initialization)とすることができる。この場合、関心のある領域の最初の位置が予め決定され（オフライン決定(off-line determination)）、追跡アルゴリズムは、妨害(disturbance)を待機する。

初期化段階は、特定のタイプのオブジェクトを認識するステップを備えることもできる。例えば、Ｈａｒｒウェーブレットタイプの記述子を検出する原理を実現することができる。これらの記述子の原理は、特に、Viola及びJonesによる論文"Rapid object detection using boosted cascade of simple features", Computer Vision and Pattern Recognition, 2001に記載されている。これらの記述子は、特に、画像中の顔、目若しくは手又は画像の一部の検出を可能にする。したがって、初期化段階中、検出したオブジェクトの関心のある領域の位置を決めるために画像全体の特定のオブジェクトを探索し又は認識したオブジェクトの追跡にトリガをかけるために関心のある領域それ自体の特定のオブジェクトを探索することができる。

他のアプローチは、画像のセグメント化と、所定の色特性及び所定の予め規定した形状の識別にある。処理した画像の形状及び／又はセグメント化された領域が、探索したオブジェクト、例えば、肌の色及び手の外形と同様であるとき、追跡処理は、上述したように初期化される。

以下のステップ（ステップ４１５）において、特徴が（初期化段階で又は前画像において）事前に決定された関心のある領域を、対応する画像部分を抽出するために現画像に配置する。現画像が、処理すべきビデオストリームの最初の画像である場合、当該画像は前画像となり、新たな現画像を取得し、ステップ４１５を繰り返す。

その後、このように抽出した画像部分を、前画像の対応する関心のある領域と比較する（ステップ４２０）。そのような比較は、特に、前画像の対応する関心のある領域を対応する画素を有する現画像の考察した関心のある領域から画素ごとに減算することからなる。

したがって、本例によれば、動いたポイントを、現画像の部分と前画像の部分との絶対差により検出する。この差によって、動きオブジェクトをほぼ静止した装飾から区別するのに用いることができる関心のあるマスクを形成することができる。しかしながら、オブジェクト／装飾のセグメント化は完全であると予測されないので、追跡したオブジェクトの画素の動き及び画像の背景に属する画素の動きを識別するために、そのような関心のあるマスクを動きに基づいて再帰的に更新することができる。

しきい値化を、好適には予め決定されたしきい値に従って画素間の差に基づいて行う（ステップ４２５）。そのようなしきい値化を、例えば、輝度に基づいて行うことができる。８ビットに亘るコード化を用いる場合、その値は、例えば１００となる。それによって、二つの連続（又は近接）する画像間で十分大きいと考えられる動きを有する画素を分離することができる。現画像の画素と前画像の画素との間の差は、２進コード化され、例えば、差が、動きを特徴付ける予め決定されたしきい値を超える場合に黒となり、逆の場合には白となる。差が予め決定されたしきい値を超える画素によって形成された２値画像は、関心のあるマスク又は考察した関心のある領域における追跡を形成する（ステップ４３０）。

関心のあるポイントが事前に有効になった場合、関心のあるポイントを再帰的に追跡した領域をマスクから除外するためにマスクを変更する（ステップ４６０）。したがって、破線を用いて表したように、ステップ４６０を、有効な関心のあるポイントが存在する場合にのみ実行する。上述したように、このステップは、領域、例えば、予め決定された直径のディスク、事前に有効になった関心のあるポイントの周辺等をマスクから除外することからなる。

その後、関心のあるポイントを、そのように規定された関心のあるマスクに対応する前画像の領域で探索し（ステップ４３５）、ここでは、関心のあるマスクを、ステップ４３０で形成した関心のあるマスク又はステップ４３０で形成するとともにステップ４６０中に変更した関心のあるマスクとする。

関心のあるポイントの探索を、例えば、２０個の関心のあるポイントの検出に制限する。当然、この数を異なる数とすることができ、この数を、関心のあるマスクのサイズに従って推定することができる。

この探索を、好適にはＦＡＳＴという名称で知られているアルゴリズムを用いて行う。このアルゴリズムによれば、例えば１６画素の外周(perimeter)を有するブレゼンハム円(Bresenham circle)を、画像の各画素の周辺に構成する。当該円に含まれるｋ個の連続する画素（ｋは、典型的には９，１０，１１又は１２の値を有する。）の全てが中央の画素より高い強度を有し又は全てが中央の画素より低い強度を有する場合、当該画素は、関心のあるポイントと考えられる。ハリスポイント検出(Harris points detection)という名称で知られているアプローチにおいて与えられるような画像の勾配に基づくアプローチを用いて関心のあるポイントを識別することもできる。

関心のあるマスクに従って前画像で検出した関心のあるポイント及び適用可能である場合の事前に検出し及び有効にした関心のあるポイントを、現画像の対応する関心のあるポイントを識別するために用いる。

したがって、現画像の対応する関心のあるポイントの探索を、好適にはオプティカルフローという名称で知られている方法を用いて行う（ステップ４４０）。この技術を用いることによって、特にガウシアンフィルタにより平滑化された画像のピラミッドの使用により、画像がぼやけるときに更に強いロバストネスを与える。これは、例えば、ＫＬＴという名称で知られているアルゴリズムにおいてLucus, Kanada及びTomasiによって実現したアプローチである。

（関心のあるマスクに従って又は再帰的な追跡によって決定される）前画像の関心のあるポイントに対応する現画像の関心のあるポイントが識別されたとき、動きパラメータを、現画像の関心のある領域に関連する前画像の関心のある領域において追跡されたオブジェクトに対して推定する（ステップ４４５）。自由度とも称されるこのようなパラメータは、例えば、ｘ軸に沿った移動のパラメータ、ｙ軸に沿った移動のパラメータ、回転パラメータ及び／又はスケールパラメータを備え、変換は、ある平面から他の平面に渡る双方向ポイント(bi-directional points)のセットを形成し、これら四つのパラメータのグループ分けを行い、相似(similarity)と称される。これらのパラメータを、好適には非線形最小二乗法(method of Nonlinear Least Squares Error (NLSE))又はガウス・ニュートン法(Gauss-Newton method)を用いて推定する。この方法は、追跡した関心のあるポイントのセットに亘る再投影誤差(re-projection error)を最小にしようとする。モデル（位置及び向き）のパラメータの推定を向上させるために、特定の実施の形態において、違った方法でこれらのパラメータを探索するのが有利である。したがって、例えば、最初の段階において、識別が容易な移動パラメータ（ｘ，ｙ）のみを推定するために最小二乗誤差を適用し、その後、次の繰り返し中に、（精度が落ちる可能性がある）スケール変化及び／又は回転のパラメータを計算するのが適切である。

以下のステップにおいて、好適には、以前のステップで推定された動きに関する有効な関心のあるポイントを再帰的に決定するために、整合が現画像で見つかった前画像の関心のあるポイントを分析する。そのために、（関心のあるマスクに従って又は再帰的な追跡により決定された）前画像の予め決定された関心のあるポイントの各々について、当該関心のあるポイントに対する現画像の対応する関心のあるポイントの動きが識別された動きに従うか否か確認する。肯定である場合、関心のあるポイントを、有効なものであると考え、そうでない場合、関心のあるポイントを、有効でないものであると考える。典型的には画素で表され、予め決定された値を有するしきい値を、好適には（ステップ４４５のパラメータの適用によって得られる）現画像のポイントの理論上の位置(theoretical position)と（ステップ４４０の追跡方法によって得られる）その実際の位置との間の所定の誤差の範囲を許可するために用いられる。

ここでは参照番号４５５を付した有効な関心のあるポイントを、動きを追跡しているオブジェクトに属するものと考え、それに対し、（異常値とも称する）有効でないポイントを、画像の背景又は画像中に見えないオブジェクトの部分に属するものと考える。

上述したように、有効な関心のあるポイントを、次の画像で追跡し、図２ｄを参照して説明したような現画像と次の画像との間に動きがある画素をマスクの部分から除外するために現画像の関心のある領域と次の画像の対応する関心のある領域との比較によって形成された関心のあるマスクを変更する（ステップ４６０）ために用いる。このように変更された関心のあるマスクによって、関心のあるポイントを再帰的に追跡する画像の部分を除外することができる。したがって、有効な関心のあるポイントは、連続する画像における複数の処理動作に対して保持され、特に、オブジェクトの追跡の安定化を可能にする。

その後、現画像及び次の画像を処理するのに用いられる新たな関心のある領域（すなわち変更した関心のある領域）を、以前に推定した自由度に基づいて推定する（ステップ４４５）。例えば、自由度がｘ方向の移動及びｙ方向の移動である場合、関心のある領域の新たな位置を、これら２種類の情報を用いることによって、関心のある領域の以前の位置に従って推定する。このステップにおいてスケールの１回以上の変化を推定及び考察する場合、ビデオストリームの現在の画像及び次の画像で用いられる新たな関心のある領域のサイズを、考えられるシナリオにしたがって変更することができる。

同時に、異なる自由度を計算した場合、これらのパラメータに従って特定のやり取りを推定することができる（ステップ４７０）。

特定の実施の形態によれば、スケールの１回以上の変化の推定を、マウスのクリックと同様な動作のトリガの検出のために用いる。同様に、例えば、シーンに表示された仮想要素の回転を可能にするために、向きの変化、特に、（回転(roll)と称される）ビデオカメラの視軸(viewing axis)の回りでの向きの変化を用いることができ、又は、アプリケーションの音量を調整するために、ポテンショメータ(potentiometer)タイプのボタンを制御することができる。

マウスクリックのような動作を検出するための倍率に従ったやり取りの検出を、例えば、動きベクトルのノルム(norm)（移動）及び（対応する関心のある領域に従って決定される）倍率が予め決定された所定の値より小さい画像の数を計数することによって実現することができる。そのような数は、追跡したオブジェクトの動きの安定性(stability)を特徴付ける。動きが安定した画像の数が所定のしきい値を超える場合、システムは、クリックの検出を待機する状態に入る。その後、クリックは、現画像と前画像との間の倍率の絶対差の平均を測定することによって検出され、これは、所定の数の画像に亘って実行される。このように計算した和が所定のしきい値を超える場合、クリックが有効となる。

（オブジェクトが画像から見えなくなり又はオブジェクトが消失したために）オブジェクトがもはや画像シーケンスにおいて追跡されないとき、アルゴリズムは、好適には初期化ステップにもどる。さらに、初期化ステップを再び実行するようになる追跡の消失を、ユーザの動きを測定することによって識別することができる。したがって、これらの動きが安定し若しくは所定の期間に亘って存在しないとき又は追跡したオブジェクトがイメージセンサの視野を去るときに方法を再び初期化することを決定することができる。

図５は、四つのパラメータが画像シーケンスの連続（又は近接）する画像中の追跡されたオブジェクトの動きを特徴付けるときの本発明の更に正確な所定の態様を示す。ここでは、これら四つのパラメータを、（Ｔ_ｘ，Ｔ_ｙ）を付した移動、θを付した、イメージセンサの光軸の回りの回転及びｓを付した倍率(scale factor)とする。これら四つのパラメータは、ポイントＭを平面からポイントＭ’に変換することができる変換である相似(similarity)を表す。

図５において、Ｏは、前画像のオブジェクトに対する基準フレーム(frame of reference)５０５の起点(origin)を表し、Ｏ’は、現画像のオブジェクトの基準フレーム５１０の起点を表し、基準フレーム５０５を、オブジェクト追跡法に従って取得し、ここでは、基準画像フレームに参照番号５００を付す。この場合、以下の連立非線形方程式(system of non-linear equations)によりポイントＭからポイントＭ’への変換を表現することができる。

ここで、（Ｘ_Ｍ，Ｙ_Ｍ）は、基準画像フレームで表されるポイントＭの座標であり、（Ｘ_０，Ｙ_０）は、基準画像フレームのポイントＯの座標であり、（Ｘ_Ｍ’，Ｙ_Ｍ’）は、基準画像フレームのポイントＭ’の座標である。

ポイントＭ_ｓ及びＭ_ｓθはそれぞれ、スケールｓの変化に従うポイントＭの変換及び回転θを組み合わせたスケールｓの変化に従うポイントＭの変換を表す。

上述したように、図４を参照して説明したステップ４４０で追跡した関心のある全てのポイントを用いることによってこの連立非線形方程式を解く非線形最小二乗誤差アプローチ(nonlinear least squares error approach)を用いることができる。

現画像のオブジェクトの新たな位置を計算する（図４のステップ４６５）ために、理論的には、以下のようにオブジェクトの以前の位置に推定された移動（Ｔ_ｘ，Ｔ_ｙ）を適用すれば十分である。

ここで、（Ｘ_０’，Ｙ_０’）は、基準の画像フレームのポイントＯ’の座標である。

好適には、考えられる各ポイントの偏導関数、すなわち、これらのポイントの各々に関連する動きは、関連の動きに従って重み付けされる。したがって、最も動きの大きい関心のあるポイントは、パラメータの推定において大きな重要性を有し、これによって、オブジェクトの追跡を妨害する、背景にリンクした関心のあるポイントを回避する。

したがって、現画像で追跡した関心のあるポイントの重心の影響を上記方程式に追加するのが有利であることを観察した。この重心は、動きの局所的な重心(local center of gravity)（現画像の追跡したポイントは、前画像の動くポイントから来る。）にほぼ対応する。したがって、関心のある領域の中心は、重心に対するオブジェクトの距離が推定される移動より大きい間は動きの中心に移動する傾向にある。追跡したオブジェクトの動きを特徴付ける現画像の基準フレームの起点を、好適には以下の関係に従って計算する。

ここで、（Ｘ_ＧＣ，Ｙ_ＧＣ）は、現画像の関心のあるポイントの重心を表し、Ｗ_ＧＣは、現在の重心の影響に対する重みを表し、Ｗ_Ｔは、移動の影響に対する重みを表す。ここで、パラメータＷ_ＧＣは、追跡したオブジェクトの動きの速度に正に相関(positively correlated)し、それに対し、パラメータＷ_Ｔを、移動の所望の影響に応じて固定することができる。

図６ａ、図６ｂ及び図６ｃを備える図６は、画像シーケンスにおいて、関心のある二つの領域によってユーザの手の追跡をリアルタイムで行うことができ、車両のステアリングホイールの動きを特徴付ける本発明の実現例をドライビングシミュレーションゲームに関連して示す。

更に詳しくは、図６ａは、ゲームに関連した図形表示であり、それに対し、図６ｂは、ユーザによって認識されるゲームのディスプレイを表す。図６ｃは、車両のステアリングホイールの動きを推定するために追跡したオブジェクトの動きパラメータ又は自由度の推定を表す。

図６ａは、用いられるイメージセンサによって供給される画像シーケンスから抽出した画像６００を表す。画像６００は、あたかもユーザが運転する車両のフロントガラスに固定されているかのようにユーザに対面して配置される。ここでは、この画像６００は、コンピュータグラフィックによってオーバーレイ(overlay)に描かれたステアリングホイール６２０に関連した二つの関心のある円形領域６１０，６１５を備える領域６０５を含む。画像６００は、ユーザが位置する現実シーンの要素も備える。

領域６１０，６１５の最初の位置は、妨害(disturbance)を待つ(await)間、ステアリングホイールの中心を表すポイントの互いに逆側に等距離で予め決定された水平線上に固定される。ユーザが手をこれら二つの領域に配置すると、ユーザは、ステアリングホイールを左又は右に向きを変えることができる。ここでは、領域６１０，６１５の動きは、ステアリングホイール６２０に対応する円の半径によって制限される。ステアリングホイールを表す画像は、例えば、両手の平均の動きに従ってユーザの手とともに動く。

ステアリングホイール６２０に対応する円の半径は、ユーザが手を当該円の中心に向かって動かし又は手を当該円の中心から離れるように動かすときに変化することもできる。

次に、これらの２の自由度を、好適には車両の向き（ステアリングホイール６２０に対応する円上の手の位置）及び速度（ステアリングホイール６２０に対応する円の中心に対する手の位置にリンクした倍率）を制御するために用いる。

アプリケーションのディスプレイ６２５を表す図６ｂは、画像６００から抽出した画像部分６０５を備える。このディスプレイによって、ユーザは、ユーザの動きを観察し及び制御することができる。好適には、画像部分６０５を、ドライバが動作を観察することができる車のバックミラーとして表すことができる。

画像６００の領域６１０，６１５によって、ステアリングホイール６２０の動きを制御することができ、すなわち、ディスプレイ６２５上で参照番号６３０を付した車両の向き及び装飾の要素６３５に対する速度を制御することができ、ここでは、車両６３０及び装飾の要素６３５は、コンピュータグラフィックによって作り出される。標準的なドライビングアプリケーションによって、車両は、装飾内で動き、所定の要素に当たることがある。

図６ｃは、ステアリングホイールの自由度を導き出すために関心のある領域の各々にリンクした自由のパラメータ(parameter of freedom)の推定を更に正確に説明する。この実現において、推定するためのパラメータは、ステアリングホイールの向きθ及びその直径Ｄである。

動きの成分を分析するために、複数の基準フレームが規定される。ここでは、基準フレームＯｗは、全体に亘る基準フレーム（「世界」基準フレーム）に対応し、基準フレームＯｗｈは、ステアリングホイール６２０にリンクしたローカル基準フレームであり、基準フレームＯａ１及び基準フレームＯａ２は、関心のある領域６１０及び関心のある領域６１５にそれぞれリンクした二つのローカル基準フレームである。ベクトルＶａ１（Ｘｖａ１，Ｙｖａ１）及びＶａ２（Ｘｖａ２，Ｙｖａ２）は、基準フレームＯａ１及び基準フレームＯａ２でそれぞれ表現される関心のある領域６１０及び関心のある領域６１５におけるユーザの手の動きの分析に起因する動きベクトルである。

ステアリングホイールの新たな向きθ’を、以前の向きθ及び（関心のある領域６１０及び関心のある領域６１５によって決定された）ユーザの手の動きに基づいて演算する。したがって、ステアリングホイールの動きは、複数の関心のある領域の動きにリンクした制限された動きとなる。新たな向きθ’を、以下のように計算することができる。

この場合、Δθ１及びΔθ２は、ユーザの手の回転を表す。Δθ１を、以下の関係によって計算することができる。

ここで、

は、基準フレームＯｗｈのｙ軸に沿った移動を特徴付ける。

Δθ２を、同様にして計算することができる。

同様に、ステアリングホイールの新たな直径Ｄ’を、以前の直径Ｄ及び（関心のある領域６１０及び関心のある領域６１５によって決定された）ユーザの手の動きに基づいて演算する。新たな直径Ｄ’を、以下のように計算することができる。

ここで、

及び

である。

したがって、ステアリングホイールの角度位置及び直径が分かっているので、ゲームシナリオは、特に、対応するコンピュータグラフィック画像を求めることができる。

図７は、ビデオカメラによって供給された画像に表されたオブジェクトの動きを識別するとともに識別された動きに従って特定の動作にトリガをかけるために用いることができる装置の一例を示す。装置７００を、例えば、スマートホンタイプの携帯電話、携帯端末、マイクロコンピュータ又はワークステーションとする。

好適には、装置７００は、通信バス７０２を備え、通信バス７０２は、中央処理ユニット又はマイクロプロセッサ（ＣＰＵ）７０４と、オペレーティングシステム及びＰｒｏｇのようなプログラムを含むことができる読み出し専用メモリ（ＲＯＭ）７０６と、上記プログラムの実行中に形成され及び変更される変数及びパラメータを記録するのに適合したレジスタを備えるランダムアクセスメモリ又はキャッシュメモリ（ＲＡＭ）７０８と、ビデオカメラ７１２に接続したビデオ取得カード７１０と、スクリーン又はプロジェクタ７１６に接続したブラフィックスカード７１４と、に接続される。

選択的には、装置７００は、上記プログラムＰｒｏｇ及び処理された又は本発明にしたがって処理されるデータを含むことができるハードディスク７２０と、特にインストールの段階及び／又は初期化の段階中に本発明によるプログラムとユーザがやり取りを行うことができるキーボード７２２及びマウス７２４又は光学的なスタイラス(optical stylus）、タッチスクリーン、リモコン装置等の他の任意のポインティングデバイスと、分散型通信ネットワーク７２８、例えば、インターネットに接続され、データを送受信することができる通信インタフェース７２６と、処理された又は本発明によって本発明に従って処理されるデータを読み出し又は書き込むのに適合したメモリカードのリーダ（図示せず）と、を有してもよい。

通信バスによって、装置７００に含まれ又は装置７００に接続した異なる構成要素間の通信及び相互運用を可能にする。バスの表示(representation)は限定されるものではなく(non-limiting)、特に中央処理ユニットは、装置７００の任意の構成要素に対して直接又は装置７００の他の構成要素を介して命令を送り出すことができる。

プログラムで制御できる装置(programmable apparatus)が本発明による処理を実行することができる各プログラムの実行コードを、例えば、ハードディスク７２０又は読出し専用メモリ７０６５に格納することができる。

変形例によれば、プログラムの実行コードを、上述した方法と同一の方法で格納するために、インタフェース７２６を介して通信ネットワーク７２８の中継(intermediary)によって受信することができる。

更に一般的には、一つ以上のプログラムを、実行前に装置７００の記憶手段の一つにロードすることができる。

中央処理ユニット７０４は、命令又は本発明による一つ以上のプログラムのソフトウェアコードの一部の実行を制御及び管理(direct)し、これらの命令は、ハードディスク７２０、読出し専用メモリ７０６又は上述した他の記憶素子に格納される。起動時に、不揮発性メモリ、例えば、ハードディスク７２０又は読出し専用メモリ７０６に格納された一つ以上のプログラムは、本発明による一つ以上のプログラムの実行コードを含むランダムアクセスメモリ７０８及び本発明の実現に必要な変数及びパラメータを格納するレジスタに伝送される。

本発明による装置を備える通信装置をプログラム装置とすることもできることに留意されたい。この場合、この装置は、例えば特定用途向け集積回路（ＡＳＩＣ）に固定された一つ以上のコンピュータプログラムのコードを含む。

当然、特定の要求を満足するために、当業者は、これまでの説明に修正を加えることができる。

Claims

イメージセンサの領域に位置した少なくとも一つのオブジェクトの動きに従ってソフトウェアアプリケーションとのやり取りを検出するコンピュータ方法であって、前記イメージセンサは、前記コンピュータ方法を実行するコンピュータに接続され、画像ストリームを前記コンピュータに供給する方法において、
少なくとも一つの第１の画像を前記イメージセンサから受け取るステップと、
前記第１の画像中の少なくとも一つの関心のある第１の領域を識別するステップであって、前記少なくとも一つの関心のある第１の領域は、前記少なくとも一つの第１の画像の一部に対応するステップと、
少なくとも一つの第２の画像を前記イメージセンサから受け取るステップと、
前記少なくとも一つの第２の画像中の少なくとも一つの関心のある第２の領域を識別するステップであって、前記少なくとも一つの関心のある第２の領域は、前記少なくとも一つの第１の画像の前記少なくとも一つの関心のある第１の領域に対応するステップと、
前記少なくとも一つの関心のある第１の領域と前記少なくとも一つの関心のある第２の領域とを比較し、前記少なくとも一つの関心のある第１の領域と前記少なくとも一つの関心のある第２の領域の対応するポイントの少なくとも一つの特徴の変化を特徴付ける関心のあるマスクを決定するステップ（４４０）と、
前記少なくとも一つのオブジェクトの動きを前記関心のあるマスクから決定するステップであって、前記少なくとも一つのオブジェクトは、前記少なくとも一つの関心のある第１の領域と前記少なくとも一つの関心のある第２の領域のうちの少なくとも一つで少なくとも部分的に表されているステップ（４４５）と、
前記動きを分析し、前記分析に応答して、予め決定された動作にトリガをかけ又はトリガをかけないステップ（４７０）と、を備えることを特徴とする方法。
前記動きを決定するステップ（４４５）は、前記少なくとも一つの第１の画像及び前記少なくとも一つの第２の画像中の少なくとも一対の関心のあるポイントを決定し及びマッチングするステップであって、前記少なくとも一対の関心のあるポイントのうちの少なくとも一つのポイントは、前記関心のあるマスクに属するステップを備える請求項１に記載の方法。
前記動きを決定するステップ（４４５）は、前記少なくとも一つの第１の画像及び前記少なくとも一つの第２の画像中の複数の対の関心のあるポイントを決定し及びマッチングするステップであって、前記複数の対の関心のあるポイントの各々のうちの少なくとも一つのポイントは、前記関心のあるマスクに属し、前記動きは、第１セットの関心のあるポイントの第２セットの関心のあるポイントへの変換に基づいて推定され、前記第１のセット及び前記第２のセットの関心のあるポイントは、前記複数の対の関心のあるポイントに属し、前記第１セットの関心のあるポイントの関心のあるポイントは、前記少なくとも一つの第１の画像にも属し、前記第２セットの関心のあるポイントの関心のあるポイントは、前記少なくとも一つの第２の画像にも属するステップを備える請求項２に記載の方法。
前記変換は、前記複数の対の関心のあるポイントの同一の対の関心のあるポイントからの二つの関心のあるポイント間の距離に基づく重み関数を実現する請求項３に記載の方法。
前記少なくとも一つの対の関心のあるポイントに属する、前記少なくとも一つの第１の画像の少なくとも一つの関心のあるポイントを、前記決定した動きに従って有効にするステップであって、少なくとも一つの有効にした関心のあるポイントを、前記少なくとも一つの第２の画像に続く少なくとも一つの第３の画像中の前記オブジェクトを追跡するために使用し、少なくとも一つの有効にした関心のあるポイントを、前記少なくとも一つの第２の画像及び前記少なくとも一つの第３の画像に基づいて形成された関心のあるマスクを変更するのに使用するステップを更に備える請求項３又は４に記載の方法。
前記少なくとも一つの関心のある第１の領域と前記少なくとも一つの関心のある第２の領域とを比較するステップは、前記少なくとも一つの関心のある第１の領域及び前記少なくとも一つの関心のある第２の領域の対応するポイントの値の減算をポイントごとに実行するステップと、前記減算の結果と予め決定されたしきい値とを比較するステップと、を備える請求項１から５のうちのいずれか１項に記載の方法。
前記少なくとも一つの第１の画像中の少なくとも一つの予め決定された特徴を検出するステップを更に有し、前記少なくとも一つの関心のある領域を、前記検出ステップに応答して少なくとも部分的に識別する請求項１から６のうちのいずれか１項に記載の方法。
前記少なくとも一つの予め決定された特徴を、予め決定された形状及び／又は予め決定された色とする請求項７に記載の方法。
前記少なくとも一つの第２の画像中の少なくとも一つの変更した関心のある第２の領域を推定するステップであって、前記少なくとも一つの第２の画像中の少なくとも一つの変更した関心のある第２の領域は、前記少なくとも一つの第１の画像の前記少なくとも一つの関心のある第１の領域及び前記少なくとも一つの第２の画像の前記少なくとも一つの関心のある第２の領域に従って推定されるステップを更に備える請求項１から８のうちのいずれか１項に記載の方法。
前記少なくとも一つの第２の画像中の前記少なくとも一つの変更した関心のある第２の領域の推定は、ＫＬＴタイプのオブジェクト追跡アルゴリズムを実現する請求項９に記載の方法。
前記動きは、移動、回転及び／又は倍率によって特徴付けられる請求項１から１０のうちのいずれか１項に記載の方法。
前記動きは、倍率によって特徴付けられ、前記予め決定された動作にトリガをかけるか否かを、前記倍率に基づいて決定する請求項１１に記載の方法。
前記イメージセンサの領域に位置した少なくとも二つのオブジェクトの動きを決定し、前記予め決定された動作にトリガをかけるか否かを、前記少なくとも二つのオブジェクトに関連した動きの組合せに従って決定する請求項１から１２のうちのいずれか１項に記載の方法。
請求項１から１３のうちのいずれか１項に記載の方法のステップの各々を実行するのに適合した命令を備えるコンピュータプログラムであって、前記プログラムをコンピュータ上で実行するコンピュータプログラム。
請求項１から１３のうちのいずれか１項に記載の方法のステップの各々を実行するのに適合した手段を備える装置。