JP2018505455A

JP2018505455A - １つのシングル・センシング・システムを使用したマルチ・モーダル・ジェスチャー・ベースの対話型のシステム及び方法

Info

Publication number: JP2018505455A
Application number: JP2016543719A
Authority: JP
Inventors: カモヴィッチ、アリアクサンドル; トロ、ジュリアン; ギーグ、ローラン
Original assignee: ソフトキネティックソフトウェア
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2018-02-22
Anticipated expiration: 2035-01-30
Also published as: CN106030495B; EP3066551B1; EP3066551B8; WO2016119906A1; US20160364007A1; EP3066551A1; US10534436B2; KR20170107357A; KR102335132B1; CN106030495A; JP6539816B2

Abstract

相互作用表面１２０上のグラフィカル・ユーザ・インターフェース上にビジュアル・フィードバック情報を表示するコンピュータ化されたシステムとの効率的で補完的な自然のマルチ・モーダル・ジェスチャー・ベースの相互作用を提供するための方法及びシステムが、ここで説明される。相互作用表面１２０は、シングル・センシング・システム１７０を備えているイメージング・デバイスの錐台内にある。本システムは、相互作用表面１２０とのタッチ・ジェスチャー相互作用と、ユーザの手２４０ａ、２４０ｂによって実行される、相互作用表面１２０上のエリア２３０ａ又はボリューム２３０ｂ内の３次元タッチレス・ジェスチャー相互作用との両方を検出するためのシングル・センシング・システム１７０を使用する。両方のタイプの相互作用は、ジェスチャーが検出されたときに、コンピュータ化されたシステムを制御する相互作用コマンドに状況に応じて関連づけられる。本システムは、好ましくは、相互作用表面１２０上にグラフィカル・ユーザ・インターフェースとビジュアル・フィードバックとを表示するための投影システム１６０であって、センシング・システム１７０に対して相互作用表面１２０の同じ側に、又は反対の側に位置していることが可能である投影システムを備えている。

Description

本発明は、マルチ・モーダルの人間対コンピュータの対話型システムにおける、又はそれに関連した改善に関し、より詳細には、シングル・センシング手段、例えば、ジェスチャー認識のために動作させられている３次元のイメージング・システムを使用して相互作用の２つの相補的なモードを提供するための方法及びシステムに関するものであり、相互作用のその２つのモードは、それぞれ、タッチ・ジェスチャー相互作用と、３次元タッチレス・ジェスチャー相互作用とである。

従来の人間対コンピュータのインターフェースは、キーボード、マウス、リモコン、パッド、タッチ・スクリーン、ポインティング・デバイスなどのハードウェア制御システム・インターフェースを含んでいる。トリガされたバイナリ・イベントや連続した値などの制御コマンドを、インターフェースが相互作用するよう意図されているコンピュータ・システムに送信することができるように、そのようなインターフェースを用いて、例えば、接触すること、動くこと、保持すること、指し示すこと、押すこと、動くこと、クリックすること、又は複数のこれらの動作を一緒にすることといった物理動作が、ハードウェア・デバイスそれ自体の上で、逐次的に又は同時に、これらのデバイス・インターフェースによって可能にされるやり方で、実行される必要がある。

コンピュータ・システムは、多くの場合、すべて一緒にパラメータと称され、トリガされ、また実行される制御コマンドの関数としてユーザに対して目に見えるフィードバックを提供するためにスクリーンの上に表示される、ウィンドウと、ボタンと、他のアイテム又は要素とを有するグラフィカル・ユーザ・インターフェース（ＧＵＩ：graphical user interface）を備えており、それらは、従来の人間対コンピュータのハードウェア・インターフェースの使用可能性と人間工学とに従って、また主流のディスプレイ・システムの２次元的能力に関して設計されている。例えば、オペレーティング・システムは、基本的に、多くの場合に、マップ、画像、テキスト・ボックスなどのメディア・コンテンツ内でのナビゲーションを可能とするためのスクロール・バーを含んでいる２次元ＧＵＩウィンドウを有しており、その大きさは、ディスプレイ・スクリーンの大きさそれ自体の大きさによって範囲を定められたエリアの内部に表示される画像よりも大きい可能性がある。スクロール・バーとの相互作用は、マウス・ハードウェア・デバイス上のホイールを使用するために、又はマウス・カーソルの運動を保持クリック動作（holding click action）と組み合わせることにより、最適化される。さらに、従来のＧＵＩは、多くの場合、マウス・カーソル表現が、具体的に決定されたボタン・エリアを指し示しているときに、ユーザが、ＧＵＩのコンテンツをズームインし、またズームアウトするためにマウス・ボタンを用いてクリックする２次元ボタンを含んでいる。

さらに、従来の２次元ＧＵＩはまた、マウス移動の関数としてマップ・スクロールを行い、又は１つのマップ・エリアから他のマップ・エリアへと変更するために、連続したマウスの移動と組み合わされたクリックを通常必要とするマップ・ナビゲーションＧＵＩ相互作用を含むこともできる。

より最近では、従来の２次元ＧＵＩは、マルチ・タッチ可能な表面やディスプレイ・スクリーンなどの、タッチ及び／又はマルチ・タッチ制御インターフェースによって動作させられるようにするために、開発されてきている。これらの第２世代タッチ・ジェスチャー・ベースのインターフェースの制御コマンドは、ユーザが、少なくとも一方の手の少なくとも１つの部分、例えば、指を使用して、相互作用し、クリックし、スクロールし、又はズームイン及びズームアウトを行うことを可能とするように設計されており、また容量ベースの技術、抵抗ベースの技術、赤外線グリッド・ベースの技術、光学的イメージング・ベースの技術、分散信号ベースの技術、音響波ベースの技術など、異なる種類のハードウェア技術に基づいたものとすることができる。

さらにいっそう最近では、第３世代の制御システム・インターフェースが、使用可能になってきている。この世代は、コンタクトレス相互作用システムを含んでいる。これらのシステムはまた、容量性モーション・トラッキング・センサに基づいたものとすることもでき、電極と、インターフェース電子機器とを含むシステムを備えている。既存の制御システムに対してそのような容量性センサを使用することの主要な利点は、それらが、低い消費電力を有しており、シームレスな統合を提供し、低コストのものであることである。しかしながら、容量性センサは、一般的には、１本若しくは２本の人間の指など、非常に限られた数の対象になるポイント、又は先端を同時に区別し追跡する能力で、例えば、電極の平面から０ｃｍと１０ｃｍとの間の距離内の、非常に近い範囲のコンタクトレス相互作用を可能にするだけである。これらの容量性モーション・トラッキング・センサは、一般的に、タッチ・ジェスチャー相互作用と、タッチレス又はコンタクトレス・ジェスチャー相互作用との両方を可能にするために、タッチ・スクリーン・システムなど、第１又は第２世代の制御インターフェースからの別の相互作用システムに関連づけられる。しかしながら、そのようなセンサは、タッチ・ジェスチャー認識と、制御ジェスチャーが、例えば、相互作用表面から０ｃｍと、１５０ｃｍとの間の変化する距離で、両方の手と、複数の、例えば、６本の指とを使用して、ユーザによって空中で実行されるタッチレス３次元ジェスチャー認識とを組み合わせるために効率的に使用されるのには、十分に補完的ではない。

これらのコンタクトレス相互作用システムの第３世代はまた、時間に関して、シーンの画像を逐次的に取り込むための、イメージング・システム、例えば、２次元又は３次元のカメラ・デバイスと、取得されたシーン内でユーザによって実行される３次元ジェスチャーを決定するための方法とに基づいたものとすることもできる。そのようなコンタクトレス相互作用システムは、タッチ・スクリーン・ディスプレイなど、既存の従来のハードウェア・インターフェースと組み合わせて、或いはオプションとしては、前記従来のハードウェア・インターフェースと同じ制御コマンドを、しかし、シーンの逐次的に取得された画像内の認識された３次元ジェスチャー、すなわち、静的ポーズ又は動的ポーズの組からトリガすることにより、単独で使用されるために適合している。

別のハードウェア・デバイス対話型システムと組み合わされた３Ｄカメラ・ベースのタッチレス・ジェスチャー認識システムを利用した１つのそのようなマルチ・モーダル相互作用システムが、特許文献１に説明されている。特許文献１には、新規のハンドヘルド・ワイヤレス・リモート・コントロール・デバイス・システムが説明されている。ジェスチャー認識システムによって提供される３次元ジェスチャー・ベースの制御信号に関連して、コンピュータ・システムと相互作用するための、従来のハードウェア・ベースのリモート・コントロール信号を提供するためにそれを使用することができる。ハンドヘルド・ワイヤレス・リモート・コントロール・デバイスは、センシング・ユニットを有し、関連するコンピュータ化されたシステムのために制御信号を生成し、又はトリガすることができる少なくとも１つの制御ボタンを有するハウジングを備えている。コンピュータ化されたシステムは、例えば、ジェスチャーを実行する手、又はコンピュータ化されたシステムに関連するイメージング・システムの視野の外側にある手のオクルージョンに起因したどのような曖昧さも解決し、またジェスチャー・ベースの相互作用システム内の相互作用をトリガするために、マルチ・モーダルのやり方（multi-modal way）で、ジェスチャー認識システムから取得される情報と一緒に、制御デバイスから取得される情報を使用する。マルチ・モーダルのやり方で動作させられることで、２つの異なる相互作用システムは、組み合わせて効率的に使用され、それぞれが、他方からの信号を強化するために使用されるべき信号を配信しており、それによって、２つの相互作用システムのうちの一方だけを使用する場合には提供され得ない、強化された人間対コンピュータの相互作用を可能にしている。

別のコンタクトレス相互作用システムはビデオ・カメラを使用しており、コンピュータ・スクリーン・システムが特許文献２に説明されている。そのシステムは、コンピュータ・スクリーンに近づくオブジェクトに関連したデータを含むビデオ画像から決定されるタッチ・スクリーンに似たデータ・エントリ・システムを備えている。ビデオ・カメラ・システムは、スクリーンの直前のエリアを監視するために、コンピュータ・スクリーンの上に取り付けられる。画像の処理は、一般的なバックグラウンド除去技法を使用して、スクリーンの前景にあるユーザの手の、又はペンの検出と追跡とを可能にする。スクリーンの大部分を覆うようにキャリブレーション・ポイントが配置されるキャリブレーション・プロセスが使用され、そのキャリブレーション・プロセスは、線形補間や線形外挿のような手段を使用して、追跡された手の位置の仮想空間座標を変換することにより、スクリーン空間座標を生成する。

特許文献３では、受動的容量性タッチ・スクリーンが、少なくともステレオ・ビジョン・カメラ・ベースのコンタクトレス相互作用システムに関連づけられている。スケーラビリティの低い容量性タッチ・システム・データを有する、分解能の低い、温度・湿度依存性が、カメラによって回収される情報によって改善される。ステレオ・ビジョン・カメラ・ベースのコンタクトレス相互作用システムは、容量性タッチ・スクリーンの表面を取り囲むオーバーラップした視野を有する少なくとも２つのカメラを備えている。それらのカメラは、異なるロケーションからタッチ表面の画像を取得し、カメラによって取得される画像においてポインタが取得されるときに、タッチ表面に対するそのポインタの正確な位置を決定する。三角測量を使用し、タッチ表面に対するカメラのオフセット角を考慮に入れて、オブジェクト位置決定を容易にするように、キャリブレーション・ルーチンが使用される。これにより、ポインタが所与の点でタッチ表面と接触しているか、又はタッチ表面の上に浮かんでいるかについての強化された決定が可能になる。

既存の人間対コンピュータの対話型システムは、例えば、３次元カメラからの深さ情報を使用して動作させられる３次元のタッチレス・ジェスチャー認識システムと関連づけられた容量性タッチ・スクリーンのように、異なる技術を有する少なくとも２つのセンシング・システムを関連づけることにより、タッチ・インターフェースと、タッチレス３次元ジェスチャー・インターフェースとに基づいて、マルチ・モーダルな相互作用を可能にしているが、異なる既存の技術の組合せを利用したシステムと同じように、コンピュータ化されたシステムを制御するための正確な、信頼できる、効率的な、コスト効率のよいマルチ・モーダルのタッチ・ベース、および、タッチレス３次元ジェスチャー・ベースのインターフェースを可能にするための問題解決手法は、依然として存在していない。

さらに、異なる技術を有する２つのセンシング・システムの、１つのグラフィカル・ユーザ・インターフェースでの統合は、常に、それらの技術のうちの一方によって制約される。例えば、タッチ・ジェスチャー相互作用を可能にするための容量性ディスプレイ・スクリーンを使用するときに、使用されるスクリーンは、主要なグラフィカル・ユーザ・インターフェースを有しており、例えば、投影システムなどのスケーラビリティ特性を有することができる別のグラフィカル・ユーザ・インターフェースを追加することは、既存のシステムに対して複雑さと、コストとを追加することを必要とする。同様に、複数のディスプレイ・スクリーンを複数のセンシング・システムに関連づけることは、多用途、また埋め込み可能であり、それによって対話型システムが、どこでも、どのような表面上でも動作させられることを可能にする完全なシステムを提供することにはならない。

最後に重要なこととして、複数のセンシング・システムを統合することは、センシング・システムの１つによって必要とされるディスプレイ・システムによって制約され、また複雑にされるので、マルチ・モーダルの人間対マシン（又はコンピュータ）のインターフェースを自然なやり方で動作させるための、タッチ、および、タッチレス３次元ジェスチャーとの両方の組合せを使用した自然の相互作用の統合は、アプリケーションと、使用可能性と、相互作用プロセスの人間工学とにおいて限定的である傾向がある。

国際公開第２０１３／１０４６８１号国際公開第９９／４０５６２号国際公開第０２／０３３１６号

したがって、信頼できる簡単な、使用可能なマルチ・モーダル性を可能にするための、複数のセンシング・システムの使用に関連する問題を克服する多用途のマルチ・モーダル相互作用システムを提供することが、本発明の一目的である。とりわけ、本発明は、グラフィカル・ユーザ・インターフェースを有するタッチ及びタッチレスのジェスチャー・ベースの対話型システムを提供するための、単独か、又は単一の多用途ディスプレイ・システムに関連するかのいずれかの、シングル・センシング・システムを使用するための新規の方法を含んでおり、本方法は、シングル・センシング・システムそれ自体によって課されるのとは異なり得る、様々な相互作用表面の上で動作させられるのに十分に多用途であり、かつ人間工学的である。

したがって、１人又は複数人のユーザの１つ若しくは２つの手、あるいは、より多くのうちの少なくとも２つの部分を使用して、人間対コンピュータの自然な相互作用を可能にするために十分に多用途でありながら、ユーザの少なくとも一方の手の少なくとも１つの部分、又は別のオブジェクトを使用して、人間対コンピュータの相互作用を可能にするために、逐次的又は同時のいずれかで、異なる相互作用モードが、互いに簡単に関連づけられ、又は組み合わされ得る、新規の自然なマルチ・モーダル相互作用システムを提供することが、本発明の一目的でもある。

とりわけ、グラフィカル・ユーザ・インターフェースと相互作用するための多用途システムを提供することが、それゆえに、本発明の一目的であり、本システムは、相互作用表面上にグラフィカル・ユーザ・インターフェースを表示するためのディスプレイ・システムと、その錐台内の、少なくとも１つのオブジェクトの、又はユーザの少なくとも一方の手の、少なくとも１つの部分を少なくとも追跡するために動作させられている３次元イメージング・システムと、３次元イメージング・システムから出力されるデータに基づいて、ジェスチャー・ベースの相互作用制御を決定するだけでなく、ディスプレイ・システムと３次元イメージング・システムとを制御するようにも構成されているコンピュータ・システムとを備えている。

本対話型システムは、さらに、グラフィカル・ユーザ・インターフェースを表示するためのディスプレイ表面が、イメージング・システムの錐台の一部分の中に位置しており、また実質的にそれと位置合わせされていて、キャリブレーションの問題と制約条件とを最小にすることを有利に特徴としている。本明細書において使用される「実質的に位置合わせされている」の用語は、カメラの視点からのディスプレイ又は相互作用の表面の眺望、すなわち、相互作用表面のＸ−Ｙ平面が、イメージング・システムのＸ−Ｙ平面に関して所定の角度範囲内、例えば、０°と４５°との間にあることを意味している。

有利には、埋め込みシステムを考慮すると、ディスプレイ・システムは、グラフィカル・ユーザ・インターフェースが表示される相互作用表面の、３次元イメージング・デバイスと同じ側に位置しているプロジェクタ要素を備えているであろう。

机、テーブル、窓などの相互作用表面を考慮すると、対話型システムは、好ましくは、３次元イメージング・システムと、プロジェクタ要素とが、グラフィカル・ユーザ・インターフェースが投影される相互作用表面の反対の側に位置するように構成されているであろう。相互作用表面は、好ましくは、電磁スペクトルの可視部分に実質的に対応する範囲内に波長を有する放射を拡散するように、かつ、電磁スペクトルの赤外部分に実質的に対応する範囲内に波長を有する放射を限られた拡散で透過するように動作可能であって、相互作用表面の透過係数は５０％より高く、限られた拡散がＩＲ領域において２０°よりも小さいものであろう。

したがって、対話型システムによって動作させられるための方法を提供することが、本発明の別の目的であり、本方法は、非一時的コンピュータ媒体に記憶され、対話型システムによって実行可能命令として動作させられる。

本方法は、その中でマルチ・モーダルのタッチ及びタッチレス相互作用がシングル・センシング・システムからのデータ情報を使用して検出され認識されるコンピュータ化されたシステムを制御するために、前記マルチ・モーダルのタッチ及びタッチレスの相互作用を提供している。シングル・センシング・システムは、好ましくは３次元イメージング・デバイスであり、本方法は、
３次元イメージング・デバイスの錐台内の少なくとも１つのオブジェクトの少なくとも１つの部分を検出し追跡するステップと、
追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分が、相互作用表面の上の所定の相互作用エリア上の所定のタッチ・ジェスチャーと、所定の相互作用エリアの法線ベクトル軸に沿った所定の相互作用ボリュームにおける所定のタッチレス３次元ジェスチャーとのうちの少なくとも一方を実行しているかどうかを決定することにより、相互作用を開始するステップと、
３次元イメージング・デバイスの錐台内の前記少なくとも１つのオブジェクトの前記少なくとも１つの部分によって実行されるジェスチャーを検出し認識することにより、コンピュータ化されたシステムと相互作用するステップであって、検出し認識されたジェスチャーは、相互作用表面の所定の相互作用エリア上の所定のタッチ・ジェスチャーと、所定の相互作用エリアに垂直なベクトルの軸上の所定の相互作用ボリュームにおける所定のタッチレス３次元ジェスチャーとのうちの少なくとも一方である、相互作用するステップと、
を含み、
有利には、相互作用表面の所定の相互作用エリア上のタッチ・ジェスチャーの実行を検出することは、いつ、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分が、３次元空間内で、相互作用表面上の所定の相互作用エリアと、空間における同じ位置に位置づけられるかを検出することに対応する。

好ましい一実施例においては、タッチ・ジェスチャーが実行されたかどうかを検出することは、いつ、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分の相互作用表面からの、３次元空間内での距離が、所定のしきい値を下回るかを決定することに対応し得る。

同様に、本方法は、空間において追跡される前記少なくとも１つのオブジェクトの少なくとも２つの部分の位置が、相互作用表面に属する少なくとも２つの所定の相互作用エリアに到達するときを検出することにより、マルチ・タッチ・ジェスチャーが実行されるかどうかを決定することをさらに含む。

本方法は、タッチ・ジェスチャーと、マルチ・タッチ・ジェスチャーとのうちの少なくとも一方の逐次的位置及び持続時間の関数として、タッチ・ジェスチャー相互作用制御コマンドを決定することをさらに含む。

さらに、本方法は、３次元タッチレス・ジェスチャー相互作用の検出と、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分によって実行される３次元ジェスチャーの関数として状況に応じた制御コマンドの決定も含む。状況に応じて（contextually）ということによって、どの時間に、どれだけ長い間にわたって、相互作用表面の相互作用エリアとボリュームとに対して相対的に空間内のどの場所にということが、意味される。

好ましい一実施例においては、本方法は、所定のイベントがトリガされるときに、ジェスチャー・ベースの開始された相互作用を終了するステップをさらに含み、前記所定のイベントは、所定の期間の経過と、相互作用表面の上の所定のタッチ・ジェスチャーの認識と、３次元イメージング・デバイスの錐台内の所定の３次元タッチレス・ジェスチャーの認識と、３次元空間内の所定の相互作用ボリュームからの前記少なくとも１つのオブジェクトの退出とのうちの少なくとも１つである。

本方法は、相互作用を開始するための少なくとも１つの第１のオブジェクトの少なくとも１つの第１の検出され追跡された部分と、相互作用を実行するための前記少なくとも１つの第１のオブジェクトの少なくとも第２の検出され追跡された部分とを使用することができる。本方法はまた、ジェスチャー相互作用の開始と、ジェスチャー相互作用それ自体とを実行するために、逐次的に、１つのオブジェクトの単一の検出され追跡された部分を使用することもできる。本方法はまた、タッチ・ジェスチャーと、マルチ・タッチ・ジェスチャーと、３次元ジェスチャーとのいずれかを決定するために、１つ又はいくつかのオブジェクトからの複数の検出され追跡されたオブジェクトを使用することもでき、３次元ジェスチャーは、静的であり、例えば、ハンド・ポーズであり、又は動的であり、例えば、手の上で検出され追跡される少なくとも１つの部分の空間内での少なくとも配置の変化を伴うハンド・ジェスチャーである。

有利には、本方法は、相互作用表面の少なくとも一部分の上のグラフィカル・ユーザ・インターフェース上に所定のビジュアル・フィードバックを表示することを含み、前記ビジュアル・フィードバックは、前記少なくとも１つのオブジェクトの前記少なくとも１つの部分の位置と、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分の認識されたジェスチャーとのうちの少なくとも一方に関連している。

特に、本発明の目的の１つは、相互作用表面上に表示されるグラフィカル・ユーザ・インターフェースとの相互作用が、
３次元イメージング・デバイスを使用して、相互作用表面の、空間内の位置と、トポロジとを決定するステップと、
そのトポロジと大きさとの関数として、相互作用表面上の相互作用エリアの所定の組を決定するステップと、
少なくとも１つのタッチ・ジェスチャー相互作用制御を各相互作用エリアに関連づけるステップと
を動作させることをさらに含む方法を提供することである。

より有利には、本方法は、
少なくとも１つの相互作用ボリュームを相互作用エリアの所定の組に関連づけるステップであって、各相互作用ボリュームが、その相互作用エリアに対する法線ベクトルに沿って、前記相互作用エリアの上に位置している、関連づけるステップと、
所定の３次元タッチレス・ジェスチャー相互作用制御によって各相互作用ボリュームに関連づけるステップと
をさらに含む。

そして最後に、本方法は、ユーザの身体の一部分と、机テーブルと、壁と、赤外線半透明表面と、オブジェクトとのうちの少なくとも１つを使用してさらに動作させられ得る上記実施例のいずれかによる、相互作用表面上のグラフィカル・ユーザ・インターフェース上の所定のビジュアル・フィードバックの表示を含み、グラフィカル・ユーザ・インターフェースは、相互作用表面上へと投影されている。

本発明のよりよい理解のために、実例として、添付の図面を次に参照する。

本発明による、グラフィカル・ユーザ・インターフェースが投影される相互作用表面と、追加のディスプレイ・スクリーンと、最上部のマウンティング・アセンブリを有する投影及び深さセンシングの要素とを備える、対話型システムの概略的側面図。図１の対話型システムの概略的正面図。図１及び図２の対話型システムに関連する表面の平面図であり、そこでは、相互作用エリアが、相互作用表面の、表面内に埋め込まれる。本発明の対話型システムを使用して、３次元相互作用を制御するために使用される追跡された要素の４つの異なる位置を示す図であり、ここで、追跡された要素の位置は、相互作用表面の関数として決定され、４つの異なる位置は、それぞれ、１つのタッチ・ジェスチャー相互作用制御と、３つの３次元ジェスチャー相互作用制御とを決定する。カラー拡散表面が、背面投影されたグラフィカル・ユーザ・インターフェースを表示し、第１の追跡された手のタッチ・ジェスチャー相互作用が、第２の追跡された手の３次元ジェスチャー相互作用と組み合わせて使用される、本発明の対話型システムの一実施例を示す図。カラー拡散表面が、背面投影されたグラフィカル・ユーザ・インターフェースを表示し、第１の追跡された手の少なくとも２つの部分のマルチ・タッチ・ジェスチャー相互作用が、第２の追跡された手の一部分から決定される別のシングル・タッチ・ジェスチャー相互作用に隣接して使用される、本発明の対話型システムの別の実施例を示す図。

本発明は、特定の実施例に関して、またある図面に関して説明されることになるが、本発明は、それだけに限定されるものではない。説明される図面は概略的なものにすぎず、非限定的である。図面においては、要素のうちのいくつかの大きさは、例証する目的のために、誇張され、規模に基づいて描かれてはいない可能性がある。

本発明は、ビジュアル・フィードバック情報を表示する少なくとも１つのグラフィカル・ユーザ・インターフェース（ＧＵＩ）を有するコンピュータ化されたシステムを用いて、マルチ・モーダルのタッチ及びタッチレスのヒューマン・ジェスチャー・ベースの相互作用を可能にするための方法及びシステムを提供している。グラフィカル・ユーザ・インターフェースは、ボタン、スクロール・バー、ノブ、ポインタ、ウィンドウ、メディア・コンテンツ、最先端の技術から知られているこれらのうちの任意の他のパラメータなどのパラメータを表示することができる。制御コマンドは、対話型システムを動作させるために、それぞれの表示されたパラメータに関連づけられることもある。各制御コマンドは、少なくとも１つの所定の特定のジェスチャーの検出および認識によって制御されるトリガ・イベントに関連づけられることもある。

所定の特定のジェスチャーは、タッチ又はタッチレスのヒューマン・ジェスチャーとすることができる。タッチ・ジェスチャー・ベースの相互作用は、マルチ・モーダル・ジェスチャー相互作用の第１のモードを形成し、タッチレス・ジェスチャー・ベースの相互作用は、マルチ・モーダル・ジェスチャー相互作用の第２のモードを形成する。相互作用の２つのモードを一緒に、逐次的に又は同時に、使用することは、シングル・センシング・システムから得られる情報データから動作させられるためのマルチ・モーダル・ジェスチャー・ベースの対話型システムを形成する。

例えば、所定の特定のジェスチャーは、イメージング・システムによって取得されるその手の３次元（３Ｄ）ポイント・クラウドが、特定のポーズに対応する特定の配置を有する追跡された手の３次元ポーズ・ベースのジェスチャーとすることができる。このポーズの検出は、画像処理及びコンピュータ・ビジョンのための分類器とマシン学習技法とを使用して実行されている。ニューラル・ネットワーク、ＳＶＭ分類器、又はランダム・フォレスト分類器（或いは他の適切な分類器）のいずれもうまく実行し、すなわち、あらかじめ規定された特定の３次元ジェスチャーの組と、割り当てられた記述子とによって、８５％よりも高い検出比を有する。

所定の特定のジェスチャーは、イメージング・システムによって取得されるその手の３Ｄポイント・クラウド、又はそれだけには限定されないが、手のひらの中心点や指先に対応するポイントなど、対象となる少なくとも１つの関連するポイントが、関連する３次元経路が、記述子の組から、どの形状が実行されているかを決定するように統計的に分析されている、空間での特定の動的な移動の実行を示す、追跡された手の３次元運動ベースのジェスチャーとすることができる。各形状は、３次元ジェスチャーに関連づけられることもある。例えば、移動する追跡された手の運動が、イメージング・システムの錐台の中の所定のエリア内の円形運動を実行する場合、円形ジェスチャーは、それに応じて検出されることもある。記述子の品質が、重要であることに注意すべきである。高品質の関連のあるオブジェクトの移動記述子は、時間にわたってのその平均化された速度、移動が座標系の軸の１つに沿って方向の変化を示すような場合の位置の組、加速度、持続時間、運動の大きさなどとすることができる。

３次元運動ベースのジェスチャーと、３次元ポーズ・ベースのジェスチャーとは、以下では、３次元ジェスチャーと併せ称される。それらは、同時に実行され、そして検出され得、その結果として、それらは、対話型システムによって可能にされている場合に、制御コマンドをトリガすることができる。実際には、一方又は他方の選択は、相互作用の各タイプについて具体的にあらかじめ決定されている。例えば、シーン内で左から右へと高速で移動する手は、アプリケーションによって可能にされている場合には、右「スワイプ」の制御コマンドをトリガすることができる。そのような場合には、例えば、メディア・コンテンツは、別のコンテンツによって置き換えられ得る。別の実例では、「わしづかみ」の３次元ポーズ・ベースのジェスチャーの検出が、スクロール・バー又はボタンのグラフィカル・ユーザ・インターフェース（ＧＵＩ）表現上の特定の位置において行われ、その「わしづかみ」ジェスチャーが、手の位置がＧＵＩのスクロール・バーの軸に沿って移動する間に保持される場合には、スクロール・バー・ボタンの表現はそれに応じて移動することになり、マップなどの表示されるコンテンツは、「わしづかみ」のジェスチャーが解放されるか又はもはや実行されないように検出されるまで、それに応じてスクロールすることになる。

タッチ・ジェスチャーの実行の検出は、相互作用表面の上の所定の相互作用エリアと比較して行われる。マルチ・タッチ・ジェスチャーは、同じ方法で決定されるが、相互作用表面の複数の相互作用エリアと比較してのものである。この検出は、時間に関して又は時間にわたって、少なくとも１つの追跡されたオブジェクトの少なくとも１つの部分の３次元位置を追跡するステップを含んでいる。それはさらに、手の指先であり得るオブジェクトのそれぞれ追跡された部分の、相互作用表面の上のあらかじめ決定された最も近い相互作用エリアへの距離を連続して決定するステップを含んでいる。それはさらに、追跡されたオブジェクトの少なくとも１つの部分が、所定のしきい値、例えば０．１ｍｍであり得るしきい値を下回る相互作用エリアからの距離を有している各相互作用エリアにおいて、或いは距離がゼロ（０）に等しい場合に、タッチ・ジェスチャー又はマルチ・タッチ・ジェスチャーのイベントをトリガするステップを含んでいる。各シングル・タッチ・ジェスチャーは、それが関連づけられるか、又はそれが属する相互作用エリアに従って、制御コマンドをトリガする。

例えば、マルチ・タッチ・ジェスチャーを使用した同時制御は、ＧＵＩ上の３つの同時のタッチ・ジェスチャーと、それらの関連する相互作用エリアとが、「ＣＴＲＬ」ボタンと、「ＡＬＴ」ボタンと、「ＤＥＬ」ボタンとに対応しており、また一緒に実行されるときに、新しいメニューを表示するための制御コマンドを動作させる、キーボードを表示するＧＵＩによって可能にされることもある。

同じモードのうちの、又は異なるモードの少なくとも２つのジェスチャーの組合せを使用した同時制御、例えば、他方の手が３次元運動ベースのジェスチャーを実行している間に、一方の手を用いて実行されるマルチ・タッチ制御もまた、可能であり。異なるジェスチャー相互作用モードの逐次的な組合せもまた、可能にされ得る。

本発明は、それが、２つの異なる相互作用のモード、すなわち、タッチ・ジェスチャーと、タッチレス・ジェスチャーの相互作用との両方を決定する計算手段又はプロセッサへのデータ情報プロバイダとして、ただ１つのセンシング・システムを備えている相互作用システムを使用することを特徴としている。タッチレス・ジェスチャー相互作用はまた、以下では、「コンタクトレス・ジェスチャー」、「３次元（３Ｄ）ジェスチャー」、又は「３次元（３Ｄ）タッチレス・ジェスチャー」と称されることもある。

上記で説明されるように、表示されたＧＵＩは、少なくとも１つの相互作用制御手段に状況によって関連づけられ得る複数のパラメータを含むことができる。相互作用制御手段は、トリガされたときに所定の計算を実行するコンピュータ化されたシステム命令である。所定の計算の結果は、少なくとも、ＧＵＩからのグラフィカル・ビジュアル・フィードバックと、オプションとして、オーディオ・レンダリング・システムがマルチ・モーダルの対話型システムの中に含まれている場合には、オーディオ・フィードバックとを使用して、コンピュータ化されたシステムのフィードバック手段に従って、フィードバック情報として、オプションとしてレンダリングされることもある。例えば、ユーザ・インターフェース上のボタンは、コンピュータ化されたシステムが達成することになる、「クローズ・ウィンドウ」オペレーション又は「リード・メディア」動作に関連づけられ得る。ユーザ相互作用が、そのオペレーションの開始をトリガする場合、コンピュータ化されたシステムは、オープンされたウィンドウのクロージングと、ＧＵＩへのそのレンダリングとを動作させ、ＧＵＩがメディア・プレーヤ進行バーのステータスを表示し、アップデートする間に、オーディオ・システムを通してオーディオ・フィードバックを生成するメディア・プレーヤを起動することになる。

各パラメータは、ユーザが相互作用することを意図している相手の相互作用表面の表面において少なくとも１つの所定の相互作用エリアに関連づけられ得るユーザ相互作用によって制御されるべきである。

それぞれのそのように規定された相互作用エリアは、タッチレス・ジェスチャー相互作用によって使用されるように意図されている。好ましくは、パラメータに関連するエリアは、相互作用表面上のそのパラメータのレンダリングされた表現に対応する大きさのものであろう。これは、パラメータが互いにあまりにも近すぎる場合に、隣接するパラメータに属するジェスチャー・ベースの相互作用をトリガすることを防止する。しかしながら、使用を簡単にするために、いくつかのパラメータは、相互作用表面上のそれらのグラフィカル表現とは異なる大きさの（より小さいか、又はより大きいかのいずれかの）相互作用エリアを状況によって有することができる。

同様にして、各パラメータ、又はユーザ相互作用によって制御されるべきそのパラメータのサブパラメータは、少なくとも１つの所定の相互作用ボリューム、すなわち、その位置が、好ましくは、相互作用表面上でレンダリングされるビジュアル・フィードバックの相互作用エリアの最上にある、３次元の相互作用エリアに関連づけられ得る。相互作用ボリュームの大きさ、位置、形状は、状況によっては、アプリケーションによってサポートされている相互作用に従ってあらかじめ規定されている可能性がある。相互作用ボリューム制御は、好ましくは、３次元ジェスチャー相互作用によって使用されるように意図される。

例えば、相互作用ボリュームが、オーディオ・システムの音量の制御に関連づけられることもある。相互作用ボリュームは、ＧＵＩ上に表示されるスピーカ表現の上に位置していることもある。ユーザが、ユーザの手の少なくとも一部分を使用して、スピーカ表現に関連する相互作用表面上の、スピーカ表現の大きさを有している相互作用エリアとタッチ相互作用を実行すると、コンピュータ化されたシステムには、音量制御相互作用が開始することが指示される。タッチ相互作用に続くユーザの手の変位が、手の少なくとも１つの部分、例えば、手のひら又は１本の所定の指と、相互作用エリアの表面との間の距離が、オーディオ音量調整（又は制御）パラメータの値を決定する連続的な３次元ジェスチャー相互作用制御を構成し、すなわち、手が相互作用表面から遠く（又は高く）離れるほど、オーディオ音量は大きくなり、手が相互作用表面に近く（又は低く）なるほど、オーディオ音量は、小さくなる。

さらなる一実施例においては、オーディオ音量の値は、手が、相互作用エリアに関連する相互作用ボリュームを抜け、したがってオーディオ音量制御を抜け出るまで、手の移動の関数として連続して調整され得る。１つの別の実施例においては、オーディオ音量は、相互作用表面までの手の距離の関数として連続して設定され、所定の期間の後に固定され得る。１つの別の好ましい実施例においては、オーディオ音量は、相互作用表面までの手の距離の関数として連続的に設定され、追跡された手が、相互作用ボリューム内で、所定の３次元ジェスチャー、すなわち、ここで、所定の指、例えば、それだけには限定されないが、人差し指と親指とが、所定の距離のしきい値を下回って一方から他方へと近づくとして検出される、「つまむ」や「つかむ」ジェスチャーなどの静的ジェスチャー又はポーズを実行すると、固定されるようにすることができる。一実施例においては、距離のしきい値は、１ｍｍほどの小ささとすることができる。

後者の実例においては、ＧＵＩ上のスピーカ表現は、相互作用エリアが、タッチ相互作用が検出されるときにトリガされる「オーディオ音量制御」開始の相互作用オペレーションに関連付けられたＧＵＩパラメータであり、ボリューム相互作用は、所定の後続の３次元ジェスチャー相互作用の検出の関数として動作させられる「音量値制御」サブパラメータに関連づけられていることが、理解されるであろう。

本明細書において説明されるように、本発明は、３次元イメージング・システムの錐台内の少なくとも１つのオブジェクトの少なくとも１つの部分を追跡するステップを含む方法を含んでいる。オブジェクトは手とすることができ、オブジェクトの一部分は、指又は指先とすることができる。関心のあるポイントの検出と、追跡とは、本発明の目的ではなく、いくつかの技法が、同様の要求された入力を得るために適用され得ることが、理解されるであろう。例えば、ひとたび対話型システムのセットアップが設定されると、静的バックグラウンド学習技法が、取得されたシーン・バックグラウンドを登録するために適用され、モルフォ−数学的（morpho-mathematical）深さ画像の減算などのバックグラウンド除去技法が、静的バックグラウンドから、取得されたシーンのうちの前景における、対象をなる移動するオブジェクトをフレームごとに分離するために、ラン・タイムに適用され得る。イメージング・センサ・デバイスの深さマップ取得を考慮して、ユーザの手の３Ｄポイント・クラウドが、得られることもある。少なくともクラスタ・サイズによって制約される３Ｄポイント・クラウド・クラスタリング技法が、次いで、手に対応するフォアグラウンド・ポイントに適用され、どのクラスタが、ただ１つの他のクラスタに接続されているかを検出することによって先端を決定するために隣接グラフ（graph of adjacency）が用いられ得る。オブジェクト、又はオブジェクトの部分の識別及び追跡は、例えば、Ｋ−手段と、リーダー・フォロワー・クラスタリングとの混合物を使用して、適切にセグメント化されたデータに適用される場合に、ランダム・フォレスト分類器などの分類技法を使用して、効率的に実行され得る。バックグラウンド除去をクラスタリング及び分類器技法と組み合わせることで、相互作用のために使用されることを意図された、既知の又は学習された３Ｄ形状を用いて、既知のオブジェクトの各部分を検出し、追跡し、また識別する方法が提供される。

相互作用方法が、少なくとも１つのディスプレイ・スクリーンを有する任意の種類のディスプレイ・システムと適合している場合、例えば、ＬＣＤスクリーンなどの従来のディスプレイ・スクリーン１１０が、投影手段を使用してＧＵＩが表示され得る相互作用表面１２０に関連づけられている図１に示されるように、複数のディスプレイが組み合わせて使用されることもある。ジェスチャー・ベースの相互作用は、ユーザが、１つのディスプレイ・スクリーンのＧＵＩから別のディスプレイ・スクリーンのＧＵＩにメディア・コンテンツなどのパラメータを転送することを可能にすることができる。より正確には、転送コマンドが、第１のＧＵＩ上でパラメータが表示された位置でタッチ・ジェスチャーが検出された後に、トリガされ、コンテンツ・パラメータが転送されるべき第２のＧＵＩの方向に向かって「つかむ−スライドする−解放する」ジェスチャー・シーケンスの実行を検出することにより、引き続いて可能にされ、実行され得る相互作用を開始し得る。

本発明の好ましい一実施例においては、ＧＵＩは、相互作用中に、ユーザに対してビジュアル・フィードバックを提供する、プロジェクタやピコ・プロジェクタなどの投影手段の使用に起因して単一のディスプレイ・システムを使用して表示される。これは、以下の図５及び図６の中に示されており、これらを参照して説明される。

投影は、多種多様な表面及び材料の上で動作させられ得る。本明細書において使用される「表面」という用語は、画像が投影され得る任意の表面のことを意味している。適切な表面は、それだけには限定されないが、スクリーンと、平坦な表面と、曲がった表面と、透明な表面とを含む。

本発明の最も簡単な実施例においては、ＧＵＩは、人間対コンピュータの相互作用表面を規定するディスプレイ支持物として使用されることになる平坦なデスクトップ・テーブル又は平坦な壁の上に投影され得る。しかしながら、ＧＵＩはまた、例えば風船といった、円形の形状を有するオブジェクトや、前腕や手のひらの内側の部分などユーザの身体の一部分など、非平面の表面の上に投影されることもある。

好ましい一実施例においては、ディスプレイ・スクリーンと、相互作用表面との両方として使用されている材料は、電磁スペクトルの（人間の）目に見える部分内の波長を有する電磁放射について相当の拡散特性を示すことができる。相当の拡散特性とは、材料が、ビジュアル・フィードバックの適切なレンダリングを表示することが可能になるように、入射光の少なくとも１０パーセントを拡散していることを意味している。投影システム光パワー出力は、それに応じて適合されることもある。

好ましくは、４００ｎｍと６８０ｎｍとの間の波長範囲を有する入射光ビームに属する電磁放射は、「ランバートな（Lambertian）」方法で、すなわち、ユーザが、相互作用表面の、投影手段と同じ側にいるときには、すべての可能性のある反射角について、或いはユーザが、相互作用表面の、投影手段と反対の側にいるときには、すべての可能性のある透過角について、均一に拡散され得る。

ランバート反射は、理想的な「つや消し（matte）」の、又は拡散的な反射表面を規定する特性である。観察者に対するそのような表面の見かけ上の明るさは、観察者の視野角にかかわらず同じである。より詳細には、表面の輝度は、等方的であり、また光度は、ランバートの余弦法則に従う。

本発明のさらにより好ましい一実施例においては、６８０ｎｍを上回る波長を有する、すなわち、赤外領域にある入射投影光ビームの電磁放射は、高い透過係数比（例えば、２０％よりも大きい）で、また実質的な拡散なしに、すなわち、ユーザが、３次元カメラに関して、相互作用表面と反対の側に位置しているときに、２０度よりも小さい立体角の内部で透過し得る。ユーザが、相互作用表面の、３次元カメラと同じ側に位置しているときには、２０％未満の低い赤外線（ＩＲ）反射係数比を有する材料が好ましく、そのうえ、深さ測定値の信頼性を損なう可能性がある、イメージング・システムへのＩＲの鏡面反射を回避するために、６０度よりも大きな立体角の実質的に高い拡散比を示す。

コンピュータ化されたシステムとの、マルチ・モーダルのタッチ及びタッチレスのヒューマン・ジェスチャー・ベースの相互作用を可能にするための本システムは、それが、シングル・センシング・システムを備えていることを特徴としている。データ情報プロバイダとして本明細書において使用されるシングル・センシング・システムは、３次元センシング・システムを備えており、例えば、３次元センシング・システムは、３次元（３Ｄ）のイメージング・システム又はカメラとすることができる。本マルチ・モーダルのタッチ及びタッチレスのヒューマン・ジェスチャー・ベースの対話型のコンピュータ化されたシステムは、好ましくは、よりよい深さ測定結果を得るためにシーンのＩＲ照明を使用する３Ｄカメラを使用することになろう。ステレオ・ビジョンや立体照明（structured light）３Ｄカメラなどの受動的ＩＲ３Ｄカメラが、コンピュータ化されたシステムに適しているかもしれないが、しかしながら、深さセンシングあるいは飛行時間（ＴｏＦ）カメラなどの能動的照明ベースの３Ｄカメラが、好ましい。さらにより好ましくは、イメージング・システムは、類似の又はより高い分解能のカラー・カメラと一緒に３Ｄカメラをさらに埋め込むことができる。深さセンシングあるいはＴｏＦカメラと、カラー・カメラとのうちのそれぞれは、互いに少なくとも重なり合っており、少なくとも一方の手もしくはオブジェクトの少なくとも１つの部分の動き及びジェスチャーが、投影されたＧＵＩの制御パラメータを決定するために検出され、追跡され、使用され得る相互作用表面全体の取り込みを可能にする錐台を有している。

本明細書において使用される「錐台」という用語は、イメージング要素の視野、例えば、レンズから表面へと広がる円錐体のことを意味している。それはまた、プロジェクタからの画像の投影された視野、例えば、プロジェクタ・レンズから表面へと広がる円錐のことを意味する。それぞれの場合で、表面の上のエリアは、投影がそのようにコリメートされていれば、楕円、円、又は矩形によって規定されることもある。

本明細書において使用される、「３次元カメラ」、「深さセンシング・カメラ」、又は「飛行時間（ＴｏＦ）カメラ」の用語は、取得されたシーンの画像中で、各ピクセルについての３次元座標を提供するビデオ又はスチル・カメラのことを意味している。２つの次元（Ｘ及びＹ）は、カメラの軸に垂直であるＸ−Ｙ平面によって決定され、第３の次元（Ｚ）は、カメラから撮像された表面へのピクセルの距離である。そのようなカメラは、その各点が３次元座標を有するピクセルに対応する、３次元のポイント・クラウドを生成する。３Ｄポイント・クラウド又は対応する深さマップは、カメラ座標系に相関付けられ、最先端技術からのキャリブレーション方法が、１つの座標系から別のものへとデータ値を投影する変換行列を適用するために利用されると、相互作用表面（又はワールド）座標系に相関付けられる値を提供する。

さらに、本明細書において使用される、「カラー・カメラ」又は「ＲＧＢカメラ」の用語は、取得されたシーンのカラー画像を提供するビデオ又はスチル・カメラのことを意味している。そのようなカメラは、取得されたシーンの中の各ピクセルについての２次元カラー画像を生成する。カラー・カメラと３次元カメラとは、最先端技術からの画像登録技法を使用するときに、各深さ測定値（カメラ座標系に対して言及する場合）、又は３Ｄポイント（ワールド座標系に対して言及する場合）をカラーに一緒に関連づける。一実施例においては、イメージング・システムは、少なくとも、シーンから深さ情報を抽出する３次元カメラと、より高い分解能のカラー・カメラとを備えている。深さセンシング・ユニットと同じシーンを撮像するカラー・センシング・ユニットのより高い分解能は、グラフィカル・ユーザ・インターフェースを表示する相互作用表面上のタッチ・ジェスチャーの正確な位置決めと、決定とのために使用されることもある。従来の画像登録技法は、各深さセンシング・ピクセルを各カラー・センシング・ピクセルに関連づけるために使用される得、より低い分解能の深さセンシング・カメラから得られる生のＸ−Ｙ位置を洗練して、やはり高い分解能のものであるディスプレイ表面上でより正確なＸ−Ｙ位置を提供するために、カラー・センシング・ユニットのより高い分解能が使用される。

本発明は、次に、本発明の範囲を包含する特定の実施例に関連した図１から図６に関して、以下でより詳細に説明されるであろう。

本発明の方法は、相互作用表面上の所定の相互作用エリアに対するタッチ・ジェスチャーの実行を検出するステップを含む。それはまた、状況によってグラフィカル・ユーザ・インターフェースが表示されるべきである相互作用エリアと、それと相互作用するために可能にされる制御コマンドとをあらかじめ決定するステップを含む。準備のステップにおいて、相互作用表面は検出され、またその位置と、形状と、トポロジとのうちの少なくとも１つ、すなわち、表面のモデリングが、登録される。

本方法を動作させるシステムによれば、相互作用表面の検出は１回実行される可能性があり、例えば、相互作用表面が固定されている、すなわち、移動しておらず、平坦なパネル、机、表面などの既知の形状のものであるときの、マルチ・モーダル・ジェスチャー・ベースの対話型システムのスタートアップ時に、検出プロセスは、手動で又は自動的に実行され得る。相互作用表面が、移動し、変化する形状を有することができるとき、例えば、相互作用表面がユーザの前腕であるときには、検出は、リアル・タイムで自動的に実行されなければならない。

その表面がイメージング・システムの錐台の内部にあるようにシステムの空間内に配置される静的で平坦な表面を用いて、検出が手動的に実行される、第１の実施例においては、対話型システムのユーザは、第１のステップにおいて、表面の最上に配置される、その大きさが相互作用表面の大きさであると規定される、簡単な白い紙のシートを使用することができる。白い紙のシートは、能動的なＩＲ深さセンシング・カメラ、例えば、ＴｏＦ３次元カメラからのＩＲ照明を反射する。しかしながら、白い紙のシートのない、表面のＩＲ反射特性が十分に強い、すなわち、入射光の少なくとも２０％である場合、白い紙のシートは、必須のものではない。

第２のステップにおいては、指定された相互作用表面のセンシング・システムまでの距離が、センシング・システムを使用して測定される。取得される深さデータは、取得された３Ｄデータ・セット、３Ｄポイント・クラウド、又は深さマップ内で平面を決定するためにコンピュータ・ビジョンの方法を使用する第３のステップにおいて使用され得る。従来の平面近似アルゴリズム、例えば、３Ｄ最小二乗平面、ランダム・サンプル・コンセンサス（Ransac）、あるいは任意の他の線形代数ベースの方法などの平面検出方法が、使用され得る。平面の幾何学的特性を決定するために必要とされる入力は、相互作用表面の表面に広がる、少なくとも４つの点を含まなければならない。４つの点に限定される場合、好ましくは、これらの点は、相互作用表面の隅として選択される必要がある。ひとたび平面が決定されると、その点のそれぞれは、それらのイメージング・システムへの距離の関数として、またイメージング・システムの錐台内の任意の点への関数として、位置づけられる可能性がある。実際の距離の測定結果を提供する深さ測定の結果は、後続のステップにおけるジェスチャー認識の目的のために使用されるべきしきい値を決定するための判断基準として使用されることもある。

同様にして、同じ相互作用表面の検出ステップと、決定ステップとが、その表面がイメージング・システムの錐台の内部にあるようにシステムの空間内に配置される静的で平坦な表面に、自動的に実行される。図３に示されるように、平坦な相互作用表面は、手動の検出ステップと、決定ステップとの白い紙のシート上で測定される少なくとも４つの点を置換し、各点は、相互作用表面であるように規定されるエリアの隅に再び位置する、ＩＲ照明に対する反射性の高い４つの点の組を含むことができる。

相互作用表面の検出及び決定のステップの、１つの別の手動の実装形態においては、ＩＲ照明に対する高い反射性の４つの点の組は、相互作用表面の上にないかもしれない。ユーザは、ユーザの指を使用して、相互作用表面の４つの隅を逐次に正確に特定することになる。イメージング・システムは、さらに、特定の指先を検出し、追跡し、また４つの隅のそれぞれの空間内の３次元位置を逐次的に登録するように動作させられるであろう。

上記で説明された実装形態のいずれにおいても、例えば、３ｍｍのオフセットが、相互作用表面の平面に対する法線に沿って垂直方向（Ｚ）に適用されることがある。これは、３Ｄイメージング・デバイスの深さ測定の精度の問題の、また相互作用エリアとほとんど接触している、すなわち、例えば、２ｍｍの距離にあるとして検出される移動するオブジェクトが、依然として、可能な場合にはタッチ・ジェスチャー・イベントをトリガすることができ得ることを確実にするための、補償を提供している。

プロジェクタの３次元位置が、３次元カメラの位置に関して知られている場合の本発明の１つの別の実施例においては、例えば、それらが、両方ともに相互作用エリアの同じ側にあり、またラップトップやヘルメットなどのハードウェア・システムの上に静的に埋め込まれており、又はスマート・グラスの中に埋め込まれている場合には、投影パラメータ設定、すなわち、焦点と、キーストーンと、ズーミングと、グラフィカル・ユーザ・インターフェースのレイアウトの大きさとは、移動する可能性のある相互作用表面に関連した距離、トポロジ、及び幾何学的情報を抽出することにより、グラフィカル・ユーザ・インターフェースのレイアウトの大きさのレンダリングを適応させるように、自動的に修正される。これは、三角測量法を使用して、幾何学的ひずみから回復させることにより、行われることもある。

相互作用表面の検出及び決定と、ディスプレイ表面のそれとは、ディスプレイ表面が、時間とともに移動し得るときでさえ、連続して実行される可能性がある。例えば、ディスプレイ表面が、特定のオブジェクト、又はユーザの身体の一部分、例えば、前腕若しくは手のひらの内側であるときに、また３次元カメラとプロジェクタとが、ヘルメット上に、又はスマート・グラス中に取り付けられる場合には、パターン認識技法や分類器技法などの画像処理手段を使用することで、３次元空間内の相互作用表面として使用される前腕の信頼できる検出及び追跡が提供される。追跡された前腕の位置及び方向は、さらに、最先端技術からの任意の同時自己位置推定・環境地図作成アルゴリズム（ＳＬＡＭ：simultaneous location and mapping algorithm）を使用して、追跡された移動するオブジェクトのトポロジカル・モデルであって、相互作用表面の３次元表現であり、その表現の正確な位置と方向とは、フレームごとに決定されるトポロジカル・モデルを漸次、蓄積することにより、決定されることもあり、ディスプレイ表面の任意の位置は、三角測量など、簡単な３次元幾何学的計算を使用して決定することができる。

最初に図１を参照すると、本発明による対話型システム１００の概略的な側面図が、示されている。システム１００は、表面１２０の上に位置づけられるスクリーン１１０と、スクリーン１１０に関連づけられるイメージング・ユニット１３０とを備えている。スクリーン１１０は、画像を表示するための、データ・ソース（図示されず）に接続され得る任意の適切なスクリーンとすることができる。イメージング・ユニット１３０は、支持表面１２０へと広がる錐台１４０を有するように位置づけられる。

図１に示される実施例においては、イメージング・ユニット１３０は、スクリーン１１０の上に直接に取り付けられる。しかしながら、イメージング・ユニット１３０は、それが同じ錐台１４０を有しているが、スクリーンに関して埋め込まれているか、又は別個に取り付けられているかのいずれかであるように、任意の他の適切なやり方で取り付けられ得ることが、簡単に理解されるであろう。さらに、スクリーン１１０は、表面１２０によって支持されて示されている。ここでも、スクリーンは、他の方法で支持され得ることが、理解されるであろう。

図２に、対話型システム１００の概略的な正面図が、示されている。イメージング・ユニット１３０は、３つの別個のイメージング要素１５０、１６０、１７０を備えている。イメージング要素１５０、１６０、１７０は、シングル・イメージング・ユニット１３０へと一体化されて示されているが、これらの要素のそれぞれは、以下でより詳細に説明されているように、同じ機能を提供しながら、スクリーン１１０に関して、また表面１２０に関して個別に位置し得ることが、理解されるであろう。

イメージング要素１５０は、その錐台１８０（２本のダッシュ・ドット・ドット・ダッシュ線によって示される）の内部のシーンの２次元カラー画像を取得するカラー又はＲＧＢカメラを備えていてもよい。イメージング要素１５０は、その両方が、本発明の対話型システムの内部にあり、以下でより詳細に説明される、イメージング要素１７０の画像と画像登録するために使用される画像を生成する。

イメージング要素１７０は、その錐台１９０（２本のダッシュ・ドット・ダッシュ線によって示される）の内部のシーンの３次元画像を取得する深さセンシング又はＴｏＦカメラを備えていてもよい。イメージング要素１７０によって生成される画像は、処理されると、以下でより詳細に説明される、表面１２０の上へと投影されるグラフィカル・ユーザ・インターフェース（ＧＵＩ）との相互作用のために使用され得る、その錐台１９０内のオブジェクトについての３次元位置情報を提供する。

イメージング要素１６０は、コンピュータ化されたシステムに接続されたプロジェクタを備えている。それは、スクリーン１１０に対して提供される同じ画像を表面１２０の上へと投影することができる。イメージング要素１６０は、錐台２００（２本の破線によって示される）内に画像を投影する。一実施例においては、投影された画像は、表面１２０の上へと表示される少なくとも１つのパラメータを有するＧＵＩを含むカラー画像である。

図２に示されるように、イメージング要素１５０、１６０、１７０のそれぞれの錐台１８０、１９０、２００の重なり合いが、表面１２０上に存在している。

図３は、イメージング要素１６０が画像を投影するエリア２００と一緒に、イメージング要素１５０、１７０の錐台内にあるエリアを示す表面１２０の平面図を示す。示されるように、各エリアは、図２に示されるのと同じ線種によって輪郭が描かれており、例として、矩形を含んでいる。当然ながら、特定のイメージング要素に依存して錐台は異なり、例えば、楕円又は円とすることができる。

図３に示されるように、エリア２１０は、錐台１８０、１９０、２００に対して共通である。相互作用エリア又は領域２２０もまた、共通のエリア２１０の内部に示されている。相互作用エリア又は領域は、相互作用表面からＴｏＦイメージング・システムに向かう方向に広がる体積を事実上含んでいる。ひとたび対話型システムがキャリブレーションされると、相互作用領域２２０内の任意のオブジェクトの移動が、スクリーンの上の画像を制御するために使用され得る。

机の上などの平面表面が相互作用表面として使用される本発明の一実施例においては、相互作用領域２２０のキャリブレーションは、共通のエリア内の表面における矩形の隅に対応する４つの点２２０Ａ、２２０Ｂ、２２０Ｃ、２２０Ｄのサブセットを規定することにより達成される。キャリブレーション・プロセスは、グラフィカル・ユーザ・インターフェース（ＧＵＩ）がイメージング要素又はプロジェクタ１６０によって投影される表面１２０の上で相互作用エリアを規定するように、ユーザが、少なくとも一方の手の少なくとも一部分、例えば、指の配置をただ１回、それぞれの隅において逐次的に実行する、準備のステップとすることができる。キャリブレーション・プロセスにおいては、指の３次元空間における位置は、４つの点のそれぞれについて逐次的に記録され、平面は、幾何学的計算から、それら４つの点によって範囲を定められる表面であるように決定される。そのように決定された表面に属する、すなわち、その表面と同じ高さを有する任意の位置と、その表面の限度内の水平及び垂直座標とは、相互作用表面と、その関連する相互作用エリアとを形成する点である。

机の上などの平面表面が相互作用表面として使用される本発明の１つの別の実施例においては、相互作用領域２２０のキャリブレーションは、起動時に自動化されたプロセスに沿って達成されることもある。自動化されたプロセスは、パターン認識技法を使用して、その限界を物理的に決定するように前もって相互作用表面上に貼り付けられた４つのステッカーのパターンを検出するステップを含むことができる。パターン認識は、４つのステッカーの形状と、色と、テクスチャとのうちの少なくとも１つを使用するステップを含むことができる。ひとたびステッカーが、各イメージング・システムで検出されると、キャリブレーションは、各イメージング・システムからの位置データを１つの別のイメージング・システムからの位置データへと変換するステップを含んでいる。例えば、カラー・カメラからの水平のＸデータと垂直のＹデータとは、簡単な線形変換や、好ましくは、薄い平板若しくは表面のスプラインの多重二重変換（thin-plate or surface splines, multiquadrics transformation）など、標準的画像登録変換モデルを使用して、３次元カメラ座標系へと投影されることもある。

カラー・カメラと、３Ｄカメラと、プロジェクタとのそれぞれのＸ−Ｙ位置は、これらのシステムのいずれからのパラメータの任意のＸ−Ｙ位置も、深さ情報に関連づけられるように、互いに関して登録される。深さ情報に関連した第３の座標にパラメータのＸ−Ｙ２次元（２Ｄ）座標を関連づけることで、３Ｄ座標を形成している。結果として、キャリブレーションは、イメージング・システム１３０からの各パラメータが、空間内の３次元位置に関連づけられ、相互作用エリア２２０の一部分を形成する決定された相互作用表面上の任意の位置に関して色に関連づけられることを可能にする。

上記で説明されるように、本発明の一実施例においては、ＧＵＩは、表面１２０の平面に垂直な方向における、それに対するオブジェクトの移動が、パラメータ、例えば、オーディオ音量制御を制御することができる少なくとも１つの部分を含むことができる。図４においては、音量制御の実装形態の実例が示され、以下でより詳細に説明される。

相互作用領域２２０内のオブジェクトの識別が、イメージング要素１７０、すなわち、深さセンシング又はＴｏＦカメラを使用して決定される。３次元ポイント・クラウドが、最初にオブジェクトを識別し、次いでフレームの移り変わり（frame-to-frame）からその動きを追跡するために処理される。オブジェクトを追跡することにより、ＧＵＩを制御するために使用される相互作用が提供され、それに対して垂直な方向に表面１２０から離れるオブジェクト２４０の動きが、音量コントローラについての制御信号を提供するために追跡される。

より正確には、ＧＵＩの一部分２３０、すなわち、ＧＵＩパラメータの位置に対応する相互作用エリアは、コントローラであるように考えられる可能性があり、指や手などのオブジェクト２４０が、その部分の上の表面と接触して配置され、ＧＵＩが所定の方向に投影される表面１２０から離れる方向に移動されるときに、コントローラは、投影された画像に関連する音量のレベルを変更するように動作させられる。０％によって表される位置においては、音量は、０であり、又はオフである。０％の位置から、部分２３０から第１の所定の距離までのオブジェクト２４０の移動では、音量は、最大音量の２５％へと増大される。部分２３０から第２の所定の距離までのオブジェクト２４０の移動では、音量は、最大音量の５０％へと増大される。部分２３０から第３の所定の距離までのオブジェクトの移動では、音量は、最大音量へと増大される。当然ながら、３つのレベルだけが実例として図４に示されているが、任意の適切な数のレベルが、表面からの他の所定の距離に従って実施され得ることが、理解されるであろう。

表面に垂直な方向でのオブジェクトの移動が説明されているが、表面に対する任意の他の移動を、ＧＵＩを、例えば、親指の先端と、人差し指の先端と、手首の中央とすることができる、対象になる少なくとも３つの点の組の位置における変化の関数としてユーザの手を考慮するときに、検出され得る、回転などの動的な移動を制御するために使用することもできることが理解されよう。対象になる点の検出及び追跡は、手又は任意の他の適切な先端の検出のマスク上での、主成分分析など、様々な方法に従って実行される可能性がある。

図５においては、本発明の対話型システムの一実施例は、プロジェクタ１６０を使用した、グラフィカル・ユーザ・インターフェースの色を拡散する背面投影ディスプレイを備えている。相互作用表面１２０は、第２の追跡された手２４０ｂから決定される３次元ジェスチャー相互作用であって、状況によって決定される第２の相互作用エリア２３０ｂ上の、相互作用表面１２０に対する法線に沿って広がる所定の大きさの相互作用ボリュームで起こる３次元ジェスチャー相互作用と組み合わせて、第１の追跡された手２４０ａの、状況によってあらかじめ決定されたタッチ・ジェスチャー相互作用エリア２３０ａにおけるタッチ・ジェスチャー相互作用のために使用され、ここで追跡は、相互作用表面１２０の最上であって、相互作用表面１２０に関してプロジェクタと反対の側の上に、位置している、前面に取り付けられた深さセンシング・カメラ１７０を使用している。

図５に示される実施例においては、相互作用表面は、光に関して特定の特性を示す必要がある。それは、投影されたグラフィカル・ユーザ・インターフェースは、ＴｏＦ３Ｄカメラなどの能動的ＩＲ深さセンシング・カメラを使用するときには、相互作用表面を作っている材料からの鏡面又は高い反射に起因して、ＩＲセンサ上の深さ測定の結果を飽和させたり、乱したりすることを回避するようにＩＲに対して透明でありながら、ユーザによって見ることができるように、電磁スペクトルの可視部分の波長を拡散する必要がある。

そのような表面についてのそのような光特性は、得ることが難しく、いくつかの問題解決手法しか、提供されない可能性がある。これらは、それだけには限定されないが、例えば、コーティングが塗布され得る表面を有する、ガラス窓又はポリカーボネート窓の使用を含む。コーティングは、コーティングを塗布するために使用される物質の１０％の割合の、硫化亜鉛（ＺｎＳ）顔料粒子、又は硫酸亜鉛（ＺｎＳＯ_４）粒子から成ることもある。硫酸バリウム（ＢａＳＯ_４）顔料も、最良の可視スペクトルの光拡散器であるとして考えられ、ランバートなやり方で電磁スペクトルの可視部分における波長を一様に反射するような基板として使用されるときに、どのような色収差も導入しないので、適している可能性もある。

一実施例は、窓の上にコーティング物質のグリッドを形成するために物質を用いてプリントされることになるガラス、又はポリカーボネートの窓の上へのコーティングを含むことになろう。窓の上のコーティングされた小さなエリアの間のピッチは、それらの大きさ及び配列とともに、期待される色拡散特性の関数として調整されることもある。

図６においては、本発明の対話型システムの別の実施例は、プロジェクタ１６０を使用した、グラフィカル・ユーザ・インターフェースの色を拡散する背面投影ディスプレイを備えている。決定された相互作用表面１２０は、状況によってあらかじめ決定されたタッチ・ジェスチャー相互作用エリア２３０においてタッチ・ジェスチャー相互作用のために使用される。第１の追跡された手２４０ｃは、シングル・タッチ・ジェスチャー相互作用を実行するが、第２の追跡された手２４０ｄは、２つの異なる相互作用エリア２３０の上へのマルチ・タッチ・ジェスチャー相互作用を実行しており、追跡は、錐台１４０が、相互作用表面１２０の最上に位置している深さセンシング・カメラ１７０を使用している。

堅牢で、強力なマルチ・タッチ・ジェスチャーを可能にするためにより適している、好ましい一実施例は、相互作用表面に関して、ユーザの側の反対側にイメージング・センシング・デバイスを有しているであろう。そのような一実施例は、タッチ・ジェスチャーのためのユーザの手の主要な相互作用部分、すなわち指先が、決して隠れないシステムを提供するであろう。

本発明は、特定の実施例を参照して説明されているが、本発明は、そのような実施例だけに限定されないこと、及び本発明は、他の方法で実施され得ることが、理解されるであろう。

Claims

マルチ・モーダルのタッチ及びタッチレスの相互作用が３次元イメージング・デバイスであるシングル・センシング・システムからのデータ情報を使用して実行されるコンピュータ化されたシステムとの、前記マルチ・モーダルのタッチ及びタッチレスの相互作用のための方法であって、
ａ）前記３次元イメージング・デバイスの錐台内の少なくとも１つのオブジェクトの少なくとも１つの部分を検出し追跡するステップと、
ｂ）追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分が、相互作用表面の所定の相互作用エリア上の所定のタッチ・ジェスチャーと、所定の相互作用エリアに対して垂直な前記ベクトル軸上の所定の相互作用ボリュームにおける所定のタッチレス３次元ジェスチャーとのうちの少なくとも一方を実行しているかどうかを決定することにより、前記相互作用を開始するステップと、
ｃ）前記３次元イメージング・デバイスの前記錐台内の前記少なくとも１つのオブジェクトの前記少なくとも１つの部分によって実行される前記ジェスチャーを検出し認識することにより、前記コンピュータ化されたシステムと相互作用するステップであって、前記検出し認識されたジェスチャーは、前記相互作用表面の所定の相互作用エリア上の所定のタッチ・ジェスチャーと、所定の相互作用エリアに対して垂直な前記ベクトル軸上の所定の相互作用ボリュームにおける所定のタッチレス３次元ジェスチャーとのうちの少なくとも一方である、相互作用するステップと
を含む方法。
前記相互作用表面の所定の相互作用エリア上のタッチ・ジェスチャーの前記実行を検出することは、いつ、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分が、３次元空間内で、前記相互作用表面上の前記所定の相互作用エリアと、空間における前記同じ位置に位置づけられるかを検出することに対応する、請求項１に記載の方法。
タッチ・ジェスチャーが実行されたかどうかを検出することは、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分の前記相互作用表面からの、３次元空間内での前記距離が、所定のしきい値を下回るときに決定される、請求項１又は２に記載の方法。
マルチ・タッチ・ジェスチャーを決定するステップは、空間において追跡される前記少なくとも１つのオブジェクトの少なくとも２つの部分の前記位置が、前記相互作用表面に属する少なくとも２つの所定の相互作用エリアに到達するときに実行される、請求項１から３のいずれか一項に記載の方法。
タッチ・ジェスチャーと、マルチ・タッチ・ジェスチャーとのうちの少なくとも一方の逐次的位置及び持続時間の関数として、タッチ・ジェスチャー相互作用制御を決定するステップをさらに含む、請求項１から４のいずれか一項に記載の方法。
追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分によって実行される前記３次元ジェスチャーの関数として３次元タッチレス・ジェスチャー相互作用制御を決定するステップをさらに含む、請求項１から５のいずれか一項に記載の方法。
ステップｃ）は、所定のイベントがトリガされるときに、前記相互作用を終了するステップをさらに含み、前記所定のイベントは、所定の期間の前記経過と、前記相互作用表面上の所定のタッチ・ジェスチャーの前記認識と、前記３次元イメージング・デバイスの前記錐台内の所定の３次元タッチレス・ジェスチャーの前記認識と、前記３次元空間内の所定のボリュームからの前記少なくとも１つのオブジェクトの退出とのうちの少なくとも１つを含んでいる、請求項１から６のいずれか一項に記載の方法。
ステップｂ）は、前記少なくとも１つのオブジェクトの第１の検出され追跡された部分を使用することを含み、ステップｃ）は、前記少なくとも１つのオブジェクトの第２の検出され追跡された部分を使用することを含む、請求項７に記載の方法。
ステップｂ）及びｃ）は、１つのオブジェクトの単一の検出され追跡された部分を使用して、逐次的に制御される、請求項７に記載の方法。
前記相互作用表面の少なくとも一部分の上のグラフィカル・ユーザ・インターフェース上に所定のビジュアル・フィードバックを表示することをさらに含み、前記ビジュアル・フィードバックは、前記少なくとも１つのオブジェクトの前記少なくとも１つの部分の前記位置と、追跡される前記少なくとも１つのオブジェクトの前記少なくとも１つの部分の前記認識されたジェスチャーとのうちの少なくとも一方に関連している、請求項１から９のいずれか一項に記載の方法。
前記相互作用表面上に表示される前記グラフィカル・ユーザ・インターフェースとの前記相互作用は、
ｄ）前記３次元イメージング・デバイスを使用して、前記相互作用表面の、空間内の前記位置と、前記トポロジとを決定するステップと、
ｅ）そのトポロジと大きさとの関数として、前記相互作用表面上の相互作用エリアの所定の組を決定するステップと、
ｆ）少なくとも１つのタッチ・ジェスチャー相互作用制御を各相互作用エリアに関連づけるステップと
を動作させることをさらに含む、請求項１０に記載の方法。
ｇ）少なくとも１つの相互作用ボリュームを相互作用エリアの前記所定の組に関連づけるステップであって、各相互作用ボリュームは、その相互作用エリアに対する法線ベクトルに沿って、前記相互作用エリアの上に位置している、関連づけるステップと、
ｈ）所定の３次元タッチレス・ジェスチャー相互作用制御によって各相互作用ボリュームに関連づけるステップと
をさらに含む、請求項１１に記載の方法。
前記相互作用表面は、ユーザの身体の一部分と、机テーブルと、壁と、赤外線半透明表面と、オブジェクトとのうちの少なくとも１つであり、前記グラフィカル・ユーザ・インターフェースは、前記相互作用表面上へと投影される、請求項１１又は１２に記載の方法。
グラフィカル・ユーザ・インターフェースと相互作用するためのシステムであって、
相互作用表面上に前記グラフィカル・ユーザ・インターフェースを表示するためのディスプレイ・システムと、
その錐台内のユーザの少なくとも一方の手の少なくとも１つの部分を少なくとも追跡するように動作させられる３次元イメージング・システムと、
前記ディスプレイ・システムと、前記３次元イメージング・デバイスとを制御するように、かつ、前記３次元イメージング・デバイスから出力されるデータを使用して、ジェスチャー・ベースの相互作用制御を決定するように構成されているコンピュータ・システムとを備えており、
前記システムは、前記グラフィカル・ユーザ・インターフェースを表示するための前記ディスプレイ表面が、前記３次元イメージング・デバイスの前記錐台の少なくとも一部分を備えており、かつ、実質的にそれと位置合わせされていることを特徴としている、システム。
前記ディスプレイ・システムは、前記グラフィカル・ユーザ・インターフェースが表示される前記相互作用表面の、前記３次元イメージング・デバイスと同じ側に位置しているプロジェクタ要素を備えている、請求項１４に記載のシステム。
前記３次元イメージング・システムと、前記プロジェクタ要素とは、前記グラフィカル・ユーザ・インターフェースが投影される前記相互作用表面であって、前記電磁スペクトルの前記可視部分に実質的に対応する範囲内の波長を有する放射を拡散するように、かつ、前記電磁スペクトルの前記赤外線部分に実質的に対応する範囲内に波長を有する放射を限られた拡散で透過するように動作可能である前記相互作用表面の反対側に位置しており、前記相互作用表面の前記透過係数は５０％よりも高く、かつ、前記限られた拡散は２０°よりも小さい、請求項１４に記載のシステム。
請求項１から１３のいずれか一項に記載の方法を実行するように動作可能である、請求項１４から１６のいずれか一項に記載のシステム。
請求項１から１３のいずれか一項に記載の方法を実行するための実行可能な命令を記憶するように動作可能な非一時的なコンピュータ媒体。