JP2014225288A - 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム - Google Patents

自然なジェスチャに基づくユーザ・インターフェース方法及びシステム Download PDF

Info

Publication number
JP2014225288A
JP2014225288A JP2014158723A JP2014158723A JP2014225288A JP 2014225288 A JP2014225288 A JP 2014225288A JP 2014158723 A JP2014158723 A JP 2014158723A JP 2014158723 A JP2014158723 A JP 2014158723A JP 2014225288 A JP2014225288 A JP 2014225288A
Authority
JP
Japan
Prior art keywords
gesture
user interface
poi
user
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014158723A
Other languages
English (en)
Other versions
JP6031071B2 (ja
Inventor
ディアス、ファン カルロス トシノ
Carlos Tocino Diaz Juan
ディアス、ファン カルロス トシノ
シモンズ、ケビン
simons Kevin
ピノー、ジル
Pinault Gilles
ベール、グザヴィエ
Baele Xavier
トロ、ジュリアン
Thollot Julien
ゾット、デイビッド ダル
Dal Zot David
ゾット、デイビッド ダル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Depthsensing Solutions NV SA
Original Assignee
Softkinetic Software SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softkinetic Software SA filed Critical Softkinetic Software SA
Publication of JP2014225288A publication Critical patent/JP2014225288A/ja
Application granted granted Critical
Publication of JP6031071B2 publication Critical patent/JP6031071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6045Methods for processing data by generating or executing the game program for mapping control signals received from the input arrangement into game commands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザ又は物体によってなされるジェスチャが、ユーザ又は物体の表現をモデル化する必要なしに画像化システムの動作を制御するために使用することができるように、三次元画像化システムと容易に統合可能なユーザ・インターフェースを提供する。【解決手段】対話型三次元画像化システムのディスプレイ画面上に文脈フィードバック、制御部及びインターフェース要素を提供するユーザ・インターフェースが本明細書に記載されている。ユーザ2410は、対話型三次元画像化システムによって認識されたものに従って制御信号を提供するために、ユーザ・インターフェースと対話し、対話型三次元画像化システムによって画像化された三次元シーン内の少なくとも1つの対象ポイント2310、2320を利用して、制御信号がユーザ・インターフェースに提供される。制御信号は、対象ポイントの動き及び軌道の統計的及び幾何学的特性を分析するジェスチャ認識プロセスによって実時間で分析されるジェスチャ2420、2430を用いて提供される。【選択図】図24

Description

本発明は、自然なジェスチャに基づくユーザ・インターフェース方法及びシステムに関し、より詳細には、コンピュータ化されたシステムのナビゲーション及び制御のための自然なジェスチャ認識に基づくユーザ・インターフェースに関する。
コンピュータ・ビジョン技術は、実時間の正確な三次元シーン測定結果が取得可能な状態まで発展した。これらのシーン測定結果により、画像処理システムが、たとえば潜在的な物体/ユーザとシステムとの対話など、新しい種類の入力を計算し提供することが可能になり、この場合、入力対話は、見られているシーン内の視界内の物体/ユーザの動作及び/又はジェスチャと関連している。
いくつかの種類のユーザ・インターフェース・デバイス及び方法が、現在、利用可能である。マウス、ジョイスティック、コンピュータ・キーボード、タッチ画面又は赤外線遠隔制御技術などのインターフェース・デバイスとは別に、最新の技術は、シーン内の人間の体を検出し、モデル化し、シミュレートすることを可能にする、三次元画像化又は感知システムに基づく。たとえば、手など、体の部分が、シミュレーションから抽出可能であり、通常は、経時的にそれらの位置に関して監視可能である。したがって、その手は、次いで画像化又は感知システムによって認識され得るジェスチャを実行するために使用され得る。これらのジェスチャは、トリガ事象を起動させること、及び/又は受信された入力に従って対話するコンピュータ・インターフェースに連続的入力データを提供することを目的とする。
認識されたユーザ表現を囲むカスタマイズされたアイコンを用いて、通信セッションを制御するために使用されるジェスチャに基づくナビゲーション・システムが、WO−A−2009/042579に記載されている。音声及びビデオ通信のための機能強化されたインターフェースが提供され、その中で、ユーザのジェスチャは、一連のカメラ画像から認識される。ユーザ制御及びユーザ表現を含む、ユーザ・インターフェースもまた、提供される。本方法は、制御入力をトリガするために、画像処理を使用してジェスチャ認識を実行する、ナビゲーション・インターフェース及びシステムを対象とする。たとえば、電気通信セッション状態は、ユーザ表現によって作られる連動ジェスチャの認識によって、スタンバイ状態からコール又はメニュ状態に変更され得る。
他のジェスチャに基づくナビゲーション・システムが、WO−A−2009/035705、WO−A−2009/108894及びWO−A−2004/070595に記載されている。WO−A−2009/035705では、三次元環境における対話型ディスプレイを用いた、ジェスチャに基づくユーザ対話を処理するための単純なシステム及び方法が開示されている。そのディスプレイは、システムと対話することができるアイコンを用いてユーザの手を表す。
WO−A−2009/108894には、ユーザの認識されたジェスチャを使用する機能強化された入力が記載されている。ユーザ表現は、中央部に関して放射状に配置された対話要素をさらに含む制御部の中央部に表示される。その機能強化された入力はまた、ユーザの認識されたジェスチャに基づいて制御部と対話すること、及びその制御部との対話に基づいてアプリケーションを制御することを含む。その対話要素は、ユーザ表現の広い範囲のジェスチャ、たとえば、手、目又は体の動作による指から顔の表情までのジェスチャを使用して選択される一連のアイコンの形をとり得る。
WO−A−2004/070595では、ジェスチャを使用し、画像表現装置のグラフィック・ユーザ・インターフェースの画像内でマウス・ポインタを対話形式で制御するためのデバイス及び方法が開示されている。そのデバイスは、補助画像を生成するためのビデオカメラと、その補助画像の画像データを処理する画像処理デバイスと、その補助画像の鏡映を作るためのミラー・ユニットとを備える。分析ユニットもまた、そのビデオカメラによってとらえられた物体を検出するために、及び補助画像内の検出された物体の瞬間的位置を判定するために設けられる。マウス制御機構が、分析ユニットに接続され、それぞれの判定された瞬間的位置に従って画像表現装置の画像内でマウス・ポインタを表現し、移動させ、ミキシング及び/又はクロスフェーディング・デバイスが、ミラー・ユニットに接続され、このミラー・ユニットは、メイン画像と、ミラー・ユニットによって取得される鏡映化された補助画像とを画像表現装置の画像内で部分的に透過した形で重ね合わせるように構成されている。
ユーザ・インターフェースからのユーザ・フィードバックが、WO−A−2010/126714に記載されている。ここでは、取込みデバイスが、ユーザの動きを取り込むために使用され、ユーザのその動きにマップするモデルを表示するためのデバイスが提供される。ジェスチャが、ユーザ・インターフェースの制御のために使用される。しかし、ユーザは、自身の動きをマップするシステムに不慣れであることや、どのジェスチャが特定のアプリケーションを実行するために適用可能であるかを知らないことがあり、したがって、実行するアプリケーションに適用可能なジェスチャの実行方法を知らない。ユーザに教育的ジェスチャ・データを表す視覚的フィードバックを提供することで、そのユーザに適切なジェスチャの方法を教えることができる。本視覚的フィードバックは、任意の数の適切な方法で提供することができる。たとえば、視覚的フィードバックは、ゴーストされた画像、プレーヤのアバタ、又は骨格表現を使用して提供することができる。本システムはまた、教育的ジェスチャ・データを表す視覚的フィードバックを表示するための事前に記録された又は生の内容を処理することもできる。その視覚的フィードバックは、ユーザの実際の位置と理想的ジェスチャの位置の差を表現することができる。
WO−A−2010/103482には、コンピュータ化されたシステム、通常は仮想キーボード、を動作させるための方法が記載され、そこではユーザ・インターフェース要素がディスプレイ画面に提示される。ユーザの体の部分によって三次元空間で行われる第1のジェスチャが検出され、その第1のジェスチャに応答して、ポイントすることによって、ユーザによって事前選択されたディスプレイ画面のエリアが識別される。次いで、ディスプレイ画面上の選択されたエリアに現れるユーザ要素のうちの1つ又は複数の倍率レベルが上げられる。倍率レベルを上げた後、ユーザの体の部分によって行われる第2のジェスチャが、ユーザ・インターフェースに現れるものの中から事前選択された要素を選択するために検出される。第3のジェスチャは、ユーザ・インターフェース要素の倍率レベルを下げる。
WO−A−2003/071410には、体のジェスチャ、特に手のジェスチャに関し、且つ深度認識センサを使用する、一般的ジェスチャ認識システム及び方法について記載されている。三次元センサは、ユーザの体の部分の複数の個別の領域の三次元の位置情報を提供する。ジェスチャは、体の部分(すなわち、手)の形状とある間隔に亘るそれらの位置及び向きから認識される。ジェスチャは、関連電子デバイスへの入力を判定するために分類される。定義されていないセグメント化モジュールは、背景からユーザの体の部分を分離するために深度情報を使用する。システムと対話する画素群は、カメラから最も近い物体であると識別される手の一部であると考えられ、又はそれらは、人間の皮膚と同じ光の反射特性を示しているとき、ユーザに属するものとして識別される。ジェスチャ認識は、手を表すと考えられる画素群のポーズ及び体勢から判定され、ポーズは手の形状の位置及び方向に関連し、体勢はその形状とポーズの組合せに関連する。動的ジェスチャ認識が、特定の手のジェスチャ、特定の動き、特定の音声、又はキー入力などの動的ジェスチャの開始又は終了をトリガするための区切り機能の定義において、定義されていない分類に基づくアルゴリズムに基づいて自動的に実行され得る。確認機能が必要とされ、その中でユーザは検証のためのジェスチャを認証しなければならない。これは、別のジェスチャ、音声、又はハードウェア・キーボードへのテキスト入力の使用によって行われる。
さらに具体的なジェスチャ認識が、WO−A−2010/011923及びWO−A−2010/011929に記載されている。これらの文献では、ウェーブ及び円形のジェスチャ認識のための技法が、特定の信号処理実施例の中で説明されている。
WO−A−2010/011923では、円形連動ジェスチャの機能強化された検出について記載されており、ここでは形状は動きデータ内で定義され、動きデータは、その定義された形状に合わせたポイントでサンプリングされる。ここで、判定は、動く物体が、そのサンプリングされる動きデータによって示されるパターンに基づいて、その定義された形状に相互に関連するジェスチャを実行しているかどうかである。アプリケーションは、移動する物体が必要とされるジェスチャを実行していると判定された場合に制御される。
WO−A−2010/011929は、ウェーブ連動ジェスチャの機能強化された検出を開示しており、そこでは形状が動きデータ内で定義され、動きデータは、定義された形状に合わせたポイントでサンプリングされ、サンプリングされた動きデータに基づいて、定義された形状に沿って移動する物体の位置が経時的に判定される。移動する物体が必要とされるジェスチャを実行している場合に、移動する物体がその判定された位置によって示されるパターンに基づくジェスチャを実行しているかどうかの判定が、アプリケーションを制御するために使用される。
しかし、前述のシステムの多くは、ユーザが事前に検出されそのシーン内に位置付けられることを必要とし、少なくとも手の身体部分がそのシーン内に位置付けられることを必要とし、且つ/又は、そこから体の部分、たとえば、手の位置を抽出することがより容易なユーザ表現のモデリングを必要とし、それは、手が、システム・インターフェースとの対話のために使用される主要な体の部分であるからである。
WO−A−2009/042579 WO−A−2009/035705 WO−A−2009/108894 WO−A−2004/070595 WO−A−2010/126714 WO−A−2010/103482 WO−A−2003/071410 WO−A−2010/011923 WO−A−2010/011929
したがって、本発明の目的は、ユーザ又は物体によってなされるジェスチャが、ユーザ又は物体の表現をモデル化する必要なしに画像化システムの動作を制御するために使用することができるように、三次元画像化システムと容易に統合可能なユーザ・インターフェースを提供することである。加えて、シーン内のユーザ又は物体の位置の事前検出又は追跡に関する要件はない。
本発明によれば、ジェスチャ認識を用いてユーザ・インターフェースと対話するための方法であって、a)シーンの少なくとも1つの多次元の表現を、少なくとも1つの多次元の画像化システムの視界内に形成するステップと、b)多次元の表現において多次元の制約付きクラスタリング動作を実行して、シーンのクラスタ化された表現を生成するステップと、c)ジェスチャ認識に使用可能なクラスタ化された表現から対象ポイントの候補を識別するステップと、d)認識されたジェスチャに従って前記ユーザ・インターフェース・システムを制御するステップとを含み、上記ステップc)が、他の1つのクラスタのみに接続され、コヒーレントな動きを示す少なくとも1つのクラスタを識別するステップを含む方法が提供される。
上記の方法はさらに、以下のステップを含む少なくとも連続的軌道分析を使用することを含む:対象ポイント候補の軌道に沿って軌道ポイントを識別するステップ、基準シード識別オーダを有する基準シード・ポイントを形成する少なくとも1つの多次元の変化を対象ポイント候補の軌道方向で識別するステップ、各々が連続的基準シード・ポイントを形成する連続的変化を軌道方向で識別するステップ、及び基準シード・ポイント及び軌道ポイントを使用してジェスチャを認識するステップ。
ジェスチャ認識の部分として、基準シード識別オーダが使用され得る。
有利には、軌道分析は、前のポイントに関する距離、速度ベクトル又は加速ベクトルのうちの少なくとも1つを、各ポイントについて判定するステップをさらに含む。各ポイントの幾何学的及び統計的計算を使用してジェスチャを認識するさらなるステップを実施してもよい。
一実施例によれば、対象ポイント候補は、それが第1に所定のジェスチャを実行した場合に、アクティブ化された対象ポイントとしてアクティブ化可能であり、アクティブ化された対象ポイントは対象ポイント候補状態をなお有する。この場合、対象領域は、アクティブ化された対象ポイントと関連付けてもよい。さらなる対象ポイント候補がまた、各対象ポイント候補が所定のジェスチャを実行したときに、少なくとも1つのさらなるアクティブ化された対象ポイントとしてアクティブ化可能であり、少なくとも1つのさらなるアクティブ化された対象ポイントは、対象ポイント候補状態をなお有する。
さらに、少なくとも1つのさらなる対象領域は、少なくとも1つのさらなるアクティブ化された対象ポイントに関連付け可能であると判断され得る。各対象領域は、対象ポイント候補の位置に対して相対的にセットされた位置及び次元を有するようにしてもよい。
加えて、本方法は、少なくとも1つの判定された対象領域内で少なくとも1つの所定の対象ポイント候補によって実行された所定のジェスチャを認識するステップを含む。
有利には、ユーザ・インターフェース・システムは、グラフィカル・ユーザ・インターフェースを有する、ジェスチャに基づく仮想キーボードを含み、グラフィカル・ユーザ・インターフェースは、最小限の自然なジェスチャのみを使用して選択するための要素の所定の配置を有する。
一実施例では、本方法は、e)少なくとも1つの対象ポイント候補のコヒーレントな動きにしたがって、ユーザ・インターフェース・システムを制御するステップをさらに含む。
ユーザ・インターフェース・システムの現在の状態による文脈フィードバック情報が、提供され得る。
ステップb)は、多重解像度画像処理を使用することを含み得る。
好ましい実施例では、各多次元の表現は、三次元表現を含み得る。
本発明をよりよく理解するために、以下のような添付の図面が、実例としてのみ、ここで参照されることになる。
本発明の主要な要素の流れ図である。 本発明によるユーザ・インターフェースの動作の流れ図である。 対象ポイント(POI)局所化及び識別動作の流れ図である。 多重解像度プロセスの流れ図である。 図4の多重解像度プロセスをさらに詳しく示す図である。 図4及び図5の多重解像度プロセスによって作成される低解像度深度マップの使用の流れ図である。 重心及び末端のリンク・グラフを判定するための制約付きK平均法リーダ・フォロワ・アルゴリズムの使用を示す図である。 クラスタ識別を画素に割り当てるためのリファイナリ・プロセスを示す図である。 リファイナリ・プロセスの動作をより詳細に示す図である。 図8のリファイナリ・プロセスの効果を示す図である。 リファイナリ・プロセスの出力の使用の流れ図である。 軌道に基づく「円形」ジェスチャ認識を示す図である。 軌道に基づく「ウェーブ」ジェスチャ認識を示す図である。 軌道に基づく「スワイプ」ジェスチャ認識を示す図である。 軌道に基づく「押す」/「引く」ジェスチャ認識を示す図である。 軌道に基づく「クリック」ジェスチャ認識を示す図である。 ユーザ・インターフェース・ナビゲーション・システムの流れ図である。 仮想キーボード・メイン・フレームを示す図である。 仮想キーボードの好ましい実施例を示す図である。 対象領域(ROI)管理の流れ図である。 POI管理の流れ図である。 POIマネージャの動作の流れ図である。 人間を対話コントローラとした、シーンにおけるROI及びPOIの表現を示す図である。 ユーザが実行することを期待されるジェスチャをユーザに教えるためのアクティブ化及び制御ジェスチャ・フィードバック・グラフィカル・インターフェースを示す図である。 フィードバック・インターフェース要素を示す図である。 フィードバック・インターフェース要素の第1の好ましい実施例を示す図である。 フィードバック・インターフェース要素の第2の好ましい実施例を示す図である。 制御後対話プロセスの流れ図である。
本発明は、文脈制御及び文脈インターフェース要素を提供するとともに、文脈ユーザ・フィードバックを提供する、自然なジェスチャの遠隔制御ナビゲーション・システム及びその関連方法を開示する。革新的な画像処理技法が、三次元画像化デバイスからの出力を処理するために使用される。少なくとも1つのPOIが、三次元シーン内で識別され、そのPOIは少なくとも1つの区切られたROI内で対話し、それにより、実時間の自然なジェスチャ認識分析が、革新的で効率的な軌道及び/又は動きの分析を使用して各識別されたPOIにおいて実行され得る。ジェスチャ認識分析の出力データは次いで、連続的ポインティング信号として、システム内の事象、たとえばシステム内の要素の選択及びアクティブ化をトリガするために、使用され得る。本システムは、直観的で自然で苦痛のない制御に対応する自然なジェスチャ駆動のユーザ・インターフェースを使用する。
より正確に言えば、本発明は、意味を含まない多次元のポイント・クラウドから、又は取り込まれた深度マップ画像若しくは一連の取り込まれた深度マップ画像の画素から、ユーザと機械又はシステムとの間の対話を定義する何らかのデータを抽出することを可能にする、新しく効率的な方法及びシステムを提供する。その意味において、データは、ユーザがそのインターフェースを制御しそこに情報を配信することを可能にする入力データである第1のクラスと、機械又はシステム及び関連アプリケーションによって出力される文脈データである第2のクラスの2つのクラスに分割される。本発明によれば、このユーザ・インターフェース・システムは、2セットのデータの両方について、ユーザへのフィードバック/情報を含む。さらにより正確に言えば、システム/機械/ユーザ・インターフェースと対話するために使用される体に又は物体に関連する、少なくとも1つのPOIを識別する方法もまた提供される。
さらに、本発明の方法及びシステムはまた、自然なジェスチャ制御との組合せで、期待されるジェスチャ及び実行されたジェスチャに関連するフィードバック情報を提供しながら、最も直観的で効率的な様態でユーザが対話することを要求する、文脈インターフェース・システムも定義することができる。前述のすべては、実時間クロスプラットフォーム処理互換性の制約を克服する。
より正確に言えば、本発明は、たとえばディスプレイ画面上に、少なくとも文脈フィードバック、制御部及びインターフェース要素を提示する、ナビゲーション方法及びシステムを提供する。このフィードバックは、任意の感覚関連信号を提供することができる任意の他のデバイスまで拡張され得る。ここで、本方法及びシステムは、三次元画像化デバイスを使用して三次元シーン内で少なくとも1つのPOIを検出する。加えて、本ナビゲーション方法及びシステムはまた、検出されたPOIにおいて、より正確に言えば、それらの軌道の離散的読取り値において実行される、組込み型の実時間の自然なジェスチャ認識分析システムを含む。自然なジェスチャ認識分析システムからの出力データは、ユーザ・インターフェースのコントローラとして使用される。
この開示はまた、POI検出及び自然なジェスチャ認識を含む、多次元に基づく、具体的には、三次元画像処理に基づく、ユーザ・インターフェース及び非接触型遠隔制御システムに関する。この点において、本発明は、経時的に時空間コヒーレンシを示すクラスタを生成するクラスタリング・アルゴリズムを使用する知的な様態でセグメント化可能な画像化シーンを使用する。本発明のユーザ・インターフェースは、そのシーン内の各画素が、x座標及びy座標、並びに深度値として知られるz座標を有する三次元シーンを表す深度マップを入力として使用することができる。ユーザ・インターフェースからの出力は、ユーザのジェスチャによって作り出される連続的及び散発的事象の両方を含む。文脈ユーザ・インターフェース・フィードバックもまた、使用され得る。
より正確に言えば、シーン内の画素は、典型的にはK平均法及びリーダ・フォロワ・セグメント化アルゴリズムの混合を使用して、いくつかの空間的制約によりクラスタにグループ化され得る。クラスタは、少なくともリーダ・フォロワ・セグメント化アルゴリズム及び何らかの事前定義されたパラメータに従って作り出し、破棄することができる。1つのそのようなパラメータは、各クラスタ内に存在する必要がある画素の最小数でもよい。別法として、クラスタの最大半径が、パラメータとして使用され得る。加えて、識別コードは、前のフレームから各クラスタ及び複数のクラスタに割り当てること、及び現在のフレームのシードとして使用することができる。
加えて、シーン内のユーザの意図的な動作は、そのシーン内のノイズ又は意図しない動作と区別可能な、したがって、分析される必要があるPOI候補であるとしてクラスタが識別されることを可能にする特定の挙動により、クラスタを動かす効果を有する。少なくとも第1のクラスタがアクティブ化ジェスチャを実行した後は、そのクラスタはPOIとして識別され得る。シーン分析は、そうすると、そのPOIの位置を囲むROIまで潜在的には低減され得る。
前述したものを使用し、本発明は、ユーザ・インターフェースの制御を提供するために使用可能なロバストで効率的な方法を提供する。理想的には以下である:(i)シーン全体がクラスタ化され、各クラスタの動きの分析が経時的に実行されるので、シーンからの背景除去の必要がないこと、(ii)本画像化システムとともに使用される三次元カメラが、信頼できる座標系において信頼できる測定結果を提供するので、シーン較正の必要がないこと、(iii)移動するPOIは、時空間コヒーレンシ特性を有し、また好ましい実施例では少なくとも末端であり、そのPOIはさらに好ましい実施例ではコヒーレントな動きを示すので、画像内のユーザ又は物体の識別の必要がないこと、(iv)コヒーレントな動きをするPOIは、制御をサポートするものであることになるので、ユーザである人間の手又は肢の任意の他の部分の識別の必要がないこと、及び(v)取得されたPOIの時間的コヒーレンシは十分に有意であり信頼できるので、動き推定又は追跡アルゴリズムの必要がないこと。
追加として、本発明の方法は、ユーザの他の部分、たとえば、足、手及び手に握られた物体を使用して制御が行われることを可能にする。制御はまた、期待されるジェスチャに関連する特定の動作を実行することができる物体によっても行うことができる。
(本発明の具体的な実施例の説明)
本発明は、個々の実施例に関して及びある特定の図面を参照して説明されることになるが、本発明はそれらに限定されない。記載された図面は、単に概略的に過ぎず、限定するものではない。図中で、その要素のうちのいくつかのサイズは、例示目的のために、誇張されていることがあり、原寸に比例して描かれていないこともある。
概括的な一実装形態によれば、ユーザは、何らかのフィードバック情報を文脈的に提供するために、また三次元シーン情報を取り込むために、ホーム「domotic」コントローラ、又は少なくとも1つのデバイスに接続されたマルチメディア・ナビゲーション・システムなどのコンピュータ化されたシステムと対話することができる。たとえばデバイス・ディスプレイなどの描画デバイスを使用して、グラフィカル・ユーザ・インターフェース(GUI)の視覚化における少なくとも1つの要素の表現の変化などの何らかの視覚的フィードバック情報を提供することができる。別の実例では、取込みデバイスは、ユーザが対話しようとするシーンの三次元画像を提供する三次元カメラとすることができる。本方法及びシステムはまた、別の補完的実装形態では、たとえば、ユーザに追加の音声フィードバック情報を提供するために、ラウドスピーカを組み込むことができる。当然、他のデバイスが、他のタイプの感覚性フィードバックを提供するために使用されてもよい。
ユーザからシステムへの対話は、直接的、直観的(すなわち、非常に短期間の習得曲線を伴う)且つ苦痛のない自然なジェスチャを含むことができ、一方、システムからユーザへの対話は、ユーザの行動に応答した視覚的及び/又は音声文脈情報などの感覚性信号を含み得る。システムからユーザへの対話はまた、ユーザが実行すると期待される対話の表現を提供することもできる。
本システム及び方法は、第1のステップでは、人−機械対話が交換されることになる人によって実行されることが期待されるジェスチャを表すグラフィカル・インターフェースの部分を形成し、ディスプレイ画面上にアニメーションを提供することを含み得る。このステップは、対話セッションを開始及び初期化することを目的とする。たとえば、期待されるジェスチャは、テキスト、アニメーション図又はビデオで表され得る「手を振ること」でもよい。ユーザは、直観的にその視覚的信号を理解することができ、次いで、少なくとも体の1つの部分で、又は自身の体の部分のうちの1つにリンクされた少なくとも1つの物体で、振るジェスチャを実行することができる。典型的には、そのような体の部分は、人間のユーザの手を含むが、本発明はそのような体の部分に限定されないことが理解されよう。したがって、本システムは、カメラ・デバイスを使用して、シーンの三次元画像を取り込み、何らかの信号処理を実行して、期待されるジェスチャの位置を特定し、認識し、次いで、さらなる対話が、好ましくはその後にその中で探されることになる好ましい対象領域(ROI)の位置を特定し、定義することができる。同時に、本システムはまた、その期待されるジェスチャを実行した体の部分を表す画素群でもよい好ましいPOI(POI)を識別することもできる。この場合、POIは、次の対話がそれを介して行われることになるユーザの部分的表現である。したがって、期待されるジェスチャを実行することによって、ユーザは、システムが期待していた形でフィードバック応答を与えたので、ユーザ自身をシステム・コントローラとしてアクティブ化することになる。より正確に言えば、本方法及びシステムは、画像化されたポイント、又は、期待されたアクティブ化ジェスチャを実行した手を表す三次元画像化されたポイント群を、システムが見る及び分析することになる主要なPOIにすることになる。この第1のステップは、アクティブ化及び識別段階に同化することができる。したがって、このステップは、ユーザが好ましいPOIの検出前に検出される必要がないこと、また体の部分又は物体識別が事前に実行される必要がないことを特徴とする。
第2のステップでは、少なくとも1つのPOIが対話すべき少なくとも1つのROIが存在すると、本システムは、連続的ポインティング情報又はジェスチャ事象トリガを収集するために、主要なPOIとして指定された識別された第1のPOIで制御ジェスチャ認識を実行する。この第2のステップは、ナビゲーション・システムの対話型インターフェースの主な自然なジェスチャに基づく制御と考えることができる。たとえば、認識されたジェスチャから、本システムは、動的に及び文脈的に、表示されるGUIを変更する。一実施例では、これはまた、アクティブ化ジェスチャ検出時に行われ得る。典型的には、それらに限定されないが、本システムは、WWWナビゲーション、マップ・ナビゲーション、音楽プレーヤ、ビデオ・プレーヤ、TVチャネル・エクスプローラ、フォト・ギャラリ・プレーヤ、ゲーム、音声音量制御、投票アプリケーションなど、異なる種類のサブ・メニュ又はアプリケーションをユーザが開始できるようにするいくつかの要素、アイコン及び/又は表現で構成されたマルチメディア・メニュを画面上に表示することができる。インターフェース、すなわち各要素、アイコン、及び/又は、少なくともサブ・メニュ又はアプリケーションに対応する表現のレイアウトは、最も容易で最も自然なジェスチャの動作をユーザに実行させて、要素、アイコン及び/又は表現のうちのいずれか1つを選択、事前選択、又はアクティブ化させるやり方で編成され得る。選択は、いくつかの方法で行うことができ、たとえば、その最も単純な形では、選択は、GUI要素をポイントすることによって達成することができる。タイマ制御及び他のジェスチャは、その最も単純な形と組み合わせて使用することができる。
典型的には、選択、事前選択又はアクティブ化は、所望のGUI要素の上にユーザの表現、たとえばマウス・ポインタ又はアバタを動かし、次いで、その要素の端部にリンクされた関連タイマ期間、待つことによって、自然なジェスチャ遠隔制御を介して実行することができ、経過した時間又は残りの時間の表現がフィードバック情報としてインターフェースに表示される。
別の実施例では、選択、事前選択又はアクティブ化はまた、複数のステップで実行され得る。典型的には、しかしこれに限定されず、選択、事前選択又はアクティブ化は、本方法及びシステムのジェスチャに基づく連続的ポインティング機能を使用して所望の要素が選択される第1のステップと、たとえば、表示されるインターフェース・メニュを変えること、インターフェースのレイアウトを変えること、アプリケーションを実行することなど、POIポイントが生じる要素又は表現に付加又はリンクされた対話を開始することになる、クリックのジェスチャ又は押す動作のジェスチャなど、文化的に中立で意味的に関連のあり得る別の自然な制御ジェスチャに基づく第2のステップとを含む、2つのステップ・プロセスで実行され得る。
本方法及びシステムの第1のステップ及び第2のステップの両方は、複数POI及び複数ROIに対応して、複数のユーザが少なくとも1つのコンピュータ化されたシステム内で同時にいくつかの部分と対話すること、又は、ネットワーク上でともにリンクされたいくつかのコンピュータ化されたシステムと対話することを可能にする。
別の実施例では、経験の少ない又は熟達したユーザが、少なくとも部分的には、本システムと対話するために実行することを期待されるジェスチャに関するフィードバックを得る必要がないように、人対機械及び機械対人の対話プロセスは、直観的及び自然に定義される。たとえば、経験の少ないユーザは、対話プロセスを初期化するために、離れた人間とのコミュニケーションを行うのと同じ態様で、自然なジェスチャに基づくシステムの前で、自然な手を振るジェスチャを直観的に実行することができる。別の実例では、自然なジェスチャに基づく対話システムを既に経験したユーザである人は、画面上に表示された情報が、メイン・メニュ又は音声制御メニュを出現させる方法をユーザに思い出させる又は教えることを必要としないことになる。熟達したユーザは、いつでも、円形のジェスチャを実行することによって、システムのメイン・メニュが画面上に現れること、及び、ジェスチャに基づく対話型システムとの対話が、前述のような「手を振るジェスチャ」などのアクティブ化ジェスチャを実行することによって開始した後は、再度手を振るジェスチャを実行することが、画面上のアプリケーション又は表示されたインターフェースが何であっても、音声制御メニュを出現させることになることを知っていることになる。別法として、手を使ってユーザの耳を覆うなどの意味的ジェスチャもまた、システムの音を消すための制御ジェスチャとして使用することができる。
本発明の別の実施例では、自然なジェスチャでの文脈対話は、「手を振るジェスチャ」などの自然なジェスチャがシステム及びそのアプリケーションの状態に関連した異なる時間に異なる方法で使用され得るように、説明され得る。より正確な実例では、第1のステップ内で、ウェーブ・ジェスチャは、ユーザと、「ウェーブ・ジェスチャ」を実行するようにユーザに依頼するアニメーションの絵に基づく情報を提供しているシステムとの間の対話を初期化、開始、又はアクティブ化するために、使用することができる。第2のステップ内では、要求されたジェスチャを実行することによって対話型システムをユーザがアクティブ化した後は、「ウェーブ・ジェスチャ」は、それが実行されると、アプリケーション又は表示されたGUIの状態にかかわらず、ディスプレイ画面上に音声制御インターフェースを出現させることができる。第3のステップでは、音声制御メニュが表示されている場合、ウェーブ・ジェスチャを再び実行することで、音声制御メニュが消えることになる。
好ましい実施例では、判定されたアプリケーションが立ち上げられている場合、ジェスチャに関連する制御は、動的にロード及びアンロードされ得る、たとえば、「ウェーブ・ジェスチャ」は、仮想キーボード・アプリケーション・インターフェースでの文字選択を消すことなどの対話プロセスに動的に関連付けられ得る。「ウェーブ・ジェスチャ」は、個々の仮想キーボード・アプリケーションを終了するときには音声メニュ・バーの呼出しに自動的に再び関連付けられ得る。
本システム及び方法の好ましい実施例では、画像取込みデバイスは、二次元カメラ、立体カメラ、LIDAR、音波撮像装置、一般的に知られている構造化されたライト三次元カメラを含む三次元カメラ、及びTOF(time−of−flight)カメラを使用することができる。さらに好ましい実施例では、本システム及び方法は、深度マップ又は三次元ポイント・クラウド入力データ・タイプを使用する。
好ましい実施例では、深度マップ又は多次元ポイント・クラウドは、時空間で有意味のクラスタにグループ化され、各クラスタは重心によって表され、時間に関連してその個々の動作の追跡を可能にするアイデンティティを有する。さらに好ましい実施例では、三次元シーン・クラスタリングは、たとえば、制約付きK平均法リーダ・フォロワ・クラスタリング・アルゴリズムでもよい。
別の実施例では、POI及びROI検出、局所化及び識別は、より特別には、クラスタ又は重心の動作を分析することによって、入力データに実行される信号処理アルゴリズムを使用する。好ましい実施例では、少なくとも第1のPOIは、重心又はクラスタが前述のようにアクティブ化ジェスチャを実行した場合に、識別され、重心又はクラスタに付加される。さらに好ましい実施例では、アクティブ化ジェスチャを実行した重心又は関連クラスタは、クラスタ化された多次元シーン・ポイント・クラウドの領域隣接グラフ(RAG)の末端でなければならない。さらにより好ましい実施例では、コヒーレントな動きをするクラスタ又は重心が最良のPOI候補であるかを判断し、いくつかの候補の間で偽陽性及び曖昧さを取り除くことが必要である。
別の実施例では、重心又はクラスタがアクティブ化ジェスチャをまだ満たしていない場合、マスタPOIが、アクティブ化ジェスチャを第一に実行することになるものになる。主要なPOIの周りのエリア内の任意の他のコヒーレントな動きをする末端がスレーブPOIとして同化され得る。POIのマスタ及びスレーブ状態は、何らかの事前定義された規則に従って交換され得る。POIの周りのエリアはROIであり、その位置は、アクティブ化ジェスチャが検出された位置に関連する空間的位置を中心とする。
ROI位置は、静的又は動的のいずれでもよい。これは、その位置が少なくとも1つのPOI位置に従って変化し得ることを意味する。ROIの次元はまた、静的又は動的のいずれでもよい。これは、1つの静的POIが最初に定義されたROIを出る場合に、次元が修正可能であることを意味する。
ある一定の継続期間の後、判定されたROI内のPOIのいずれも十分に移動していない、又は識別されたPOIのいずれかがROIから出た場合、対応するPOI及びROIはもはや対話を行うことができないので、本システムはそれらを破棄することができる。そのとき、本システムは、前述の方法及びシステムの第1のステップで実行された同じプロセスを使用して、新しいPOI及びROIが識別されるのを待つことになる。
別の実施例では、セキュリティ・タイマは、最近無効にされた又は非アクティブ化されたPOIが十分に移動した場合又はそれがリンクされたROIに再度入る場合、それが再び対話を開始するときに、使用可能にされる又は再アクティブ化されることを可能にし得る。このセキュリティ・タイマ中、対応するPOI及びROIは、破棄される代わりに、単に無効にされる又は非アクティブ化される。
別の好ましい実施例では、自然なジェスチャ認識が、本方法及びシステムの個々のステップに関係なく、セグメント化された入力画像の重心又はクラスタの軌道の分析によって、実行される。これは、アクティブ化ジェスチャが探索される第1のステップについて、又は、制御ジェスチャが探索される第2のステップについて、ジェスチャ認識が、「ウェーブ」、「押す」、「クリック」、「引く」、「静止」、「ポインティング」などの自然なジェスチャを検出すること、並びに、「円形」、「正方形」、「長方形」、「線」、「十字形」、「三角形」などの基本的な幾何学形状の検出に依存することを意味する。
さらに好ましい実施例では、ジェスチャ認識は、対応するROI内のマスタ及び/又はスレーブPOI軌道において実行される。
さらにより好ましい実施例では、ジェスチャ認識は、POI軌道の方向の変化、判定された継続期間内の連続的POI方向の変化間の時間、連続的POI軌道方向の変化間のユークリッド距離、連続的POI軌道の変化の間のPOI速度、及び連続的POI軌道方向の変化間のPOI加速の分析によって実行される。POI軌道方向の変化は、連続する取り込まれた画像のPOIのフレームからフレームへのX方向、Y方向又はZ方向での変化を少なくとも意味する。これらのPOI軌道変化は、POIの次の位置が比較される基準シード・ポイントを作成する。加えて、軌道分析は、好ましくは、実行されたジェスチャを認識するために、基準シード・ポイントの順序付け作成の分析を含み得る。
さらにより好ましい実施例では、軌道方向の変化の分析方法には、方向のX、Y、Z変化の計算と軌道方向の変化間の累積距離の計算とが少なくとも所定の閾値より下にとどまる場合、POI候補の中のコヒーレントな動きをする重心又はクラスタを判定するために、使用される。
前述の第1の及び第2のステップのアクティブ化ジェスチャ又は制御ジェスチャのいずれかで、ジェスチャ認識が、「クリック」、「押す」、「ウェーブ」ジェスチャ事象などのジェスチャ対話トリガ、及び/又は、ポインティング位置などの連続的データ情報を抽出するために、時間に関してPOIで実行される。
本方法及びシステムの個々の実施例では、ジェスチャ認識が、仮想キーボード・アプリケーションを制御するために使用可能であり、仮想キーボードのGUIのレイアウトは、限られた数のジェスチャで非常に単純な動作をユーザが直観的に実行できるように配置され得る。好ましい実施例では、そのレイアウトは、いずれの他のジェスチャなしで文字を少なくとも事前選択し、次いで選択するためのPOI表現による、前後のジェスチャ、たとえば、上下又は左右など、ポインティングの動作のみを実行するようにユーザに要求し得る。たとえば、そのレイアウトは、事前選択ゾーン、事前選択ゾーンの下の選択ゾーン、及び、事前選択ゾーンの下に、選択された文字がその中に表示され得るテキスト・ボックスで構成され得る。追加として、単語事前選択ゾーンもまた、そのテキスト・ボックスの下方に設けることができる。上下に動くことによって、POI表現は、それが現在ポイントしている対応するゾーンの要素を自動的に選択する。別の実施例では、ユーザは、各ゾーンで判定されたジェスチャを実行して選択された要素を認証することを要求され得る。
前述の先行技術文献の開示とは対照的に、本発明は、実時間対話能力を有するユーザ・インターフェース方法及びシステムを提供し、新しい多次元の接触なしの及びマーカなしのジェスチャ認識技術に基づく。これは、所定のインターフェース要素が文脈/ユーザ/物体対話に関連して表示されることを可能にする。本方法及びシステムは、世界的な最も一般的で知られている人間のジェスチャ、たとえば、「連続的ポインティング」、「ウェーブ」、「押す」、「引く」、「左へスワイプ」、「右へスワイプ」及び「円形」トリガ、又はすべての最も一般的な幾何学的形状に限定されたジェスチャ・ライブラリを使用することによって、人間工学的に最適化される。加えて、本方法及びシステムは、単一の対話及び逐次の対話の両方を行う際のユーザの体験を改善するための労力を最小限にすることによって、たとえば、POI位置との組合せでタイマを使用することによって、或いは、インターフェース機能をアクティブ化する又は選択を確認するための単純な制御ジェスチャを使用することによって、人間工学的に最適化される。
アイコン、ボタン、アバタなどの制御要素をサポートするナビゲーション・システム内のメニュが提供され得る。別法として又は追加として、その制御装置要素は、少なくともマルチメディア・メニュ及び/又は少なくとも仮想キーボードを定義することができる。理想的には、サポートする制御要素の配置は、対話効率及び直観性、ひいてはユーザの体験を改善するように編成される。
POI検出は、多次元のシーン分析に基づく。そのシーンは三次元のクラスタ化されたシーンを含み、そのクラスタは時空間コヒーレンシを示す。シーン分析はまた、単一の及び/又は複数の対象ポイント、並びに単一の及び/又は複数の対象領域をサポートする。
本発明の方法及びシステムはまた、ジェスチャに基づく対話が入るROIと、それらの対話ジェスチャを生成することになるシーンの少なくとも主要なPOIの両方とを定義するアクティブ化ジェスチャの検出をサポートする。制御ジェスチャは、ジェスチャ認識が実時間POI軌道分析によって実行される対話をトリガするために使用される。加えて、POIの表現は、POIの動作及び時間に対するその位置に関するフィードバックを少なくとも提供する。
本発明は、POI候補検出、POI候補へのアクティブ化ジェスチャ認識、POI軌道分析からの制御ジェスチャ認識、時間に関する識別されるPOIの管理、時間に関する識別されるROIの管理、POIとユーザ・インターフェースとの間の対話、文脈ユーザ・インターフェース・ナビゲーション・システムの最適化、及びマーカのない、ジェスチャに基づく仮想キーボード入力ユーザ・インターフェースの最適化に関して、以下に説明される。
図1には、本発明のユーザ・インターフェースを実装するための3つの主要な構成要素を説明する流れ図100が示される。シーン内のPOIが、候補要素の軌道分析に基づくアクティブ化ジェスチャ認識と組み合わせて局所化及び識別技法を使用して、検出される(ステップ110)。少なくともPOIが検出された後は、そのPOIによって作られるジェスチャが、その軌道分析に基づいて検出される(ステップ120)。ユーザ・インターフェースを使用するナビゲーションが次いで、検出されたジェスチャを使用して行われる(ステップ130)。これらのステップは、以下にさらに詳しく説明される。
図2は、本発明によるユーザ・インターフェースで実行される動作を示す流れ図200である。ステップ205で、入力データが、画像処理システムに提供される。この入力データは、少なくとも深度マップ又は多次元若しくは三次元ポイント・クラウドを含むシーンの三次元画像の形をとる。本深度マップは、三次元画像内の各画素の画像化システムの部分を形成するカメラからのポイント・クラウド内の各ポイントの距離に相当する。三次元画像は次いで、セグメント化されて(ステップ210)複数のクラスタを作成する。ステップ215で、クラスタのリストが、ステップ210からの出力として提供される。クラスタのリストが次いで、候補クラスタ・リファイナリ・プロセスの入力として使用され(ステップ220)、それは候補クラスタのリストを提供する(ステップ225)。候補クラスタ・リファイナリは、すべてのシーン・クラスタの中で、シーンRAGの末端であるという特性を示し、またコヒーレントな動きの特性を有するものを少なくとも判定することを目的とする。これらの候補クラスタは、ステップ230でのアクティブ化ジェスチャ認識プロセスで使用され、その目的は、どの候補クラスタが最初に所定のアクティブ化ジェスチャを実行したかを判定することである。ジェスチャ認識の部分として、対象ポイントのリスト及び対象領域のリストが生成される(ステップ235)。これらのリストは、そのプロセスで無用なPOI及びROIを取り除くために、又は、新しいPOI若しくはROIを追加するために、管理され(ステップ240)、そうして、制御ジェスチャ認識のための入力を形成する(ステップ250)。制御ジェスチャ認識は、事象トリガ及び連続的制御を提供し(ステップ255)、それは文脈インターフェース制御に使用される(ステップ260)。
図3は、POIが位置を特定される及び識別される特定の実施例を示す流れ図300である。入力データは、深度マップの形でもよい。深度マップデータは、再スケーリング/多重解像度プロセス(ステップ310)のためのステップ305での入力である。再スケーリング/多重解像度プロセスからの出力はNレベルのピラミッド形画像入力データを含む(ステップ315)。このデータは次いで、制約付き三次元クラスタリングで及び/又は三次元シーン・セグメント化で使用される(ステップ320)。そのクラスタリング及び/又はセグメント化ステップは、低解像度及び高解像度の両方のデータを含むNレベルのクラスタ化された入力データを提供する(ステップ325)。低解像度データは次いで、リファイナリ・ステップで精密化され(ステップ330)、低解像度及び高解像度の両方のクラスタを含むクラスタ化された入力データを作り出す(ステップ335)。クラスタ化された入力データは次いで、領域隣接グラフ(RAG)ビルダで(ステップ340)、n次元の末端検出器で(ステップ350)、並びに動き及びコヒーレンシ分析プロセスで(ステップ360)、使用される。隣接グラフ・ビルダは、そのシーンのクラスタ間の接続状態を定義する領域隣接グラフを作り出し(ステップ345)、n次元末端検出器が、グラフ末端を含むシーン・クラスタのリストを作り出し(ステップ355)、動き及びコヒーレンシ分析が、コヒーレントな動きをするクラスタのリストを判定する(ステップ365)。これらの3つの要素の各々に関連するデータは、クラスタ及び/又はPOI識別プロセスのための入力を形成し(ステップ370)、それは、典型的にはアクティブ化ジェスチャに相当する特定の動きを示す、第1のコヒーレントな動きをするクラスタであるとして(ステップ365)、及びシーン末端であるとして(ステップ355)、少なくとも第1のPOIを判定する。POIのリスト及びROIのリストが、形成される(ステップ375)。POI及びROIのリストが、POI及びROIマネージャに入力される(ステップ380)。
それぞれステップ310及び320で、多重解像度及び三次元シーン・セグメント化のオーダは、この段階は重要ではない。多重解像度は任意選択のプロセスであり、同じ結果が他のプロセスを使用して取得可能であることが理解されよう。
多重解像度プロセスの概説が、図4に概して示される。以下にさらに詳しく説明するように、そのシーンの高解像度深度マップを取得し(ステップ410)、多重解像度技法を使用して、高解像度深度マップを処理すること(ステップ420)で始まる、流れ図400が示される。多重解像度プロセス(ステップ420)は、高解像度深度マップをダウンサンプルして、少なくとも高解像度深度マップ410を作り出し、また少なくとも中/中間解像度深度マップ430及び低解像度深度マップ440をそれぞれ作り出すための、ピラミッド形処理を含む。多重解像度プロセス420は、少なくとも解像度をピラミッドの各レベルについて2で割ることを含む。3つのレベルのみが示されるが、プロセス420は、任意の適切な数のレベルを含み得ることが理解されよう。ピラミッド形ダウンサンプルの実例が、図5に示される。
図5(a)では、8×8画素の配列500が示される。各画素は、図示するように配列された1、2、3、4又は5の深度値を有する。これらの値は、例として与えられ、画像化システムの部分を形成するカメラからの各画素の距離を示す。この場合、配列500は、n*nの固有の解像度を有する高解像度深度マップを表すことが意図されている。
高解像度深度マップが次のレベルまでダウンサンプルされるとき、8×8配列は4×4配列にダウンサンプルされ(図5(b)に示すように)、4つの画素の各グループ、たとえばグループ510、内の最小深度値は、配列540内の4の深度値を有する単一の画素530として保持される。配列540は、最初の高解像度深度マップの中解像度レベルを表すことが意図されている。ダウンサンプルのプロセスでは、最初の高解像度深度マップは保持され、中解像度深度マップは、その場合に、(n/2)*(n/2)の解像度を有して作成される。
中解像度深度マップはまた、図5(c)に示すように、低解像度深度マップにダウンサンプルすることができる。ここで、4×4配列540は、ダウンサンプルされて2×2配列を形成する。配列540内の4つの画素の1つのグループ550は、ダウンサンプルされて低解像度配列580内の1つの低解像度画素570を形成するものとして示される。これまでのように、4つの画素の各グループ内の最小値は、低解像度深度マップ内に保持され、この場合、3である。低解像度深度マップは、(n/4)*(n/4)の解像度を有する。必要に応じて、配列580の解像度を変更して、(n/8)*(n/8)の解像度を有する単一のピクセルを形成することが可能になろう。
8×8配列、4×4及び2×2配列は例としてのみ与えられることが、理解されよう。実際には、各高解像度配列は、もはやダウンサンプルが可能でなくなるまで、解像度(n/k)*(n/k)まで任意の回数ダウンサンプルすることができるn*n配列を備え得る。
図6には、シーン・クラスタリングのステップを説明する流れ図600が示される。低解像度深度マップ610は、制約付きK平均法リーダ・フォロワ・アルゴリズム(KMLF)620への入力を形成する。KMLFは、シーンを画素の時空間コヒーレント・グループ、クラスタ(重心を有する)にセグメント化するように動作する、知られているアルゴリズムの混合である。KMLF620からの3つの主要な出力、すなわち、低解像度クラスタの低解像度画像630、各クラスタの重心のリンク・グラフ640、及びこのリンク・グラフからの、単一の他の重心のみに接続された重心の末端局所化及び識別650が存在する。リンク・グラフ640は、n次元リンク・グラフを含み、n=3である。
図7(a)は、画素深度値を備える低解像度画像を示し、その画像は、たとえば制約付きKMLFアルゴリズム620(図6)で、クラスタ化される必要がある。11×1配列を備える低解像度画像700が示される。その配列内の各画素は、図示するように1、2、3、4又は5の深度値を有する。各クラスタがほぼ同じ深度値を有するクラスタへの画素のグループ化が、図7(b)に示される。
図7(b)では、クラスタ701、707、708及び710が同じ深度値を有することが容易に理解され得る。クラスタ702、703、704、705、706及び709について、それらのクラスタ内の画素の大多数は同じ深度値を有するが、異なる深度値を有する画素も少数存在し得る。周囲の又は隣接する画素に対する異なる深度値を有するこれらの画素は各々、同じ深度値を有する別のクラスタから効果的に排除されることが理解されよう。加えて、処理を容易にするために許容されるクラスタの最大サイズの制限が存在する。
図7(c)には、各クラスタ701、702、703、704、705、706、707、708、709、710のそれぞれの重心751、752、753、754、756、757、758、759、760が示される。重心は、図7(d)に示すように、二次元空間並びに三次元空間でリンクされ得る。
図7(d)では、重心752、753、754、755、756、758、760が、図示するように互いに接続され得る。重心751、757及び709は、それらのクラスタがそれらの周囲のクラスタのものと大幅に異なる深度値を有するので、それらは接続することができない。これは、これらのクラスタが3D接続されず2D接続され得るためである。2D接続は重心が二次元でのみ接続されることを意味し、3D接続は重心が三次元で接続されることを意味する。結果として、重心758及び760は、隣接するクラスタ内の1つの隣接する重心、すなわち図示するように重心754及び重心756に3D接続のみされる。したがって、クラスタ708及び710とそれらの関連重心758及び760は、末端を各々示す。
ここで図6に戻ると、図7を参照して説明されるように、低解像度クラスタの低解像度画像630、重心及び位置を特定された末端650のリンク・グラフ640が判定される。低解像度クラスタの低解像度画像630から、低及び高解像度クラスタの高解像度画像670が、リファイナリ・プロセス660を使用して取得される。
リファイナリ・プロセス660は、その中に少なくとも1つのPOIが置かれた三次元ROIによって定義されるROI(図示せず)に属するクラスタにのみ適用され得る。開始時に、すなわち、フレーム1は、又は、ROIが1つもアクティブ化若しくは作成されていない場合に、高解像度画像670は、低解像度クラスタの低解像度画像630と同一である。少なくともROIが定義された後は、ROIの外のクラスタは、精密化することができず、ROI内のクラスタのみが精密化され得る。しかしながら、少なくともROIの外のコヒーレントな動きをする末端クラスタは、別の実施例では、精密化され得る。
図8は、リファイナリ・プロセス660から取得された入力及び出力を示す。図8には、流れ図800が示され、そこで異なる解像度クラスタ化された入力データ810は、高解像度クラスタ化された出力データ830の出力を提供するためにリファイナリ・プロセス820へ入力される。リファイナリ・プロセス820の目的は、画像が解像度を上げるとき、たとえば、低解像度から始まり中解像度に、次に高解像度になるときに、クラスタ間の境界をはっきりとさせることである。ピラミッドの各レベルで、各画素について、リファイナリ・プロセスが、どのクラスタに画素が実際に付加されるかを定義し、それによってそのクラスタの識別をその画素にリンクさせる。各画素について、それは、たとえばユークリッド距離に関してそれに最も近いクラスタに割り当てられる。画素とクラスタの間の「近さ」を判定する他の方法もまた使用され得ることが、理解されよう。リファイナリ・プロセス820は、図9により詳細に示される。
図9(a)では、より低い解像度配列900が、時間tでのクラスタ識別について示される(LR(t))。5つの画素、「A」から「E」が示される。画素「E」は、ここで対象の画素である。より低い解像度配列900がやはり時間tに図9(b)の配列930によって示すようにより高い解像度にアップサンプルされるとき(HR(t))、画素Eはもはや画素「E」ではなく、画素「a」として考えることができる。しかし、画素「a」のアイデンティティは、時間t−1での図9(c)の配列960に示すようないくつかの値のうちの1つでもよい(HR(t−1))。
しかし、各画素について、それは、それが比較されているクラスタの画素と重心の間のユークリッド距離に関して最も近いクラスタに割り当てられる。前述の図9に示すように、画素「a」のクラスタ候補は、以下のうちの1つとして表すことができる:
ID(a)HR(t)=ID(Dmin(V(E);V({A,B,C,D}LR(t));
V({0,1,2,3,4,5,6,7,8,9,10,11}HR(t−1)))
但し、
ID(a)は、画素「a」の識別タグであり、
LR(t)は、時間tでのより低い解像度画像であり、
HR(t)は、時間tでのより高い解像度画像であり、
HR(t−1)は、時間t−1でのより高い解像度画像であり、
min(V;X)は、画素「E」とXの間の最小ユークリッド距離であり、但し、Xは最も近いクラスタの重心の位置であり、
V(x)は、対応する画素の三次元値であり、そのIDはxであり、
{A,B,C,D}は、より低い解像度配列900内の画素クラスタ識別候補リストであり、
{0,1,2,3,4,5,6,7,8,9,10,11}は、t−1でのより高い解像度配列960内の画素クラスタ識別候補リストである。
言い換えれば、より高い解像度配列930内の時間tでの画素「a」のクラスタ識別は、それが割り当てられると考えられ得るクラスタの画素「a」と重心の間の最小ユークリッド距離によって判定される。前述のように、画素「a」のクラスタ識別は、以下によって定義されるような最小距離である:
(i)時間tでのより低い解像度配列900内の対応する画素「E」の三次元値(V(E))、
(ii)時間tでのより低い解像度配列900内の対応する画素「A」、「Β」、「C」又は「D」のうちのいずれか1つの三次元値(V({A,B,C,D}LR(t))、或いは、
(iii)時間t−1でのより高い解像度配列960内の対応する画素「0」から「11」のうちのいずれか1つの三次元値1V({0,1,2,3,4,5,6,7,8,9,10,11}HR(t−1))。
図10は、リファイナリ・プロセスの結果の単純な図解である。図10(a)には、2つのクラスタ1010、1020がより低い解像度画像1000内に示される。図10(b)は、リファイナリ・プロセス820が実行された後のより高い解像度画像1050内の同じ2つのクラスタ1060、1070を示す。
前述したものなどのリファイナリ・プロセスの実施例では、画素は、それらが認証されていない場合には、処理は考慮されない。たとえば、その画素を照射するカメラからの赤外線ビームが所定の閾値を下回る場合、不良照明勾配がある場合、その画素が背景の部分であるとしてフラグを立てられた場合、又は、その画素が何らかのクリップ面の仮想限界の外側にある場合、画素を認証することができず、そのクリップ面は、処理される三次元空間を限定する。
図11は、ユーザ・インターフェースの実施例、より特別には、制御及び/又は対話をサポートすることになるPOIの検出及び識別に関する流れ図1100を示している。その実施例では、ユーザ・インターフェースアクティブ化ジェス・チャプロセス検出器への2つの主要な入力が存在し、典型的には、低解像度及び高解像度のクラスタ画像1110のうちの少なくとも高解像度(図6を参照して前述したようなシーン・クラスタリングの1つの出力として作り出された)とそのクラスタが、末端1120(図6及び7を参照して前述したようなシーン・クラスタリングの間接出力としてやはり作り出された)であるとして識別される。クラスタ化された画像1110及びクラスタ末端リスト1120は、図6のリンク・グラフ640内で末端であるとしてタグ付けされ、且つコヒーレントな動きを示す、クラスタのすべての重心を見るアクティブ化ジェスチャ検出器1130へ入力される。移動する重心のコヒーレンシは、それが属するクラスタの経時によって判定され、それが所定の閾値を下回る制限された量のノイズを有する動作(すなわち、痙攣性の軌道ではない)を示すという事実によって判定される。移動する物体のコヒーレンシ、この場合クラスタの重心は、たとえば、POI、すなわち重心自体の方向の連続的変化を検出すること、及び軌道局在化での各変化のそれぞれの位置、並びに(軌道変化位置で)見つけられた準シード・ポイントの順序付けに関するいくらかのデータ演算及び統計値を計算することによって判定される。一実例では、各フレームでPOIの方向の変化を示す軌道は、コヒーレントではなく無用な方法によると考えることができる。別の他の実例では、フレームからフレームへの反対方向での高速の動作を示す軌道はまた、無用であり、コヒーレントな動きをするポイントではないと考えることができる。概して、POI動作コヒーレンシは、その動作がある一定の範囲の速度及び加速内にあり、ある一定量の時間に亘って既存のPOIによって実行され、同方向の連続的軌道間のある一定の量の方向ベクトル共直線性を示すことを必要とする。
ステップ1130でのアクティブ化ジェスチャ検出は、POI軌道分析を実行することを含み、したがって、POIの方向の変化の検出に依存する(制御ジェスチャ・プロセスは同プロセスに依存し、POIのリストはアクティブ化ジェスチャ・クラスタ候補リストに対して限定されるので、それは入力によってのみ異なる)。見つけられた軌道方向の各変化について、基準シード・ポイントが、前述のように定義される。すべての基準シード・ポイント位置が、システムに記憶される。連続的アクティブ化ジェスチャ認識は、軌道の連続的分析を意味する。画像化システムによって取り込まれた各フレームで、最後の知られている基準シード位置への少なくともPOI距離、D、が計算され、そのジェスチャの検出以降の、ある一定の数のサンプル内のその軌道の全長Lもまた判定される。連続的基準シード・ポイント間の順序付け、時間的、幾何学的及び統計的特性がジェスチャを定義するものと対応する場合、そのジェスチャは次いで、即座に認識され、基準シード・ポイントを記憶するメモリがリフレッシュされる。
アクティブ化ジェスチャ検出器1130は、それらが期待されるアクティブ化ジェスチャと一致するかを判断するために、末端であり、コヒーレントな動きにおいて基準に合ったPOI候補の軌道の実時間分析を行う。アクティブ化ジェスチャのそのようなタイプが、以下にさらに詳しく説明される。アクティブ化検出器1130は、期待されるアクティブ化ジェスチャが検出可能になるように、視界内の少なくとも末端であると考えられる重心の軌道分析を実行する。期待されるアクティブ化ジェスチャが検出された後は、ROIがその視界内に作成される。そのアクティブ化ジェスチャを形成するPOI候補(たとえば、クラスタ重心)は次いで、作成されたROI内のマスタPOIになる。追加として、アクティブ化ジェスチャ検出器は、事前定義されたリストのアクティブ化ジェスチャのうちの少なくとも1つを行った少なくとも1つのクラスタ(POI候補)について、対話を実行するPOIであるとして識別されたクラスタのリストを作り出す(ステップ1140)。
コントローラ・ボックスマネージャ(ROIマネージャ)1150は、クラスタリスト内の識別されたPOI、すなわち各ケースでの対応する重心の識別を使用して、その重心の三次元位置が既存のROIから十分に離れていること、複数のROIが特定のユーザ・インターフェース・アプリケーションで許可されているか、及び/又はROIの再作成が許可されているかをチェックする。再作成は、単一のROIインスタンスのためにアクティブ化され得、且つ現在存在するROIがポインタを有さない場合に及びその場合にのみ、並びにアクティブ化ジェスチャが既存のROI外で行われた場合に、適用されるパラメータである。ポインタは、アクティブ化ジェスチャから又はアクティブ化ジェスチャの後に識別された対象ポイントと考えられるが、その位置はROI内である。
加えて、アクティブ化ジェスチャを行った重心は、ROIマネージャ1150の制御の下で作成されたROI内のマスタ・ポインタになり得る。次のコヒーレントな動きをする末端がROIに入る場合、それは、そのROI内で許可されたPOIの数に従って、別のPOIになり得る。ROIマネージャ950は、ROIのリスト及び各ROIのPOIのリストを出力する。POIは、マスタPOIである又はないとしてフラグを立てられ得る。ROIマネージャは、対応するROIに属する各POIの識別を使用して、時間に関してROIを管理する。
ROIはn次元空間であり、その次元は個々のシステムによりあらかじめ定められていることに留意されたい。別の実施例では、その次元は、たとえば、POIがROIの外に出ようと試みる場合に、動的に変更可能である。ROI内の少なくとも2つのPOIで対角線の末端を定義することも可能である。加えて、所定の継続期間D1に亘ってその中でアクティブ化されたPOIを有さないROIは、非アクティブ化され、次いで、それがさらなる所定の継続期間D2に亘って非アクティブ化されたままである場合には、破棄される。
アクティブ化されたPOIは、RAGの末端であり、コヒーレントな動きを示すものである。
所定の継続期間D3に亘って動かないアクティブ化されたPOIは、非アクティブ化される。それがさらなる所定の継続期間D4に亘って非活動されたままである場合、それは次いで破棄される。
ROIの外に出たPOIは、それがROIへの境界線を横断した後には、非アクティブ化される。それが所定の継続期間D5に亘ってまだ非活動されている場合、それは破棄される。しかし、そのPOIは、コヒーレントな動きをする末端(重心)が、前のPOIが離れたのと近い位置で、D5期間が満了する前に再びそのROIに入った(バックドア領域を介して)場合には、再アクティブ化され得る。バックドア領域は、POIが閾値タイマによって制御される所定の継続期間に亘ってROIを離れた場所に近い位置でそのPOIがROIに再度入る領域である。
ここでジェスチャ制御を見ると、制御信号として使用される多数のジェスチャが存在し得るが、「円形」、「ウェーブ」、「スーパー・ウェーブ」、「スワイプ」、「押す」、「引く」、「静止」、「クリック」及び「ポインティング」のみが記載されることが理解されよう。
視界内でPOIとして機能することができるユーザ又は物体の末端の存在を判定して、「円形」が、たとえば、画像化システムにそのインターフェースがアクティブ化される又はスイッチを入れられることになることを指示するために、アクティブ化ジェスチャとして使用される。しかし、アクティブ化ジェスチャは、本発明に従って、ユーザ・インターフェースを必ずしも立ち上げ又はアクティブ化しないことがあり、どのPOIがインターフェースと対話することになるかのみを判定することがあることに留意されたい。図12は、軌道に基づく「円形」ジェスチャ認識を示す。
図12では、POIの軌道は、重心位置によって示されるようにフレームからフレームで判定される。A、B、C又はDを含むポイントのうちのいずれか1つで開始し、図示するように時計回りで移動して、重心の軌道は、それが「円形」の周りを移動するものとして示される。重心は「円形」の周りを移動するとき、X軸及びY軸に関する軌道方向の以下の変化が検出される:
(i)ポイントDからポイントAに、+Y軸の方向で変化がある。
(ii)ポイントAからポイントBに、+X軸の方向で変化がある。
(iii)ポイントBからポイントCに、−Y軸の方向で変化がある。及び、
(iv)ポイントCからポイントDに、−X軸の方向で変化がある。
「円形」は、重心の+Y軸、+X軸、−Y軸及び−X軸の方向での軌道変化の離散的読取り値ポイントの代替変化によって検出されて、検出された四分円の数を判定する。少なくとも4つの四分円を実行するPOIは円形を実行していると見なされ、循環係数が、そこで方向の変化が検出された少なくとも4つの基準シード・ポイントを使用することによって、判定され得る。「円形」は、少なくとも4つの連続的四分円が重心の単一の軌道で検出されるときに、検出される。前述の重心の方向の変化は、ポイントAとCの間の距離DeVと、ポイントBとDの間の距離DeHとともに検出されて、重心が「円形」のアクティブ化ジェスチャを実行したかどうかを判定する。「円形」を定義するパラメータは、同方向、たとえば、時計回り又は反時計回り、で検出された少なくとも4つの連続的四分円と、所定の次元の円形サイズと、ある一定の継続期間に亘って実行された円形と、前述のようなある特定の循環係数を有する円形とを含む。
図13は、軌道に基づく「ウェーブ」ジェスチャ認識を示す。POIの軌道は、POI位置によって示されるようにフレームからフレームで判定される。ここで、ポイントA、B、C及びDは、それが「ウェーブ」を実行するとき、POIの軌道の基準シード・ポイント(その場合にはウェーブ・ジェスチャ軌道の末端)に相当する。ポイントAで開始して、POIは、ポイントBまでの距離、ポイントCに戻るほぼ同様の距離、及び、ポイントDまでのほぼ同様の距離を進む。図示するように、Dx、DY及びDzのそれぞれX軸、Y軸及びZ軸に関して重心が進む距離には変化がある。基準シード・ポイントA、B、C及びDと進んだ距離の検出は、「ウェーブ」ジェスチャが行われたという指示を提供する。
「ウェーブ」は、軌道の2つの連続的基準シード・ポイント間の方向の逆の変化によって検出される。2つの連続的基準シード・ポイント間の距離D1は、ウェーブの半分に相当する。いくつかの種類の基準シード・ポイントが、方向の変化の特性により判定され得る。各ジェスチャは、いくつかの種類の基準シード・ポイントの時間に関する組合せでもよい。たとえば、Y方向での変化は、「種類A」と称される基準シード・ポイントでもよく、X方向での変化は、「種類B」と称される基準シード・ポイントでもよいなどである。別の距離D2は、それが半分のウェーブの数を増やす限り、累積される。この他の距離D2は所定の範囲に入り、任意選択で、重心の動きが所定の速度範囲内である場合には、連続する半分のウェーブの数もまた他の所定の値、すなわち少なくとも2つの半分のウェーブ、より大きい場合には及びその場合にのみ、「ウェーブ」が検出されると判定される。
「スーパー・ウェーブ」は、2つの連続する終点間の距離が「ウェーブ」に関する距離よりも大きいことがあり、重心の速度もまた「ウェーブ」に関する速度よりも速いことがあり、たとえば、連続する半分のウェーブの数が「ウェーブ」に関する数よりも大きいという点で、「ウェーブ」とは異なる。
図14は、軌道に基づく「スワイプ」ジェスチャ認識を示す。POIは、「スワイプ」ジェスチャの実行で左から右に移動し、そのPOIの軌道は、PAT1、PAT2、PAT3、PAT4及びPAT5にある重心位置によって示されるようにフレームからフレームで判定される。各フレームでのPOIの位置は、PAT1、PAT2、PAT3、PAT4、PAT5として示され、各フレームでのPOIの速度ベクトルは、それぞれ、V1、V2、V3及びV4として示される。たとえば、PAT1は、T0でのポイントAに相当する。図示するように、POIが第1の位置PAT1から最後の位置PAT5に移動するとき、X軸、Y軸及びZ軸に関する距離Dx、DY及びDzはまた、フレームからフレームで変化し得る。
POIの速度が所定の閾値を超え、重心が線形の軌道を有する場合、「スワイプ」が検出される。その線形の軌道内のPOIによってカバーされる距離もまた、所定の閾値を超える必要がある。
図15は、軌道に基づく「押す」又は「引く」ジェスチャ(互いに反対の)を示す。POIは、「押す」ジェスチャでは位置PAT1からPAT4に移動し、「引く」ジェスチャではPAT4からPAT1に移動し、そのPOIの軌道は、PAT1、PAT2、PAT3及びPAT4にあるPOIの位置によって示すようにフレームからフレームで判定される。各フレームでのPOIの速度ベクトルは、それぞれV1、V2及びV3として示される。前述のように、PAT1は、T0でのポイントAに相当する。
「押す」は、事実上「スワイプ」の一種であるが、深度又はZ軸で、カメラの方向にある。具体的には、X軸及びY軸に関してPOIの位置は、実質的には変化しない。
「引く」は、実際には「押す」と同じであるが、カメラから離れる方向にある。
図16は、軌道に基づく「クリック」ジェスチャ認識を示し、POIの軌道はPAT1、PAT2、PAT3、PAT4及びPAT5の重心位置によって示すようにフレームからフレームで判定される。PAT1は、T0でのポイントAに相当する。この場合、POIは、Z軸に沿ってPAT1からPAT5まで移動し、次いでPAT6に戻る。速度及び/又は加速は、いつでもPOIについてフレームからフレームで計算される特性であるので、速度ベクトルV1のみが図16に示される。
「ポインティング」ジェスチャは、それが関連付けられたROIの次元に少なくとも関するPOIの相対的位置に対応する。そのPOIは、マスタPOI又は次のPOIでもよい。
さらなるジェスチャは、POIが少なくとも所定の継続期間中、対応するROI内の所定の位置にとどまる、「静止」である。
概して、ジェスチャは、連続的基準シード・ポイント間での基本的幾何学的、時間的及びPOI軌道特性を計算することによって検出され、各基準シード・ポイントは、前述のように、異なる種類の軌道特性が検出された位置である。ジェスチャはまた、基準シード・ポイント順序付け分析を使用して判定される。
図17は、ユーザ・インターフェース・ナビゲーション・システムの流れ図1700である。本システムは、2つのモード、すなわち、ボックス1720によって示すようなパッシブ制御モードとボックス1760によって示すようなアクティブ制御モードで動作することができる。入力データ、ボックス1710は、図示するようにパッシブ及びアクティブ制御モードの両方で使用され、その入力データは、動き検出、ユーザ識別、ユーザ局所化及びPOI検出モジュール1725と、ジェスチャ制御、音声制御及びハードウェア制御モジュール1765とについての入力を形成する。
パッシブ制御モードでは、入力データ及びステップ1725でのプロセスが、本システムをアクティブ制御モードにする事象として何らトリガされない場合、ナビゲーション・システムは、スタンバイ・モード、ボックス1730で動作することができる。三次元シーン文脈解析器モジュール1735は、本システムがアクティブ化されるかスタンバイ・モードにとどまるかを判定することができる。モジュール1735は、典型的には「スタンバイ・モードを継続する、又はそれに切り替える」、或いは「アクティブ化されたモードを継続する、又はそれに切り替える」、入力制御をモジュール1725から受信する。たとえば、部屋に入るユーザは、カメラの視界にも入ることができ(ステップ1725)で識別されることになる動きを生成することができる。識別された動きは、実際に、本システムのアクティブ化されたモードの文脈メニュ及び/又は文脈アプリケーション・モジュール1770と対話するモジュール1735内の三次元シーン文脈解析器を経由して、スタンバイ・モードにあったナビゲーション・システムをアクティブ化されるモードに切り替えることを要求する。たとえば、アクティブ化されたモードに切り替えるとき、本システムは、グラフィカル・マルチメディア・インターフェースの画面メイン・メニュを画面上に表示することができる。モジュール1770は、順に、文脈ユーザ制御モジュール1775と対話する。モジュール1775が、典型的にはGUIと対話することを許される自然なジェスチャ制御である入力制御の信号をモジュール1765から受信する。文脈メニュ及び/又は文脈アプリケーション・モジュール1770は、様々な形態をとることができ、ユーザのためのインターフェース・フィードバックを提供する。たとえば、アニメーションの人物が、使用されて、文脈メニュ及び/又は文脈アプリケーション・モジュール1770と対話するために必要とされるジェスチャを指示することができる。
図18は、図17のモジュール1770によって立ち上げられた文脈アプリケーションでもよい、仮想キーボード・メイン・フレーム1800を示す。メイン・フレーム1800は、事前選択エリア1810、選択エリア1820、選択シーケンス・ビュー・エリア1830、及び提案エリア1840を含む。事前選択エリア1810は、ユーザによって選択されることになる様々なカテゴリ内にアイコン又は要素が置かれた副事前選択エリア1812、1814、…、1818を含む。典型的には、その要素は、文字の性質に従ってグループ化される。選択エリア1820は、事前選択エリア内でユーザによって選択された個々のカテゴリに関連するアイコン又は要素の選択がその中に置かれるn副選択エリア1822、1824、…、1828を含む。選択シーケンス・ビュー・エリア1830には、ユーザによって行われた選択が表示される。提案エリア1840は、選択されたシーケンス・ビュー・エリア1830に置かれた最後に選択されたシーケンスについて、提案がユーザに出されるn副提案エリア1842、1844、…、1848を含む。仮想キーボードの実装形態が、図19に示される。
図19では、仮想キーボード1900の特定の配置が示される。キーボード1900は、文字のグループが表示されるエリア1910を含む。文字1912、1914、1916、1918、1920、1922の各グループは、個々に選択可能であり、文字のグループの数は変化し得る。エリア1910の左手側には、エリア1930が、中央事前選択エリア1910内に数字を表示可能にするために提供され、エリア1910の右手側には、特殊文字のためのエリア1940が提供される。エリア1910、1930及び1940は、図18を参照して前述した事前選択エリア1812、1814、…、1818に対応する。
エリア1950は、図18の選択エリア1820に対応し、選択のオプションとして文字K、L、M、N、Oでここでは示され、各文字Kは副選択エリア1822、1824、…、1828(図18)のうちの1つに対応する。エリア1960は、図18の選択シーケンス・ビュー・エリア1830に対応し、エリア1970は、副提案エリア1842、1844、…、1848に対応するエリア1972、1974、1976、1978、1980を有する提案エリア1840に対応する。文字の数は、何らかの所定の規則に従って変わり得ることが、理解されよう。
図19では、エリア1916が、選択されて選択エリア1950内に文字K、L、M、N、Oを提供する。文字Kは、選択され、選択シーケンス・ビュー・エリア1960内に存在する。文字Kが選択されたとき、様々なオプションが提案エリア1970内で提案される。別の文字が、選択エリア1950内の現在の文字、又は事前選択エリア1910から選択された文字の新しいセットのいずれかから選択され、選択エリア1950内に存在するとき、提案エリア1970内の提案がそれに応じて更新されることになる。
数字エリア1930又は特殊文字エリア1940が選択された場合、数字又は特殊文字が選択のための選択エリア1950(図示せず)内に表示されることになることが理解されよう。
英数字及び特殊文字を有するキーボードが図19に示されるが、キーボードは、それらの英数字及び特殊文字の代わりに又はそれらに加えて他の記号若しくは文字を有し得ることが、理解されよう。
前述の個々の実施例では、実行されるべき必要なジェスチャは自然で、直観的で、苦痛がないので、ユーザ体験が改善される。たとえば、1930又は1940の副事前選択にジェスチャ制御されたポインタの位置を合わせることで、自動的に1910のビューを更新し、次いで1970の副事前選択に位置を合わせることで、1950のビューを自動的に更新し、次いで、1950の副選択に位置を合わせることで、自動的に選択ビュー1960を更新する。同様に、ポインタを使用したスクロールダウン、及び任意選択で提案要素1970のうちの1つをポイントするとき、そのような仮想キーボードの使用は、単一のジェスチャ(すなわち、ポインティング)が実行されること、及びユーザによって実行されるほぼ上下のみ(前後のみ)の動作を必要とする。
より効率的ではない一実施例では、要素事前選択若しくは選択又は提案妥当性検証が、タイマによって管理される所定の期間に亘って所定の要素をポイントすること、又は、所望の要素をポイントし、前述の「クリック」ジェスチャなどの少なくとも1つの他の自然なジェスチャを実行することによって、実行され得る。
図20は、ROI管理のための流れ図2000を示している。ROI候補のリスト及びPOI候補のリスト(すなわち、アクティブ化ジェスチャを行ったクラスタ)を含む入力2010が提供される。入力2010がチェックされて、許可された複数の対象領域が存在するかを判定する(ステップ2020)。1つのみのROIが許可される場合、そのとき本システムは、ROIが既に本システム内に存在するかをチェックする(ステップ2030)。ROIが既に存在しない場合、新しいROIが、少なくとも第1のROI候補に基づいて作成され(ステップ2040)、その新しいROIについて関連マスタPOIがセットされる(ステップ2050)。出力2060は、その場合、フラグを立てられたマスタPOIを少なくとも潜在的に有する対象領域及び対象ポイントの精密化されたリストを含む。
複数対象領域が許可される場合、そのとき本システムは、許される対象領域の数及び各ROIの少なくとも次元を含む入力パラメータ2015を使用し、ROI候補が有効であるかをチェックする(ステップ2025)。モジュール2025の入力パラメータ2015が満たされる場合、及び、ROI候補が既存のものと重複しない場合、次いで、新しいROIが、少なくとも第1のROI候補から作成される。関連マスタPOIもまたセットされる(ステップ2050)。
加えて、単一のROIが許可され、既に存在する場合、次いで、チェックが行われて、そのROI内のマスタPOIの状態がアクティブであるかを判定する(ステップ2035)。マスタPOIがアクティブでない場合、既存のROIは破棄することができ(ステップ2045)、新しいROIが、ROI候補及びその関連マスタPOIに関連して作成される(ステップ2040)。
図21は、POI管理の流れ図2100である。入力データ2110及び入力パラメータ2120が提供されて、マスタPOI(ステップ2130)及びスレーブPOI(ステップ2140)を管理する。典型的には、これに限定されないが、マスタPOIは、アクティブ化ジェスチャを実行したものとしての及びROIが付加されたPOIである。いくつかの他の実施例では、マスタPOI及びスレーブPOI状態は、何らかの所定の規則に従って交換され得る。たとえば、マスタPOIが失われた場合、スレーブPOIは、マスタPOIの状態を取得することができる。ステップ2130及び2140の各々からの出力は、対象マスタ及びスレーブポイントを相互に関連付けるために使用され(ステップ2150)、この結果は、識別された対象ポイントの新しいリスト及び識別された対象領域の新しいリストを含む出力2160を提供することになる。対象マスタ及びスレーブポイントの相関関係は、もはやアクティブではない又は有用ではない対象ポイントを非アクティブ化することを含み得る。
図22は、POI管理プロセスの流れ図2200を示している。入力データ2210、すなわちPOIが、POI状態分析プロセス2220に適用され、この場合、出力は、POI紛失2225、POIアクティブ2230又はPOIパッシブ2235のいずれかである。これらの出力は、たとえばいくつかのタイマ値に関して含む入力パラメータ2215とともにPOI特性分析プロセス2240に適用される。特性分析2240は、タイマ(現在の状態での時間の長さ)、位置、末端、及びPOIがマスタ又はスレーブかどうかなどの特性を評価する。特性分析2240から、以下の出力のうちの1つ又は複数が提供される:更新POI状態2250、バックドア管理2260、更新POI位置2270、POIマスタ/スレーブ相関関係2280、及びPOIブラック・リスト2290。POIブラック・リストは、個々のROIにおいて使用可能ではない対象ポイントの識別を含むリストである。たとえば、別のROIを出たPOIは、非アクティブ化され、次いでブラック・リストに入れることができる。そのようなPOIは、それが所定の継続期間の後に他方のROIから分離した場合に、そのブラック・リストから外すことができ、次いで、それが現在のROIに関連するパラメータを満たす場合に、現在のROIと潜在的に関連付けられ得る。
図23では、ROI及び対象ポイントの表現2300が示される。表現2300では、ユーザ2310である人の表現が提供され、その上に2つの対象ポイント2320及び2330がROI2340内に示される。典型的には、対象ポイントは、これに限定されないが、人間について、手の表現である。ROI2340は、対象ポイント2320、2330の両方を包含する三次元空間内に点で描かれたボックスとして示される。これらの対象ポイントの各々は、重心に対応し、そのシーンの対応するクラスタ化された画像の領域隣接グラフの三次元末端に置かれ、この場合には、手は、腕の端部に位置するので、人体の末端である。1つのPOI、POI2320が、マスタPOIとして選択され、他方のPOI、POI2330はスレーブPOIである。この特定の実施例では、マスタPOI及びスレーブPOIの両方が、制御ジェスチャ、たとえば、選択、妥当性検証などのために使用され得る。
アクティブ化及び制御ジェスチャ・インターフェース・フィードバックが、図24に示される。図24(a)は、「ウェーブ」ジェスチャを示す手の周期的に振動する動作2420を有するユーザのユーザ/コントローラ表現2410を示す。同様に、図24(b)では、ユーザ/コントローラ表現2410が、「円形」ジェスチャを示す手の円形の動作2430とともに示される。ユーザ/コントローラ表現2410は、図24(a)及び(b)に示されるものに限定されないが、ユーザによって容易に認識されることになる任意の適切な形で表され得る。
図24(a)及び(b)に示すようなユーザ/コントローラ表現を、典型的には、フィードバック情報として使用して、どのジェスチャが本発明によるユーザ・インターフェースとのユーザの対話中の特定の時間に必要とされるかをユーザに指示することができる。
図25は、ユーザとの対話(図示せず)に続くインターフェース要素フィードバック2500の1つの非限定的実施例を示す。省略時制御要素表現又はアイコンが2510に示される。アイコン2510とのユーザ対話中及び/又はその後、本アイコンは、以下のうちの1つとして表示され得る:2520に示すような周囲の変化、2530に示すような形の変化、2540に示すような内容の変化、2550に示すような現状維持、2560に示すような位置及び向きの変化、又は2570に示すような形、周囲及び内容の変化などの変化の組合せ。
図26は、本発明によるインターフェース要素フィードバック・プロセス2600の第1の好ましい実施例を示す。手の形で、システムとの対話を制御するPOIの表現2610が示される。その上に「アイコン」を有する円形のボタンの形でグラフィカル・ユーザ・インターフェース(GUI)制御要素表現2620もまた示される。「アイコン」は、何が必要とされているか、又はどの対話とその対応する要素が関連付けられているかをユーザが理解できるようにする任意の他の適切な標章、専門用語、又は色と置換え可能であることが理解されよう。たとえば、「アイコン」は、「ゲーム開始」と置き換えることができる。ボタン2620が選択されるとき、その外見が変化し、たとえば、そのボタンは、ユーザとそのボタンの対話の状態の指示として、図示するように埋められる又は強調表示される。これは、それが所望の動作及び/又は選択を開始する位置2660に到達するまで、2630、2640、2650で進行的に示される。ボタンが、そのボタンのアクティブ化を指示する正しい外見に達した後は、ユーザは、2670に示すようにそれを解除する若しくは非選択状態にすることができ、又はユーザ・インターフェースの新しい表現での対話を直接開始することができる。対話がユーザ・インターフェース要素変化を起こさない場合、本ボタンは、次のアクティブ化の準備を整えてその最初の外見に戻ることができる。
図27は、本発明による別の好ましいインターフェース要素フィードバック・プロセス2700を示す。インターフェース要素フィードバック2700は、前述の図26を参照して説明したフィードバック・プロセスと同じ方法で動作する。この場合、ボタン2720が選択されるとき、その外見は変化するが、今度は、所望の動作及び/又は選択が開始されるまで、ユーザとボタンの対話の状態の指示として、2740、2750、2760に示すように、時間に対する段階で、輪の形のアニメーション2730が形成される。ボタンがそのボタンのアクティブ化を指示する正しい外見に達した後は、対応する要素に関連する制御がグラフィカル・ユーザ・インターフェースの変更を行った場合に、ユーザは、2740に示すようにそれを解除又は非選択状態にする、或いは、別のインターフェースとの対話を開始することができる。本ボタンは、グラフィカル・ユーザ・インターフェースが変化しない場合には、次のアクティブ化の準備を整えてその最初の外見に戻ることができる。
インターフェース・ユーザ表現フィードバックはまた、インターフェース要素フィードバックについて図25を参照して説明したのと同様の方法で提供され得る。ユーザの表現が、対話状態に従って変化するものとして示される。この対話状態は、メニュ要素で又はユーザ・ジェスチャ制御で文脈的に定義され得る。たとえば、カーソル/ポインタ表現は、その可用性、その状態(活動状態若しくは非活動状態)、その位置(指定されたROI内若しくはその指定されたROIの外)、又はその対話状態(文脈インターフェース制御要素と対話する、若しくは対話しない)に従って変化し得る。前述のように、要素とのユーザ対話中及び/又はその後に、その要素は、以下のうちの1つとして表示され得る:周囲の変化、形の変化、内容の変化、現状維持、位置及び向きの変化、又は形、周囲及び内容の変化などの変化の組合せ。追加として、図26及び図27を参照して説明された実施例もまた、ユーザ・インターフェース表現フィードバックのために実装され得る。
さらに、カーソルの向きは、動作の方向に従って変化し得る。たとえば、カーソルは、前述のように手によって表すことができ、手の表現は、時間に対して開いたままであり、要素がインターフェース内で選択/確認/つかまれたときにのみ、手が閉じられた表現に変化する。
図28は、流れ図2800の形でインターフェース制御後対話プロセスを示す。図2800では、ジェスチャ認識に基づく制御プロセス2820への入力を提供する第1のインターフェース状態2810が示される。このプロセスは、第2のインターフェース状態の出力2840として提供する制御後ジェスチャに基づく妥当性検証プロセス2830への入力を提供する。
このプロセスは、ジェスチャ制御妥当性検証プロセスを導入するための説明である。ジェスチャ制御妥当性検証プロセスの目的は、望まない制御/命令/動作を実行する、さらなるジェスチャ又は誤ったジェスチャを防ぐために、単純な制御後対話で実行され認識されたジェスチャ制御を確認することである。たとえば、ユーザは、映画を見ながら、円形ジェスチャを実行することができ、円形ジェスチャは、システムのメイン・メニュを画面上に出現させるシステムのプロセスに関連付けられる。制御後プロセスは、ユーザが確かに映画を終了させて、メイン・メニュにアクセスしたいのかをそのユーザに尋ねる「はい/いいえ」妥当性検証ボックスを出現させることができる。「はい」/「いいえ」妥当性検証ボックスを使用するために、制御後は、別の自然なジェスチャ制御、たとえば、「はい」を示す右スワイプ及び「いいえ」を示す左スワイプを使用する入力を必要とする。さらに、別の実施例では、この妥当性検証ボックスの制御は、ジェスチャを実行するPOIが所定の期間に亘って所定の位置に維持される場合にのみ、アクティブ化され得る。妥当性検証インターフェースは、次いで、アクティブ化された制御に従ってその外見を変更することができ、たとえば、本インターフェースは、妥当性検証インターフェースが使用の準備ができ得た後には、赤から緑に変わることができる。
追加として、本発明の方法及びシステムは、以下の利点を有する:
(i)取込みデバイス入力データへのスケーラビリティ、すなわち、任意の解像度の画像に対応、
(ii)実時間クロスプラットフォーム動作、すなわち、任意のハードウェア及び/又はオペレーティング・システムに対応、
(iii)事前のユーザ/物体検出及び/又は識別を必要としない、
(iv)事前のユーザ部分/物体部分検出及び/又は識別を必要としない、
(v)ジェスチャ分類子を必要としない、
(vi)多重コントローラが許可され得る、すなわち、複数ROI及び/又は複数ユーザ/物体、
(vii)多重POIが許可され得る、すなわち、いくつかのPOIが各単一のROI内で許可される、
(viii)特定の追跡/動き推定アルゴリズムを必要としない、
(ix)最小限の身体的努力インターフェース、すなわち、インターフェースレイアウト編成での改良されたユーザ体験、
(x)直観的及び効率的なインターフェース、すなわち、制御のための少しの自然なジェスチャの使用、並びに、
(xi)インターフェースからのインテリジェント文脈情報フィードバック。
本発明のユーザ・インターフェースが個々の実施例に関して説明されたが、本発明は他の実施例を使用して実装可能であることが理解されよう。

Claims (16)

  1. ユーザ・インターフェース・システムが接続されたコンピュータ化されたシステムとユーザとの対話を提供するユーザ・インターフェース・システムであって、
    少なくとも1つの多次元の画像化システムであって、シーンの少なくとも1つの多次元の表現を、前記少なくとも1つの多次元の画像化システムの視界内に形成する、前記少なくとも1つの多次元の画像化システムと、
    前記多次元の表現において多次元の制約付きクラスタリング動作を実行して、前記シーンのクラスタ化された表現を生成し、該クラスタ化された表現から対象ポイント候補を識別するように動作する、前記少なくとも1つの多次元の画像化システムに接続されたプロセッサであって、各対象ポイント候補は、前記クラスタ化された表現内で、他の1つのクラスタのみに接続されたクラスタであって、コヒーレントな動きを示す前記クラスタとして識別される、前記プロセッサと、
    前記少なくとも1つの多次元の画像化システムおよび前記プロセッサに接続され、前記少なくとも1つの多次元の画像化システムの視界内の少なくとも1つの対象ポイント候補によって実行されたジェスチャを認識し、認識されたジェスチャを用いて前記コンピュータ化されたシステムを制御する、ジェスチャ認識システムと、
    を含む、前記ユーザ・インターフェース・システム。
  2. 前記ジェスチャ認識システムは、アクティブ化ジェスチャ検出器を含み、該アクティブ化ジェスチャ検出器は、少なくとも連続的軌道分析を使用して、
    少なくとも1つの識別された対象ポイント候補の軌道に沿って軌道ポイントを識別し、
    基準シード識別オーダを有する少なくとも1つの基準シード・ポイントを形成する少なくとも1つの多次元の変化を、前記少なくとも1つの識別された対象ポイント候補の軌道方向で識別し、
    前記基準シード・ポイント及び前記軌道ポイントを使用してジェスチャを認識する、請求項1に記載のユーザ・インターフェース・システム。
  3. 少なくとも前記基準シード・ポイントを記憶するメモリを更に含む、請求項2に記載のユーザ・インターフェース・システム。
  4. 前記アクティブ化ジェスチャ検出器は、少なくとも1つの所定の対象ポイント候補によって実行された所定のジェスチャを認識し、各所定の対象ポイント候補をアクティブ化する信号を前記プロセッサに提供する、請求項2又は3に記載のユーザ・インターフェース・システム。
  5. 前記プロセッサは、前記ジェスチャ認識システムから受信した前記信号に基づいて、アクティブ化された対象ポイントとして対象ポイント候補をアクティブ化し、各アクティブ化された対象ポイントが対象ポイント候補状態をなお有する、請求項4に記載のユーザ・インターフェース・システム。
  6. 前記アクティブ化された対象ポイントを管理する対象ポイント(POI)マネージャを更に含む、請求項5に記載のユーザ・インターフェース・システム。
  7. 前記ジェスチャ認識システムは、前記アクティブ化された対象ポイントの前記軌道ポイント及びシード・ポイントの少なくともいずれか1つを分析して、前記コンピュータ化されたシステムを制御するジェスチャを判定する、請求項6に記載のユーザ・インターフェース・システム。
  8. 前記プロセッサは、各アクティブ化された対象ポイントに関連する対象領域を判定する、請求項5から7までのいずれか一項に記載のユーザ・インターフェース・システム。
  9. 各アクティブ化された対象ポイントに関連する前記対象領域を管理する、対象領域(ROI)マネージャを更に含む、請求項7に記載のユーザ・インターフェース・システム。
  10. 前記ジェスチャ認識システムは、対象領域内に配置された、複数のアクティブ化された対象ポイントから前記コンピュータ化されたシステムを制御するためのジェスチャを判定する、請求項5から9までのいずれか一項に記載のユーザ・インターフェース・システム。
  11. アクティブ化された対象ポイントが前記コンピュータ化されたシステムを制御するように対話可能なグラフィカル・ユーザ・インターフェースを更に含む、請求項5から10までのいずれか一項に記載のユーザ・インターフェース・システム。
  12. 前記グラフィカル・ユーザ・インターフェースは、最小限の自然なジェスチャのみを使用して選択するための要素の所定の配置を有する、請求項11に記載のユーザ・インターフェース・システム。
  13. 前記プロセッサが、対象ポイント候補を判定するための隣接グラフ・ビルダを更に含む、請求項1から12までのいずれか一項に記載のユーザ・インターフェース・システム。
  14. 視覚的フィードバックを提供するディスプレイを更に含む、請求項1から13までのいずれか一項に記載のユーザ・インターフェース・システム。
  15. 音声フィードバック・システムを更に含む、請求項1から14までのいずれか一項に記載のユーザ・インターフェース・システム。
  16. 前記多次元の画像化システムは、三次元画像化システムを含む、請求項1から15までのいずれか一項に記載のユーザ・インターフェース・システム。
JP2014158723A 2011-01-05 2014-08-04 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム Active JP6031071B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP11150271.2 2011-01-05
EP11150271.2A EP2474950B1 (en) 2011-01-05 2011-01-05 Natural gesture based user interface methods and systems

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013546740A Division JP5646085B2 (ja) 2011-01-05 2012-01-04 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム

Publications (2)

Publication Number Publication Date
JP2014225288A true JP2014225288A (ja) 2014-12-04
JP6031071B2 JP6031071B2 (ja) 2016-11-24

Family

ID=44005288

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013546740A Active JP5646085B2 (ja) 2011-01-05 2012-01-04 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム
JP2014158723A Active JP6031071B2 (ja) 2011-01-05 2014-08-04 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013546740A Active JP5646085B2 (ja) 2011-01-05 2012-01-04 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム

Country Status (10)

Country Link
US (1) US9081419B2 (ja)
EP (1) EP2474950B1 (ja)
JP (2) JP5646085B2 (ja)
KR (1) KR101554082B1 (ja)
CN (1) CN103314391B (ja)
AU (1) AU2012204889B2 (ja)
CA (1) CA2817443C (ja)
SG (1) SG190826A1 (ja)
TW (1) TWI524210B (ja)
WO (1) WO2012093147A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022501697A (ja) * 2017-11-16 2022-01-06 コントロール バイオニクス ホールディングス ピーティーワイ リミテッド 文脈依存性ユーザインタフェースを備えた筋電位(emg)支援通信デバイス

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9857868B2 (en) 2011-03-19 2018-01-02 The Board Of Trustees Of The Leland Stanford Junior University Method and system for ergonomic touch-free interface
US9374448B2 (en) 2012-05-27 2016-06-21 Qualcomm Incorporated Systems and methods for managing concurrent audio messages
EP2872966A1 (en) 2012-07-12 2015-05-20 Dual Aperture International Co. Ltd. Gesture-based user interface
CN105378593B (zh) * 2012-07-13 2019-03-01 索尼深度传感解决方案股份有限公司 利用手上的奇异兴趣点基于手势进行人机同步交互的方法和系统
US11237719B2 (en) 2012-11-20 2022-02-01 Samsung Electronics Company, Ltd. Controlling remote electronic device with wearable electronic device
US10551928B2 (en) 2012-11-20 2020-02-04 Samsung Electronics Company, Ltd. GUI transitions on wearable electronic device
US8994827B2 (en) 2012-11-20 2015-03-31 Samsung Electronics Co., Ltd Wearable electronic device
US11372536B2 (en) 2012-11-20 2022-06-28 Samsung Electronics Company, Ltd. Transition and interaction model for wearable electronic device
US9477313B2 (en) 2012-11-20 2016-10-25 Samsung Electronics Co., Ltd. User gesture input to wearable electronic device involving outward-facing sensor of device
US11157436B2 (en) 2012-11-20 2021-10-26 Samsung Electronics Company, Ltd. Services associated with wearable electronic device
US10185416B2 (en) 2012-11-20 2019-01-22 Samsung Electronics Co., Ltd. User gesture input to wearable electronic device involving movement of device
US10423214B2 (en) 2012-11-20 2019-09-24 Samsung Electronics Company, Ltd Delegating processing from wearable electronic device
KR101450586B1 (ko) * 2012-11-28 2014-10-15 (주) 미디어인터랙티브 동작 인식 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
USD732076S1 (en) * 2013-01-04 2015-06-16 Samsung Electronics Co., Ltd. Display screen or portion thereof with animated icon
DE102013100522A1 (de) * 2013-01-18 2014-08-07 Huf Hülsbeck & Fürst Gmbh & Co. Kg Universelle Sensoranordnung zur Erfassung von Bediengesten an Fahrzeugen
US9129155B2 (en) 2013-01-30 2015-09-08 Aquifi, Inc. Systems and methods for initializing motion tracking of human hands using template matching within bounded regions determined using a depth map
US9092665B2 (en) * 2013-01-30 2015-07-28 Aquifi, Inc Systems and methods for initializing motion tracking of human hands
DE102013003033A1 (de) * 2013-02-22 2014-08-28 Audi Ag Verfahren zum Betreiben einer Wiedergabeeinrichtung sowie Vorrichtung mit einer solchen Wiedergabeeinrichtung
RU2013110494A (ru) 2013-03-11 2014-09-20 ЭлЭсАй Корпорейшн Устройство обработки изображений с уровнем оценки, реализующим программный и аппаратный алгоритмы разной точности
EP2973427B1 (en) 2013-03-15 2020-09-09 Intel Corporation Continuous interaction learning and detection in real-time
US9298266B2 (en) 2013-04-02 2016-03-29 Aquifi, Inc. Systems and methods for implementing three-dimensional (3D) gesture based graphical user interfaces (GUI) that incorporate gesture reactive interface objects
US10533850B2 (en) 2013-07-12 2020-01-14 Magic Leap, Inc. Method and system for inserting recognized object data into a virtual world
US20150067603A1 (en) * 2013-09-05 2015-03-05 Kabushiki Kaisha Toshiba Display control device
US20150116200A1 (en) * 2013-10-25 2015-04-30 Honda Motor Co., Ltd. System and method for gestural control of vehicle systems
US10311595B2 (en) 2013-11-19 2019-06-04 Canon Kabushiki Kaisha Image processing device and its control method, imaging apparatus, and storage medium
JP6429466B2 (ja) * 2013-11-19 2018-11-28 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
JP6344903B2 (ja) * 2013-11-19 2018-06-20 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
CN103616952B (zh) * 2013-12-03 2017-08-08 北京悦动双成科技有限公司 确定动作的方法及三维传感器
US9390726B1 (en) 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9213413B2 (en) 2013-12-31 2015-12-15 Google Inc. Device interaction with spatially aware gestures
EP2891950B1 (en) 2014-01-07 2018-08-15 Sony Depthsensing Solutions Human-to-computer natural three-dimensional hand gesture based navigation method
US10691332B2 (en) 2014-02-28 2020-06-23 Samsung Electronics Company, Ltd. Text input on an interactive display
KR102265143B1 (ko) * 2014-05-16 2021-06-15 삼성전자주식회사 입력 처리 장치 및 방법
USD766305S1 (en) * 2014-05-21 2016-09-13 Panasonic Intellectual Property Management Co., Ltd. Portion of a vehicle display screen with graphical user interface
USD764493S1 (en) * 2014-11-14 2016-08-23 Microsoft Corporation Display screen with animated graphical user interface
CN105843371B (zh) * 2015-01-13 2018-11-02 上海速盟信息技术有限公司 人机隔空交互方法及系统
WO2016167672A1 (es) * 2015-04-14 2016-10-20 Delmar Lissa Jose Antonio Dispositivo portátil de comunicación para transmitir mensajes táctiles
CN107533359B (zh) * 2015-05-20 2019-04-23 三菱电机株式会社 信息处理装置和联锁控制方法
KR20160147326A (ko) 2015-06-15 2016-12-23 동의대학교 산학협력단 깊이 영상 처리 기반의 가상 키보드 조작 방법
EP3115926A1 (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Method for control using recognition of two-hand gestures
JP6569496B2 (ja) * 2015-11-26 2019-09-04 富士通株式会社 入力装置、入力方法、及びプログラム
CN105549873A (zh) * 2015-12-03 2016-05-04 联想(北京)有限公司 一种信息处理方法及装置
US10217283B2 (en) * 2015-12-17 2019-02-26 Google Llc Navigation through multidimensional images spaces
US9900584B2 (en) * 2016-04-27 2018-02-20 Semyon Nisenzon Depth map generation based on cluster hierarchy and multiple multiresolution camera clusters
USD814477S1 (en) * 2016-07-19 2018-04-03 Resounding, Llc Display screen or portion thereof with graphical user interface
CN106155326A (zh) * 2016-07-26 2016-11-23 北京小米移动软件有限公司 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备
US10832071B2 (en) 2016-09-01 2020-11-10 International Business Machines Corporation Dynamic determination of human gestures based on context
CN107918481B (zh) * 2016-10-08 2022-11-11 深圳巧牛科技有限公司 基于手势识别的人机交互方法与系统
CN110545886A (zh) * 2016-12-05 2019-12-06 优史佩斯公司 用于基于手势的交互的系统和方法
US10437342B2 (en) 2016-12-05 2019-10-08 Youspace, Inc. Calibration systems and methods for depth-based interfaces with disparate fields of view
US10303417B2 (en) 2017-04-03 2019-05-28 Youspace, Inc. Interactive systems for depth-based input
US10303259B2 (en) 2017-04-03 2019-05-28 Youspace, Inc. Systems and methods for gesture-based interaction
US11010813B2 (en) * 2016-12-14 2021-05-18 Walmart Apollo, Llc System for building grocery basket and method of using same
CN107478227B (zh) * 2017-07-11 2020-06-16 厦门博尔利信息技术有限公司 交互式大型空间的定位算法
EP3454177B1 (en) * 2017-09-11 2020-06-10 Barco N.V. Method and system for efficient gesture control of equipment
USD982613S1 (en) * 2018-04-06 2023-04-04 Google Llc Display screen with animated graphical user interface
CN109348400B (zh) * 2018-09-16 2020-08-04 台州昉创科技有限公司 一种3d音效的主体位姿预判方法
USD917557S1 (en) * 2019-03-12 2021-04-27 Capital One Services, Llc Display screen or portion thereof with animated card communication interface
US11559738B2 (en) 2019-12-11 2023-01-24 Playerunknown Productions B.V. Machine learned virtual gaming environment
CN111695420B (zh) * 2020-04-30 2024-03-08 华为技术有限公司 一种手势识别方法以及相关装置
CN112818224B (zh) * 2021-01-26 2024-02-20 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366958A (ja) * 2001-06-08 2002-12-20 Toshiba Corp 画像認識方法および画像認識装置
WO2010011923A1 (en) * 2008-07-24 2010-01-28 Gesturetek, Inc. Enhanced detection of circular engagement gesture
JP2010081466A (ja) * 2008-09-29 2010-04-08 Hitachi Ltd 操作制御装置及び操作表示方法
JP2010525432A (ja) * 2007-04-20 2010-07-22 ソフトキネティック エス.エイ. ボリューム認識方法およびシステム
JP2010262400A (ja) * 2009-04-30 2010-11-18 Denso Corp 車載用電子機器操作装置
WO2010138952A2 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Gesture shortcuts
JP2010541398A (ja) * 2007-09-24 2010-12-24 ジェスチャー テック,インコーポレイテッド 音声及びビデオ通信のための機能向上したインタフェース

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6683968B1 (en) * 1999-09-16 2004-01-27 Hewlett-Packard Development Company, L.P. Method for visual tracking using switching linear dynamic system models
WO2002037471A2 (en) * 2000-11-03 2002-05-10 Zoesis, Inc. Interactive character system
WO2003071410A2 (en) * 2002-02-15 2003-08-28 Canesta, Inc. Gesture recognition system using depth perceptive sensors
DE20300882U1 (de) 2003-01-21 2003-03-13 Fraunhofer Ges Forschung Vorrichtung zur interaktiven Steuerung eines Mauszeigers einer graphischen Benutzerschnittstelle
JP2005242759A (ja) * 2004-02-27 2005-09-08 National Institute Of Information & Communication Technology 行動・意図推定システム、行動・意図推定方法、行動・意図推定プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
EP2458554B1 (en) * 2005-01-21 2015-04-29 Qualcomm Incorporated Motion-based tracking
CN101952818B (zh) 2007-09-14 2016-05-25 智慧投资控股81有限责任公司 基于姿态的用户交互的处理
US8555207B2 (en) 2008-02-27 2013-10-08 Qualcomm Incorporated Enhanced input using recognized gestures
WO2010011929A1 (en) 2008-07-25 2010-01-28 Gesturetek, Inc. Enhanced detection of waving engagement gesture
WO2010103482A2 (en) 2009-03-13 2010-09-16 Primesense Ltd. Enhanced 3d interfacing for remote devices
US9377857B2 (en) 2009-05-01 2016-06-28 Microsoft Technology Licensing, Llc Show body position
EP2480955B1 (en) * 2009-09-22 2018-05-16 Facebook Inc. Remote control of computer devices
US20110151974A1 (en) * 2009-12-18 2011-06-23 Microsoft Corporation Gesture style recognition and reward
EP2357605B1 (en) * 2009-12-28 2013-01-16 Softkinetic Software Stabilisation method and computer system
WO2011106520A1 (en) * 2010-02-24 2011-09-01 Ipplex Holdings Corporation Augmented reality panorama supporting visually impaired individuals
US8558873B2 (en) * 2010-06-16 2013-10-15 Microsoft Corporation Use of wavefront coding to create a depth image
US8578299B2 (en) * 2010-10-08 2013-11-05 Industrial Technology Research Institute Method and computing device in a system for motion detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366958A (ja) * 2001-06-08 2002-12-20 Toshiba Corp 画像認識方法および画像認識装置
JP2010525432A (ja) * 2007-04-20 2010-07-22 ソフトキネティック エス.エイ. ボリューム認識方法およびシステム
JP2010541398A (ja) * 2007-09-24 2010-12-24 ジェスチャー テック,インコーポレイテッド 音声及びビデオ通信のための機能向上したインタフェース
WO2010011923A1 (en) * 2008-07-24 2010-01-28 Gesturetek, Inc. Enhanced detection of circular engagement gesture
JP2010081466A (ja) * 2008-09-29 2010-04-08 Hitachi Ltd 操作制御装置及び操作表示方法
JP2010262400A (ja) * 2009-04-30 2010-11-18 Denso Corp 車載用電子機器操作装置
WO2010138952A2 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Gesture shortcuts

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022501697A (ja) * 2017-11-16 2022-01-06 コントロール バイオニクス ホールディングス ピーティーワイ リミテッド 文脈依存性ユーザインタフェースを備えた筋電位(emg)支援通信デバイス
JP7149492B2 (ja) 2017-11-16 2022-10-07 コントロール バイオニクス リミテッド 文脈依存性ユーザインタフェースを備えた筋電位(emg)支援通信デバイス

Also Published As

Publication number Publication date
CN103314391A (zh) 2013-09-18
US20140007022A1 (en) 2014-01-02
KR20130112061A (ko) 2013-10-11
CA2817443A1 (en) 2012-07-12
KR101554082B1 (ko) 2015-09-17
EP2474950B1 (en) 2013-08-21
JP2014501415A (ja) 2014-01-20
JP6031071B2 (ja) 2016-11-24
AU2012204889B2 (en) 2014-09-11
AU2012204889A1 (en) 2013-04-18
CN103314391B (zh) 2017-03-01
SG190826A1 (en) 2013-07-31
TW201237677A (en) 2012-09-16
JP5646085B2 (ja) 2014-12-24
US9081419B2 (en) 2015-07-14
WO2012093147A1 (en) 2012-07-12
TWI524210B (zh) 2016-03-01
EP2474950A1 (en) 2012-07-11
CA2817443C (en) 2015-08-25

Similar Documents

Publication Publication Date Title
JP6031071B2 (ja) 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム
US11460929B2 (en) User-defined virtual interaction space and manipulation of virtual cameras with vectors
US8126221B2 (en) Interactive device and method for transmitting commands from a user

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161021

R150 Certificate of patent or registration of utility model

Ref document number: 6031071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250