JP2017504118A

JP2017504118A - ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法

Info

Publication number: JP2017504118A
Application number: JP2016545364A
Authority: JP
Inventors: コーヘイウェストブルックショーン; エム．ノゲロルジュアン
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2014-01-07
Filing date: 2015-01-07
Publication date: 2017-02-02
Also published as: WO2015105884A1; TW201543268A; CN105980963A; EP3092547A1; US20170220120A1; KR20160106691A

Abstract

再生デバイスによるメディアの再生が、入力ジェスチャにより制御される。各々のユーザジェスチャは第１に、特定の再生モードを指示するベースジェスチャに細分化され得る。そのジェスチャは次いで、そのベースコマンドから定められるその再生モードに対するスピードを定める変更子コマンドを内包する第２の部分に細分化される。メディアコンテンツは次いで、その指定される再生モードを使用して、その変更子コマンドにより定められるスピードでプレイされる。

Description

本開示は、概して、メディアの再生の制御に関し、詳細には、ジェスチャを使用したメディアの再生の制御に関する。

関連出願の参照
本出願は、２０１４年１月７日に出願された米国仮出願第６１／９２４，６４７号、および、２０１４年３月３１日に出願された米国仮出願第６１／９７２，９５４号の利益を主張するものであり、それらの米国仮出願は、参照により本明細書にそれらの全体が組み込まれている。

ビデオまたはオーディオなどのメディアの制御では、ユーザは典型的には、遠隔制御またはボタンを使用して、そのようなメディアの再生を制御する。実例としてユーザは、「プレイ」ボタンを押して、メディアが実時間プレイモードでプレイされるように、メディアが、再生デバイス、そのようなコンピュータ、受信器、ＭＰ３プレイヤ、電話、タブレットなどから再生されるようにすることができる。メディアのある部分へと前方にジャンプしたい場合、ユーザは、「高速フォワード（ｆｏｒｗａｒｄ）」ボタンを作動させて、再生デバイスに、実時間より高速なプレイモードでメディアを進めさせることができる。同様にユーザは、「高速リバース（ｒｅｖｅｒｓｅ）ボタン」を作動させて、再生デバイスに、実時間より高速なプレイモードでメディアを逆方向に進ませることができる。

遠隔制御の使用、または、再生デバイス上のボタンの使用をやめるために、デバイスは、デバイスの再生を制御するためのジェスチャの使用を認識するように実装され得る。すなわちジェスチャは、光学的に、デバイスのユーザインターフェイス部分により認識され得るものであり、その場合ジェスチャは、デバイスにより、メディア再生を制御するために解釈される。再生モードや、そのようなモードに対して使用され得るスピードの多様性によって、デバイス製造者が、ユーザに、メディアの再生を制御するために、多くのジェスチャコマンドを覚えているように要求することになりがちである。

ジェスチャを使用する再生デバイスに対するメディアの再生を制御するための方法およびシステムが開示される。ユーザジェスチャは第１に、特定の再生モードを指示するベースジェスチャに細分化される。上記ジェスチャは次いで、上記ベースコマンドから定められる上記再生モードを変更する変更子コマンドを内包する第２の部分に細分化される。上記再生モードは次いで、上記変更子コマンドにより影響を及ぼされ、例えば上記再生モードのスピードは、上記変更子コマンドにより定められ得る。

本開示のこれらおよび他の、態様、特徴、および利点は、付随する図面とのコネクションで読出されることになる、好まれる実施形態の、以下の詳細な説明から、説明される、または明白になることになる。

図面では、類する参照番号は、視図の全体を通して、同様の要素を表わす。
本開示の態様による、ジェスチャスポッティングおよび認識のためのシステムの例示的に示す図である。本開示の態様による、ジェスチャ認識のための例示的な方法のフロー線図である。本開示の態様による、ジェスチャスポッティングおよび認識のための例示的な方法のフロー線図である。ユーザにより実行される、セグメンテーションされた軌跡「０」から抽出される状態遷移点の例を示す図である。本開示の態様による、ジェスチャ認識システムを、隠れマルコフモデル（ＨＭＭ）および幾何学的特徴分布を使用してトレーニングするための例示的な方法のフロー線図である。本開示の態様による、ジェスチャ認識システムを特定のユーザに適応させるための例示的な実施形態のフロー線図である。本開示の態様による、例示的な再生デバイスのブロック線図である。本開示の態様による、メディアの再生を制御するために使用される入力ジェスチャを定めるための例示的な実施形態のフロー線図である。本開示の態様による、メディアの再生を制御するための腕および手によるユーザ入力ジェスチャの表現を示すユーザインターフェイスの表現の図である。本開示の態様による、メディアの再生を制御するための腕および手によるユーザ入力ジェスチャを示すユーザインターフェイスの表現の図である。本開示の態様による、メディアの再生を制御するための腕および手によるユーザ入力ジェスチャを示すユーザインターフェイスの表現の図である。

図面は、本開示の概念を例示することの目的のためのものであり、必ずしも本開示を例示するための唯一の可能な構成ではないということが理解されるべきである。

図で示される要素は、ハードウェア、ソフトウェア、またはそれらの組み合わせの、様々な形式で実現され得るということが理解されるべきである。好ましくはこれらの要素は、プロセッサー、メモリ、および入力／出力インターフェイスを含み得る、１または複数の適切にプログラムされる汎用デバイス上の、ハードウェアおよびソフトウェアの組み合わせで実現される。

本説明は、本開示の原理を例示するものである。したがって、当業者は、本明細書では明示的に説明されない、または示されないが、本開示の原理を実施する、および、本開示の範囲内に含まれる、様々な構成を考案することが可能であろうということが理解されよう。

本明細書で詳述されるすべての例および条件的な用語は、読者が、本開示の原理、および、この技術を促進するために本発明者が提供する概念を理解する際に一助となるために教示することを意図しており、そのような具体的に詳述される例および条件への制限を伴わないと解釈されるべきものである。

さらに、本開示の原理、態様、および実施形態、ならびに、それらの特定の例を詳述する、本明細書でのすべての説述は、それらの構造的等価物および機能的等価物の両方を包含することが意図される。追加的に、そのような等価物は、現在知られている等価物、および、将来に開発される等価物の両方、すなわち、構造に関わらず同じ機能を実行する、開発される任意の要素を含むということが意図される。

したがって例えば、本明細書で提示されるブロック線図は、本開示の原理を実施する、説明に役立つ回路網の概念的視図を表すということが当業者により理解されよう。同様に、任意のフローチャート、フロー線図、状態遷移線図、擬似コードなどは、様々なプロセスを表し、それらのプロセスは、実質的にコンピュータ可読メディアで表され、そのため、コンピュータまたはプロセッサーにより実行されることが、そのようなコンピュータまたはプロセッサーが明示的に示されようとそうでなかろうと行われ得るものであるということが理解されよう。

図で示される様々な要素の機能は、専用のハードウェア、および、適切なソフトウェアとの関連でソフトウェアを実行することの能力のあるハードウェアの使用によって提供され得る。プロセッサーにより提供されるとき、機能は、単一の専用のプロセッサーにより、単一の共有されるプロセッサーにより、または、複数の個々のプロセッサーであって、それらのプロセッサーの一部が共有され得るものにより提供され得る。さらに、用語「プロセッサー」または「コントローラ」の明示的な使用は、ソフトウェアを実行することの能力のあるハードウェアを排他的に指すように解釈されるべきではなく、制限を伴わずに、ディジタル信号プロセッサー（「ＤＳＰ」）ハードウェア、ソフトウェアを記憶するための読出し専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、および不揮発性記憶装置を暗黙に含み得る。

本願の特許請求の範囲では、指定される機能を実行するための手段として表現される任意の要素は、例えば、ａ）その機能を実行する回路要素の組み合わせ、または、ｂ）任意の形式での、したがってファームウェア、マイクロコードなどを含むソフトウェアであって、機能を実行するためにそのソフトウェアを実行するための適切な回路網と組み合わされる、ソフトウェアを含む、その機能を実行する任意のものを包含することが意図される。そのような特許請求の範囲により定義されるような本開示は、様々な詳述される手段により提供される機能性が、組み合わされ、特許請求の範囲が求める様式で一体に至らせられるという事実にある。したがって、それらの機能性を提供することが可能である任意の手段は、本明細書で示されるものと等価であるということが考慮される。

本開示は、様々なジェスチャ認識システムを実現するための例示的な実施形態を提供するが、ジェスチャを認識するための他の実現が使用される場合がある。隠れマルコフモデル（ＨＭＭ）、および、ユーザの手の軌跡の幾何学的特徴分布を用いて、適応的ジェスチャ認識を達成する、システムおよび方法がさらには提供される。

ジェスチャ認識は、サインランゲージ認識、マルチモーダルヒューマンコンピュータインタラクション、仮想現実、およびロボット制御での、その潜在的な使用に起因してますます多くの注目を受けている。大部分のジェスチャ認識方法は、入力画像の観測されるシーケンスを、トレーニングサンプルまたはモデルとマッチングする。入力シーケンスは、ジェスチャクラスであって、そのクラスのサンプルまたはモデルがそれと最も良好にマッチングする、ジェスチャクラスとして分類される。動的時間ウォーピング（ＤＴＷ）、連続動的計画法（ＣＤＰ）、隠れマルコフモデル（ＨＭＭ）、および条件付き確率場（ＣＲＦ）は、ジェスチャ分類器の例である。

ＨＭＭマッチングは、ジェスチャ認識に対する最も広く使用される技法である。しかしながらこの種類の方法は、ジェスチャ認識に対して効果的と判明している手の軌跡の幾何学的情報を利用することが可能でない。手の軌跡を利用する前の方法では、手の軌跡は全体として扱われ、ｘおよびｙ軸での平均手の位置、観測される手のｘおよびｙ位置のスキューネス等々のような、軌跡の形状を反映する一部の幾何学的特徴が、認識に対するベイジアン分類器の入力として抽出される。しかしながらこの方法は、手によるジェスチャを精密に説明することが可能でない。

オンラインジェスチャ認識に対しては、ジェスチャスポッティング、すなわち、ジェスチャの開始および終了点を定めることは、非常に重要な、ただし困難な作業である。ジェスチャスポッティングのための２つのタイプの手法：直接的手法および間接的手法が存する。直接的手法では、速度、加速度、および軌跡曲率などの動きパラメータが、最初に計算され、これらのパラメータの急激な変化が、候補ジェスチャ境界を識別するために見出される。しかしながらこれらの方法は、十分に正確ではない。間接的手法は、ジェスチャスポッティングおよびジェスチャ認識を組み合わせる。入力シーケンスに対して間接的手法は、トレーニングサンプルまたはモデルとマッチングされるときに高い認識スコアを与える間隔を見出し、したがって、同じ時間でのジェスチャの時間的セグメンテーションおよび認識を達成する。しかしながらこれらの方法は、普通は時間を消費するものであり、さらには、ジェスチャの何らかの偽検出が起こる場合がある。１つの従来型の手法は、プルーニング戦略を使用して、システムの正確度およびスピードを改善することを提案する。しかしながらその方法は、手の軌跡の単一の点と、単一のモデル状態との間の適合性をベースにして、単純にプルーニングする。現在の観測の尤度が閾値より下であるならば、マッチ仮定はプルーニングされることになる。この単純な戦略をベースにするプルーニング分類器は、トレーニングデータを容易にオーバーフィッティングする場合がある。

さらに、異なるユーザのジェスチャは、普通は、スピード、開始および終了点、転回点の角度等々で異なる。したがって、どのように分類器を調整して、認識システムを特定のユーザに適応させるようになすべきかを研究することは、非常に意味のあることである。

以前には少数の研究者が、適応的ジェスチャ認識を研究していた。１つの技法は、ジェスチャシステムの適応を、ＨＭＭモデルを新しいサンプルによって再トレーニングすることによって達成する。しかしながらこの方法は、前のサンプルの情報を失い、ノイズデータに影響を受ける。別の技法は、バウム−ウェルチ（Baum-Welch）方法のオンラインバージョンを使用して、ジェスチャ分類器のオンライン学習および更新を現実化し、単純なジェスチャをオンラインで学習することが可能であるシステムを開発する。しかしながら、この方法の更新スピードは非常にゆっくりである。

適応的ジェスチャ認識に関してはわずかな数の研究が存するが、適応的音声認識のための多くの方法が公表されている。１つのそのような研究は、ＨＭＭモデルを最大事後（ＭＡＰ：maximum a posteriori）パラメータ推定によって更新する。パラメータの事前分布の使用によって、より少ない新しいデータが、ロバストなパラメータ推定および更新を得るために必要とされる。この方法の欠点は、新しいサンプルは、その対応するクラスのＨＭＭモデルを更新することのみが可能であり、したがって、更新スピードを低下させるということである。最大尤度線形回帰（ＭＬＬＲ：maximum likelihood linear regression）は、適応的音声認識に対して広く使用される。それは、モデルパラメータの線形変換のセットを、新しいサンプルを使用して推定し、そのことによってモデルは、変換の後で新しいサンプルとより良好にマッチングし得る。すべてのモデルパラメータは、大域的線形変換を共有し得るものであり、または、異なる群にクラスタ化し得るものであり、その場合、パラメータの各々の群は、同じ線形変換を共有する。ＭＬＬＲは、ＭＡＰの欠点を克服し、モデル更新スピードを改善することが可能である。

入力シーケンスに対して、関心の検出される点は、ＨＭＭモデルとマッチングされ、ＨＭＭモデルの状態が変化する点が、ビタビ（Viterbi）アルゴリズムまたは機能によって見出される。これらの点は、状態遷移点と呼ばれる。幾何学的特徴は、ジェスチャモデルから、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして抽出される。これらの幾何学的特徴は、手によるジェスチャを従来型の方法より精密に説明する。状態遷移点は、普通は、軌跡が変化することを始める点に対応し、特徴を、これらの点および開始点の相対位置をベースにして抽出することは、手の軌跡を全体として扱い、幾何学的特徴を手の軌跡の統計的性質をベースにして抽出する従来型の方法とは対照的に、ジェスチャの形状の特性を非常に良好に反映し得る。

加えて、幾何学的特徴の抽出はＨＭＭモデルのマッチングに組み込まれるので、抽出される幾何学的特徴を、プルーニングに対して、および、ジェスチャのタイプを認識することの助力となるように、利用することは容易である。例えば、状態遷移点で抽出される幾何学的特徴の尤度が閾値より下であるならば、このマッチ仮定はプルーニングされることになる。すなわち、何らかのフレームで、フレームをＨＨＭモデルの任意の状態とマッチングすることのコストが高すぎると定められるならば、本開示のシステムおよび方法は、与えられるモデルは入力シーケンスと良好にマッチングしないと結論付け、次いでそれは、後続のフレームを状態とマッチングすることを停止することになる。

プルーニングに対する幾何学的特徴の組み込みは、単一の観測のみを使用することより正確およびロバストである。ＨＭＭモデルおよび幾何学的特徴分布の組み合わせをベースにして、手の軌跡とジェスチャクラスとの間で計算されるモデルマッチングスコアが閾値より大きいとき、ジェスチャはセグメンテーションおよび認識される。動きパラメータの急激な変化の検出、ＨＭＭモデルマッチング、および、軌跡の幾何学的特徴抽出のこの組み合わせは、既存のジェスチャスポッティング方法をしのぐものである。

ここで図を参照すると、本開示の実施形態による、例示的なシステム構成要素１００が、図１で示されている。画像取り込みデバイス１０２が、ジェスチャを実行するユーザの画像を取り込むために提供され得る。画像取り込みデバイスは、任意の知られている画像取り込みデバイスであり得るものであり、ディジタルスチルカメラ、ディジタルビデオレコーダ、ウェブカメラ、その他を含み得るということが理解されるべきである。取り込まれる画像は、処理デバイス１０４、例えばコンピュータに入力される。コンピュータは、１または複数の、中央処理ユニット（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）および／または読出し専用メモリ（ＲＯＭ）などのメモリ１０６、ならびに、キーボード、カーソル制御デバイス（例えば、マウスまたはジョイスティック）、およびディスプレイデバイスなどの入力／出力（Ｉ／Ｏ）ユーザインターフェイス１０８などのハードウェアを有する、様々な、知られているコンピュータプラットフォームの任意のもの上で実現される。コンピュータプラットフォームはさらには、オペレーティングシステムおよびマイクロ命令コードを含む。本明細書で説明される様々なプロセスおよび機能は、オペレーティングシステムによって実行される、マイクロ命令コードの部分、または、ソフトウェアアプリケーションプログラムの部分（または、それらの組み合わせ）のいずれかであり得る。１つの実施形態ではソフトウェアアプリケーションプログラムは、処理デバイス１０４などの任意の適したマシンにアップロードされ得る、および、そのマシンにより実行され得る、プログラム記憶デバイス上で有形に実施される。追加で、様々な他の周辺デバイスが、コンピュータプラットフォームに、様々なインターフェイスおよびバス構造、そのようなパラレルポート、シリアルポート、またはユニバーサルシリアルバス（ＵＳＢ）により接続され得る。他の周辺デバイスは、追加的な記憶デバイス１１０およびプリンタ（示されない）を含み得る。

ソフトウェアプログラムは、ジェスチャ認識モジュール１１２を含み、画像の取り込まれるシーケンス内のユーザにより実行されるジェスチャを認識するためにメモリ１０６に記憶される、ジェスチャ認識器としても知られている。ジェスチャ認識モジュール１１２は、注目のオブジェクト、例えばユーザの手を検出し、注目のオブジェクトを、取り込まれる一連の画像を通してトラッキングする、オブジェクト検出器およびトラッカ１１４を含む。モデルマッチャ（model matcher）１１６が、検出およびトラッキングされるオブジェクト対象を、ＨＭＭモデル１１８のデータベースに記憶される少なくとも１つのＨＭＭモデルとマッチングするために提供される。各々のジェスチャタイプは、それに関連付けられるＨＭＭモデルを有する。入力シーケンスは、どのジェスチャタイプが入力シーケンスと最も良好にマッチングするかを見出すために、異なるジェスチャタイプに対応するＨＭＭモデルすべてとマッチングされる。例えば、取り込まれるビデオの各々のフレームからの特徴のシーケンスである入力シーケンス、および、状態のシーケンスであるジェスチャモデルを与えられると、モデルマッチャ１１６は、各々のフレームと各々の状態との間の対応する関係を見出す。モデルマッチャ１１６は、ビタビアルゴリズムまたは機能、フォワードアルゴリズムまたは機能、フォワードバックワードアルゴリズムまたは機能、その他を用いて、マッチングを実現することが可能である。

ジェスチャ認識モジュール１１２（さらには、図７では７２２と参照される）は、ＨＭＭモデルの状態が変化する点を検出するための遷移検出器１２０をさらに含む。これらの点は、状態遷移点と呼ばれ、遷移検出器１２０により用いられる、中でもビタビアルゴリズムまたは機能によって、見出され、または検出される。幾何学的特徴は、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして、特徴抽出回路１２２により抽出される。

ジェスチャ認識モジュール１１２は、プルーナ（pruner）としても知られている、プルーニングアルゴリズムまたは機能１２４をさらに含み、そのプルーニングアルゴリズムまたは機能１２４は、マッチングするＨＭＭモデルを見出すために実行される算出の数を低減し、そのことにより、ジェスチャスポッティングおよび検出プロセスをスピードアップするために使用される。例えば、取り込まれるビデオの各々のフレームからの特徴のシーケンスである入力シーケンス、および、状態のシーケンスであるジェスチャモデルを与えられると、各々のフレームと各々の状態との間の対応する関係が見出されるはずである。しかしながら、何らかのフレームで、プルーニングアルゴリズムまたは機能１２４が、フレームを任意の状態とマッチングすることのコストが高すぎるということを見出すならば、プルーニングアルゴリズムまたは機能１２４は、後続のフレームを状態とマッチングすることを停止し、与えられるモデルは入力シーケンスと良好にマッチングしないと結論付けることになる。

追加的にジェスチャ認識モジュール１１２は、最大尤度線形回帰（ＭＬＬＲ）機能を含み、そのＭＬＬＲ機能は、ＨＭＭモデルを適応させ、各々のジェスチャクラスに対して、特定のユーザの幾何学的特徴分布を逐次学習するために使用される。ＨＭＭモデルおよび幾何学的特徴分布を同時に更新することによって、ジェスチャ認識システムは、ユーザに迅速に適応し得る。

図２は、本開示の態様による、ジェスチャ認識のための例示的な方法のフロー線図である。最初にステップ２０２で処理デバイス１０４は、画像取り込みデバイス１０２により取り込まれる入力画像のシーケンスを取得する。ジェスチャ認識モジュール１１２は、ステップ２０４で次いで、ジェスチャ認識を、ＨＭＭモデルおよび幾何学的特徴を使用して実行する。ステップ２０４は、図３〜４に関連して下記でさらに説明されることになる。ステップ２０６でジェスチャ認識モジュール１１２は、ＨＭＭモデルおよび幾何学的特徴分布を、各々のジェスチャクラスに対して、特定のユーザに対して適応させることになる。ステップ２０６は、図５〜６に関連して下記でさらに説明されることになる。

図３は、本開示の態様による、ジェスチャスポッティングおよび認識のための例示的な方法のフロー線図である。

候補開始点検出
最初にステップ３０２で画像の入力シーケンスが、画像取り込みデバイス１０２により取り込まれる。ステップ３０４でオブジェクト検出器およびトラッカ１１４は、入力シーケンス内の候補開始点を検出し、候補開始点をシーケンスの全体を通してトラッキングする。手の位置および速度などの特徴が、入力シーケンスの各々のフレーム内で検出される手を表すために使用される。これらの特徴は、ユーザの顔の位置および幅により正規化される。

直接的ジェスチャスポッティング手法と同様に、候補開始点は、入力シーケンス内の動きパラメータの急激な変化として検出される。異常な速度、または、厳しい軌跡曲率を有する点が、候補開始点として検出される。普通は、この方法を使用すると、多くの偽陽性検出が存する。これらの点をジェスチャ境界として使用する直接的ジェスチャスポッティング方法は、あまり正確およびロバストではない。本開示の方法は、異なる戦略を使用する。手の軌跡は、これらの候補開始点からの各々のジェスチャクラスのＨＭＭモデルとマッチングされ、そのため方法は、直接的および間接的ジェスチャスポッティング方法の利点を組み合わせることが可能である。

ＨＭＭモデルマッチング
ステップ３０６で入力画像のシーケンスは、下記で説明されることになるように、モデルマッチャ１１６によってＨＭＭモデル１１８とマッチングされる。

Ｑ＝｛Ｑ₁，Ｑ₂，…｝を、特徴ベクトルの連続シーケンスとするものであり、ただしＱ_jは、入力画像の入力フレームｊから抽出される特徴ベクトルである。手の位置および速度などの特徴が、各々のフレーム内で検出される手を表すために使用される。これらの特徴は、ジェスチャを実行するユーザの顔の位置および幅により正規化される。

を、ジェスチャｇに対するｍ＋１個の状態を伴う左右ＨＭＭモデルとする。各々の状態

は、各々の観測ベクトルＱ_iの尤度を与えるガウシアン観測密度に関連付けられる。バウム−ウェルチアルゴリズムまたは機能が、ＨＭＭモデルをトレーニングするために使用されることになる。各々のモデルに対する状態の数は、典型的にはバウム−ウェルチアルゴリズムまたは機能によって行われるように、軌跡長さによって指定される。遷移確率は、学習作業を単純化するために固定され、すなわち、あらゆる遷移ではモデルは、次の状態に動くこと、または、同じ状態にとどまることが、等しく尤度が高い。

ａ_k,iを、状態ｋから状態ｉに遷移することの遷移確率として、および、

を、モデル状態

とマッチングするときの特徴ベクトルＱ_jの尤度として表わす。Ｃを、セクション１．１で説明される方法を使用して検出される候補開始点セットとする。

は特別な状態であり、ただし、

である。

したがってＨＭＭモデルマッチングは、これらの候補開始点のみで始まる。Ｖ（ｉ，ｊ）を、第１のｊ個の入力特徴ベクトル（Ｑ₁，…，Ｑ_j）を第１のｉ＋１個のモデル状態

とマッチングするときの最大確率として表わす。次いで、

を得る。
（Ｑ₁，…，Ｑ_j）と

との間の最大マッチングスコア、Ｓ_H（ｉ，ｊ）を、Ｖ（ｉ，ｊ）の対数とする。
Ｓ_H（ｉ，ｊ）＝ｌｏｇＶ（ｉ，ｊ）（３）
式２での性質をベースにして、動的プログラミング（ＤＰ）が、最大マッチングスコアを効率的に計算するために使用される。ＤＰは、（ｉ，ｊ）によりインデックス付けされる表を使用して実現される。新しい特徴ベクトルＱ_nが入力フレームから抽出されるとき、フレームｎに対応する表のスライスが計算され、情報の２つのまとまりが、セル（ｉ，ｎ）に記憶される：１）ｉ＝０，…，ｍに対するＳ_H（ｉ，ｎ）の値、および、２）式２を最小化するために使用される先行物ｋ、ただしＳ_H（ｉ，ｎ）は、モデルと、フレームｉで終了する入力シーケンスとの間の最適マッチングのスコアであり、ｋは、前フレームが最適マッチングで対応している状態である。Ｓ_H（ｍ，ｎ）は、モデルと、フレームｎで終了する入力シーケンスとの間の最適整合に対応する。最適動的プログラミング（ＤＰ）経路、すなわち、ＨＭＭモデルの最適状態シーケンスは、バックトラッキングを使用して獲得され得る。既存の間接的方法は、普通は、Ｓ_H（ｍ，ｎ）を使用してジェスチャスポッティングを達成するものであり、すなわち、Ｓ_H（ｍ，ｎ）が閾値より大きいならば、ジェスチャ終了点はフレームｎとして検出され、ジェスチャ開始点は、最適ＤＰ経路をバックトラッキングすることにより見出され得る。

システムのスピードおよび正確度を改善するために、従来型のシステムはプルーニング戦略を使用し、その場合それらは、現在の観測の尤度をベースにしてプルーニングするものであり、τ（ｉ）が、モデル状態ｉに対する閾値であり、トレーニングデータから学習される場合に、

であるならば、セル（ｉ，ｊ）は、除外してプルーニングされることになり、それを通って進行するすべての経路は排除されることになる。しかしながら、この単純なプルーニング戦略は十分に正確ではない。

幾何学的特徴抽出
本開示の方法では幾何学的特徴の抽出は、ＨＭＭモデルマッチング手順に組み込まれる。入力シーケンスに対して、ＨＭＭモデルの状態シーケンスが、ステップ３０８で遷移検出器１２０によって定められる。ＨＭＭの状態が変化する点が検出される。図４は、セグメンテーションされた軌跡「０」から抽出される例示的な状態遷移点の一部の例を与えるものであり、軌跡は、ユーザにより実行され、画像取り込みデバイス１０２により取り込まれる。黒点が状態遷移点である。状態遷移点の位置は軌跡すべてに対して同様であり、そのため幾何学的特徴は、ステップ３１０で、下記で説明されることになるように、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして、特徴抽出回路１２２によって抽出されるということが認められ得る。

ジェスチャの開始点を（ｘ₀，ｙ₀）として表わすと、遷移点（ｘ_t，ｙ_t）で抽出される幾何学的特徴は、ｘ_t−ｘ₀、ｙ_t−ｙ₀、および、

を含む。これらの単純な特徴は、手の軌跡の幾何学的情報を良好に説明し得る。

各々のジェスチャクラスに対して、それに関連付けられるＨＭＭモデルが、そのトレーニングサンプルの幾何学的特徴を抽出するために使用される。幾何学的特徴は、ガウシアン分布にしたがうことが想定される。幾何学的特徴の分布は、トレーニングサンプルから学習される。次いで各々のジェスチャクラスが、ＨＭＭモデルおよびその幾何学的特徴分布に関連付けられる。ジェスチャｇの幾何学的特徴分布を

と表し、ただしｍは、Ｍ^gの状態数に関係付けられ、

は、ＨＭＭモデルの状態がｉ−１からｉに変化する点で抽出される幾何学的特徴の分布である。幾何学的特徴の抽出はＨＭＭモデルマッチング手順に組み込まれるので、幾何学的特徴をプルーニングに対して利用することは容易である。例えば、フレームＦが状態遷移フレームであるならば、幾何学的特徴は、フレームＦをベースにして抽出される。抽出される幾何学的特徴の確率が閾値より低いならば、このマッチングは、除外してプルーニングされることになり、すなわち、後続のフレームをモデルの状態とマッチングすることは、モデルマッチャ１１６により停止されることになり、マッチングするための少なくとも１つの第２のジェスチャモデルが選択されることになる。プルーニング手順がここで、下記の式（４）に関連して説明されることになる。

ステップ３１２でプルーニング機能またはプルーナ１２４は、以下の条件が満たされるならば、セル（ｉ，ｊ）を除外してプルーニングすることになる。

ただしｐｒｅ（ｉ）は、ＨＭＭモデルマッチングの間の状態ｉの以前のものであり、Ｇ_jは、点ｊで抽出される幾何学的特徴であり、ｔ（ｉ）は、トレーニングサンプルから学習する閾値であり、

およびτ（ｉ）は、セクション１．２でのように定義される。

ステップ３１４で、（Ｑ₁，…，Ｑ_n）と

との間の総合的なマッチングスコアが、ジェスチャ認識モジュール１１２により、以下のように計算される。

ただしαは係数であり、Ｓ_H（ｍ，ｎ）はＨＭＭマッチングスコアであり、Ｇ_j(i)は、ＨＭＭ状態がｉ−１からｉに変化する点で抽出される幾何学的特徴である。ジェスチャの時間的セグメンテーションは、間接的方法と同様に達成され、すなわち、Ｓ（ｍ，ｎ）が閾値より大きいならば、ジェスチャ終了点は、ステップ２１６でのようにフレームｎとして検出され、ジェスチャ開始点は、ステップ２１８でのように、最適ＤＰ経路をバックトラッキングすることにより見出され得る。式４および式５を使用することにより、方法は、ジェスチャスポッティングおよび認識のために、ＨＭＭ、および、手の軌跡の幾何学的特徴を組み合わせ、したがって、システムの正確度を改善することが可能である。

別の実施形態では、隠れマルコフモデル（ＨＭＭ）および幾何学的特徴分布を用いて、適応的ジェスチャ認識を達成する、ジェスチャ認識のためのシステムおよび方法が提供される。本開示のシステムおよび方法は、ジェスチャ認識のために、ＨＭＭモデル、および、ユーザの手の軌跡の幾何学的特徴を組み合わせる。入力シーケンスに対して、注目の検出されるオブジェクト、例えば手が、トラッキングされ、ＨＭＭモデルとマッチングされる。ＨＭＭモデルの状態が変化する点は、ビタビアルゴリズムまたは機能、フォワードアルゴリズムまたは機能、フォワードバックワードアルゴリズムまたは機能、その他によって見出される。これらの点は、状態遷移点と呼ばれる。幾何学的特徴は、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして抽出される。適応データ、すなわち、特定のユーザが実行したジェスチャを与えられると、最大尤度線形回帰（ＭＬＬＲ）方法が、ＨＭＭモデルを適応させ、各々のジェスチャクラスに対して、特定のユーザに対して、幾何学的特徴分布を逐次学習するために使用される。ＨＭＭモデルおよび幾何学的特徴分布を同時に更新することによって、ジェスチャ認識システムは、特定のユーザに迅速に適応し得る。

ＨＭＭおよび軌跡幾何学的特徴を組み合わせるジェスチャ認識
図５を参照すると、本開示の態様による、ジェスチャ認識システムを、隠れマルコフモデル（ＨＭＭ）および幾何学的特徴分布を使用してトレーニングするための例示的な方法のフロー線図が例示されている。

最初にステップ５０２で画像の入力シーケンスが、画像取り込みデバイス１０２により取得され、または取り込まれる。ステップ５０４でオブジェクト検出器およびトラッカ１１４は、入力シーケンス内の注目のオブジェクト、例えばユーザの手を検出し、オブジェクトをシーケンスの全体を通してトラッキングする。手の位置および速度などの特徴が、入力シーケンスの各々のフレーム内で検出される手を表すために使用される。これらの特徴は、ユーザの顔の位置および幅により正規化される。画像のフレーム上での、顔の中心位置（ｘｆ，ｙｆ）、顔の幅ｗ、および手の位置（ｘｈ，ｙｈ）を与えられると、正規化される手の位置は、ｘｈｎ＝（ｘｈ−ｘｆ）／ｗ、ｙｈｎ＝（ｙｈ−ｙｆ）／ｗであり、すなわち絶対座標が、顔の中心に対する相対座標に変化させられる。

ガウシアン観測密度を伴う左右ＨＭＭモデルが、ステップ５０６で、検出される手をジェスチャモデルとマッチングし、ジェスチャクラスを定めるために使用される。例えば、取り込まれるビデオの各々のフレームからの特徴のシーケンスである入力シーケンス、および、状態のシーケンスであるジェスチャモデルを与えられると、モデルマッチャ１１６は、各々のフレームと各々の状態との間の対応する関係を、例えば、ビタビアルゴリズムもしくは機能、フォワードアルゴリズムもしくは機能、または、フォワードバックワードアルゴリズムもしくは機能によって見出す。

次にステップ５０８で入力シーケンスに対して、マッチングされるＨＭＭモデルの状態シーケンスが、遷移検出器１２０により、ビタビアルゴリズムまたは機能を使用して検出される。ＨＭＭモデルの状態が変化する点が検出される。ステップ５１０で幾何学的特徴が、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして、特徴抽出回路１２２によって抽出される。ジェスチャの開始点を（ｘ₀，ｙ₀）として表わすと、遷移点（ｘ_t，ｙ_t）で抽出される幾何学的特徴は、ｘ_t−ｘ₀、ｙ_t−ｙ₀、および、

を含む。入力シーケンスを与えられると、状態遷移点すべてで抽出される特徴が、入力シーケンスの幾何学的特徴を形成する。これらの単純な特徴は、手の軌跡の幾何学的情報を良好に説明し得る。

各々のジェスチャクラスに対して、左右ＨＭＭモデルがトレーニングされ、このＨＭＭモデルが、そのトレーニングサンプルの幾何学的特徴を抽出するために使用される。幾何学的特徴は、ガウシアン分布にしたがうことが想定される。幾何学的特徴の分布は、トレーニングサンプルから学習される。次いで各々のジェスチャクラスが、ステップ５１２で、ＨＭＭモデルおよびその幾何学的特徴分布に関連付けられ、関連付けられるＨＭＭモデルおよび幾何学的特徴分布が、ステップ５１４で記憶される。

第ｉのジェスチャクラスに関連付けられるＨＭＭモデルおよび幾何学的特徴分布が、それぞれλ_iおよびｑ_iであるということを表わす。セグメンテーションされた手の軌跡Ｏ−｛Ｏ₁，Ｏ₂，…Ｏ_T｝（すなわち、検出およびトラッキングされるオブジェクト）を、第ｉのジェスチャクラスとマッチングするために、幾何学的特徴Ｇ＝｛Ｇ₁，Ｇ₂，…Ｇ_N｝が、λ_iを使用して抽出される。マッチスコアが、ジェスチャ認識モジュール１１２により、以下のように計算される。

Ｓ＝α×ｌｏｇｐ（Ｏ｜λ_i）＋（１−α）×ｌｏｇｑ_i（Ｇ）（６）
ただしαは係数であり、ｐ（Ｏ｜λ_i）は、ＨＭＭモデルλ_iを与えられる手の軌跡Ｏの確率である。ｐ（Ｏ｜λ_i）は、フォワードバックワードアルゴリズムまたは機能を使用して計算され得る。入力された手の軌跡は、ジェスチャクラスであって、そのマッチスコアが最も高いジェスチャクラスとして分類されることになる。したがって式６を使用して、本開示のシステムおよび方法は、ジェスチャ認識のために、ＨＭＭモデル、および、ユーザの手の軌跡（すなわち、検出およびトラッキングされるオブジェクト）の幾何学的特徴を組み合わせることが可能である。

ジェスチャ認識の適応
図６は、本開示の態様による、ジェスチャ認識システムを特定のユーザに適応させるための例示的な方法のフロー線図である。適応データ（すなわち、特定のユーザが実行したジェスチャ）を与えられると、本開示のシステムおよび方法は、最大尤度線形回帰（ＭＬＬＲ）機能を用いて、ＨＭＭモデルを適応させ、各々のジェスチャクラスに対して、幾何学的特徴分布を逐次学習する。

最初にステップ６０２で画像の入力シーケンスが、画像取り込みデバイス１０２により取り込まれる。ステップ６０４でオブジェクト検出器およびトラッカ１１４は、入力シーケンス内の注目のオブジェクトを検出し、オブジェクトをシーケンスの全体を通してトラッキングする。ガウシアン観測密度を伴う左右ＨＭＭモデルが、ステップ６０６で、ジェスチャクラスをモデリングするために使用される。ステップ６０８で、定められるジェスチャクラスに関連付けられる幾何学的特徴分布が検索される。

次にステップ６１０でＨＭＭモデルは、特定のユーザに対して、最大尤度線形回帰（ＭＬＬＲ）機能を使用して適応させられる。最大尤度線形回帰（ＭＬＬＲ）は、適応的音声認識に対して広く使用される。それは、モデルパラメータの線形変換のセットを、新しいサンプルを使用して推定し、そのことによってモデルは、変換の後で新しいサンプルとより良好にマッチングし得る。標準ＭＬＬＲ手法では、ガウシアン密度の平均ベクトルが、次式によって更新される。

ただしＷは、ｎ×（ｎ＋１）マトリックスであり（およびｎは、観測特徴ベクトルの次元数である）、ξは、拡張された平均ベクトルである：ξ^T＝［１，μ₁，…，μ_n］。適応データＯは、Ｔ個の観測の系列であると想定する：Ｏ＝ｏ₁…ｏ_T。式７内のＷを計算するために、最大化されることになる目標関数は、適応データを生成することの尤度である。

ただしθは、Ｏを生成する可能な状態シーケンスであり、λは、モデルパラメータのセットである。λがモデルパラメータの現在のセットであり、

がモデルパラメータの再推定されるセットである、補助関数

を最大化することにより、式８での目標関数もまた最大化される。式９をＷに対して最大化することは、期待値最大化（ＥＭ）アルゴリズムまたは機能によって解を求められ得る。

次いでステップ６１２でシステムは、幾何学的特徴分布をユーザに対して、幾何学的特徴分布の平均および共分散マトリックスを予め定められる数の適応サンプルにわたって再推定することにより逐次学習する。ジェスチャｇの現在の幾何学的特徴分布を

として表わすものであり、ただし

は、ＨＭＭモデルの状態がｉ−１からｉに変化する点で抽出される幾何学的特徴の分布である。

の平均および共分散マトリックスは、それぞれ

および

であると想定する。ジェスチャｇの適応データを与えられると、幾何学的特徴がデータから抽出されるものであり、状態がｉ−１からｉに変化する適応データの点で抽出される幾何学的特徴が、セットＸ＝｛ｘ₁，…ｘ_k｝を形成するとし、ただしｘ_iは、ジェスチャｇの第ｉの適応サンプルから抽出される特徴であり、ｋは、ジェスチャｇに対する適応サンプルの数である。次いで幾何学的特徴分布が、以下のように更新される。

ただし

および

はそれぞれ、

の再推定される平均および共分散マトリックスである。

ＨＭＭモデルおよび幾何学的特徴分布を同時に更新することによって、ジェスチャ認識システムは、ユーザに迅速に適応し得る。ステップ６１４での、適応させられるＨＭＭモデル、および、学習される幾何学的特徴分布が、次いで、特定のユーザに対して、記憶デバイス１１０に記憶される。

ジェスチャ認識のためのシステムおよび方法が説明された。ジェスチャモデル（例えば、ＨＭＭモデル）および幾何学的特徴分布は、ジェスチャ認識を実行するために使用される。適応データ（すなわち、特定のユーザが実行したジェスチャ）をベースにして、ＨＭＭモデルおよび幾何学的特徴分布の両方が更新される。この様式でシステムは、特定のユーザに適応し得る。

図７で示される再生デバイス７００では、アイテムを購入するために使用される、画像情報および対応する情報が、入力信号受信器７０２によって受信される。入力信号受信器７０２は、受信すること、復調、および、信号を復号することのために使用されるいくつかの知られている受信器回路の１つであり得るものであり、それらの信号は、オーバージエア、ケーブル、衛星、Ｅｔｈｅｒｎｅｔ（商標）、ファイバ、および電話ラインネットワークを含む、いくつかの可能なネットワークの１つによって提供されるものである。所望される入力信号は、入力信号受信器７０２で、制御インターフェイス（示されない）を通して提供されるユーザ入力をベースにして選択および検索され得る。復号される出力信号が、入力ストリームプロセッサー７０４に提供される。入力ストリームプロセッサー７０４は、最終的な信号選択および処理を実行し、コンテンツストリームに対するオーディオコンテンツからのビデオコンテンツの分離を含む。オーディオコンテンツは、圧縮されるディジタル信号などの受信されるフォーマットからの、アナログ波形信号への変換のために、オーディオプロセッサー７０６に提供される。アナログ波形信号は、オーディオインターフェイス７０８に、およびさらに、ディスプレイデバイスまたはオーディオ増幅器（示されない）に提供される。あるいはオーディオインターフェイス７０８は、ディジタル信号を、オーディオ出力デバイスまたはディスプレイデバイスに、高精細度マルチメディアインターフェイス（ＨＤＭＩ：登録商標）ケーブル、または、Ｓｏｎｙ／Ｐｈｉｌｉｐｓディジタル相互接続フォーマット（ＳＰＤＩＦ）によるような代替のオーディオインターフェイスを使用して提供し得る。オーディオプロセッサー７０６はさらには、オーディオ信号の記憶のための任意の必要な変換を実行する。

入力ストリームプロセッサー７０４からのビデオ出力が、ビデオプロセッサー７１０に提供される。ビデオ信号は、いくつかのフォーマットの１つであり得る。ビデオプロセッサー７１０は、必要な際にビデオコンテンツの変換を、入力信号フォーマットをベースにして提供する。ビデオプロセッサー７１０はさらには、ビデオ信号の記憶のための任意の必要な変換を実行する。

記憶デバイス７１２は、入力で受信されるオーディオおよびビデオコンテンツを記憶する。記憶デバイス７１２は、コントローラ７１４の制御のもとでの、およびさらには、コマンドをベースにしての、コンテンツの、後での検索および再生を可能とするものであり、それらのコマンドは例えば、ユーザインターフェイス７１６から受信される、次のアイテム、次のページ、ズーム、高速フォワード（ＦＦ）再生モード、および、巻戻し（Ｒｅｗ）再生モードなどの誘導命令である。記憶デバイス７１２は、ハードディスク駆動装置、静的ランダムアクセスメモリもしくは動的ランダムアクセスメモリなどの、１もしくは複数の大容量集積電子メモリであり得るものであり、または、コンパクトディスク駆動装置もしくはディジタルビデオディスク駆動装置などの交換可能光学ディスク記憶システムであり得る。１つの実施形態では記憶デバイス７１２は、外付けであり、システム内に存在しない場合がある。

入力または記憶デバイス７１２のいずれかに由来する、ビデオプロセッサー７１０からの変換されるビデオ信号は、ディスプレイインターフェイス７１８に提供される。ディスプレイインターフェイス７１８は、ディスプレイ信号を、上記で説明されたタイプのディスプレイデバイスにさらに提供する。ディスプレイインターフェイス７１８は、赤−緑−青（ＲＧＢ）などのアナログ信号インターフェイスであり得るものであり、または、高精細度マルチメディアインターフェイス（ＨＤＭＩ）などのディジタルインターフェイスであり得る。

プロセッサーであり得るコントローラ７１４は、バスを介して、入力ストリームプロセッサー７０２、オーディオプロセッサー７０６、ビデオプロセッサー７１０、記憶デバイス７１２、ユーザインターフェイス７１６、およびジェスチャモジュール７２２を含む、デバイス７００の構成要素のいくつかに相互接続される。コントローラ７１４は、入力ストリーム信号を、記憶デバイス上での記憶のための、またはディスプレイのための信号に変換するための変換プロセスを管理する。コントローラ７１４はさらには、記憶されるコンテンツの再生のために使用される検索および再生モードを管理する。さらに下記で説明されることになるように、コントローラ７１４は、記憶される、または、上記で説明された配信ネットワークを介して配信されることになるということのいずれかである、コンテンツの探索を実行する。コントローラ７１４は、コントローラ７１４に対する情報および命令コードを記憶するための制御メモリ７２０（例えば、ランダムアクセスメモリ、静的ＲＡＭ、動的ＲＡＭ、読出し専用メモリ、プログラマブルＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、その他を含む、揮発性または不揮発性メモリ）にさらに結合される。さらにメモリの実現は、単一メモリデバイス、または代替的に、共有される、もしくは共通のメモリを形成するために一体に接続される、１つよりも多いメモリ回路などの、いくつかの可能な実施形態を含み得る。その上さらにメモリは、バス通信回路網の小部分などの他の回路網とともに、より大きな回路に含まれる場合がある。

本開示のユーザインターフェイス７１６は、カーソルをディスプレイの周囲で動かす入力デバイスを用いる場合があり、その動かすことは、コンテンツが、カーソルがそれの上方を通過する際に拡大することを引き起こす。１つの実施形態では入力デバイスは、ユーザがカーソルを自由にスクリーンまたはディスプレイの周りで動かすことを可能とする、ジャイロスコープまたは加速度計などの動き検出の形式を伴う遠隔コントローラである。別の実施形態では入力デバイスは、パッド上、スクリーン上のユーザの動きをトラッキングすることになる、タッチパッド、または、タッチセンシティブデバイスの形式でのコントローラである。別の実施形態では入力デバイスは、方向ボタンを伴う従前の遠隔制御であり得る。ユーザインターフェイス７１６はさらには、本明細書内で説明される例示的な原理によって、ユーザジェスチャを、カメラ、視覚センサなどを使用して光学的に認識するように構成され得る。

図１からの例示的な実施形態としてのジェスチャモジュール７２２は、ユーザインターフェイス７１６からの、ジェスチャをベースにする入力を解釈し、何のジェスチャをユーザがなしているかを、上記の例示的な原理によって定める。定められるジェスチャは次いで、再生、および、再生のためのスピードを定めるために使用され得る。具体的にはジェスチャは、高速フォワード動作および高速リバース動作などの、メディアの実時間より高速のプレイすることでの、メディアの再生を指示するために使用され得る。その上ジェスチャはさらには、スローモーションフォワード動作およびスローモーションリバース動作などの、メディアの実時間より低速のプレイすることを指示し得る。何をジェスチャが意味するか、および、どのようにそのようなジェスチャがメディアの再生スピードを制御するかの、そのような定めが、様々な説明に役立つ実施形態で説明される。

ジェスチャは、ベースジェスチャおよびジェスチャ変更子（ｍｏｄｉｆｉｅｒ）として知られている、少なくとも２つの部分に細分化され得る。ベースジェスチャは、腕または脚の動きであり得る動きの態様を包含する「総体の」ジェスチャである。ジェスチャの変更子は、人が腕を動かしている間に提示される指の数、人が腕を動かしているときの手上での提示される指の位置、人がその脚を動かしているときの足の動き、人が腕を動かしている間の手の波動などであり得る。ベースジェスチャは、ジェスチャモジュール７２２により、再生デバイス７００を、高速フォワード、高速リバース、スローモーションフォワード、スローモーションリバース、通常のプレイ、一時停止などの再生モードで動作させるように定められ得る。ジェスチャの変更子は次いで、ジェスチャモジュール７２０により、再生のスピードをセットするように定められ、その再生のスピードは、通常のプレイモードに関連付けられるメディアの実時間プレイすることより高速または低速にすることができる。例示的な実施形態では、個別のジェスチャに関連付けられる再生は、そのジェスチャがユーザにより保たれるのと同じほど長い間連続することになる。

図８は、例示的な実施形態による、入力ジェスチャがメディアの再生を制御するために使用される、フロー線図８００を例示する。ステップ８０２は、ユーザインターフェイス７１０にユーザジェスチャを受信させる。上記で説明されたようにユーザジェスチャは、ユーザインターフェイス７１０により、視覚技法を使用して認識され得る。ステップ８０４でジェスチャモジュール７２２は、入力ジェスチャをベースジェスチャに細分化し、そのベースジェスチャは、一例として示すと、左方向での腕が動くこと、右方向での腕が動くこと、上向き方向での腕が動くこと、下向き方向で腕を動かすことなどであり得る。定められるベースジェスチャは次いで、制御コマンドに関連付けられるものであり、その制御コマンドは、通常のプレイモード、高速フォワード、高速リバース、低速フォワード動き、低速リバース動き、一時停止モードなどの、説明に役立つ再生モードを使用する再生モードを選択するために使用されるものである。再生モードは、実時間プレイ動作である実時間再生モードであり得る。再生モードはさらには、高速フォワード、高速リバース、スローモーションフォワード、スローモーションリバースなどの再生モードを使用している非実時間再生モードであり得る。例示的な実施形態では、右方向での腕の動きはフォワード再生動作を指示し、一方で、左方向での腕の動きはリバース再生動作を指示する。

ステップ８０６は、ジェスチャモジュール７２２に、ベースジェスチャの変更子を定めさせるものであり、その場合、説明に役立つ変更子は、手上で提示される指の数、手上の指の位置、手の波の数、手の指の動きなどを含む。説明に役立つ例では、第１の指は第１の再生スピードを指示し得るものであり、第２の指は第２の再生スピードを指示し得るものであり、第３の指は第３の再生スピードを指示し得るものなどである。理想的には変更子は、非実時間より高速または低速である再生スピードに対応する。

別の説明に役立つ例では、人差し指の位置は、実時間より２倍高速の再生スピードを表し得るものであり、中指の位置は、実時間より４倍高速の再生スピードを表し得るものであり、環指の位置は、実時間より８倍高速の再生スピードを表し得るものなどである。

異なる変更子に対応するスピードは、実時間より高速および低速のスピードの混合であり得る。さらなる説明に役立つ例では、人差し指の位置は、実時間より２倍高速の再生スピードを表し得るものであり、一方で中指の位置は、２分の１倍実時間再生スピードを表し得る。スピードの他の混合が、例示的な原理によって使用され得る。

ステップ８０８で、ジェスチャモジュール７２２により定められる変更子が、ステップ８０６から、再生モードのスピードを定める制御コマンドに関連付けられる。ステップ８１０でコントローラ７１４は、制御コマンドを使用して、メディアの再生を、定められる再生モードで、変更子により定められるスピードで起動する。メディアは、定められる再生モードで、オーディオプロセッサー７０６およびビデオプロセッサー７１０によって、選択される再生モードによって出力され得る。

付随する実施形態では、高速スピード動作から低速スピード動きモードへの変化は、下向き方向で腕を動かすことにより成し遂げられ得る。すなわち、高速フォワード動作を引き起こすために使用されるベースジェスチャがここで、低速フォワード動き動作を結果として生じさせることになり、一方で、高速リバース動作を結果として生じさせたベースジェスチャがここで、スローモーションリバース動作を結果として生じさせることになる。さらなる付随する実施形態では、ベースジェスチャに対する低速スピード動作から高速スピード動作への変化が、説明に役立つ原理によって、上向き方向で腕を動かすジェスチャに応答して実行される。

図９は、メディアの再生を制御するために使用される腕および手によるジェスチャの表現を示すユーザインターフェイス９００の例示的な実施形態を提示する。ユーザインターフェイス９００内の特定のジェスチャは、１つの指を使用する右へ向かう腕を示す。右への腕の動きのベースジェスチャは、メディアの高速フォワードまたはスローモーションフォワード再生を指示することになり、その場合変更子は、メディアは第１のスピードで再生されるべきであるということを指示する。図１０は、右へ向かって動く腕および手によるジェスチャを示すユーザインターフェイス１０００の例示的な実施形態を提示し、その場合メディアの再生は、変更子としての３つの指を示すこと（ｄｉｓｐｌａｙ）との相互関係がある第３のスピードでとなる。

図１１は、メディアの再生を制御するために使用されている腕および手によるジェスチャを例示するユーザインターフェイス１１００の例示的な実施形態を提示する。具体的にはユーザインターフェイス１１００でのジェスチャは、高速リバースまたはスローモーション見直しのいずれかである、リバースをベースにするモードでのメディアの再生との相互関係がある、左に向かって動くベースジェスチャである。リバースをベースにするモードのスピードは、例示的な原理による、複数のスピードからの第２のスピードである。下記の表１は、例示的なベースジェスチャを、関連付けられる変更子とともに、開示される原理によって示す。

本開示の教示を組み込む実施形態が、本明細書で詳細に示され、説明されたが、当業者は容易に、やはりこれらの教示を組み込む多くの他の変動した実施形態を考案することが可能である。ジェスチャ認識のためのシステムおよび方法に対する好まれる実施形態（説明に役立つ、および、制限的でないことが意図される）を説明したが、変更および変動が、当業者により、上記の教示の観点でなされ得るということが留意される。したがって、添付される特許請求の範囲により概説されるような本開示の範囲内にある変化が、開示される本開示の個別の実施形態においてなされ得るということが理解されるべきである。

Claims

メディア再生を制御するための方法であって、
ユーザジェスチャに対応する入力を受信するステップ（８０２）と、
前記入力のベースジェスチャを、再生モードに対応する制御コマンドに関連付けるステップ（８０４）と、
前記ベースジェスチャの変更子を受信するステップ（８０６）と、
前記変更子を前記制御コマンドに関連付けるステップ（８０８）と、
メディアを、前記制御コマンドに応答して、前記関連付けられる再生モードおよび変更子に従ってプレイするステップ（８１０）と、
を備える、前記方法。
複数の異なる変更子の１つを前記制御コマンドに選択的に関連付けるステップと、
前記再生モードを、前記複数の前記変更子の選択された１つに応答して変更するステップと、
をさらに備える、請求項１に記載の方法。
前記複数の前記変更子の異なるものを選択して、前記再生モードの方向およびスピードを制御するステップをさらに備える、請求項２に記載の方法。
前記再生モードは、高速フォワード動作、高速リバース動作、スローモーションフォワード動作、およびスローモーションリバース動作を含む群から選択される、少なくとも１つのモードである、請求項１に記載の方法。
前記ベースジェスチャは、左方向に向かって腕を動かすこと、右方向に向かって腕を動かすこと、上向き方向で腕を動かすこと、および、下向き方向で腕を動かすことを含む群から選択される、少なくとも１つのジェスチャである、請求項１に記載の方法。
前記ベースジェスチャの前記変更子は、少なくとも１つの指を提示すること、少なくとも１つの提示される指の位置、少なくとも１つの手を振ること、および、少なくとも１つの指の少なくとも１つの動きを備える群から選択される、少なくとも１つの要素である、請求項５に記載の方法。
少なくとも１つの指を前記提示することは、
１つの指を前記提示することは、再生スピードに対する第１のスピードを表すということと、
２つの指を前記提示することは、再生スピードに対する第２のスピードを表すということと、
３つの指を前記提示することは、再生スピードに対する第３のスピードを表すということと、
をさらに備える、請求項６に記載の方法。
少なくとも１つの指を前記提示することは、
第１の位置での前記指を前記提示することは、第１の再生スピードでのスピードを表すということと、
第２の位置での前記指を前記提示することは、第２の再生スピードでのスピードを表すということと、
第３の位置での前記指を前記提示することは、第３の再生スピードでのスピードを表すということと、
をさらに備える、請求項６に記載の方法。
下向き方向での前記腕を前記動かすことは、再生スピードを、高速スピード動作からスローモーション動作に変化させる、請求項５に記載の方法。
上向き方向での前記腕を前記動かすことは、再生スピードを、スローモーション動作から高速スピード動作に変化させる、請求項５に記載の方法。
前記ベースジェスチャは、前記再生モードは高速フォワード動作であるということを指示する右への動き腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも１つの指のディスプレイであり、表示される指の数は、前記高速フォワード動作のスピードを定めるために使用される、請求項１に記載の方法。
前記ベースジェスチャは、前記再生モードは高速リバース動作であるということを指示する左への腕の動きであり、前記ベースジェスチャの前記変更子は、少なくとも１つの指のディスプレイであり、表示される指の数は、前記高速リバース動作のスピードを定めるために使用される、請求項１に記載の方法。
前記ベースジェスチャは、前記再生モードは低速フォワード動作であるということを指示する右への動き腕の動きであり、前記ベースジェスチャの前記変更子は、少なくとも１つの指のディスプレイであり、表示される指の数は、前記低速フォワード動作のスピードを定めるために使用される、請求項１に記載の方法。
前記ベースジェスチャは、前記再生モードは低速リバース動作であるということを指示する左への腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも１つの指のディスプレイであり、表示される指の数は、前記低速リバース動作のスピードを定めるために使用される、請求項１に記載の方法。
メディア再生を制御するための装置であって、
プロセッサーと、
前記プロセッサーに結合されるメモリであって、前記プロセッサーにより実行されるときに、
ユーザジェスチャに対応する入力を受信する動作（８０２）と、
前記入力のベースジェスチャを、再生モードに対応する制御コマンドに関連付ける動作（８０４）と、
前記ベースジェスチャの変更子を受信する動作（８０６）と、
前記変更子を前記制御コマンドに関連付ける動作（８０８）と、
メディアを、前記制御コマンドに応答して、前記関連付けられる再生モードおよび変更子によってプレイする動作（８１０）と、
を実行する命令を記憶するためのメモリと、
を備える、前記装置。
前記プロセッサーが、
複数の異なる変更子の１つを前記制御コマンドに選択的に関連付けることと、
前記再生モードを、前記複数の前記変更子の選択された１つに応答して変更することと、
の前記動作を実行することを引き起こす命令を備える、請求項１５に記載の装置。
前記プロセッサーが、前記複数の前記変更子の異なるものを選択して、前記再生モードの方向およびスピードを制御することの前記動作を実行することを引き起こす命令をさらに備える、請求項１６に記載の装置。
前記再生モードは、高速フォワード動作、高速リバース動作、スローモーションフォワード動作、およびスローモーションリバース動作を含む群から選択される、少なくとも１つのモードである、請求項１５に記載の装置。
前記ベースジェスチャは、左方向に向かって腕を動かすこと、右方向に向かって腕を動かすこと、上向き方向で腕を動かすこと、および、下向き方向で腕を動かすことを含む群から選択される、少なくとも１つのジェスチャである、請求項１５に記載の装置。
前記ベースジェスチャの前記変更子は、少なくとも１つの指を提示すること、少なくとも１つの提示される指の位置、少なくとも１つの手を振ること、および、少なくとも１つの指の少なくとも１つの動きを備える群から選択される、少なくとも１つの要素である、請求項１９に記載の装置。
少なくとも１つの指を前記提示することは、
１つの指を前記提示することは、再生スピードに対する第１のスピードを表すということと、
２つの指を前記提示することは、再生スピードに対する第２のスピードを表すということと、
３つの指を前記提示することは、再生スピードに対する第３のスピードを表すということと、
をさらに備える、請求項２０に記載の装置。
少なくとも１つの指を前記提示することは、
第１の位置での前記指を前記提示することは、第１の再生スピードでのスピードを表すということと、
第２の位置での前記指を前記提示することは、第２の再生スピードでのスピードを表すということと、
第３の位置での前記指を前記提示することは、第３の再生スピードでのスピードを表すということと、
をさらに備える、請求項２０に記載の装置。
下向き方向での前記腕を前記動かすことは、再生スピードを、高速スピード動作からスローモーション動作に変化させる、請求項１９に記載の装置。
上向き方向での前記腕を前記動かすことは、再生スピードを、スローモーション動作から高速スピード動作に変化させる、請求項１９に記載の装置。
前記ベースジェスチャは、前記再生モードは高速フォワード動作であるということを指示する右への動き腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも１つの指を示すことであり、示される指の数は、前記高速フォワード動作のスピードを定めるために使用される、請求項１５に記載の装置。
前記ベースジェスチャは、前記再生モードは高速リバース動作であるということを指示する左への腕の動きであり、前記ベースジェスチャの前記変更子は、少なくとも１つの指を示すことであり、示される指の数は、前記高速リバース動作のスピードを定めるために使用される、請求項１５に記載の装置。
前記ベースジェスチャは、前記再生モードは低速フォワード動作であるということを指示する右への動き腕動きであり、前記ベースジェスチャの前記変更子は、少なくとも１つの指を示すことであり、示される指の数は、前記低速フォワード動作のスピードを定めるために使用される、請求項１５に記載の装置。
前記ベースジェスチャは、前記再生モードは低速リバース動作であるということを指示する左への腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも１つの指を示すことであり、示される指の数は、前記低速リバース動作のスピードを定めるために使用される、請求項１５に記載の装置。