JP2017504118A - ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法 - Google Patents

ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法 Download PDF

Info

Publication number
JP2017504118A
JP2017504118A JP2016545364A JP2016545364A JP2017504118A JP 2017504118 A JP2017504118 A JP 2017504118A JP 2016545364 A JP2016545364 A JP 2016545364A JP 2016545364 A JP2016545364 A JP 2016545364A JP 2017504118 A JP2017504118 A JP 2017504118A
Authority
JP
Japan
Prior art keywords
speed
gesture
finger
playback
arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016545364A
Other languages
English (en)
Inventor
コーヘイ ウェストブルック ショーン
コーヘイ ウェストブルック ショーン
エム.ノゲロル ジュアン
エム.ノゲロル ジュアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2017504118A publication Critical patent/JP2017504118A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Social Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

再生デバイスによるメディアの再生が、入力ジェスチャにより制御される。各々のユーザジェスチャは第1に、特定の再生モードを指示するベースジェスチャに細分化され得る。そのジェスチャは次いで、そのベースコマンドから定められるその再生モードに対するスピードを定める変更子コマンドを内包する第2の部分に細分化される。メディアコンテンツは次いで、その指定される再生モードを使用して、その変更子コマンドにより定められるスピードでプレイされる。

Description

本開示は、概して、メディアの再生の制御に関し、詳細には、ジェスチャを使用したメディアの再生の制御に関する。
関連出願の参照
本出願は、2014年1月7日に出願された米国仮出願第61/924,647号、および、2014年3月31日に出願された米国仮出願第61/972,954号の利益を主張するものであり、それらの米国仮出願は、参照により本明細書にそれらの全体が組み込まれている。
ビデオまたはオーディオなどのメディアの制御では、ユーザは典型的には、遠隔制御またはボタンを使用して、そのようなメディアの再生を制御する。実例としてユーザは、「プレイ」ボタンを押して、メディアが実時間プレイモードでプレイされるように、メディアが、再生デバイス、そのようなコンピュータ、受信器、MP3プレイヤ、電話、タブレットなどから再生されるようにすることができる。メディアのある部分へと前方にジャンプしたい場合、ユーザは、「高速フォワード(forward)」ボタンを作動させて、再生デバイスに、実時間より高速なプレイモードでメディアを進めさせることができる。同様にユーザは、「高速リバース(reverse)ボタン」を作動させて、再生デバイスに、実時間より高速なプレイモードでメディアを逆方向に進ませることができる。
遠隔制御の使用、または、再生デバイス上のボタンの使用をやめるために、デバイスは、デバイスの再生を制御するためのジェスチャの使用を認識するように実装され得る。すなわちジェスチャは、光学的に、デバイスのユーザインターフェイス部分により認識され得るものであり、その場合ジェスチャは、デバイスにより、メディア再生を制御するために解釈される。再生モードや、そのようなモードに対して使用され得るスピードの多様性によって、デバイス製造者が、ユーザに、メディアの再生を制御するために、多くのジェスチャコマンドを覚えているように要求することになりがちである。
ジェスチャを使用する再生デバイスに対するメディアの再生を制御するための方法およびシステムが開示される。ユーザジェスチャは第1に、特定の再生モードを指示するベースジェスチャに細分化される。上記ジェスチャは次いで、上記ベースコマンドから定められる上記再生モードを変更する変更子コマンドを内包する第2の部分に細分化される。上記再生モードは次いで、上記変更子コマンドにより影響を及ぼされ、例えば上記再生モードのスピードは、上記変更子コマンドにより定められ得る。
本開示のこれらおよび他の、態様、特徴、および利点は、付随する図面とのコネクションで読出されることになる、好まれる実施形態の、以下の詳細な説明から、説明される、または明白になることになる。
図面では、類する参照番号は、視図の全体を通して、同様の要素を表わす。
本開示の態様による、ジェスチャスポッティングおよび認識のためのシステムの例示的に示す図である。 本開示の態様による、ジェスチャ認識のための例示的な方法のフロー線図である。 本開示の態様による、ジェスチャスポッティングおよび認識のための例示的な方法のフロー線図である。 ユーザにより実行される、セグメンテーションされた軌跡「0」から抽出される状態遷移点の例を示す図である。 本開示の態様による、ジェスチャ認識システムを、隠れマルコフモデル(HMM)および幾何学的特徴分布を使用してトレーニングするための例示的な方法のフロー線図である。 本開示の態様による、ジェスチャ認識システムを特定のユーザに適応させるための例示的な実施形態のフロー線図である。 本開示の態様による、例示的な再生デバイスのブロック線図である。 本開示の態様による、メディアの再生を制御するために使用される入力ジェスチャを定めるための例示的な実施形態のフロー線図である。 本開示の態様による、メディアの再生を制御するための腕および手によるユーザ入力ジェスチャの表現を示すユーザインターフェイスの表現の図である。 本開示の態様による、メディアの再生を制御するための腕および手によるユーザ入力ジェスチャを示すユーザインターフェイスの表現の図である。 本開示の態様による、メディアの再生を制御するための腕および手によるユーザ入力ジェスチャを示すユーザインターフェイスの表現の図である。
図面は、本開示の概念を例示することの目的のためのものであり、必ずしも本開示を例示するための唯一の可能な構成ではないということが理解されるべきである。
図で示される要素は、ハードウェア、ソフトウェア、またはそれらの組み合わせの、様々な形式で実現され得るということが理解されるべきである。好ましくはこれらの要素は、プロセッサー、メモリ、および入力/出力インターフェイスを含み得る、1または複数の適切にプログラムされる汎用デバイス上の、ハードウェアおよびソフトウェアの組み合わせで実現される。
本説明は、本開示の原理を例示するものである。したがって、当業者は、本明細書では明示的に説明されない、または示されないが、本開示の原理を実施する、および、本開示の範囲内に含まれる、様々な構成を考案することが可能であろうということが理解されよう。
本明細書で詳述されるすべての例および条件的な用語は、読者が、本開示の原理、および、この技術を促進するために本発明者が提供する概念を理解する際に一助となるために教示することを意図しており、そのような具体的に詳述される例および条件への制限を伴わないと解釈されるべきものである。
さらに、本開示の原理、態様、および実施形態、ならびに、それらの特定の例を詳述する、本明細書でのすべての説述は、それらの構造的等価物および機能的等価物の両方を包含することが意図される。追加的に、そのような等価物は、現在知られている等価物、および、将来に開発される等価物の両方、すなわち、構造に関わらず同じ機能を実行する、開発される任意の要素を含むということが意図される。
したがって例えば、本明細書で提示されるブロック線図は、本開示の原理を実施する、説明に役立つ回路網の概念的視図を表すということが当業者により理解されよう。同様に、任意のフローチャート、フロー線図、状態遷移線図、擬似コードなどは、様々なプロセスを表し、それらのプロセスは、実質的にコンピュータ可読メディアで表され、そのため、コンピュータまたはプロセッサーにより実行されることが、そのようなコンピュータまたはプロセッサーが明示的に示されようとそうでなかろうと行われ得るものであるということが理解されよう。
図で示される様々な要素の機能は、専用のハードウェア、および、適切なソフトウェアとの関連でソフトウェアを実行することの能力のあるハードウェアの使用によって提供され得る。プロセッサーにより提供されるとき、機能は、単一の専用のプロセッサーにより、単一の共有されるプロセッサーにより、または、複数の個々のプロセッサーであって、それらのプロセッサーの一部が共有され得るものにより提供され得る。さらに、用語「プロセッサー」または「コントローラ」の明示的な使用は、ソフトウェアを実行することの能力のあるハードウェアを排他的に指すように解釈されるべきではなく、制限を伴わずに、ディジタル信号プロセッサー(「DSP」)ハードウェア、ソフトウェアを記憶するための読出し専用メモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、および不揮発性記憶装置を暗黙に含み得る。
本願の特許請求の範囲では、指定される機能を実行するための手段として表現される任意の要素は、例えば、a)その機能を実行する回路要素の組み合わせ、または、b)任意の形式での、したがってファームウェア、マイクロコードなどを含むソフトウェアであって、機能を実行するためにそのソフトウェアを実行するための適切な回路網と組み合わされる、ソフトウェアを含む、その機能を実行する任意のものを包含することが意図される。そのような特許請求の範囲により定義されるような本開示は、様々な詳述される手段により提供される機能性が、組み合わされ、特許請求の範囲が求める様式で一体に至らせられるという事実にある。したがって、それらの機能性を提供することが可能である任意の手段は、本明細書で示されるものと等価であるということが考慮される。
本開示は、様々なジェスチャ認識システムを実現するための例示的な実施形態を提供するが、ジェスチャを認識するための他の実現が使用される場合がある。隠れマルコフモデル(HMM)、および、ユーザの手の軌跡の幾何学的特徴分布を用いて、適応的ジェスチャ認識を達成する、システムおよび方法がさらには提供される。
ジェスチャ認識は、サインランゲージ認識、マルチモーダルヒューマンコンピュータインタラクション、仮想現実、およびロボット制御での、その潜在的な使用に起因してますます多くの注目を受けている。大部分のジェスチャ認識方法は、入力画像の観測されるシーケンスを、トレーニングサンプルまたはモデルとマッチングする。入力シーケンスは、ジェスチャクラスであって、そのクラスのサンプルまたはモデルがそれと最も良好にマッチングする、ジェスチャクラスとして分類される。動的時間ウォーピング(DTW)、連続動的計画法(CDP)、隠れマルコフモデル(HMM)、および条件付き確率場(CRF)は、ジェスチャ分類器の例である。
HMMマッチングは、ジェスチャ認識に対する最も広く使用される技法である。しかしながらこの種類の方法は、ジェスチャ認識に対して効果的と判明している手の軌跡の幾何学的情報を利用することが可能でない。手の軌跡を利用する前の方法では、手の軌跡は全体として扱われ、xおよびy軸での平均手の位置、観測される手のxおよびy位置のスキューネス等々のような、軌跡の形状を反映する一部の幾何学的特徴が、認識に対するベイジアン分類器の入力として抽出される。しかしながらこの方法は、手によるジェスチャを精密に説明することが可能でない。
オンラインジェスチャ認識に対しては、ジェスチャスポッティング、すなわち、ジェスチャの開始および終了点を定めることは、非常に重要な、ただし困難な作業である。ジェスチャスポッティングのための2つのタイプの手法:直接的手法および間接的手法が存する。直接的手法では、速度、加速度、および軌跡曲率などの動きパラメータが、最初に計算され、これらのパラメータの急激な変化が、候補ジェスチャ境界を識別するために見出される。しかしながらこれらの方法は、十分に正確ではない。間接的手法は、ジェスチャスポッティングおよびジェスチャ認識を組み合わせる。入力シーケンスに対して間接的手法は、トレーニングサンプルまたはモデルとマッチングされるときに高い認識スコアを与える間隔を見出し、したがって、同じ時間でのジェスチャの時間的セグメンテーションおよび認識を達成する。しかしながらこれらの方法は、普通は時間を消費するものであり、さらには、ジェスチャの何らかの偽検出が起こる場合がある。1つの従来型の手法は、プルーニング戦略を使用して、システムの正確度およびスピードを改善することを提案する。しかしながらその方法は、手の軌跡の単一の点と、単一のモデル状態との間の適合性をベースにして、単純にプルーニングする。現在の観測の尤度が閾値より下であるならば、マッチ仮定はプルーニングされることになる。この単純な戦略をベースにするプルーニング分類器は、トレーニングデータを容易にオーバーフィッティングする場合がある。
さらに、異なるユーザのジェスチャは、普通は、スピード、開始および終了点、転回点の角度等々で異なる。したがって、どのように分類器を調整して、認識システムを特定のユーザに適応させるようになすべきかを研究することは、非常に意味のあることである。
以前には少数の研究者が、適応的ジェスチャ認識を研究していた。1つの技法は、ジェスチャシステムの適応を、HMMモデルを新しいサンプルによって再トレーニングすることによって達成する。しかしながらこの方法は、前のサンプルの情報を失い、ノイズデータに影響を受ける。別の技法は、バウム−ウェルチ(Baum-Welch)方法のオンラインバージョンを使用して、ジェスチャ分類器のオンライン学習および更新を現実化し、単純なジェスチャをオンラインで学習することが可能であるシステムを開発する。しかしながら、この方法の更新スピードは非常にゆっくりである。
適応的ジェスチャ認識に関してはわずかな数の研究が存するが、適応的音声認識のための多くの方法が公表されている。1つのそのような研究は、HMMモデルを最大事後(MAP:maximum a posteriori)パラメータ推定によって更新する。パラメータの事前分布の使用によって、より少ない新しいデータが、ロバストなパラメータ推定および更新を得るために必要とされる。この方法の欠点は、新しいサンプルは、その対応するクラスのHMMモデルを更新することのみが可能であり、したがって、更新スピードを低下させるということである。最大尤度線形回帰(MLLR:maximum likelihood linear regression)は、適応的音声認識に対して広く使用される。それは、モデルパラメータの線形変換のセットを、新しいサンプルを使用して推定し、そのことによってモデルは、変換の後で新しいサンプルとより良好にマッチングし得る。すべてのモデルパラメータは、大域的線形変換を共有し得るものであり、または、異なる群にクラスタ化し得るものであり、その場合、パラメータの各々の群は、同じ線形変換を共有する。MLLRは、MAPの欠点を克服し、モデル更新スピードを改善することが可能である。
入力シーケンスに対して、関心の検出される点は、HMMモデルとマッチングされ、HMMモデルの状態が変化する点が、ビタビ(Viterbi)アルゴリズムまたは機能によって見出される。これらの点は、状態遷移点と呼ばれる。幾何学的特徴は、ジェスチャモデルから、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして抽出される。これらの幾何学的特徴は、手によるジェスチャを従来型の方法より精密に説明する。状態遷移点は、普通は、軌跡が変化することを始める点に対応し、特徴を、これらの点および開始点の相対位置をベースにして抽出することは、手の軌跡を全体として扱い、幾何学的特徴を手の軌跡の統計的性質をベースにして抽出する従来型の方法とは対照的に、ジェスチャの形状の特性を非常に良好に反映し得る。
加えて、幾何学的特徴の抽出はHMMモデルのマッチングに組み込まれるので、抽出される幾何学的特徴を、プルーニングに対して、および、ジェスチャのタイプを認識することの助力となるように、利用することは容易である。例えば、状態遷移点で抽出される幾何学的特徴の尤度が閾値より下であるならば、このマッチ仮定はプルーニングされることになる。すなわち、何らかのフレームで、フレームをHHMモデルの任意の状態とマッチングすることのコストが高すぎると定められるならば、本開示のシステムおよび方法は、与えられるモデルは入力シーケンスと良好にマッチングしないと結論付け、次いでそれは、後続のフレームを状態とマッチングすることを停止することになる。
プルーニングに対する幾何学的特徴の組み込みは、単一の観測のみを使用することより正確およびロバストである。HMMモデルおよび幾何学的特徴分布の組み合わせをベースにして、手の軌跡とジェスチャクラスとの間で計算されるモデルマッチングスコアが閾値より大きいとき、ジェスチャはセグメンテーションおよび認識される。動きパラメータの急激な変化の検出、HMMモデルマッチング、および、軌跡の幾何学的特徴抽出のこの組み合わせは、既存のジェスチャスポッティング方法をしのぐものである。
ここで図を参照すると、本開示の実施形態による、例示的なシステム構成要素100が、図1で示されている。画像取り込みデバイス102が、ジェスチャを実行するユーザの画像を取り込むために提供され得る。画像取り込みデバイスは、任意の知られている画像取り込みデバイスであり得るものであり、ディジタルスチルカメラ、ディジタルビデオレコーダ、ウェブカメラ、その他を含み得るということが理解されるべきである。取り込まれる画像は、処理デバイス104、例えばコンピュータに入力される。コンピュータは、1または複数の、中央処理ユニット(CPU)、ランダムアクセスメモリ(RAM)および/または読出し専用メモリ(ROM)などのメモリ106、ならびに、キーボード、カーソル制御デバイス(例えば、マウスまたはジョイスティック)、およびディスプレイデバイスなどの入力/出力(I/O)ユーザインターフェイス108などのハードウェアを有する、様々な、知られているコンピュータプラットフォームの任意のもの上で実現される。コンピュータプラットフォームはさらには、オペレーティングシステムおよびマイクロ命令コードを含む。本明細書で説明される様々なプロセスおよび機能は、オペレーティングシステムによって実行される、マイクロ命令コードの部分、または、ソフトウェアアプリケーションプログラムの部分(または、それらの組み合わせ)のいずれかであり得る。1つの実施形態ではソフトウェアアプリケーションプログラムは、処理デバイス104などの任意の適したマシンにアップロードされ得る、および、そのマシンにより実行され得る、プログラム記憶デバイス上で有形に実施される。追加で、様々な他の周辺デバイスが、コンピュータプラットフォームに、様々なインターフェイスおよびバス構造、そのようなパラレルポート、シリアルポート、またはユニバーサルシリアルバス(USB)により接続され得る。他の周辺デバイスは、追加的な記憶デバイス110およびプリンタ(示されない)を含み得る。
ソフトウェアプログラムは、ジェスチャ認識モジュール112を含み、画像の取り込まれるシーケンス内のユーザにより実行されるジェスチャを認識するためにメモリ106に記憶される、ジェスチャ認識器としても知られている。ジェスチャ認識モジュール112は、注目のオブジェクト、例えばユーザの手を検出し、注目のオブジェクトを、取り込まれる一連の画像を通してトラッキングする、オブジェクト検出器およびトラッカ114を含む。モデルマッチャ(model matcher)116が、検出およびトラッキングされるオブジェクト対象を、HMMモデル118のデータベースに記憶される少なくとも1つのHMMモデルとマッチングするために提供される。各々のジェスチャタイプは、それに関連付けられるHMMモデルを有する。入力シーケンスは、どのジェスチャタイプが入力シーケンスと最も良好にマッチングするかを見出すために、異なるジェスチャタイプに対応するHMMモデルすべてとマッチングされる。例えば、取り込まれるビデオの各々のフレームからの特徴のシーケンスである入力シーケンス、および、状態のシーケンスであるジェスチャモデルを与えられると、モデルマッチャ116は、各々のフレームと各々の状態との間の対応する関係を見出す。モデルマッチャ116は、ビタビアルゴリズムまたは機能、フォワードアルゴリズムまたは機能、フォワードバックワードアルゴリズムまたは機能、その他を用いて、マッチングを実現することが可能である。
ジェスチャ認識モジュール112(さらには、図7では722と参照される)は、HMMモデルの状態が変化する点を検出するための遷移検出器120をさらに含む。これらの点は、状態遷移点と呼ばれ、遷移検出器120により用いられる、中でもビタビアルゴリズムまたは機能によって、見出され、または検出される。幾何学的特徴は、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして、特徴抽出回路122により抽出される。
ジェスチャ認識モジュール112は、プルーナ(pruner)としても知られている、プルーニングアルゴリズムまたは機能124をさらに含み、そのプルーニングアルゴリズムまたは機能124は、マッチングするHMMモデルを見出すために実行される算出の数を低減し、そのことにより、ジェスチャスポッティングおよび検出プロセスをスピードアップするために使用される。例えば、取り込まれるビデオの各々のフレームからの特徴のシーケンスである入力シーケンス、および、状態のシーケンスであるジェスチャモデルを与えられると、各々のフレームと各々の状態との間の対応する関係が見出されるはずである。しかしながら、何らかのフレームで、プルーニングアルゴリズムまたは機能124が、フレームを任意の状態とマッチングすることのコストが高すぎるということを見出すならば、プルーニングアルゴリズムまたは機能124は、後続のフレームを状態とマッチングすることを停止し、与えられるモデルは入力シーケンスと良好にマッチングしないと結論付けることになる。
追加的にジェスチャ認識モジュール112は、最大尤度線形回帰(MLLR)機能を含み、そのMLLR機能は、HMMモデルを適応させ、各々のジェスチャクラスに対して、特定のユーザの幾何学的特徴分布を逐次学習するために使用される。HMMモデルおよび幾何学的特徴分布を同時に更新することによって、ジェスチャ認識システムは、ユーザに迅速に適応し得る。
図2は、本開示の態様による、ジェスチャ認識のための例示的な方法のフロー線図である。最初にステップ202で処理デバイス104は、画像取り込みデバイス102により取り込まれる入力画像のシーケンスを取得する。ジェスチャ認識モジュール112は、ステップ204で次いで、ジェスチャ認識を、HMMモデルおよび幾何学的特徴を使用して実行する。ステップ204は、図3〜4に関連して下記でさらに説明されることになる。ステップ206でジェスチャ認識モジュール112は、HMMモデルおよび幾何学的特徴分布を、各々のジェスチャクラスに対して、特定のユーザに対して適応させることになる。ステップ206は、図5〜6に関連して下記でさらに説明されることになる。
図3は、本開示の態様による、ジェスチャスポッティングおよび認識のための例示的な方法のフロー線図である。
候補開始点検出
最初にステップ302で画像の入力シーケンスが、画像取り込みデバイス102により取り込まれる。ステップ304でオブジェクト検出器およびトラッカ114は、入力シーケンス内の候補開始点を検出し、候補開始点をシーケンスの全体を通してトラッキングする。手の位置および速度などの特徴が、入力シーケンスの各々のフレーム内で検出される手を表すために使用される。これらの特徴は、ユーザの顔の位置および幅により正規化される。
直接的ジェスチャスポッティング手法と同様に、候補開始点は、入力シーケンス内の動きパラメータの急激な変化として検出される。異常な速度、または、厳しい軌跡曲率を有する点が、候補開始点として検出される。普通は、この方法を使用すると、多くの偽陽性検出が存する。これらの点をジェスチャ境界として使用する直接的ジェスチャスポッティング方法は、あまり正確およびロバストではない。本開示の方法は、異なる戦略を使用する。手の軌跡は、これらの候補開始点からの各々のジェスチャクラスのHMMモデルとマッチングされ、そのため方法は、直接的および間接的ジェスチャスポッティング方法の利点を組み合わせることが可能である。
HMMモデルマッチング
ステップ306で入力画像のシーケンスは、下記で説明されることになるように、モデルマッチャ116によってHMMモデル118とマッチングされる。
Q={Q1,Q2,…}を、特徴ベクトルの連続シーケンスとするものであり、ただしQjは、入力画像の入力フレームjから抽出される特徴ベクトルである。手の位置および速度などの特徴が、各々のフレーム内で検出される手を表すために使用される。これらの特徴は、ジェスチャを実行するユーザの顔の位置および幅により正規化される。
を、ジェスチャgに対するm+1個の状態を伴う左右HMMモデルとする。各々の状態
は、各々の観測ベクトルQiの尤度を与えるガウシアン観測密度に関連付けられる。バウム−ウェルチアルゴリズムまたは機能が、HMMモデルをトレーニングするために使用されることになる。各々のモデルに対する状態の数は、典型的にはバウム−ウェルチアルゴリズムまたは機能によって行われるように、軌跡長さによって指定される。遷移確率は、学習作業を単純化するために固定され、すなわち、あらゆる遷移ではモデルは、次の状態に動くこと、または、同じ状態にとどまることが、等しく尤度が高い。
k,iを、状態kから状態iに遷移することの遷移確率として、および、
を、モデル状態
とマッチングするときの特徴ベクトルQjの尤度として表わす。Cを、セクション1.1で説明される方法を使用して検出される候補開始点セットとする。
は特別な状態であり、ただし、
である。
したがってHMMモデルマッチングは、これらの候補開始点のみで始まる。V(i,j)を、第1のj個の入力特徴ベクトル(Q1,…,Qj)を第1のi+1個のモデル状態
とマッチングするときの最大確率として表わす。次いで、
を得る。
(Q1,…,Qj)と
との間の最大マッチングスコア、SH(i,j)を、V(i,j)の対数とする。
H(i,j)=logV(i,j) (3)
式2での性質をベースにして、動的プログラミング(DP)が、最大マッチングスコアを効率的に計算するために使用される。DPは、(i,j)によりインデックス付けされる表を使用して実現される。新しい特徴ベクトルQnが入力フレームから抽出されるとき、フレームnに対応する表のスライスが計算され、情報の2つのまとまりが、セル(i,n)に記憶される:1)i=0,…,mに対するSH(i,n)の値、および、2)式2を最小化するために使用される先行物k、ただしSH(i,n)は、モデルと、フレームiで終了する入力シーケンスとの間の最適マッチングのスコアであり、kは、前フレームが最適マッチングで対応している状態である。SH(m,n)は、モデルと、フレームnで終了する入力シーケンスとの間の最適整合に対応する。最適動的プログラミング(DP)経路、すなわち、HMMモデルの最適状態シーケンスは、バックトラッキングを使用して獲得され得る。既存の間接的方法は、普通は、SH(m,n)を使用してジェスチャスポッティングを達成するものであり、すなわち、SH(m,n)が閾値より大きいならば、ジェスチャ終了点はフレームnとして検出され、ジェスチャ開始点は、最適DP経路をバックトラッキングすることにより見出され得る。
システムのスピードおよび正確度を改善するために、従来型のシステムはプルーニング戦略を使用し、その場合それらは、現在の観測の尤度をベースにしてプルーニングするものであり、τ(i)が、モデル状態iに対する閾値であり、トレーニングデータから学習される場合に、
であるならば、セル(i,j)は、除外してプルーニングされることになり、それを通って進行するすべての経路は排除されることになる。しかしながら、この単純なプルーニング戦略は十分に正確ではない。
幾何学的特徴抽出
本開示の方法では幾何学的特徴の抽出は、HMMモデルマッチング手順に組み込まれる。入力シーケンスに対して、HMMモデルの状態シーケンスが、ステップ308で遷移検出器120によって定められる。HMMの状態が変化する点が検出される。図4は、セグメンテーションされた軌跡「0」から抽出される例示的な状態遷移点の一部の例を与えるものであり、軌跡は、ユーザにより実行され、画像取り込みデバイス102により取り込まれる。黒点が状態遷移点である。状態遷移点の位置は軌跡すべてに対して同様であり、そのため幾何学的特徴は、ステップ310で、下記で説明されることになるように、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして、特徴抽出回路122によって抽出されるということが認められ得る。
ジェスチャの開始点を(x0,y0)として表わすと、遷移点(xt,yt)で抽出される幾何学的特徴は、xt−x0、yt−y0、および、
を含む。これらの単純な特徴は、手の軌跡の幾何学的情報を良好に説明し得る。
各々のジェスチャクラスに対して、それに関連付けられるHMMモデルが、そのトレーニングサンプルの幾何学的特徴を抽出するために使用される。幾何学的特徴は、ガウシアン分布にしたがうことが想定される。幾何学的特徴の分布は、トレーニングサンプルから学習される。次いで各々のジェスチャクラスが、HMMモデルおよびその幾何学的特徴分布に関連付けられる。ジェスチャgの幾何学的特徴分布を
と表し、ただしmは、Mgの状態数に関係付けられ、
は、HMMモデルの状態がi−1からiに変化する点で抽出される幾何学的特徴の分布である。幾何学的特徴の抽出はHMMモデルマッチング手順に組み込まれるので、幾何学的特徴をプルーニングに対して利用することは容易である。例えば、フレームFが状態遷移フレームであるならば、幾何学的特徴は、フレームFをベースにして抽出される。抽出される幾何学的特徴の確率が閾値より低いならば、このマッチングは、除外してプルーニングされることになり、すなわち、後続のフレームをモデルの状態とマッチングすることは、モデルマッチャ116により停止されることになり、マッチングするための少なくとも1つの第2のジェスチャモデルが選択されることになる。プルーニング手順がここで、下記の式(4)に関連して説明されることになる。
ステップ312でプルーニング機能またはプルーナ124は、以下の条件が満たされるならば、セル(i,j)を除外してプルーニングすることになる。
ただしpre(i)は、HMMモデルマッチングの間の状態iの以前のものであり、Gjは、点jで抽出される幾何学的特徴であり、t(i)は、トレーニングサンプルから学習する閾値であり、
およびτ(i)は、セクション1.2でのように定義される。
ステップ314で、(Q1,…,Qn)と
との間の総合的なマッチングスコアが、ジェスチャ認識モジュール112により、以下のように計算される。
ただしαは係数であり、SH(m,n)はHMMマッチングスコアであり、Gj(i)は、HMM状態がi−1からiに変化する点で抽出される幾何学的特徴である。ジェスチャの時間的セグメンテーションは、間接的方法と同様に達成され、すなわち、S(m,n)が閾値より大きいならば、ジェスチャ終了点は、ステップ216でのようにフレームnとして検出され、ジェスチャ開始点は、ステップ218でのように、最適DP経路をバックトラッキングすることにより見出され得る。式4および式5を使用することにより、方法は、ジェスチャスポッティングおよび認識のために、HMM、および、手の軌跡の幾何学的特徴を組み合わせ、したがって、システムの正確度を改善することが可能である。
別の実施形態では、隠れマルコフモデル(HMM)および幾何学的特徴分布を用いて、適応的ジェスチャ認識を達成する、ジェスチャ認識のためのシステムおよび方法が提供される。本開示のシステムおよび方法は、ジェスチャ認識のために、HMMモデル、および、ユーザの手の軌跡の幾何学的特徴を組み合わせる。入力シーケンスに対して、注目の検出されるオブジェクト、例えば手が、トラッキングされ、HMMモデルとマッチングされる。HMMモデルの状態が変化する点は、ビタビアルゴリズムまたは機能、フォワードアルゴリズムまたは機能、フォワードバックワードアルゴリズムまたは機能、その他によって見出される。これらの点は、状態遷移点と呼ばれる。幾何学的特徴は、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして抽出される。適応データ、すなわち、特定のユーザが実行したジェスチャを与えられると、最大尤度線形回帰(MLLR)方法が、HMMモデルを適応させ、各々のジェスチャクラスに対して、特定のユーザに対して、幾何学的特徴分布を逐次学習するために使用される。HMMモデルおよび幾何学的特徴分布を同時に更新することによって、ジェスチャ認識システムは、特定のユーザに迅速に適応し得る。
HMMおよび軌跡幾何学的特徴を組み合わせるジェスチャ認識
図5を参照すると、本開示の態様による、ジェスチャ認識システムを、隠れマルコフモデル(HMM)および幾何学的特徴分布を使用してトレーニングするための例示的な方法のフロー線図が例示されている。
最初にステップ502で画像の入力シーケンスが、画像取り込みデバイス102により取得され、または取り込まれる。ステップ504でオブジェクト検出器およびトラッカ114は、入力シーケンス内の注目のオブジェクト、例えばユーザの手を検出し、オブジェクトをシーケンスの全体を通してトラッキングする。手の位置および速度などの特徴が、入力シーケンスの各々のフレーム内で検出される手を表すために使用される。これらの特徴は、ユーザの顔の位置および幅により正規化される。画像のフレーム上での、顔の中心位置(xf,yf)、顔の幅w、および手の位置(xh,yh)を与えられると、正規化される手の位置は、xhn=(xh−xf)/w、yhn=(yh−yf)/wであり、すなわち絶対座標が、顔の中心に対する相対座標に変化させられる。
ガウシアン観測密度を伴う左右HMMモデルが、ステップ506で、検出される手をジェスチャモデルとマッチングし、ジェスチャクラスを定めるために使用される。例えば、取り込まれるビデオの各々のフレームからの特徴のシーケンスである入力シーケンス、および、状態のシーケンスであるジェスチャモデルを与えられると、モデルマッチャ116は、各々のフレームと各々の状態との間の対応する関係を、例えば、ビタビアルゴリズムもしくは機能、フォワードアルゴリズムもしくは機能、または、フォワードバックワードアルゴリズムもしくは機能によって見出す。
次にステップ508で入力シーケンスに対して、マッチングされるHMMモデルの状態シーケンスが、遷移検出器120により、ビタビアルゴリズムまたは機能を使用して検出される。HMMモデルの状態が変化する点が検出される。ステップ510で幾何学的特徴が、状態遷移点、および、ジェスチャの開始点の相対位置をベースにして、特徴抽出回路122によって抽出される。ジェスチャの開始点を(x0,y0)として表わすと、遷移点(xt,yt)で抽出される幾何学的特徴は、xt−x0、yt−y0、および、
を含む。入力シーケンスを与えられると、状態遷移点すべてで抽出される特徴が、入力シーケンスの幾何学的特徴を形成する。これらの単純な特徴は、手の軌跡の幾何学的情報を良好に説明し得る。
各々のジェスチャクラスに対して、左右HMMモデルがトレーニングされ、このHMMモデルが、そのトレーニングサンプルの幾何学的特徴を抽出するために使用される。幾何学的特徴は、ガウシアン分布にしたがうことが想定される。幾何学的特徴の分布は、トレーニングサンプルから学習される。次いで各々のジェスチャクラスが、ステップ512で、HMMモデルおよびその幾何学的特徴分布に関連付けられ、関連付けられるHMMモデルおよび幾何学的特徴分布が、ステップ514で記憶される。
第iのジェスチャクラスに関連付けられるHMMモデルおよび幾何学的特徴分布が、それぞれλiおよびqiであるということを表わす。セグメンテーションされた手の軌跡O−{O1,O2,…OT}(すなわち、検出およびトラッキングされるオブジェクト)を、第iのジェスチャクラスとマッチングするために、幾何学的特徴G={G1,G2,…GN}が、λiを使用して抽出される。マッチスコアが、ジェスチャ認識モジュール112により、以下のように計算される。
S=α×logp(O|λi)+(1−α)×logqi(G) (6)
ただしαは係数であり、p(O|λi)は、HMMモデルλiを与えられる手の軌跡Oの確率である。p(O|λi)は、フォワードバックワードアルゴリズムまたは機能を使用して計算され得る。入力された手の軌跡は、ジェスチャクラスであって、そのマッチスコアが最も高いジェスチャクラスとして分類されることになる。したがって式6を使用して、本開示のシステムおよび方法は、ジェスチャ認識のために、HMMモデル、および、ユーザの手の軌跡(すなわち、検出およびトラッキングされるオブジェクト)の幾何学的特徴を組み合わせることが可能である。
ジェスチャ認識の適応
図6は、本開示の態様による、ジェスチャ認識システムを特定のユーザに適応させるための例示的な方法のフロー線図である。適応データ(すなわち、特定のユーザが実行したジェスチャ)を与えられると、本開示のシステムおよび方法は、最大尤度線形回帰(MLLR)機能を用いて、HMMモデルを適応させ、各々のジェスチャクラスに対して、幾何学的特徴分布を逐次学習する。
最初にステップ602で画像の入力シーケンスが、画像取り込みデバイス102により取り込まれる。ステップ604でオブジェクト検出器およびトラッカ114は、入力シーケンス内の注目のオブジェクトを検出し、オブジェクトをシーケンスの全体を通してトラッキングする。ガウシアン観測密度を伴う左右HMMモデルが、ステップ606で、ジェスチャクラスをモデリングするために使用される。ステップ608で、定められるジェスチャクラスに関連付けられる幾何学的特徴分布が検索される。
次にステップ610でHMMモデルは、特定のユーザに対して、最大尤度線形回帰(MLLR)機能を使用して適応させられる。最大尤度線形回帰(MLLR)は、適応的音声認識に対して広く使用される。それは、モデルパラメータの線形変換のセットを、新しいサンプルを使用して推定し、そのことによってモデルは、変換の後で新しいサンプルとより良好にマッチングし得る。標準MLLR手法では、ガウシアン密度の平均ベクトルが、次式によって更新される。
ただしWは、n×(n+1)マトリックスであり(およびnは、観測特徴ベクトルの次元数である)、ξは、拡張された平均ベクトルである:ξT=[1,μ1,…,μn]。適応データOは、T個の観測の系列であると想定する:O=o1…oT。式7内のWを計算するために、最大化されることになる目標関数は、適応データを生成することの尤度である。
ただしθは、Oを生成する可能な状態シーケンスであり、λは、モデルパラメータのセットである。λがモデルパラメータの現在のセットであり、
がモデルパラメータの再推定されるセットである、補助関数
を最大化することにより、式8での目標関数もまた最大化される。式9をWに対して最大化することは、期待値最大化(EM)アルゴリズムまたは機能によって解を求められ得る。
次いでステップ612でシステムは、幾何学的特徴分布をユーザに対して、幾何学的特徴分布の平均および共分散マトリックスを予め定められる数の適応サンプルにわたって再推定することにより逐次学習する。ジェスチャgの現在の幾何学的特徴分布を
として表わすものであり、ただし
は、HMMモデルの状態がi−1からiに変化する点で抽出される幾何学的特徴の分布である。
の平均および共分散マトリックスは、それぞれ
および
であると想定する。ジェスチャgの適応データを与えられると、幾何学的特徴がデータから抽出されるものであり、状態がi−1からiに変化する適応データの点で抽出される幾何学的特徴が、セットX={x1,…xk}を形成するとし、ただしxiは、ジェスチャgの第iの適応サンプルから抽出される特徴であり、kは、ジェスチャgに対する適応サンプルの数である。次いで幾何学的特徴分布が、以下のように更新される。
ただし
および
はそれぞれ、
の再推定される平均および共分散マトリックスである。
HMMモデルおよび幾何学的特徴分布を同時に更新することによって、ジェスチャ認識システムは、ユーザに迅速に適応し得る。ステップ614での、適応させられるHMMモデル、および、学習される幾何学的特徴分布が、次いで、特定のユーザに対して、記憶デバイス110に記憶される。
ジェスチャ認識のためのシステムおよび方法が説明された。ジェスチャモデル(例えば、HMMモデル)および幾何学的特徴分布は、ジェスチャ認識を実行するために使用される。適応データ(すなわち、特定のユーザが実行したジェスチャ)をベースにして、HMMモデルおよび幾何学的特徴分布の両方が更新される。この様式でシステムは、特定のユーザに適応し得る。
図7で示される再生デバイス700では、アイテムを購入するために使用される、画像情報および対応する情報が、入力信号受信器702によって受信される。入力信号受信器702は、受信すること、復調、および、信号を復号することのために使用されるいくつかの知られている受信器回路の1つであり得るものであり、それらの信号は、オーバージエア、ケーブル、衛星、Ethernet(商標)、ファイバ、および電話ラインネットワークを含む、いくつかの可能なネットワークの1つによって提供されるものである。所望される入力信号は、入力信号受信器702で、制御インターフェイス(示されない)を通して提供されるユーザ入力をベースにして選択および検索され得る。復号される出力信号が、入力ストリームプロセッサー704に提供される。入力ストリームプロセッサー704は、最終的な信号選択および処理を実行し、コンテンツストリームに対するオーディオコンテンツからのビデオコンテンツの分離を含む。オーディオコンテンツは、圧縮されるディジタル信号などの受信されるフォーマットからの、アナログ波形信号への変換のために、オーディオプロセッサー706に提供される。アナログ波形信号は、オーディオインターフェイス708に、およびさらに、ディスプレイデバイスまたはオーディオ増幅器(示されない)に提供される。あるいはオーディオインターフェイス708は、ディジタル信号を、オーディオ出力デバイスまたはディスプレイデバイスに、高精細度マルチメディアインターフェイス(HDMI:登録商標)ケーブル、または、Sony/Philipsディジタル相互接続フォーマット(SPDIF)によるような代替のオーディオインターフェイスを使用して提供し得る。オーディオプロセッサー706はさらには、オーディオ信号の記憶のための任意の必要な変換を実行する。
入力ストリームプロセッサー704からのビデオ出力が、ビデオプロセッサー710に提供される。ビデオ信号は、いくつかのフォーマットの1つであり得る。ビデオプロセッサー710は、必要な際にビデオコンテンツの変換を、入力信号フォーマットをベースにして提供する。ビデオプロセッサー710はさらには、ビデオ信号の記憶のための任意の必要な変換を実行する。
記憶デバイス712は、入力で受信されるオーディオおよびビデオコンテンツを記憶する。記憶デバイス712は、コントローラ714の制御のもとでの、およびさらには、コマンドをベースにしての、コンテンツの、後での検索および再生を可能とするものであり、それらのコマンドは例えば、ユーザインターフェイス716から受信される、次のアイテム、次のページ、ズーム、高速フォワード(FF)再生モード、および、巻戻し(Rew)再生モードなどの誘導命令である。記憶デバイス712は、ハードディスク駆動装置、静的ランダムアクセスメモリもしくは動的ランダムアクセスメモリなどの、1もしくは複数の大容量集積電子メモリであり得るものであり、または、コンパクトディスク駆動装置もしくはディジタルビデオディスク駆動装置などの交換可能光学ディスク記憶システムであり得る。1つの実施形態では記憶デバイス712は、外付けであり、システム内に存在しない場合がある。
入力または記憶デバイス712のいずれかに由来する、ビデオプロセッサー710からの変換されるビデオ信号は、ディスプレイインターフェイス718に提供される。ディスプレイインターフェイス718は、ディスプレイ信号を、上記で説明されたタイプのディスプレイデバイスにさらに提供する。ディスプレイインターフェイス718は、赤−緑−青(RGB)などのアナログ信号インターフェイスであり得るものであり、または、高精細度マルチメディアインターフェイス(HDMI)などのディジタルインターフェイスであり得る。
プロセッサーであり得るコントローラ714は、バスを介して、入力ストリームプロセッサー702、オーディオプロセッサー706、ビデオプロセッサー710、記憶デバイス712、ユーザインターフェイス716、およびジェスチャモジュール722を含む、デバイス700の構成要素のいくつかに相互接続される。コントローラ714は、入力ストリーム信号を、記憶デバイス上での記憶のための、またはディスプレイのための信号に変換するための変換プロセスを管理する。コントローラ714はさらには、記憶されるコンテンツの再生のために使用される検索および再生モードを管理する。さらに下記で説明されることになるように、コントローラ714は、記憶される、または、上記で説明された配信ネットワークを介して配信されることになるということのいずれかである、コンテンツの探索を実行する。コントローラ714は、コントローラ714に対する情報および命令コードを記憶するための制御メモリ720(例えば、ランダムアクセスメモリ、静的RAM、動的RAM、読出し専用メモリ、プログラマブルROM、フラッシュメモリ、EPROM、EEPROM、その他を含む、揮発性または不揮発性メモリ)にさらに結合される。さらにメモリの実現は、単一メモリデバイス、または代替的に、共有される、もしくは共通のメモリを形成するために一体に接続される、1つよりも多いメモリ回路などの、いくつかの可能な実施形態を含み得る。その上さらにメモリは、バス通信回路網の小部分などの他の回路網とともに、より大きな回路に含まれる場合がある。
本開示のユーザインターフェイス716は、カーソルをディスプレイの周囲で動かす入力デバイスを用いる場合があり、その動かすことは、コンテンツが、カーソルがそれの上方を通過する際に拡大することを引き起こす。1つの実施形態では入力デバイスは、ユーザがカーソルを自由にスクリーンまたはディスプレイの周りで動かすことを可能とする、ジャイロスコープまたは加速度計などの動き検出の形式を伴う遠隔コントローラである。別の実施形態では入力デバイスは、パッド上、スクリーン上のユーザの動きをトラッキングすることになる、タッチパッド、または、タッチセンシティブデバイスの形式でのコントローラである。別の実施形態では入力デバイスは、方向ボタンを伴う従前の遠隔制御であり得る。ユーザインターフェイス716はさらには、本明細書内で説明される例示的な原理によって、ユーザジェスチャを、カメラ、視覚センサなどを使用して光学的に認識するように構成され得る。
図1からの例示的な実施形態としてのジェスチャモジュール722は、ユーザインターフェイス716からの、ジェスチャをベースにする入力を解釈し、何のジェスチャをユーザがなしているかを、上記の例示的な原理によって定める。定められるジェスチャは次いで、再生、および、再生のためのスピードを定めるために使用され得る。具体的にはジェスチャは、高速フォワード動作および高速リバース動作などの、メディアの実時間より高速のプレイすることでの、メディアの再生を指示するために使用され得る。その上ジェスチャはさらには、スローモーションフォワード動作およびスローモーションリバース動作などの、メディアの実時間より低速のプレイすることを指示し得る。何をジェスチャが意味するか、および、どのようにそのようなジェスチャがメディアの再生スピードを制御するかの、そのような定めが、様々な説明に役立つ実施形態で説明される。
ジェスチャは、ベースジェスチャおよびジェスチャ変更子(modifier)として知られている、少なくとも2つの部分に細分化され得る。ベースジェスチャは、腕または脚の動きであり得る動きの態様を包含する「総体の」ジェスチャである。ジェスチャの変更子は、人が腕を動かしている間に提示される指の数、人が腕を動かしているときの手上での提示される指の位置、人がその脚を動かしているときの足の動き、人が腕を動かしている間の手の波動などであり得る。ベースジェスチャは、ジェスチャモジュール722により、再生デバイス700を、高速フォワード、高速リバース、スローモーションフォワード、スローモーションリバース、通常のプレイ、一時停止などの再生モードで動作させるように定められ得る。ジェスチャの変更子は次いで、ジェスチャモジュール720により、再生のスピードをセットするように定められ、その再生のスピードは、通常のプレイモードに関連付けられるメディアの実時間プレイすることより高速または低速にすることができる。例示的な実施形態では、個別のジェスチャに関連付けられる再生は、そのジェスチャがユーザにより保たれるのと同じほど長い間連続することになる。
図8は、例示的な実施形態による、入力ジェスチャがメディアの再生を制御するために使用される、フロー線図800を例示する。ステップ802は、ユーザインターフェイス710にユーザジェスチャを受信させる。上記で説明されたようにユーザジェスチャは、ユーザインターフェイス710により、視覚技法を使用して認識され得る。ステップ804でジェスチャモジュール722は、入力ジェスチャをベースジェスチャに細分化し、そのベースジェスチャは、一例として示すと、左方向での腕が動くこと、右方向での腕が動くこと、上向き方向での腕が動くこと、下向き方向で腕を動かすことなどであり得る。定められるベースジェスチャは次いで、制御コマンドに関連付けられるものであり、その制御コマンドは、通常のプレイモード、高速フォワード、高速リバース、低速フォワード動き、低速リバース動き、一時停止モードなどの、説明に役立つ再生モードを使用する再生モードを選択するために使用されるものである。再生モードは、実時間プレイ動作である実時間再生モードであり得る。再生モードはさらには、高速フォワード、高速リバース、スローモーションフォワード、スローモーションリバースなどの再生モードを使用している非実時間再生モードであり得る。例示的な実施形態では、右方向での腕の動きはフォワード再生動作を指示し、一方で、左方向での腕の動きはリバース再生動作を指示する。
ステップ806は、ジェスチャモジュール722に、ベースジェスチャの変更子を定めさせるものであり、その場合、説明に役立つ変更子は、手上で提示される指の数、手上の指の位置、手の波の数、手の指の動きなどを含む。説明に役立つ例では、第1の指は第1の再生スピードを指示し得るものであり、第2の指は第2の再生スピードを指示し得るものであり、第3の指は第3の再生スピードを指示し得るものなどである。理想的には変更子は、非実時間より高速または低速である再生スピードに対応する。
別の説明に役立つ例では、人差し指の位置は、実時間より2倍高速の再生スピードを表し得るものであり、中指の位置は、実時間より4倍高速の再生スピードを表し得るものであり、環指の位置は、実時間より8倍高速の再生スピードを表し得るものなどである。
異なる変更子に対応するスピードは、実時間より高速および低速のスピードの混合であり得る。さらなる説明に役立つ例では、人差し指の位置は、実時間より2倍高速の再生スピードを表し得るものであり、一方で中指の位置は、2分の1倍実時間再生スピードを表し得る。スピードの他の混合が、例示的な原理によって使用され得る。
ステップ808で、ジェスチャモジュール722により定められる変更子が、ステップ806から、再生モードのスピードを定める制御コマンドに関連付けられる。ステップ810でコントローラ714は、制御コマンドを使用して、メディアの再生を、定められる再生モードで、変更子により定められるスピードで起動する。メディアは、定められる再生モードで、オーディオプロセッサー706およびビデオプロセッサー710によって、選択される再生モードによって出力され得る。
付随する実施形態では、高速スピード動作から低速スピード動きモードへの変化は、下向き方向で腕を動かすことにより成し遂げられ得る。すなわち、高速フォワード動作を引き起こすために使用されるベースジェスチャがここで、低速フォワード動き動作を結果として生じさせることになり、一方で、高速リバース動作を結果として生じさせたベースジェスチャがここで、スローモーションリバース動作を結果として生じさせることになる。さらなる付随する実施形態では、ベースジェスチャに対する低速スピード動作から高速スピード動作への変化が、説明に役立つ原理によって、上向き方向で腕を動かすジェスチャに応答して実行される。
図9は、メディアの再生を制御するために使用される腕および手によるジェスチャの表現を示すユーザインターフェイス900の例示的な実施形態を提示する。ユーザインターフェイス900内の特定のジェスチャは、1つの指を使用する右へ向かう腕を示す。右への腕の動きのベースジェスチャは、メディアの高速フォワードまたはスローモーションフォワード再生を指示することになり、その場合変更子は、メディアは第1のスピードで再生されるべきであるということを指示する。図10は、右へ向かって動く腕および手によるジェスチャを示すユーザインターフェイス1000の例示的な実施形態を提示し、その場合メディアの再生は、変更子としての3つの指を示すこと(display)との相互関係がある第3のスピードでとなる。
図11は、メディアの再生を制御するために使用されている腕および手によるジェスチャを例示するユーザインターフェイス1100の例示的な実施形態を提示する。具体的にはユーザインターフェイス1100でのジェスチャは、高速リバースまたはスローモーション見直しのいずれかである、リバースをベースにするモードでのメディアの再生との相互関係がある、左に向かって動くベースジェスチャである。リバースをベースにするモードのスピードは、例示的な原理による、複数のスピードからの第2のスピードである。下記の表1は、例示的なベースジェスチャを、関連付けられる変更子とともに、開示される原理によって示す。
本開示の教示を組み込む実施形態が、本明細書で詳細に示され、説明されたが、当業者は容易に、やはりこれらの教示を組み込む多くの他の変動した実施形態を考案することが可能である。ジェスチャ認識のためのシステムおよび方法に対する好まれる実施形態(説明に役立つ、および、制限的でないことが意図される)を説明したが、変更および変動が、当業者により、上記の教示の観点でなされ得るということが留意される。したがって、添付される特許請求の範囲により概説されるような本開示の範囲内にある変化が、開示される本開示の個別の実施形態においてなされ得るということが理解されるべきである。

Claims (28)

  1. メディア再生を制御するための方法であって、
    ユーザジェスチャに対応する入力を受信するステップ(802)と、
    前記入力のベースジェスチャを、再生モードに対応する制御コマンドに関連付けるステップ(804)と、
    前記ベースジェスチャの変更子を受信するステップ(806)と、
    前記変更子を前記制御コマンドに関連付けるステップ(808)と、
    メディアを、前記制御コマンドに応答して、前記関連付けられる再生モードおよび変更子に従ってプレイするステップ(810)と、
    を備える、前記方法。
  2. 複数の異なる変更子の1つを前記制御コマンドに選択的に関連付けるステップと、
    前記再生モードを、前記複数の前記変更子の選択された1つに応答して変更するステップと、
    をさらに備える、請求項1に記載の方法。
  3. 前記複数の前記変更子の異なるものを選択して、前記再生モードの方向およびスピードを制御するステップをさらに備える、請求項2に記載の方法。
  4. 前記再生モードは、高速フォワード動作、高速リバース動作、スローモーションフォワード動作、およびスローモーションリバース動作を含む群から選択される、少なくとも1つのモードである、請求項1に記載の方法。
  5. 前記ベースジェスチャは、左方向に向かって腕を動かすこと、右方向に向かって腕を動かすこと、上向き方向で腕を動かすこと、および、下向き方向で腕を動かすことを含む群から選択される、少なくとも1つのジェスチャである、請求項1に記載の方法。
  6. 前記ベースジェスチャの前記変更子は、少なくとも1つの指を提示すること、少なくとも1つの提示される指の位置、少なくとも1つの手を振ること、および、少なくとも1つの指の少なくとも1つの動きを備える群から選択される、少なくとも1つの要素である、請求項5に記載の方法。
  7. 少なくとも1つの指を前記提示することは、
    1つの指を前記提示することは、再生スピードに対する第1のスピードを表すということと、
    2つの指を前記提示することは、再生スピードに対する第2のスピードを表すということと、
    3つの指を前記提示することは、再生スピードに対する第3のスピードを表すということと、
    をさらに備える、請求項6に記載の方法。
  8. 少なくとも1つの指を前記提示することは、
    第1の位置での前記指を前記提示することは、第1の再生スピードでのスピードを表すということと、
    第2の位置での前記指を前記提示することは、第2の再生スピードでのスピードを表すということと、
    第3の位置での前記指を前記提示することは、第3の再生スピードでのスピードを表すということと、
    をさらに備える、請求項6に記載の方法。
  9. 下向き方向での前記腕を前記動かすことは、再生スピードを、高速スピード動作からスローモーション動作に変化させる、請求項5に記載の方法。
  10. 上向き方向での前記腕を前記動かすことは、再生スピードを、スローモーション動作から高速スピード動作に変化させる、請求項5に記載の方法。
  11. 前記ベースジェスチャは、前記再生モードは高速フォワード動作であるということを指示する右への動き腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも1つの指のディスプレイであり、表示される指の数は、前記高速フォワード動作のスピードを定めるために使用される、請求項1に記載の方法。
  12. 前記ベースジェスチャは、前記再生モードは高速リバース動作であるということを指示する左への腕の動きであり、前記ベースジェスチャの前記変更子は、少なくとも1つの指のディスプレイであり、表示される指の数は、前記高速リバース動作のスピードを定めるために使用される、請求項1に記載の方法。
  13. 前記ベースジェスチャは、前記再生モードは低速フォワード動作であるということを指示する右への動き腕の動きであり、前記ベースジェスチャの前記変更子は、少なくとも1つの指のディスプレイであり、表示される指の数は、前記低速フォワード動作のスピードを定めるために使用される、請求項1に記載の方法。
  14. 前記ベースジェスチャは、前記再生モードは低速リバース動作であるということを指示する左への腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも1つの指のディスプレイであり、表示される指の数は、前記低速リバース動作のスピードを定めるために使用される、請求項1に記載の方法。
  15. メディア再生を制御するための装置であって、
    プロセッサーと、
    前記プロセッサーに結合されるメモリであって、前記プロセッサーにより実行されるときに、
    ユーザジェスチャに対応する入力を受信する動作(802)と、
    前記入力のベースジェスチャを、再生モードに対応する制御コマンドに関連付ける動作(804)と、
    前記ベースジェスチャの変更子を受信する動作(806)と、
    前記変更子を前記制御コマンドに関連付ける動作(808)と、
    メディアを、前記制御コマンドに応答して、前記関連付けられる再生モードおよび変更子によってプレイする動作(810)と、
    を実行する命令を記憶するためのメモリと、
    を備える、前記装置。
  16. 前記プロセッサーが、
    複数の異なる変更子の1つを前記制御コマンドに選択的に関連付けることと、
    前記再生モードを、前記複数の前記変更子の選択された1つに応答して変更することと、
    の前記動作を実行することを引き起こす命令を備える、請求項15に記載の装置。
  17. 前記プロセッサーが、前記複数の前記変更子の異なるものを選択して、前記再生モードの方向およびスピードを制御することの前記動作を実行することを引き起こす命令をさらに備える、請求項16に記載の装置。
  18. 前記再生モードは、高速フォワード動作、高速リバース動作、スローモーションフォワード動作、およびスローモーションリバース動作を含む群から選択される、少なくとも1つのモードである、請求項15に記載の装置。
  19. 前記ベースジェスチャは、左方向に向かって腕を動かすこと、右方向に向かって腕を動かすこと、上向き方向で腕を動かすこと、および、下向き方向で腕を動かすことを含む群から選択される、少なくとも1つのジェスチャである、請求項15に記載の装置。
  20. 前記ベースジェスチャの前記変更子は、少なくとも1つの指を提示すること、少なくとも1つの提示される指の位置、少なくとも1つの手を振ること、および、少なくとも1つの指の少なくとも1つの動きを備える群から選択される、少なくとも1つの要素である、請求項19に記載の装置。
  21. 少なくとも1つの指を前記提示することは、
    1つの指を前記提示することは、再生スピードに対する第1のスピードを表すということと、
    2つの指を前記提示することは、再生スピードに対する第2のスピードを表すということと、
    3つの指を前記提示することは、再生スピードに対する第3のスピードを表すということと、
    をさらに備える、請求項20に記載の装置。
  22. 少なくとも1つの指を前記提示することは、
    第1の位置での前記指を前記提示することは、第1の再生スピードでのスピードを表すということと、
    第2の位置での前記指を前記提示することは、第2の再生スピードでのスピードを表すということと、
    第3の位置での前記指を前記提示することは、第3の再生スピードでのスピードを表すということと、
    をさらに備える、請求項20に記載の装置。
  23. 下向き方向での前記腕を前記動かすことは、再生スピードを、高速スピード動作からスローモーション動作に変化させる、請求項19に記載の装置。
  24. 上向き方向での前記腕を前記動かすことは、再生スピードを、スローモーション動作から高速スピード動作に変化させる、請求項19に記載の装置。
  25. 前記ベースジェスチャは、前記再生モードは高速フォワード動作であるということを指示する右への動き腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも1つの指を示すことであり、示される指の数は、前記高速フォワード動作のスピードを定めるために使用される、請求項15に記載の装置。
  26. 前記ベースジェスチャは、前記再生モードは高速リバース動作であるということを指示する左への腕の動きであり、前記ベースジェスチャの前記変更子は、少なくとも1つの指を示すことであり、示される指の数は、前記高速リバース動作のスピードを定めるために使用される、請求項15に記載の装置。
  27. 前記ベースジェスチャは、前記再生モードは低速フォワード動作であるということを指示する右への動き腕動きであり、前記ベースジェスチャの前記変更子は、少なくとも1つの指を示すことであり、示される指の数は、前記低速フォワード動作のスピードを定めるために使用される、請求項15に記載の装置。
  28. 前記ベースジェスチャは、前記再生モードは低速リバース動作であるということを指示する左への腕の動きであり、ベースにしたジェスチャの前記変更子は、少なくとも1つの指を示すことであり、示される指の数は、前記低速リバース動作のスピードを定めるために使用される、請求項15に記載の装置。
JP2016545364A 2014-01-07 2015-01-07 ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法 Pending JP2017504118A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461924647P 2014-01-07 2014-01-07
US61/924,647 2014-01-07
US201461972954P 2014-03-31 2014-03-31
US61/972,954 2014-03-31
PCT/US2015/010492 WO2015105884A1 (en) 2014-01-07 2015-01-07 System and method for controlling playback of media using gestures

Publications (1)

Publication Number Publication Date
JP2017504118A true JP2017504118A (ja) 2017-02-02

Family

ID=52432945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016545364A Pending JP2017504118A (ja) 2014-01-07 2015-01-07 ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法

Country Status (7)

Country Link
US (1) US20170220120A1 (ja)
EP (1) EP3092547A1 (ja)
JP (1) JP2017504118A (ja)
KR (1) KR20160106691A (ja)
CN (1) CN105980963A (ja)
TW (1) TW201543268A (ja)
WO (1) WO2015105884A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489106B2 (en) 2016-12-31 2019-11-26 Spotify Ab Media content playback during travel
US11514098B2 (en) 2016-12-31 2022-11-29 Spotify Ab Playlist trailers for media content playback during travel
US10747423B2 (en) 2016-12-31 2020-08-18 Spotify Ab User interface for media content playback
US11847426B2 (en) * 2017-11-08 2023-12-19 Snap Inc. Computer vision based sign language interpreter
US10701431B2 (en) * 2017-11-16 2020-06-30 Adobe Inc. Handheld controller gestures for virtual reality video playback
WO2019127419A1 (zh) * 2017-12-29 2019-07-04 李庆远 多级快进快退手势方法和设备
CN108181989B (zh) * 2017-12-29 2020-11-20 北京奇虎科技有限公司 基于视频数据的手势控制方法及装置、计算设备
WO2019127566A1 (zh) * 2017-12-30 2019-07-04 李庆远 多级手势跳台方法和设备
CN109327760B (zh) * 2018-08-13 2019-12-31 北京中科睿芯科技有限公司 一种智能音响及其播放控制方法
US11307667B2 (en) * 2019-06-03 2022-04-19 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for facilitating accessible virtual education
JP2023138873A (ja) * 2020-08-21 2023-10-03 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN114639158A (zh) * 2020-11-30 2022-06-17 伊姆西Ip控股有限责任公司 计算机交互方法、设备和程序产品

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4666053B2 (ja) * 2008-10-28 2011-04-06 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN101770795B (zh) * 2009-01-05 2013-09-04 联想(北京)有限公司 一种计算设备及视频播放控制方法
US8428368B2 (en) * 2009-07-31 2013-04-23 Echostar Technologies L.L.C. Systems and methods for hand gesture control of an electronic device
US9009594B2 (en) * 2010-06-10 2015-04-14 Microsoft Technology Licensing, Llc Content gestures
US20120069055A1 (en) * 2010-09-22 2012-03-22 Nikon Corporation Image display apparatus
CN102081918B (zh) * 2010-09-28 2013-02-20 北京大学深圳研究生院 一种视频图像显示控制方法及视频图像显示器
US8610831B2 (en) * 2010-10-12 2013-12-17 Nokia Corporation Method and apparatus for determining motion
US9323337B2 (en) * 2010-12-29 2016-04-26 Thomson Licensing System and method for gesture recognition
EP2661669A4 (en) * 2011-01-06 2017-07-05 TiVo Solutions Inc. Method and apparatus for gesture based controls
US20120206348A1 (en) * 2011-02-10 2012-08-16 Kim Sangki Display device and method of controlling the same
US9619035B2 (en) * 2011-03-04 2017-04-11 Microsoft Technology Licensing, Llc Gesture detection and recognition
CN103092332A (zh) * 2011-11-08 2013-05-08 苏州中茵泰格科技有限公司 电视数字图像交互方法及系统
US9389690B2 (en) * 2012-03-01 2016-07-12 Qualcomm Incorporated Gesture detection based on information from multiple types of sensors
TWI454966B (zh) * 2012-04-24 2014-10-01 Wistron Corp 手勢控制方法及手勢控制裝置

Also Published As

Publication number Publication date
WO2015105884A1 (en) 2015-07-16
TW201543268A (zh) 2015-11-16
CN105980963A (zh) 2016-09-28
EP3092547A1 (en) 2016-11-16
US20170220120A1 (en) 2017-08-03
KR20160106691A (ko) 2016-09-12

Similar Documents

Publication Publication Date Title
JP2017504118A (ja) ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法
US9323337B2 (en) System and method for gesture recognition
JP7325668B2 (ja) シーンアウェア映像対話
Raheja et al. Robust gesture recognition using Kinect: A comparison between DTW and HMM
JP6062547B2 (ja) 拡張現実を制御するための方法および装置
US6944315B1 (en) Method and apparatus for performing scale-invariant gesture recognition
Frolova et al. Most probable longest common subsequence for recognition of gesture character input
JP7146247B2 (ja) 動作認識方法及び装置
Carmona et al. A performance evaluation of HMM and DTW for gesture recognition
US9218545B2 (en) Method and system for human action recognition
JP2021077377A (ja) 物体認識モデルを学習するための方法および装置
CN104350509A (zh) 快速姿势检测器
Gillian Gesture recognition for musician computer interaction
Stern et al. Most discriminating segment–Longest common subsequence (MDSLCS) algorithm for dynamic hand gesture classification
Wu et al. Bayesian co-boosting for multi-modal gesture recognition
Ding et al. An adaptive hidden Markov model-based gesture recognition approach using Kinect to simplify large-scale video data processing for humanoid robot imitation
Luo et al. Wearable air-writing recognition system employing dynamic time warping
CN107346207B (zh) 一种基于隐马尔科夫模型的动态手势切分识别方法
Su et al. Liplearner: Customizable silent speech interactions on mobile devices
US20220138489A1 (en) Method of live video event detection based on natural language queries, and an apparatus for the same
Abid et al. Dynamic sign language and voice recognition for smart home interactive application
Roy et al. Learning audio-visual associations using mutual information
Rakesh et al. Static palm sign gesture recognition with leap motion and genetic algorithm
Nigam et al. A complete study of methodology of hand gesture recognition system for smart homes
Shuchang A Survey on Human Action Recognition

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161202

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161202