JP2022084582A

JP2022084582A - ジェスチャ埋め込みビデオ

Info

Publication number: JP2022084582A
Application number: JP2022020305A
Authority: JP
Inventors: チュアンウ、チア; Chia Chuan Wu; ルイチンチャン、シャーメイン; Rui Qin Chan Charmaine; キンクー、ニュク; Nyuk Kin Koo; ミンタン、ホイ; Hooi Min Tan
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2016-06-28
Filing date: 2022-02-14
Publication date: 2022-06-07
Anticipated expiration: 2036-06-28
Also published as: JP2019527488A; CN109588063A; US20180307318A1; DE112016007020T5; WO2018004536A1; JP7026056B2; CN109588063B; JP7393086B2

Abstract

【課題】撮影中のビデオストリームにジェスチャによる表現および時間を埋め込むシステム、方法、プログラム及び記録媒体を提供する。【解決手段】ジェスチャ埋め込みビデオのためのシステム１０５は、受信機１１０と、センサ１１５と、エンコーダ１２０と、記憶デバイス１２５と、を含む。ビデオストリームを受信機が受信し、手首着用デバイス１１７とインタフェースするセンサがサンプルセットを得る。そのサンプルセットから、ジェスチャが特定の時間に起こったものと判断し、ジェスチャの表現及び時間を、ビデオストリームのエンコードされたビデオ内に埋め込む。【選択図】図１Ａ

Description

本明細書で記載されている実施形態は、概してデジタルビデオエンコードに関し、より具体的にはジェスチャ埋め込みビデオに関する。

ビデオカメラは概して、サンプル期間中の集光のために集光器とエンコーダとを含む。例えば、従来のフィルムベースのカメラは、フィルムのあるフレーム（例えば、エンコード）がカメラの光学系により方向付けられた光に曝される時間の長さに基づきサンプル期間を定め得る。デジタルビデオカメラは、概して検出器の特定の部分で受信する光の量を測定する集光器を用いる。あるサンプル期間にわたってカウント値が設定され、その時点でそれらは画像を設定するのに用いられる。画像の集合によってビデオは表現される。しかしながら、概して、未加工の画像はビデオとしてパッケージ化される前に更なる処理（例えば、圧縮、ホワイトバランス処理等）を受ける。この更なる処理の結果物が、エンコードされたビデオである。

ジェスチャは、典型的にはユーザにより実施され、コンピューティングシステムにより認識可能である身体の動きである。ジェスチャは概して、デバイスへの追加の入力メカニズムをユーザに提供するのに用いられる。例示的なジェスチャとして挙げられるのは、インタフェースを縮小するための画面上をつまむこと、またはユーザインタフェースからオブジェクトを取り除くためにスワイプすることである。

図面は縮尺通りに描画されているとは限らず、共通する数字は、種々の図面において同様のコンポーネントを指し得る。種々の添え字を有する共通する数字は、同様のコンポーネントの種々の例を表し得る。図面は、本文書で説明される様々な実施形態を限定ではなく例として一般的に図示する。

図１Ａは、ある実施形態に係る、ジェスチャ埋め込みビデオのためのシステムを含む環境を図示している。図１Ｂは、ある実施形態に係る、ジェスチャ埋め込みビデオのためのシステムを含む環境を図示している。

図２は、ある実施形態に係る、ジェスチャ埋め込みビデオを実装するデバイスの例のブロック図を図示している。

図３は、ある実施形態に係る、ビデオに対してジェスチャデータをエンコードするデータ構造の例を図示している。

図４は、ある実施形態に係る、ジェスチャをビデオ内にエンコードするデバイス間のインタラクションの例を図示している。

図５は、ある実施形態に係る、エンコードされたビデオ内でジェスチャにより点をマーク付けする例を図示している。

図６は、ある実施形態に係る、ユーザインタフェースとしてジェスチャ埋め込みビデオに対するジェスチャを用いる例を図示している。

図７は、ある実施形態に係る、エンコードされたビデオ内のジェスチャデータのメタデータフレーム単位エンコードの例を図示している。

図８は、ある実施形態に係る、ジェスチャ埋め込みビデオに対するジェスチャを用いることの例示的なライフサイクルを図示している。

図９は、ある実施形態に係る、ビデオ内にジェスチャを埋め込む方法の例を図示している。

図１０は、ある実施形態に係る、ジェスチャ埋め込みビデオの作成中に埋め込むのに利用可能なジェスチャのレパートリーにジェスチャを追加する方法の例を図示している。

図１１は、ある実施形態に係る、ビデオにジェスチャを追加する方法の例を図示している。

図１２は、ある実施形態に係る、ユーザインタフェース要素としてビデオに埋め込まれるジェスチャを用いる方法の例を図示している。

図１３は、１または複数の実施形態が実装されてよいマシンの例を図示しているブロック図である。

新たに出てきているカメラのフォームファクタは、身体着用される（例えば、視点）カメラである。これらデバイスは小さく、スキー滑降、逮捕等のイベントを記録すべく着用されるよう設計されることが多い。身体着用されたカメラによってユーザ達は、自分達の活動の種々の視野をキャプチャし、個々人のカメラ体験を全く新しいレベルに引き上げてきた。例えば、身体着用されたカメラは、エクストリームスポーツ中、バケーション旅行中、等のユーザの視野を、それら活動を楽しむ、または実行するユーザの能力に影響を与えることなく撮影することが可能である。しかしながら、これら個々人のビデオをキャプチャする能力がここまで便利になってきても、一部の課題が残っている。例えば、このやり方で撮影されたビデオ素材の長さは長くなることが多く、素材の大部分が単に興味深くないものとなる。この課題が生じするのは、多くのシチュエーションにおいてユーザが、イベントまたは活動のどの部分も逃さないようカメラの電源を入れ記録を始めることが多いからである。概して、ユーザが活動中にカメラを停止する、または停止ボタンを押すことは稀である。なぜならば、例えば、登山中に崖の面から手を放して、カメラにある記録開始または記録停止ボタンを押すことは危険であるか、または不便であり得るからである。したがって、ユーザは活動の終わりまで、カメラのバッテリーが切れるまで、またはカメラの記憶領域がいっぱいになるまでカメラを動作させたままとしておくことが多い。

興味深くない素材に対する興味深い素材の割合は概して低いので、このことによってもビデオを編集することが困難となり得る。カメラにより撮影された多くのビデオの長さが理由で、再度ビデオを見てビデオの興味深いシーン（例えば、セグメント、断片等）を特定することは長く退屈な処理となり得る。このことは、例えば巡査がビデオを１２時間記録したとすれば、そのうち何らかの興味深い一編を特定すべく１２時間に及ぶビデオを見なければならなくなるので課題を含み得る。

一部のデバイスは、ビデオ内のあるスポットにマーク付けを行う、ボタン等のブックマーク付け機能を含むが、このことは、正にカメラを停止し開始することと同様の課題を有している。すなわち、活動中にそれを用いるのは不便であり得、または全くもって危険であり得るからである。

以下に示すのは、ビデオにマーク付けを行うための現在の技術が課題を有している、３つの使用に関するシナリオである。エクストリーム（または何らかの）スポーツの参加者（例えば、スノーボード、スカイダイブ、サーフィン、スケートボード等）。エクストリームスポーツの参加者が動作中に、カメラにある何らかのボタンを、ましてやブックマークボタンを押すことは困難である。さらに、これら活動に関してユーザは通常、始まりから終わりまで活動の継続時間全体を単に撮影するであろう。このように素材の長さが長くなる可能性があるが故に、彼らが行なった具体的なトリックまたはスタント行為を検索するときに再度見ることは困難となり得る。

警官。警官が自身達の勤務時間中にカメラを着用して、例えば自分達の安全およびアカウンタビリティ、および一般の人々のアカウンタビリティを高めることがより一般的となっている。例えば、巡査が容疑者を追跡するとき、そのイベント全体が撮影されてよく、後に証拠として役に立てる目的で参照されてよい。ここでも、これらフィルムの長さは長くなる可能性が高く（例えば、勤務時間の長さ）、興味の対象となる時間は短い可能性が高い。その素材を再度検証するのが長く退屈なものになるだけでなく、各勤務時間に関して８時間超かかることになるそのようなタスクは許容出来る以上に金銭的または時間的コストが高くなり得、素材の多くが無視されることになる。

医療従事者（例えば、看護師、医師等）。医師は、手術中に身体着用または同様のカメラを用いて、例えば、処置の撮影を行ってよい。このことは、学習教材を作成する、責任に関して処置の状況の記録を残しておく、等のために行われてよい。手術は数時間続き得、様々な処置を伴い得る。ビデオとなった手術のセグメントを後の参照のために整理またはラベル付けするには、ある所与の瞬間において何が起こっているかを専門家が見分ける必要があり、作成者にかかるコストが増加し得る。

上記にて言及した課題、および本開示に基づけば明らかである他の課題に対処すべく、本明細書において記載されているシステムおよび技術は、ビデオが撮影されている間にビデオのセグメントにマーク付けを行うことを簡易化する。このことは、ブックマークボタン、または同様のインタフェースを避けることにより、そして代わりに、予め定められた動作ジェスチャを用いて、撮影中にビデオ内の特徴（例えば、フレーム、時間、セグメント、シーン等）にマーク付けを行うことにより達成される。センサを備えた手首着用デバイス等のスマートウェアラブルデバイスを用いて動きパターンを設定することを含む様々なやり方でジェスチャがキャプチャされてよい。ユーザ達は、自分達のカメラを用いて撮影を開始するときに、ブックマーク付け機能を開始し終えるためのシステムにより認識可能である動作ジェスチャを予め定めてよい。

ジェスチャを用いてビデオの特徴にマーク付けを行うことに加え、ジェスチャ、またはジェスチャの表現がビデオと共に格納される。このことによりユーザは、ビデオ編集中または再生中に同じ動作ジェスチャを繰り返して、ブックマークまで移動することが可能となる。したがって、種々のビデオセグメントに関して撮影中に用いられる種々のジェスチャが、後にビデオ編集中または再生中にそれらセグメントをそれぞれ見つけるのにも用いられる。

ビデオ内にジェスチャ表現を格納すべく、エンコードされたビデオはジェスチャに関する追加のメタデータを含む。このメタデータは、ビデオ内で特に有用である。なぜなら、ビデオのコンテンツの意味を理解することは概して、現在の人工知能にとって困難であるが、ビデオ内の検索を行う能力は重要であるからである。ビデオ自体に動作ジェスチャメタデータを追加することにより、ビデオ内を検索し用いる他の技術が追加される。

図１Ａおよび１Ｂは、ある実施形態に係る、ジェスチャ埋め込みビデオのためのシステム１０５を含む環境１００を図示している。システム１０５は、受信機１１０と、センサ１１５と、エンコーダ１２０と、記憶デバイス１２５とを含んでよい。システム１０５は、ユーザインタフェース１３５とトレーナ１３０とをオプションで含んでよい。システム１０５のそれらコンポーネントは、図１３に関連して以下で記載されるもの等（例えば、電気回路構成）のコンピュータハードウェアで実装されてよい。図１Ａは、ユーザがあるイベント（例えば、車の加速）を第１ジェスチャ（例えば、上下の動き）でシグナリングするのを図示しており、図１Ｂは、ユーザがある第２イベント（例えば、車の「後輪走行」）を第２ジェスチャ（例えば、腕に対して直交する面内での円状の動き）でシグナリングするのを図示している。

受信機１１０は、ビデオストリームを得る（例えば、受信または取得する）よう構成される。本明細書で用いられているように、ビデオストリームは一連の画像である。受信機１１０は、例えばカメラ１１２との有線（例えば、ユニバーサルシリアルバス）の、または無線（例えば、ＩＥＥＥ８０２．１５．＊）の物理リンクでオペレーションを行ってよい。ある例において、デバイス１０５は、カメラ１１２の一部分であり、またはその筐体内に収納され、またはそうでない場合にはそれと一体化される。

センサ１１５は、サンプルセットを得るよう構成される。図示されているように、センサ１１５は、手首着用デバイス１１７とのインタフェースである。本例において、センサ１１５は、手首着用デバイス１１７にあるセンサとインタフェース接続してサンプルセットを得るよう構成される。ある例において、センサ１１５は、手首着用デバイス１１７と一体化されており、センサを提供し、またはローカルのセンサと直接的にインタフェース接続する。センサ１１５は、有線または無線接続を介してシステム１０５の他のコンポーネントと通信を行っている。

サンプルセットの構成要素が、あるジェスチャを構成する。つまり、特定の一連の加速度計の読み取り値としてあるジェスチャが認識されたとすれば、サンプルセットはその一連の読み取り値を含む。さらに、サンプルセットは、ビデオストリームに対する時間に対応する。したがって、サンプルセットによってシステム１０５は、どのジェスチャが実施されたのかの特定と、そのジェスチャが実施された時間の特定との両方が可能となる。その時間は単に、（例えば、そのサンプルセットを、サンプルセットを受信したときの現在のビデオフレームに関連付ける）到着時間であってよく、または、ビデオストリームとの関連付けのためにタイムスタンプが記録されてよい。

ある例において、センサ１１５は加速度計またはジャイロメータのうち少なくとも一方である。ある例において、センサ１１５は第１デバイスの第１筐体内にあり、受信機１１０およびエンコーダ１２０は第２デバイスの第２筐体内にある。したがって、センサ１１５は他のコンポーネントより遠隔にあり（それらとは異なるデバイス内にあり）、他のコンポーネントがカメラ１１２内にあっても手首着用デバイス１１７内にある、等である。これら例において、第１デバイスと第２デバイスとは、両デバイスがオペレーション中であるとき通信接続されている。

エンコーダ１２０は、ジェスチャの表現および時間を、ビデオストリームのエンコードされたビデオ内に埋め込むよう構成される。したがって、用いられるジェスチャは実際に、ビデオ自体にエンコードされる。しかしながら、ジェスチャの表現は、サンプルセットとは異なってよい。ある例において、ジェスチャの表現は、サンプルセットの正規化されたバージョンである。本例において、サンプルセットは正規化のために、縮尺変更がされていてよい、ノイズ除去がされてよい、等である。ある例において、ジェスチャの表現は、サンプルセットの構成要素の量子化である。本例において、サンプルセットは、圧縮において典型的に行なわれるように、予め定められた一式の値にまとめられてよい。ここでも、このことは記憶コストを減らし得、またジェスチャ認識が、（例えば、記録デバイス１０５と再生デバイスとの間、等のように）様々なハードウェア間でより一貫性を持って機能することを可能とし得る。

ある例において、ジェスチャの表現はラベルである。本例において、サンプルセットは、限られた数の受け入れ可能なジェスチャのうち１つに対応してよい。この場合、これらジェスチャは、「円状」、「上下」、「左右」等とラベル付けされてよい。ある例において、ジェスチャの表現はインデックスであってよい。本例において、インデックスは、ジェスチャ特性が見つかり得るテーブルを指す。インデックスを用いることによって、対応するセンサセットデータを全体的に一度ビデオ内に格納する一方で、個々のフレームに関するメタデータにジェスチャを効率的に埋め込むことが可能となり得る。ラベルに関するこの変形例は、ルックアップが種々のデバイス間で予め定められているあるタイプのインデックスである。

ある例において、ジェスチャの表現はモデルであってよい。ここで、モデルとは、ジェスチャを認識するのに用いられるデバイス構成を指す。例えば、モデルは、入力セットが定められている人工ニューラルネットワークであってよい。デコードデバイスがビデオからそのモデルを取得し、単にその未加工のセンサデータをモデルへと供給し、その出力によってジェスチャのインディケーションが作成され得る。ある例において、モデルは、そのモデルに関するセンサパラメータを提供する入力定義を含む。ある例において、モデルは、入力されたパラメータに関する値がジェスチャを表現しているかをシグナリングする真または偽の出力を提供するよう構成される。

ある例において、ジェスチャの表現および時間を埋め込むことは、エンコードされたビデオにメタデータデータ構造を追加することを含む。ここで、メタデータデータ構造は、ビデオの他のデータ構造とは別個のものである。したがって、例えばビデオコーデックの他のデータ構造には、この目的のために新たにタスクを単純に割り当てられない。ある例において、メタデータデータ構造は、ジェスチャの表現が第１列に示され、対応する時間が同じ行の第２列に示されているテーブルである。つまり、メタデータ構造は、ジェスチャを時間に関連付ける。これは従来のビデオに対してあり得るブックマークと同様である。ある例において、テーブルは各行に開始時間と終了時間を含む。これは本明細書において依然としてブックマークと呼ばれているが、ジェスチャのエントリは、単に時点ではなく時間のセグメントを定める。ある例において、ある行は、１つのジェスチャのエントリと２つより多くの時間エントリまたは時間セグメントとを有する。このことにより、僅かではないサイズとなり得るジェスチャの表現を繰り返さないことにより、同じビデオ内で用いられる複数の別個のジェスチャの圧縮が容易になり得る。本例において、ジェスチャのエントリは一意的なもの（例えば、データ構造内で繰り返されないもの）であってよい。

ある例において、ジェスチャの表現は、ビデオフレーム内に直接的に埋め込まれてよい。本例において、１または複数のフレームに、後の特定のためにジェスチャがタグ付けされてよい。例えば、時点のブックマークが用いられる場合、ジェスチャが得られる毎に、対応するビデオフレームにジェスチャの表現がタグ付けされる。時間セグメントのブックマークが用いられる場合、ジェスチャの第１インスタンスはあるシーケンス内の第１ビデオフレームを提供するであろうし、ジェスチャの第２インスタンスはそのシーケンス内の最後のビデオフレームを提供するであろう。そしてメタデータは、そのシーケンス内で第１フレームと最後のフレームとの間に含まれる全フレームに適用されてよい。ジェスチャの表現をフレーム自体に行き渡らせることにより、ジェスチャのタグ付が残っている可能性が、ヘッダ等のビデオ内の１つの箇所にメタデータを格納することと比較して高くなり得る。

記憶デバイス１２５は、エンコードされたビデオを、それが他の実存物に取得される、または送信される前に格納してよい。また記憶デバイス１２５は、サンプルセットがそのような「ブックマークを付けられた」ジェスチャにいつ対応するのかを認識するのに用いられる予め定められたジェスチャ情報を格納してよい。１または複数のそのようなジェスチャが、製造時にデバイス１０５に組み込まれてよいが、より高いフレキシビリティ、したがってユーザにとってのより大きな楽しみは、ユーザが追加のジェスチャを追加出来るとすることにより達成され得る。この目的で、システム１０５はユーザインタフェース１３６とトレーナ１３０とを含んでよい。ユーザインタフェース１３５は、新たなジェスチャに関するトレーニングセットのインディケーションを受信するよう構成される。図示されているように、ユーザインタフェース１３５はボタンである。ユーザはこのボタンを押し、受信しているサンプルセットがビデオストリームにマーク付けするのではなく新たなジェスチャを特定することをシステム１０５に対してシグナリングしてよい。ダイアル、タッチスクリーン、音声起動等の他のユーザインタフェースが可能である。

トレーナ１３０は、システム１０５が一旦、トレーニングデータについてシグナリングされると、トレーニングセットに基づいて第２ジェスチャの表現を生成するよう構成される。ここで、トレーニングセットは、ユーザインタフェース１３５の起動中に得られるサンプルセットである。したがって、センサ１１５は、ユーザインタフェース１３５からのインディケーションの受信に応じてトレーニングセットを得る。ある例において、ジェスチャ表現のライブラリが、エンコードされたビデオ内にエンコードされる。本例において、そのライブラリは、ジェスチャと新たなジェスチャとを含む。ある例において、ライブラリは、エンコードされたビデオ内に対応する時間を有さないジェスチャを含む。したがって、そのライブラリは、既知のジェスチャが用いられなかったとしても短縮されないものであってよい。ある例において、ライブラリは、ビデオに含まれる前に短縮される。本例において、ライブラリは、ビデオにブックマークを付けるのに用いられないジェスチャをなくすよう余分なものが取り除かれる。ライブラリを含めることにより、時間的に前にこれらジェスチャについて様々な記録および再生デバイスが知ることなく、ユーザにとって完全にカスタマイズされたジェスチャが可能となる。したがって、ユーザは、自分達が楽と感じるものを用い得、製造者は、自分達のデバイス内に多種多様なジェスチャを保持しておくことによりリソースを無駄にする必要がない。

図示されていないが、システム１０５は、デコーダ、比較器、および再生機も含んでよい。しかしながら、これらコンポーネントは、第２のシステムまたはデバイス（例えば、テレビ、セットトップボックス等）に含まれてもよい。これら特徴により、埋め込まれたジェスチャを用いてビデオ内を移動する（例えば、検索する）ことが可能となる。

デコーダは、エンコードされたビデオからジェスチャの表現および時間を抽出するよう構成される。ある例において、時間を抽出することは、単に、関連付けられた時間を有するフレーム内のジェスチャを特定することを含んでよい。ある例において、ジェスチャは、エンコードされたビデオ内の複数の種々のジェスチャのうち１つである。したがって、２つの異なるジェスチャがビデオにマーク付けするのに用いられる場合、両方のジェスチャがこの移動に用いられてよい。

比較器は、ジェスチャの表現と、ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較するよう構成される。第２サンプルセットは単に、編集中または他の再生中等のビデオのキャプチャの後の時間にキャプチャされたサンプルセットである。ある例において、比較器は、その比較実施として、ジェスチャの表現（例えば、それがモデルである場合）を実装する（例えば、モデルを実装し、第２サンプルセットを適用する）。

再生機は、比較器からの一致するとの結果に応じてその時間のエンコードされたビデオからビデオストリームをレンダリングするよう構成される。したがって、ビデオのヘッダ（またはフッタ）内のメタデータから時間が取得された場合、そのビデオは取得された時間インデックスにおいて再生されることになる。しかしながら、ジェスチャの表現がビデオフレームに埋め込まれている場合、再生機は、比較器が一致するとの結果を出すまでフレーム単位で先に進め、その一致するとの結果が出た時点で再生を始めてよい。

ある例において、ジェスチャは、ビデオ内にエンコードされたジェスチャの複数の同じ表現のうち１つである。したがって、同じジェスチャが、セグメントの始まりと終わりとにマーク付けするのに用いられてよく、または、複数のセグメントまたは時点のブックマークを示してよい。この動作を容易にすべく、システム１０５は、第２サンプルセットの等価物が得られた回数（例えば、再生中に同じジェスチャが何回提供されたか）をトラッキングするカウンタを含んでよい。再生機はこのカウント値を用いて、ビデオ内の適切な時間を選択してよい。例えば、ビデオ内の３つの時点にマーク付けするのにジェスチャが用いられた場合、再生中にユーザがジェスチャを初めて実施することにより再生機は、ビデオ内のジェスチャの最初の使用に対応する時間インデックスを選択し、カウンタの値が増える。ユーザが再びそのジェスチャを実施した場合、再生機は、カウンタに対応するビデオ内のジェスチャのインスタンス（例えば、この場合、第２インスタンス）を見つけ出す。

システム１０５はフレキシブルかつ直観的かつ効率的なメカニズムを提供し、このメカニズムによりユーザは、自分達を危険にさらすことなく、または活動の楽しみを損なうことなくビデオにタグ付けする、またはブックマークを付けることが可能となる。追加の詳細および例が以下に提供される。

図２は、ある実施形態に係る、ジェスチャ埋め込みビデオを実装するデバイス２０２の例のブロック図を図示している。デバイス２０２は、図１Ａおよび図１Ｂに関連して上述したセンサ１１５を実装するのに用いられてよい。図示されているように、デバイス２０２は、他のコンピュータハードウェアと一体化されることになるセンサ処理パッケージである。デバイス２０２は、一般的なコンピューティングタスクに対処するシステムオンチップ（ＳＯＣ）２０６と、内部クロック２０４と、電源２１０と、無線トランシーバ２１４とを含む。デバイス２０２は、加速度計、ジャイロスコープ（例えば、ジャイロメータ）、気圧計、または温度計のうち１または複数を含んでよいセンサアレイ２１２も含む。

デバイス２０２はニューラル分類アクセラレータ２０８も含んでよい。ニューラル分類アクセラレータ２０８は、人口ニューラルネットワーク分類技術と関連付けられることが多い、一般的であるが多数のタスクに対処する一式の並列処理要素を実装する。ある例において、ニューラル分類アクセラレータ２０８はパターン一致比較ハードウェアエンジンを含む。パターン一致比較エンジンは、センサデータを処理または分類するようセンサ分類器等のパターンを実装する。ある例において、パターン一致比較エンジンは、１つのパターンについて一致するか比較をそれぞれが行う、ハードウェア要素からなる並列化された集合を介して実装される。ある例において、ハードウェア要素の集合は、連想配列を実装し、センサデータサンプルは、一致するとの結果が存在する場合にその配列に鍵を提供する。

図３は、ある実施形態に係る、ビデオに対してジェスチャデータをエンコードするデータ構造３０４の例を図示している。データ構造３０４は、例えば、上記で記載したライブラリ、テーブル、またはヘッダベースのデータ構造ではなくフレームベースのデータ構造である。したがって、データ構造３０４はエンコードされたビデオ内のフレームを表現している。データ構造３０４は、ビデオメタデータ３０６と、音声情報３１４と、タイムスタンプ３１６と、ジェスチャメタデータ３１８とを含む。ビデオメタデータ３０６は、ヘッダ３０８、トラック３１０、またはエクステンド（例えば、エクステント）３１２等のフレームについての典型的な情報を含む。ジェスチャメタデータ３１８は別として、データ構造３０４のそれらコンポーネントは、様々なビデオコーデックに従って示されるものとは異なってよい。ジェスチャメタデータ３１８は、センササンプルセット、正規化されたサンプルセット、量子化されたサンプルセット、インデックス、ラベル、またはモデルのうち１または複数を含んでよい。しかしながら典型的には、フレームベースのジェスチャメタデータに関して、インデックスまたはラベル等のジェスチャのコンパクトな表現が用いられることになる。ある例において、ジェスチャの表現は圧縮されてよい。ある例において、ジェスチャメタデータは、ジェスチャの表現を特徴付ける１または複数の追加のフィールドを含む。これらフィールドは、ジェスチャタイプ、センサセットをキャプチャするのに用いられる１または複数のセンサのセンサＩＤ、ブックマークタイプ（例えば、ブックマークの始まり、ブックマークの終わり、ブックマーク内のフレームのインデックス）、または（例えば、ユーザの個人的なセンサ調整を特定する、または複数のライブラリからユーザジェスチャライブラリを特定するのに用いられる）ユーザのＩＤのうち一部または全てを含んでよい。

したがって、図３は、ジェスチャ埋め込みビデオをサポートする例示的なビデオファイルフォーマットを図示している。動作ジェスチャメタデータ３１８は、音声３１４、タイムスタンプ３１６、およびムービー３０６メタデータブロックと並列である追加のブロックである。ある例において、動作ジェスチャメタデータブロック３１８は、ユーザにより定められ、後にブックマークとして機能する、ビデオデータの部分を位置特定する参照タグとして用いられる動きデータを格納する。

図４は、ある実施形態に係る、ジェスチャをビデオ内にエンコードするデバイス間のインタラクション４００の例を図示している。インタラクション４００は、ユーザと、手首着用デバイス等のユーザのウェアラブルデバイスと、ビデオをキャプチャしているカメラとの間で行われる。あるシナリオにおいては、登山途中の登りを記録しているユーザが含まれてよい。登りの直前からビデオを記録すべくカメラの動作が開始される（ブロック４１０）。ユーザが、険しい切り立った面に近づき、クレバスから登ることとする。掴んでいる命綱を放したくないので、ユーザは、予め定められたジェスチャの通りにウェアラブルデバイスと一緒に自分の手を命綱に沿って上下に３回激しく動かす（ブロック４０５）。ウェアラブルデバイスはそのジェスチャを検知（例えば、検出、分類等）し（ブロック４１５）、そのジェスチャと予め定められた動作ジェスチャとを一致するか比較する。一致するかの比較は、ビデオにブックマークを付ける目的の動作ジェスチャとして指定されていないジェスチャに応じて、ブックマークを付けることに関連しないタスクをウェアラブルデバイスが実施し得るので重要であり得る。

そのジェスチャが予め定められた動作ジェスチャであるとの判断の後、ウェアラブルデバイスはカメラとコンタクトをとりブックマークを示す（ブロック４２０）。カメラはブックマークを挿入し（ブロック４２５）、オペレーションが成功したとウェアラブルデバイスに対して応答し、ウェアラブルデバイスはビープ、バイブレーション、視覚的合図等の通知によりユーザに対し応答する（ブロック４３０）。

図５は、ある実施形態に係る、エンコードされたビデオ５００内でジェスチャにより点をマーク付けする例を図示している。ビデオ５００が、点５０５に開始（例えば、再生）される。ユーザは再生中に、予め定められた動作ジェスチャを行う。再生機がジェスチャを認識し、そのビデオを点５１０まで早送り（または巻き戻し）する。ユーザは同じジェスチャを再び行い、再生機は今度は点５１５まで早送りする。したがって、図５は、以前にジェスチャによりマーク付けされたビデオ５００内の点を見つけるべく同じジェスチャの再使用を図示している。このことにより、例えば、ユーザは、例えば彼の子供が何か興味深いことをしているときにシグナリングする１つのジェスチャを定め、例えば彼の犬が日中に外出して公園にいるときに何か興味深いことをしているときにシグナリングする他のジェスチャを定めることが可能となる。または、医療処置として典型的である種々のジェスチャが定められ、いくつかの処置が用いられる手術中に認識されてよい。いずれの場合であっても、すべてが依然としてタグ付けされた状態で、選択されたジェスチャによりブックマーク付けが分類されてよい。

図６は、ある実施形態に係る、ユーザインタフェース６１０としてジェスチャ埋め込みビデオに対するジェスチャ６０５を用いる例を図示している。図５とかなり同じように図６は、ディスプレイ６１０上でビデオがレンダリングされている間に、点６１５から点６２０へスキップするためのジェスチャの使用を図示している。本例において、ジェスチャメタデータは最初に、サンプルセット、ジェスチャ、またはジェスチャの表現を生成するのに用いられた特定のウェアラブルデバイス６０５を特定してよい。本例において、ウェアラブルデバイス６０５がビデオとペアリングされていると見なしてよい。ある例において、ビデオがレンダリングされている間にジェスチャのルックアップを実施するには、元々ビデオにブックマークを残すのに用いられたのと同じウェアラブルデバイス６０５が必要とされる。

図７は、ある実施形態に係る、エンコードされたビデオ７００内のジェスチャデータのメタデータ７１０フレーム単位エンコードの例を図示している。図示されているフレームの濃い影が付けられた構成要素はビデオメタデータである。薄い影が付けられた構成要素はジェスチャメタデータである。図示されているように、フレームベースのジェスチャ埋め込みにおいては、ユーザが呼び出しジェスチャを行ったとき（例えば、ブックマークを定めるのに用いられるジェスチャを繰り返したとき）、再生機は、一致する部分（ここでは点７０５のジェスチャメタデータ７１０）を見つけるまでフレームのジェスチャメタデータ内を探す。

したがって、再生中に、スマートウェアラブルデバイスは、ユーザの手の動きをキャプチャする。動きデータは、いずれかとの一致がないか確認すべく、予め定められた動作ジェスチャメタデータスタック（薄い影が付けられた構成要素）と比較され、それらとの参照が行われる。

（例えば、メタデータ７１０において）一致するとの結果が一旦得られると動作ジェスチャメタデータは、（例えば、同じフレーム内の）それに対応するムービーフレームメタデータと一致するかの比較が行われることになる。そして、ビデオ再生は、一致するかの比較が行われたムービーフレームメタデータ（例えば、点７０５）まで即座に飛び、ブックマークが付けられたビデオが始まることになる。

図８は、ある実施形態に係る、ジェスチャ埋め込みビデオに対するジェスチャを用いることの例示的なライフサイクル８００を図示している。ライフサイクル８００において、３つの別々の段階で同じ手の動作ジェスチャが用いられる。

段階１において、ブロック８０５においてそのジェスチャが、ブックマーク動作（例えば、予め定められた動作ジェスチャ）として保存されるか、または定められる。ここで、ユーザは、システムがトレーニングまたは記録モードにある間に動作を実施し、システムはその動作を定められたブックマーク動作として保存する。

段階２において、記録の間に、ブロック８１０においてジェスチャが実施されたとき、ビデオにブックマークが付けられる。ここで、ユーザは、活動を撮影している間に、ビデオのこの部分にブックマークを付けたいというときに動作を実施する。

段階３において、再生中に、ブロック８１５においてジェスチャが実施されたときにブックマークがビデオから選択される。したがって、ビデオにマーク付けをするのに、そして後にそのビデオのマーク付けされた部分を取得するのに（例えば、特定する、一致するか比較を行う等）、ユーザが定める同じジェスチャ（例えば、ユーザ指示のジェスチャの使用）が用いられる。

図９は、ある実施形態に係る、ビデオ内にジェスチャを埋め込む方法９００の例を図示している。方法９００のオペレーションは、図１Ａ～８に関連して上述したもの、または図１３に関連して以下に述べるもの（例えば、電気回路構成、プロセッサ等）等のコンピュータハードウェアで実装される。

オペレーション９０５において、（例えば、受信機、トランシーバ、バス、インタフェース等により）ビデオストリームが得られる。

オペレーション９１０において、センサによる測定が行われてサンプルセットが得られる。ある例において、サンプルセットの構成要素は、ジェスチャの構成部分である（例えば、ジェスチャは、サンプルセットのデータから定められる、または導き出される）。ある例において、サンプルセットは、ビデオストリームに対する時間に対応する。ある例において、センサは加速度計またはジャイロメータのうち少なくとも一方である。ある例において、センサは第１デバイスの第１筐体内にあり、受信機（またはビデオを得る他のデバイス）およびエンコーダ（またはビデオをエンコードする他のデバイス）は第２デバイスの第２筐体内にある。本例において、第１デバイスと第２デバイスとは、両デバイスがオペレーション中であるとき通信接続されている。

オペレーション９１５において、ビデオストリームのエンコードされたビデオに、ジェスチャの表現および時間が（例えば、ビデオエンコーダ、エンコーダパイプライン等を介して）埋め込まれる。ある例において、ジェスチャの表現は、サンプルセットの正規化されたバージョン、サンプルセットの構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである。ある例において、モデルは、そのモデルに関するセンサパラメータを提供する入力定義を含む。ある例において、モデルは、入力されたパラメータに関する値がジェスチャを表現しているかをシグナリングする真または偽の出力を提供する。

ある例において、ジェスチャの表現および時間を埋め込むこと（オペレーション９１５）は、エンコードされたビデオにメタデータデータ構造を追加することを含む。ある例において、メタデータデータ構造は、ジェスチャの表現が第１列に示され、対応する時間が同じ行の第２列に示されている（例えば、同じ記録内にある）テーブルである。ある例において、ジェスチャの表現および時間を埋め込むことは、メタデータデータ構造をエンコードされたビデオに追加する段階を有し、データ構造は、ビデオのフレームに対してエンコードした１つのエントリを含む。したがって、本例は、ビデオの各フレームがジェスチャメタデータデータ構造を含むことを表している。

方法９００はオプションで、図示されているオペレーション９２０、９２５および９３０により拡張されてよい。

オペレーション９２０において、エンコードされたビデオからジェスチャの表現および時間が抽出される。ある例において、ジェスチャは、エンコードされたビデオ内の複数の種々のジェスチャのうち１つである。

オペレーション９２５において、ジェスチャの表現と、ビデオストリームのレンダリング（例えば、再生、編集等）中に得られた第２サンプルセットとの一致するかの比較が行われる。

オペレーション９３０において、比較器からの一致するとの結果に応じてその時間のエンコードされたビデオからビデオストリームがレンダリングされる。ある例において、ジェスチャは、ビデオ内にエンコードされたジェスチャの複数の同じ表現のうち１つである。つまり、ビデオ内に１以上のマークを付けるのに同じジェスチャが用いられた。本例において、方法９００は、第２サンプルセットの等価物が得られた回数を（例えば、カウンタにより）トラッキングしてよい。そして方法９００は、カウンタに基づいて選択された時間においてビデオをレンダリングしてよい。例えば、再生中にジェスチャが５回実施された場合、方法９００は、ビデオ内に埋め込まれたジェスチャの５番目の発生をレンダリングするであろう。

方法９００はオプションで、以下のオペレーションにより拡張されてよい。

新たなジェスチャに関するトレーニングセットのインディケーションがユーザインタフェースから受信される。インディケーションを受信したことに応じて、方法９００は、（例えば、センサから得られた）トレーニングセットに基づいて第２ジェスチャの表現を生成してよい。ある例において、方法９００は、ジェスチャ表現のライブラリを、エンコードされたビデオ内にエンコードしてもよい。ここで、ライブラリは、ジェスチャと、新たなジェスチャと、エンコードされたビデオ内で対応する時間を有さないジェスチャとを含んでよい。

図１０は、ある実施形態に係る、ジェスチャ埋め込みビデオの作成中に埋め込むのに利用可能なジェスチャのレパートリーにジェスチャを追加する方法１０００の例を図示している。方法１０００のオペレーションは、図１Ａ～８に関連して上述したもの、または図１３に関連して以下に述べるもの（例えば、電気回路構成、プロセッサ等）等のコンピュータハードウェアで実装される。方法１０００は、手のジェスチャデータをプロットする例えば加速度計またはジャイロメータを備えたスマートウェアラブルデバイスを介してジェスチャを入力する技術を図示している。スマートウェアラブルデバイスはアクションカメラにリンクされていてよい。

ユーザはユーザインタフェースとインタラクションをしてよく、そのインタラクションにより、スマートウェアラブルデバイスに関するトレーニングを初期化してよい（例えば、オペレーション１００５）。したがって、例えば、ユーザはアクションカメラにある開始を押して、ブックマークパターンの記録を始めてよい。そしてユーザは、例えば５秒である期間内に１回、手のジェスチャを実施する。

スマートウェアラブルデバイスは、ジェスチャを読み取る時間を開始する（例えば、オペレーション１０１０）。したがって、例えば５秒の間、例えば初期化に応じてブックマークに関する加速度計データが記録される。

ジェスチャが新しかった場合（例えば、判断１０１５）、その動作ジェスチャが永続性記憶装置に保存される（例えば、オペレーション１０２０）。ある例において、ユーザは、アクションカメラにある保存ボタン（例えば、トレーニングを始めるのに用いられるのと同じか、またはそれと異なるボタン）を押し、スマートウェアラブルデバイスの永続性記憶装置内にブックマークパターンメタデータを保存してよい。

図１１は、ある実施形態に係る、ビデオにジェスチャを追加する方法１１００の例を図示している。方法１１００のオペレーションは、図１Ａ～８に関連して上述したもの、または図１３に関連して以下に述べるもの（例えば、電気回路構成、プロセッサ等）等のコンピュータハードウェアで実装される。方法１１００は、ジェスチャを用いてビデオ内にブックマーク生成することを図示している。

ユーザは、クールなアクションシーンが始まりそうだと思ったときに予め定められた手の動作ジェスチャを行う。スマートウェアラブルデバイスは加速度計データを計算し、永続性記憶装置内の情報と一致するとの結果を一旦検出すると、スマートウェアラブルデバイスは、ビデオブックマークイベントを始めるようアクションカメラに知らせる。このイベントチェーンは以下のように進められる。

ユーザにより行われた動作ジェスチャをウェアラブルデバイスが検知する（例えば、ユーザがジェスチャを行っている間にウェアラブルデバイスがセンサデータをキャプチャする）（例えば、オペレーション１１０５）。

キャプチャされたセンサデータは永続性記憶装置内の予め定められたジェスチャと比較される（例えば、判断１１１０）。例えば、手の動作ジェスチャの加速度計データと一致するブックマークパターンがあるかについてチェックが行われる。

キャプチャされたセンサデータが、既知のパターンと一致するとの結果が出た場合、アクションカメラはブックマークを記録してよく、ある例において、例えばビデオブックマーク付けの始まりを示すべく１回振動するようスマートウェアラブルデバイスに指示することによりそのブックマークについて知らせる。ある例において、ブックマーク付けは状態が変化する毎にオペレーションが行われてよい。本例において、カメラは状態をチェックして、ブックマーク付けが進行中であるか判断してよい（例えば、判断１１１５）。そうでない場合、ブックマーク付けが開始される１１２０。

ユーザがジェスチャを繰り返した後、ブックマーク付けが開始されていれば停止される（例えば、オペレーション１１２５）。例えば、特定のクールなアクションシーンが終わった後、ユーザは、その開始時点で用いられたのと同じ手の動作ジェスチャを実施して、ブックマーク付け機能の停止を示す。ブックマークが一旦完了すると、カメラは、タイムスタンプと関連付けられたビデオファイル内に動作ジェスチャメタデータを埋め込んでよい。

図１２は、ある実施形態に係る、ユーザインタフェース要素としてビデオに埋め込まれるジェスチャを用いる方法１２００の例を図示している。方法１２００のオペレーションは、図１Ａ～８に関連して上述したもの、または図１３に関連して以下に述べるもの（例えば、電気回路構成、プロセッサ等）等のコンピュータハードウェアで実装される。方法１２００は、ビデオの再生中、編集中、または他にビデオを辿っている最中にジェスチャを用いることを図示している。ある例において、ユーザは、ビデオにマーク付けするのに用いられたのと同じウェアラブルデバイスを用いなければならない。

特定のブックマークが付けられたシーンをユーザが見たい場合、そのユーザはただ、ビデオにマーク付けするのに用いられたのと同じ手の動作ジェスチャを繰り返しさえすればよい。ウェアラブルデバイスは、ユーザが動作を実施したときにジェスチャを検知する（例えば、オペレーション１２０５）。

ブックマークパターン（例えば、ユーザにより実施されているジェスチャ）がスマートウェアラブルデバイス内に保存された加速度計データと一致する場合（例えば、判断１２１０）、ブックマーク点が位置特定されることになり、ユーザは、ビデオ素材のその点までジャンプすることになる（例えば、オペレーション１２１５）。

ブックマークが付けられた素材の他の部分をユーザが見たい場合、ユーザは、同じジェスチャであれ、または異なるジェスチャであれどちらか所望のブックマークに対応するものを実施してよく、方法１２００と同じ処理が繰り返されることになる。

本明細書において記載されているシステムおよび技術を用いれば、ユーザは、直観的なシグナリングを用いて、ビデオ内に興味対象の期間を設定し得る。これら同じ直観的な信号がビデオ自体内にエンコードされ、編集中または再生中等のビデオが作成された後にそれら信号を用いることが可能となる。以下に、上記にて記載された一部の特徴の要点を繰り返す。スマートウェアラブルデバイスは、永続性記憶装置内に予め定められた動作ジェスチャメタデータを格納する。ビデオフレームのファイルフォーマットコンテナは、ムービーメタデータ、音声、およびタイムスタンプと関連付けられた動作ジェスチャメタデータから成る。ビデオにブックマーク付けする手の動作ジェスチャ、そのブックマークを位置特定する同じ手の動作ジェスチャをユーザが繰り返す。ビデオに種々のセグメントをブックマークすべく種々の手の動作ジェスチャが追加され得、各ブックマークタグを別個のものとし得る。同じ手の動作ジェスチャが、種々の段階における種々のイベントをトリガすることになる。これら要素により、上記で紹介された例示的な利用ケースにおける以下の解決法がもたらされる。

エクストリームスポーツのユーザに関しては、ユーザがアクションカメラ自体にあるボタンを押すのは困難であるが、彼らが例えばスポーツの活動中に手を振る、またはスポーツの動作（例えば、テニスラケット、ホッケースティックを振る等）を実施するのはかなり簡単である。例えば、ユーザは、スタント行為を行おうとする前に手を振ってよい。再生中にユーザが自身のスタント行為を見るためにしなければいけないのは、再び自分の手を振ることだけである。

法の執行に関しては、巡査が容疑者を追跡しているかもしれず、撃ち合いの中で銃を構えようとするかもしれず、または、負傷して地面に倒れることさえあるかもしれない。これら全てが、着用されたカメラからのビデオ素材にブックマークを付けるのに用いられ得る、勤務時間中に巡査が行うかもしれない可能性のあるジェスチャまたは動きである。したがって、これらジェスチャがブックマークタグとして予め定められ、用いられてよい。勤務時間中の巡査の撮影は長時間にわたり得るので、このことにより、再生処理の負担が和らぐであろう。

医療従事者に関しては、医師が手術処置中にある特定のやり方で手を上げる。この動きは、種々の手術処置間で別個のものであってよい。これら手のジェスチャは、ブックマークジェスチャとして予め定められていてよい。例えば、身体の部位を縫う動きがブックマークタグとして用いられてよい。したがって、医師が縫う処置を見ようとする場合に、必要とされるのはその縫う動きを再現することだけであり、セグメントが即座に見えるようになる。

図１３は、本明細書で説明される技術（例えば、方法）のうちいずれか１または複数が実施され得る例示的なマシン１３００のブロック図を図示する。代替的な実施形態において、マシン１３００はスタンドアロン型のデバイスとしてオペレーションを行ってよく、または他のマシンへ接続（例えば、ネットワーク化）されてよい。ネットワーク化された配置において、マシン１３００は、サーバ－クライアントネットワーク環境内のサーバマシンとして、クライアントマシンとして、または両方としてオペレーションを行ってよい。ある例において、マシン１３００は、ピアツーピア（Ｐ２Ｐ）（または他の分散型の）ネットワーク環境でピアマシンとして動作し得る。マシン１３００は、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、パーソナルデジタルアシスタント（ＰＤＡ），携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ、またはブリッジ、若しくは、何らかのマシンにより行われる動作を特定する（シーケンシャルな、またはその他の方式の）命令を実行可能な当該マシンであり得る。さらに、１つのマシンだけが図示されているが、「マシン」という用語は、クラウドコンピューティング、サービス型ソフトウェア（ＳａａＳ）、他のコンピュータクラスタ構成等、個別または合同で命令群（または複数の命令群）を実行して、本明細書で説明されている方法のうちいずれか１または複数を実行する何らかのマシンの集合を含むものとして捉えられるべきである。

本明細書で記載されているように、実施例は、ロジックまたは複数のコンポーネント、モジュール、またはメカニズムを含んでよく、若しくはこれらでオペレーションを行ってよい。電気回路構成は、ハードウェア（例えば、単信回路、ゲート、ロジック等）を含む実体のある実存物において実装される回路の集合である。電気回路構成を構成する要素が何かについては、経時的に、および、ベースとなるハードウェアの変化に応じて、フレキシブルであってよい。電気回路構成は、オペレーション中において指定されたオペレーションを単独で、または組み合わさって実施してよい構成要素を含む。ある例において、電気回路構成のハードウェアは、具体的なオペレーションを実行するよう不変的に設計（例えば、ハードワイヤード）されてよい。ある例において、電気回路構成のハードウェアは、具体的なオペレーションの命令をエンコードするよう物理的に変更が加えられたコンピュータ可読媒体（例えば、磁気的に、電気的に、不変の結集させられた粒子の移動可能な配置等）を含む可変的に接続された物理的コンポーネント（例えば、実行ユニット、トランジスタ、単信回路等）を含んでよい。物理的コンポーネントの接続において、ハードウェア構成部分のベースとなる電気的性質は、例えば絶縁体から導体に、またはその逆方向に切り替えられる。それら命令によって、組み込まれたハードウェア（例えば、実行ユニットまたはロードメカニズム）は、オペレーション中に具体的なオペレーションの一部分を実行するよう、可変的な接続を介してハードウェアの電気回路構成の構成要素を生じさせることが可能となる。したがって、コンピュータ可読媒体は、デバイスがオペレーションを行っているとき、電気回路構成の他のコンポーネントに通信接続されている。ある例において、それら物理的コンポーネントのうちのいずれかが、１より多くの電気回路構成のうち１より多くの構成要素で用いられてよい。例えば、オペレーション下で、ある一時点において第１電気回路構成の第１回路において実行ユニットが用いられてよく、異なる時間において、第１電気回路構成の第２回路により、または第２電気回路構成の第３回路により再度用いられてよい。

マシン（例えば、コンピュータシステム）１３００は、ハードウェアプロセッサ１３０２（例えば、中央演算ユニット（ＣＰＵ）、グラフィックプロセッシングユニット（ＧＰＵ）、ハードウェアプロセッサコア、またはこれらの任意の組み合わせ）、メインメモリ１３０４、およびスタティックメモリ１３０６を含み得、これらのうち一部または全ては、インターリンク１３０８（例えば、バス）を介して互いに通信を行い得る。マシン１３００はさらに、表示ユニット１３１０、英数字入力デバイス１３１２（例えば、キーボード）、およびユーザインタフェース（ＵＩ）ナビゲーションデバイス１３１４（例えば、マウス）等を含み得る。ある例において、表示ユニット１３１０、入力デバイス１３１２、およびＵＩナビゲーションデバイス１３１４は、タッチスクリーンディスプレイであり得る。マシン１３００は追加的に、記憶デバイス（例えば、ドライブユニット）１３１６、信号生成デバイス１３１８（例えば、スピーカ）、ネットワークインタフェースデバイス１３２０、およびグローバルポジショニングシステム（ＧＰＳ）センサ、コンパス、加速度計、または他のセンサ等の１または複数のセンサ１３２１を含み得る。マシン１３００は、１または複数の周辺デバイス（例えば、プリンタ、カードリーダ等）と通信を行う、またはこれらを制御する、シリアル（例えば、ユニバーサルシリアルバス（ＵＳＢ））、並列、または他の有線または無線（例えば、赤外線（ＩＲ）、近距離無線通信（ＮＦＣ）等の）接続等の出力コントローラ１３２８を含み得る。

記憶デバイス１３１６は、本明細書で記載されている技術または機能のうちいずれか１または複数を具現化する、またはこれらにより利用される１または複数のデータ構造群または命令群１３２４（例えば、ソフトウェア）が格納されたマシン可読媒体１３２２を含み得る。また命令１３２４はマシン１３００によるその実行中に、完全に、または少なくとも部分的に、メインメモリ１３０４内に、スタティックメモリ１３０６内に、または、ハードウェアプロセッサ１３０２内に存在し得る。ある例において、ハードウェアプロセッサ１３０２、メインメモリ１３０４、スタティックメモリ１３０６、または記憶デバイス１３１６のうち１つ、またはこれらの任意の組み合わせが、マシン可読媒体を構成し得る。

マシン可読媒体１３２２は１つの媒体として図示されているが、「マシン可読媒体」という用語は、１または複数の命令１３２４を格納するよう構成された１つの媒体、または複数の媒体（例えば、集中型または分散型のデータベース、および／または、関連付けられたキャッシュおよびサーバ）を含み得る。

「マシン可読媒体」という用語は、マシン１３００による実行のための命令である、マシン１３００に本開示の技術のうちいずれか１または複数を実施させる命令を格納、エンコード、または保持することが可能であり、またはそのような命令により用いられる、またはそれらと関連付けられたデータ構造を格納、エンコード、または保持することが可能な何らかの媒体を含み得る。非限定的なマシン可読媒体の例には、ソリッドステートメモリ、光および磁気媒体が含まれ得る。ある例において、大容量マシン可読媒体は不変の（例えば静止）質量を有する複数の粒子を伴うマシン可読媒体を備える。したがって、大容量マシン可読媒体は、一時的な伝播信号ではない。大容量マシン可読媒体の具体的な例は、半導体メモリデバイス（例えば、電気的プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ））およびフラッシュメモリデバイス等の不揮発性メモリ、内部ハードディスクおよびリムーバブルディスク等の磁気ディスク、光磁気ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含み得る。

命令１３２４はさらに、複数の伝送プロトコル（例えば、フレームリレー、インターネットプロトコル（ＩＰ）、伝送制御プロトコル（ＴＣＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）等）のうちいずれか１つを利用してネットワークインタフェースデバイス１３２０を介して伝送媒体を用いて通信ネットワーク１３２６上で送信または受信され得る。例示的な通信ネットワークには、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、パケットデータネットワーク（例えば、インターネット）、携帯電話ネットワーク（例えば、セルラーネットワーク）、プレーンオールドテレフォン（ＰＯＴＳ）ネットワーク、無線データネットワーク（例えば、Ｗｉ－Ｆｉ（登録商標）として公知のＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ（ＩＥＥＥ）８０２．１１の規格ファミリー、ＷｉＭａｘ（登録商標）として公知のＩＥＥＥ８０２．１６規格ファミリー）、ＩＥＥＥ８０２．１５．４規格ファミリー、ピアツーピア（Ｐ２Ｐ）ネットワーク、およびその他が含まれ得る。ある例において、ネットワークインタフェースデバイス１３２０は、通信ネットワーク１３２６に接続する１または複数の物理的ジャック（例えば、Ｅｔｈｅｒｎｅｔ（登録商標）、同軸、または電話ジャック）、または、１または複数のアンテナを含み得る。ある例において、ネットワークインタフェースデバイス１３２０は、単入力多出力（ＳＩＭＯ）、多入力多出力（ＭＩＭＯ）、または、多入力単出力（ＭＩＳＯ）技術のうち少なくとも１つを用いて無線で通信を行う複数のアンテナを含み得る。「伝送媒体」という用語は、マシン１３００による実行のための命令を格納、エンコード、または保持することが可能であり、そのようなソフトウェアの通信を容易にするデジタルまたはアナログの通信信号、または他の無形媒体を含む何らかの無形媒体を含むものとして捉えられるべきである。付記および例

例１は、
ビデオストリームを得る受信機と、
サンプルセットを得るセンサであって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、センサと、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間を埋め込むエンコーダと
を備える、ビデオ内埋め込みジェスチャに関するシステムである。

例２において、例１の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。

例３において、例１から２のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである
ことをオプションで含む。

例４において、例３の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。

例５において、例１から４のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを含む
ことをオプションで含む。

例６において、例５の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第１列に示され、対応する時間が同じ行の第２列に示されるテーブルである
ことをオプションで含む。

例７において、例１から６のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを含み、
上記データ構造が、上記ビデオのフレームに対してエンコードした１つのエントリを含む
ことをオプションで含む。

例８において、例１から７のうちいずれか１または複数の主題は、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出するデコーダと、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較する比較器と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする再生機と
をオプションで含む。

例９において、例８の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち１つである
ことをオプションで含む。

例１０において、例８から９のうちいずれか１または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち１つであり、
上記システムが、上記第２サンプルセットの等価物が得られた回数をトラッキングするカウンタを備え、
上記再生機が、上記カウンタに基づき上記時間を選択する
ことをオプションで含む。

例１１において、例１から１０のうちいずれか１または複数の主題は、
新たなジェスチャに関するトレーニングセットのインディケーションを受信するユーザインタフェースと、
上記トレーニングセットに基づき第２ジェスチャの表現を生成するトレーナと
を含み、
上記センサが、上記インディケーションの受信に応じて上記トレーニングセットを得る
ことをオプションで含む。

例１２において、例１１の主題は、
ジェスチャ表現のライブラリが上記エンコードされたビデオ内にエンコードされ、
上記ライブラリが、上記ジェスチャおよび上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。

例１３において、例１から１２のうちいずれか１または複数の主題は、
上記センサが第１デバイスの第１筐体内にあり、
上記受信機と上記エンコーダとが、第２デバイスの第２筐体内にあり、
上記第１デバイスと上記第２デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。

例１４は、
ビデオストリームを受信機により得る段階と
センサを測定してサンプルセットを得る段階であって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、段階と、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間をエンコーダにより埋め込む段階と
を備える、ビデオ内埋め込みジェスチャに関する方法である。

例１５において、例１４の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。

例１６において、例１４から１５のうちいずれか１または複数の主題は、上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである
ことをオプションで含む。

例１７において、例１６の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。

例１８において、例１４から１７のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む段階が、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有する
ことをオプションで含む。

例１９において、例１８の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第１列に示され、対応する時間が同じ行の第２列に示されるテーブルである
ことをオプションで含む。

例２０において、例１４から１９のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む段階が、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有し、
上記データ構造が、上記ビデオのフレームに対してエンコードした１つのエントリを含む
ことをオプションで含む。

例２１において、例１４から２０のうちいずれか１または複数の主題は、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出する段階と、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較する段階と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする段階と
をオプションで含む。

例２２において、例２１の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち１つである
ことをオプションで含む。

例２３において、例２１から２２のうちいずれか１または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち１つであり、
上記方法が、上記第２サンプルセットの等価物が得られた回数をカウンタによりトラッキングする段階を備え、
上記レンダリングする段階において、上記カウンタに基づき上記時間が選択される
ことをオプションで含む。

例２４において、例１４から２３のうちいずれか１または複数の主題は、
新たなジェスチャに関するトレーニングセットのインディケーションをユーザインタフェースから受信する段階と、
上記インディケーションの受信に応じて、上記トレーニングセットに基づき第２ジェスチャの表現を作成する段階と
をオプションで含む。

例２５において、例２４の主題は、
ジェスチャ表現のライブラリを上記エンコードされたビデオ内にエンコードする段階を含み、
上記ライブラリが、上記ジェスチャと、上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。

例２６において、例１４から２５のうちいずれか１または複数の主題は、
上記センサが第１デバイスの第１筐体内にあり、
上記受信機と上記エンコーダとが、第２デバイスの第２筐体内にあり、
上記第１デバイスと上記第２デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。

例２７は、方法１４から２６のいずれかを実装する手段を備えるシステムである。

例２８は、
マシンにより実行された場合に、方法１４から２６のいずれかを上記マシンに実施させる命令を含む少なくとも１つのマシン可読媒体である。

例２９は、
ビデオストリームを受信機により得る手段と
センサを測定してサンプルセットを得る手段であって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、手段と、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間をエンコーダにより埋め込む手段と
を備える、ビデオ内埋め込みジェスチャに関するシステムである。

例３０において、例２９の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。

例３１において、例２９から３０のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである
ことをオプションで含む。

例３２において、例３１の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。

例３３において、例２９から３２のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む上記手段が、メタデータデータ構造を上記エンコードされたビデオに追加する手段を含む
ことをオプションで含む。

例３４において、例３３の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第１列に示され、対応する時間が同じ行の第２列に示されるテーブルである
ことをオプションで含む。

例３５において、例２９から３４のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む上記手段が、メタデータデータ構造を上記エンコードされたビデオに追加する手段を有し、
上記データ構造が、上記ビデオのフレームに対してエンコードした１つのエントリを含む
ことをオプションで含む。

例３６において、例２９から３５のうちいずれか１または複数の主題は、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出する手段と、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較する手段と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする手段と
をオプションで含む。

例３７において、例３６の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち１つである
ことをオプションで含む。

例３８において、例３６から３７のうちいずれか１または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち１つであり、
上記システムが、上記第２サンプルセットの等価物が得られた回数をカウンタによりトラッキングする手段を備え、
上記レンダリングする手段が、上記カウンタに基づき上記時間を選択する
ことをオプションで含む。

例３９において、例２９から３８のうちいずれか１または複数の主題は、
新たなジェスチャに関するトレーニングセットのインディケーションをユーザインタフェースから受信する手段と、
上記インディケーションの受信に応じて、上記トレーニングセットに基づき第２ジェスチャの表現を作成する手段と
をオプションで含む。

例４０において、例３９の主題は、
ジェスチャ表現のライブラリを上記エンコードされたビデオ内にエンコードする手段を含み、
上記ライブラリが、上記ジェスチャと、上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。

例４１において、例２９から４０のうちいずれか１または複数の主題は、
上記センサが第１デバイスの第１筐体内にあり、
上記受信機と上記エンコーダとが、第２デバイスの第２筐体内にあり、
上記第１デバイスと上記第２デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。

例４２は、
ビデオ内埋め込みジェスチャに関する命令を含む少なくとも１つのマシン可読媒体であって、マシンに実行された場合に上記命令は、上記マシンに、
ビデオストリームを得ることと、
サンプルセットを得ることであって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、ことと、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間を埋め込むことと
を実行させる少なくとも１つのマシン可読媒体である。

例４３において、例４２の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。

例４４において、例４２から４３のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである
ことをオプションで含む。

例４５において、例４４の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。

例４６において、例４２から４５のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを有する
ことをオプションで含む。

例４７において、例４６の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第１列に示され、対応する時間が同じ行の第２列に示されるテーブルである
ことをオプションで含む。

例４８において、例４２から４７のうちいずれか１または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを有し、
上記データ構造が、上記ビデオのフレームに対してエンコードした１つのエントリを含む
ことをオプションで含む。

例４９において、例４２から４８のうちいずれか１または複数の主題は、
上記命令が上記マシンに、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出させ、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較させ、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングさせる
ことをオプションで含む。

例５０において、例４９の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち１つである
ことをオプションで含む。

例５１において、例４９から５０のうちいずれか１または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち１つであり、
上記命令が上記マシンに、上記第２サンプルセットの等価物が得られた回数をトラッキングするカウンタを実装させ、
上記再生機が、上記カウンタに基づき上記時間を選択する
ことをオプションで含む。

例５２において、例４２から５１のうちいずれか１または複数の主題は、
上記命令が上記マシンに
新たなジェスチャに関するトレーニングセットのインディケーションを受信するユーザインタフェースを実装させ、
上記トレーニングセットに基づき第２ジェスチャの表現を生成させ、
上記センサが、上記インディケーションの受信に応じて上記トレーニングセットを得る
ことをオプションで含む。

例５３において、例５２の主題は、
ジェスチャ表現のライブラリが上記エンコードされたビデオ内にエンコードされ、
上記ライブラリが、上記ジェスチャおよび上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。

例５４において、例４２から５３のうちいずれか１または複数の主題は、
上記センサが第１デバイスの第１筐体内にあり、
上記受信機と上記エンコーダとが、第２デバイスの第２筐体内にあり、
上記第１デバイスと上記第２デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。

上記の発明を実施するための形態では、発明を実施するための形態の一部分を成す添付の図面が参照されている。それら図面は図示により、実施されてよい具体的な実施形態を示している。これら実施形態は本明細書において「例」とも呼ばれる。そのような例は、示されている、または記載されている要素に加えて、要素を含んでよい。しかしながら、本発明者らは、示されている、または記載されているそれら要素のみが提供される例も想定している。さらに本発明者らは、特定の例（またはその１または複数の態様）に関連して、または、本明細書に示されている、または記載されている他の例（またはそれらの１または複数の態様）に関連して示されている、または記載されているそれら要素（またはそれらの１または複数の態様）の任意の組み合わせまたは順列を用いた例も想定している。

本文書で参照されている全ての刊行物、特許、特許文書はそれらの全体が参照によりここで、参照により個別に組み込まれているかのように組み込まれる。本文書と、そのように参照により組み込まれているそれら文書との間で一貫性を欠く使用が見られた場合には、それら組み込まれている参考文献における使用は、本文書の使用を補足するものを見なされるべきであり、矛盾した非一貫性に関しては本文書での使用が優先される。

本文書において、「１つの／ある（ａ）」または「１つの／ある（ａｎ）」という用語は、特許文書においては一般的であるように何らかの他の「少なくとも１つの」または「１または複数の」の出現または使用とは独立して、１つまたは１より多くのものを含むものとして用いられている。本文書において、「または」という用語は、逆のことが示されていない限り、「ＡまたはＢ」が「ＡであるがＢではない」、「ＢであるがＡではない」、および「ＡでありＢである」ように非排他的論理和を指すのに用いられている。添付の請求項において、「含む」および「そこで」という用語が、「備える」および「その場合において」というそれぞれの用語の平易な英語の等価物として用いられている。また、以下の請求項において、「含む」および「備える」という用語は制限がなく、つまり、ある請求項において、そのような用語の後に列挙されている要素に加えて要素を含むシステム、デバイス、物品、または処理が依然としてその請求項の範囲に含まれると見なされる。さらに、以下の請求項において、「第１」、「第２」、「第３」等の用語が単にラベルとして用いられており、それらはそれらのオブジェクトに数値的な要求事項を課すことは意図されていない。

上記の説明は例示を意図しており、限定を意図しているわけではない。例えば、上述の例（またはそれらの１または複数の態様）は、互いに組み合わせて用いられてよい。上記の記載を検討すれば当業者等によって他の実施形態が用いられ得る。要約書は、技術的開示の本質を読み手が直ぐに確認出来るようにするものであり、請求項の範囲または意味を解釈または限定するのに要約書が用いられることはないとの理解に基づき提出される。また、上記の発明を実施するための形態において、開示を能率化するべく様々な特徴が一緒にグループ化されているかもしれない。このことは、特許請求されていないが開示されている特徴がいずれかの請求項において必須であることを意図しているものとして解釈されるべきではない。むしろ、発明に関わる主題は、特定の開示されている実施形態の全ての特徴ではなくそれより少ない特徴に存していてよい。したがって、以下の請求項はこれにより、発明を実施するための形態に組み込まれ、各請求項は、別箇の実施形態としてそれ自体独立している。実施形態の範囲は、添付の請求項を参照して、そのような請求項が法的権利を主張する資格がある等価物の全範囲と併せて判断されるべきである。
［項目１］
ビデオストリームを得る受信機と、
サンプルセットを得るセンサであって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、センサと、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間を埋め込むエンコーダと
を備える、ビデオ内埋め込みジェスチャに関するシステム。
［項目２］
上記センサは加速度計またはジャイロメータのうち少なくとも一方である、項目１に記載のシステム。
［項目３］
上記ジェスチャの上記表現は、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである、項目１に記載のシステム。
［項目４］
上記モデルは、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する、項目３に記載のシステム。
［項目５］
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出するデコーダと、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較する比較器と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする再生機と
を備える、項目１に記載のシステム。
［項目６］
上記ジェスチャは、上記エンコードされたビデオ内の複数の種々のジェスチャのうち１つである、項目５に記載のシステム。
［項目７］
上記ジェスチャは、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち１つであり、
上記システムは、上記第２サンプルセットの等価物が得られた回数をトラッキングするカウンタを備え、
上記再生機は、上記カウンタに基づき上記時間を選択した、
項目５に記載のシステム。
［項目８］
新たなジェスチャに関するトレーニングセットのインディケーションを受信するユーザインタフェースと、
上記トレーニングセットに基づき第２ジェスチャの表現を生成するトレーナと
を備え、
上記センサは、上記インディケーションの受信に応じて上記トレーニングセットを得る、
項目１に記載のシステム。
［項目９］
ジェスチャ表現のライブラリが上記エンコードされたビデオ内にエンコードされ、
上記ライブラリは、上記ジェスチャおよび上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む、
項目８に記載のシステム。
［項目１０］
上記センサは第１デバイスの第１筐体内にあり、
上記受信機と上記エンコーダとは、第２デバイスの第２筐体内にあり、
上記第１デバイスと上記第２デバイスとは、両デバイスのオペレーション中に通信接続される、
項目１に記載のシステム。
［項目１１］
ビデオストリームを受信機により得る段階と
センサを測定してサンプルセットを得る段階であって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、段階と、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間をエンコーダにより埋め込む段階と
を備える、ビデオ内埋め込みジェスチャに関する方法。
［項目１２］
上記センサは加速度計またはジャイロメータのうち少なくとも一方である、項目１１に記載の方法。
［項目１３］
上記ジェスチャの上記表現は、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも１つである、項目１１に記載の方法。
［項目１４］
上記モデルは、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する、項目１３に記載の方法。
［項目１５］
上記ジェスチャの上記表現および上記時間を埋め込む段階は、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有する、項目１１に記載の方法。
［項目１６］
上記メタデータデータ構造は、ジェスチャの上記表現が第１列に示され、対応する時間が同じ行の第２列に示されるテーブルである、項目１５に記載の方法。
［項目１７］
上記ジェスチャの上記表現および上記時間を埋め込む段階は、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有し、
上記データ構造は、上記ビデオのフレームに対してエンコードしている１つのエントリを含む、
項目１１に記載の方法。
［項目１８］
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出する段階と、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第２サンプルセットとを一致するか比較する段階と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする段階と
を備える、項目１１に記載の方法。
［項目１９］
上記ジェスチャは、上記エンコードされたビデオ内の複数の種々のジェスチャのうち１つである、項目１８に記載の方法。
［項目２０］
上記ジェスチャは、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち１つであり、
上記第２サンプルセットの等価物が得られた回数をカウンタによりトラッキングする段階を備え、
上記レンダリングする段階において、上記カウンタに基づき上記時間が選択された、
項目１８に記載の方法。
［項目２１］
新たなジェスチャに関するトレーニングセットのインディケーションをユーザインタフェースから受信する段階と、
上記インディケーションの受信に応じて、上記トレーニングセットに基づき第２ジェスチャの表現を作成する段階と
を備える、項目１１に記載の方法。
［項目２２］
ジェスチャ表現のライブラリを上記エンコードされたビデオ内にエンコードする段階を備え、
上記ライブラリは、上記ジェスチャと、上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む、
項目２１に記載の方法。
［項目２３］
上記センサは第１デバイスの第１筐体内にあり、
上記受信機と上記エンコーダとは、第２デバイスの第２筐体内にあり、
上記第１デバイスと上記第２デバイスとは、両デバイスのオペレーション中に通信接続される、
項目１１に記載の方法。
［項目２４］
方法１１から２３のいずれかを実装する手段を備えるシステム。
［項目２５］
マシンにより実行された場合に、方法１１から２３のいずれかを上記マシンに実施させる命令を備える少なくとも１つのマシン可読媒体。

Claims

システムであって、
カメラを有する第１デバイスと、
１または複数のセンサを有する第２デバイスであって、前記第２デバイスはウェアラブルデバイスであり、
前記１または複数のセンサに関連付けられたセンサデータに基づいてジェスチャを検出し、
前記ジェスチャとビデオブックマーク付けに関連付けられた予め定められた動作ジェスチャとが一致するか比較し、
前記ジェスチャと、前記ビデオブックマーク付けに関連付けられた前記予め定められた動作ジェスチャとが一致するとの結果に応じて、ビデオブックマークを、前記第１デバイスと前記第２デバイスとの間の無線接続を介して前記第１デバイスに通知する
ための前記第２デバイスと
を備え、
前記第１デバイスは
前記カメラを用いてビデオをキャプチャし、
前記第２デバイスが前記第１デバイスに前記ビデオブックマークを通知することに応じて、前記ビデオに関連付けられた１または複数のビデオの特徴に、前記ビデオのマーク付けされた部分を生成するためのマーク付けを行う
システム。
前記１または複数のセンサは、加速度計を有する
請求項１に記載のシステム。
前記１または複数のセンサは、ジャイロスコープを有する
請求項１または２に記載のシステム。
前記予め定められた動作ジェスチャは、前記ビデオブックマークの始まりに関連付けられる
請求項１から３のいずれか一項に記載のシステム。
前記１または複数のビデオの特徴は、前記ビデオの１または複数のビデオフレームを有する
請求項１から４のいずれか一項に記載のシステム。
前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ジェスチャの表現を前記ビデオの前記１または複数のビデオフレーム内に埋め込むことを含む
請求項５に記載のシステム。
マーク付けされた前記１または複数のビデオの特徴に基づいて前記ビデオの前記マーク付けされた部分を見つけ出し、前記ビデオの前記マーク付けされた部分を再生するための再生機を更に備える
請求項１から６のいずれか一項に記載のシステム。
前記ジェスチャは第１ジェスチャであり、前記予め定められた動作ジェスチャは第１の予め定められた動作ジェスチャであり、前記ビデオブックマークを前記第１デバイスに通知することは、前記ビデオブックマークの開始を前記第１デバイスに通知することを含み、前記第２デバイスが前記第１デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記１または複数のビデオの特徴にマーク付けを始めることを含み、
前記第２デバイスは更に、
前記１または複数のセンサに関連付けられた前記センサデータに基づいて第２ジェスチャを検出し、
前記第２ジェスチャと、前記第１の予め定められた動作ジェスチャまたは前記ビデオブックマーク付けに関連付けられた第２の予め定められた動作ジェスチャとが一致するか比較し、
前記第１デバイスと前記第２デバイスとの間の無線接続を介して、前記ビデオブックマークの終わりを前記第１デバイスに通知し、
前記第１デバイスは更に、前記第２デバイスが前記第１デバイスに前記ビデオブックマークの前記終わりを通知することに応じて、前記ビデオに関連付けられた前記１または複数のビデオの特徴の前記マーク付けを停止する
請求項１から７のいずれか一項に記載のシステム。
方法であって、
第１デバイスのカメラを用いて前記第１デバイスでビデオをキャプチャする段階と、
ウェアラブルデバイスであり、１または複数のセンサを有する第２デバイスで、前記１または複数のセンサに関連付けられたセンサデータに基づいてジェスチャを検出する段階と、
前記第２デバイスで、前記ジェスチャとビデオブックマーク付けに関連付けられた予め定められた動作ジェスチャとが一致するか比較する段階と、
前記第２デバイスによって、前記第１デバイスと前記第２デバイスとの間の無線接続を介して、前記第１デバイスに、前記ジェスチャと前記ビデオブックマーク付けに関連付けられた前記予め定められた動作ジェスチャとが一致するとの結果に応じてビデオブックマークを通知する段階と、
前記第１デバイスで、前記第２デバイスが前記第１デバイスに前記ビデオブックマークを通知することに応じて、前記ビデオに関連付けられた１または複数のビデオの特徴に前記ビデオのマーク付けされた部分を生成するためのマーク付けを行う段階と
を備える、方法。
前記１または複数のセンサは、加速度計を有する
請求項９に記載の方法。
前記１または複数のセンサは、ジャイロスコープを有する
請求項９または１０に記載の方法。
前記予め定められた動作ジェスチャは、前記ビデオブックマークの始まりに関連付けられる
請求項９から１１のいずれか一項に記載の方法。
前記１または複数のビデオの特徴は、前記ビデオの１または複数のビデオフレームを有する
請求項９から１２のいずれか一項に記載の方法。
前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行う段階は、前記ジェスチャの表現を前記ビデオの前記１または複数のビデオフレーム内に埋め込む段階を含む
請求項１３に記載の方法。
再生機によって、マーク付けされた前記１または複数のビデオの特徴に基づいて前記ビデオの前記マーク付けされた部分を見つけ出す段階と、
前記再生機によって、前記ビデオの前記マーク付けされた部分を再生する段階と
をさらに備える、請求項９から１４のいずれか一項に記載の方法。
前記ジェスチャは第１ジェスチャであり、前記予め定められた動作ジェスチャは第１の予め定められた動作ジェスチャであり、前記ビデオブックマークを前記第１デバイスに通知する前記段階は、前記ビデオブックマークの開始を前記第１デバイスに通知する段階を含み、前記第２デバイスが前記第１デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行う前記段階は、前記１または複数のビデオの特徴にマーク付けを始める段階を含み、
前記方法は更に、
前記第２デバイスで、前記１または複数のセンサに関連付けられた前記センサデータに基づいて第２ジェスチャを検出する段階と、
前記第２デバイスで、前記第２ジェスチャと、前記第１の予め定められた動作ジェスチャまたは前記ビデオブックマーク付けに関連付けられた第２の予め定められた動作ジェスチャとが一致するか比較する段階と、
前記第２デバイスによって、前記第１デバイスと前記第２デバイスとの間の無線接続を介して、前記ビデオブックマークの終わりを前記第１デバイスに通知する段階と、
前記第１デバイスで、前記第２デバイスが前記第１デバイスに前記ビデオブックマークの前記終わりを通知することに応じて、前記ビデオに関連付けられた前記１または複数のビデオの特徴の前記マーク付けを停止する段階と
を備える、請求項９から１５のいずれか一項に記載の方法。
１または複数のプログラムであって、
第１デバイスおよび第２デバイスにより実行されたとき、前記第１デバイスおよび前記第２デバイスに
前記第１デバイスのカメラを用いて前記第１デバイスでビデオをキャプチャさせ、
前記第２デバイスはウェアラブルデバイスであり、１または複数のセンサを有し、前記第２デバイスで、前記１または複数のセンサに関連付けられたセンサデータに基づいてジェスチャを検出させ、
前記第２デバイスで、前記ジェスチャとビデオブックマーク付けに関連付けられた予め定められた動作ジェスチャとが一致するか比較させ、
前記第２デバイスによって、前記第１デバイスと前記第２デバイスとの間の無線接続を介して、前記第１デバイスに、前記ジェスチャと前記ビデオブックマーク付けに関連付けられた前記予め定められた動作ジェスチャとが一致するとの結果に応じてビデオブックマークを通知させ、
前記第１デバイスで、前記第２デバイスが前記第１デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオに関連付けられた１または複数のビデオの特徴に前記ビデオのマーク付けされた部分を生成するためのマーク付けを行わせる
１または複数のプログラム。
前記１または複数のセンサは、加速度計を有する
請求項１７に記載の１または複数のプログラム。
前記１または複数のセンサは、ジャイロスコープを有する
請求項１７または１８に記載の１または複数のプログラム。
前記予め定められた動作ジェスチャは、前記ビデオブックマークの始まりに関連付けられる
請求項１７から１９のいずれか一項に記載の１または複数のプログラム。
前記１または複数のビデオの特徴は、前記ビデオの１または複数のビデオフレームを有する
請求項１７から２０のいずれか一項に記載の１または複数のプログラム。
前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ジェスチャの表現を前記ビデオの前記１または複数のビデオフレーム内に埋め込むことを含む
請求項２１に記載の１または複数のプログラム。
前記プログラムは、実行されたとき更に、第３デバイスに
マーク付けされた前記１または複数のビデオの特徴に基づいて前記ビデオの前記マーク付けされた部分を見つけ出させ、
前記ビデオの前記マーク付けされた部分を再生させる
請求項１７から２２のいずれか一項に記載の１または複数のプログラム。
前記ジェスチャは第１ジェスチャであり、前記予め定められた動作ジェスチャは第１の予め定められた動作ジェスチャであり、前記ビデオブックマークを前記第１デバイスに通知することは、前記ビデオブックマークの開始を前記第１デバイスに通知することを含み、前記第２デバイスが前記第１デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記１または複数のビデオの特徴にマーク付けを始めることを含み、
前記プログラムは、実行されたとき更に、前記第１デバイスおよび前記第２デバイスに
前記第２デバイスで、前記１または複数のセンサに関連付けられた前記センサデータに基づいて第２ジェスチャを検出させ、
前記第２デバイスで、前記第２ジェスチャと、前記第１の予め定められた動作ジェスチャまたは前記ビデオブックマーク付けに関連付けられた第２の予め定められた動作ジェスチャとが一致するか比較させ、
前記第２デバイスによって、前記第１デバイスに、前記ビデオブックマークの終わりを前記第１デバイスと前記第２デバイスとの間の無線接続を介して通知させ、
前記第１デバイスで、前記第２デバイスが前記第１デバイスに前記ビデオブックマークの前記終わりを通知することに応じて、前記ビデオに関連付けられた前記１または複数のビデオの特徴に前記ビデオの前記マーク付けされた部分を生成するための前記マーク付けを停止させる
請求項１７から２３のいずれか一項に記載の１または複数のプログラム。
請求項１７から２４のいずれか一項に記載の１または複数のプログラムを格納した、非一時的コンピュータ可読記録媒体。