JP6858159B2

JP6858159B2 - 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク

Info

Publication number: JP6858159B2
Application number: JP2018135982A
Authority: JP
Inventors: サグナナマーシーヘバラグッペ、ラムヤ; グプタ、アルチー; ハッサン、エテスハム; マウルヤ、ジテンダ; ペルラ、ラマクリシュナ
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2017-07-20
Filing date: 2018-07-19
Publication date: 2021-04-14
Anticipated expiration: 2038-07-19
Also published as: US20190026001A1; US10831360B2; EP3432204A1; EP3432204C0; JP2019021318A; EP3432204B1

Description

本発明は、２０１７年７月２０日にインド国で出願されたインド国特許仮出願第２０１７２１０２５８５８号明細書（特許文献１）（発明の名称：頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク）の優先権を主張する。

本明細書の実施形態は、概して、関心領域（ＲＯＩ：ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）の標識に関し、特に、頭部装着装置等の非接触の手振りインタフェースを使用して、メディアストリームにおいてＲＯＩを標識するシステム及び方法に関する。

ウェアラブルな拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）装置は、リアルタイムのコンテキスト情報を可視化するための多くの用途で研究されている。例えば、上記装置は、現場のオペレータが、問題解決に関してその場にいない専門家の指導を必要とする場合に、遠隔地からのテレアシスタンスにおいて使用できる。テレアシスタンスを必要とする用途の例としては、プリンタの故障診断、テレビ会議、製造業における修理、メンテナンス、及び点検、航空機の配線、機械の遠隔操作等が挙げられるが、これらに限定されない。

典型的なテレアシスタンス装置は、高度なアルゴリズムを組込み、最初の分類子（ｃｌａｓｓｉｆｉｅｒ）のための複数の周囲条件（照明条件等）、複数の肌の色調、及び複合環境をカバーする大規模な訓練セットを必要とする。加えて、こうした装置は、試験中にかかる計算時間が長く、それにより処理待ち時間が増大する。

インド国特許仮出願第２０１７２１０２５８５８号明細書

以下では、実施形態に関する基本的な理解を提供するために、本開示の幾つかの実施形態に関する概略を示す。この概略は、実施形態に関する広範な概観ではない。この概略は、実施形態の主要な／重要な要素を特定すること、又は実施形態の範囲を線引きすることを意図するものではない。唯一の目的は、以下に示すより詳細な説明の前置きとして、単純化した形で幾つかの実施形態を示すことである。

上記を考慮して、本明細書の実施形態は、メディアストリームにおいて関心領域（ＲＯＩ）を標識する方法及びシステムを提供する。メディアストリームにおいてＲＯＩを標識する方法は、１台又は複数のハードウェアプロセッサを介して、メディアストリームを捕捉中に、メディアストリームの少なくとも１つのフレームにおける身振りを表す指さしオブジェクトを認識するステップであって、メディアストリームは、ユーザの一人称視点（ＦＰＶ：ｆｉｒｓｔｐｅｒｓｏｎｖｉｅｗ）から捕捉される場面を含む、ステップを含む。更に、該方法は、１台又は複数のハードウェアプロセッサを介して、メディアストリームの少なくとも１つのフレームに後続するフレームのセットにおける指さしオブジェクトの軌跡を検出して、メディアストリームにおけるＲＯＩを選択するステップを含む。指さしオブジェクトの軌跡は、ＲＯＩ周りにバウンディングボックスを構成する。更にまた、該方法は、１台又は複数のハードウェアプロセッサを介して、メディアストリームの複数のフレームにおいてＲＯＩを追跡するステップを含む。該複数のフレームは、メディアストリームにおける後続フレームのセットに続いて発生する。また、該方法は、１台又は複数のハードウェアプロセッサを介して、追跡に基づいて、ＲＯＩ周りにバウンディングボックスを更新するステップであって、更新されたバウンディングボックスは、ＲＯＩを囲む、ステップを含む。

別の態様では、メディアストリームにおける関心領域（ＲＯＩ）を標識するシステムが提供される。該システムは、１つ又は複数のメモリ；及び１台又は複数のハードウェアプロセッサを含み、該１つ又は複数のメモリは、少なくとも１つのプロセッサ及び少なくとも１つのメディアセンサに結合され、該少なくとも１つのプロセッサは、１つ又は複数のメモリに記憶されたプログラム命令であり、メディアストリームを捕捉中に、メディアストリームの少なくとも１つのフレームにおいて身振りを表す指さしオブジェクトを認識する命令であって、メディアストリームは、ユーザの一人称視点（ＦＰＶ）から捕捉された場面を含む、命令を実行できる。１台又は複数のハードウェアプロセッサは、メディアストリームの少なくとも１つのフレームに後続するフレームのセットにおいて指さしオブジェクトの軌跡を検出して、メディアストリームにおけるＲＯＩを選択する命令であって、指さしオブジェクトの軌跡は、ＲＯＩ周りにバウンディングボックスを構成する、命令によって更に構成される。更にまた、１台又は複数のハードウェアプロセッサは、メディアストリームの複数のフレームにおいてＲＯＩを追跡する命令によって更に構成され、複数のフレームは、メディアストリームにおける後続フレームのセットに続いて発生する。また、１台又は複数のハードウェアプロセッサは、追跡に基づいて、ＲＯＩ周りでバウンディングボックスを更新する命令であって、更新されたバウンディングボックスは、ＲＯＩを囲む、命令によって更に構成される。

また別の態様では、メディアストリームにおいてＲＯＩを標識する方法を実行するためのコンピュータプログラムを具現化した非一時的なコンピュータ可読媒体が、提供される。該方法は、メディアストリームを捕捉中に、メディアストリームの少なくとも１つのフレームにおける身振りを表す指さしオブジェクトを認識するステップを含み、メディアストリームは、ユーザの一人称視点（ＦＰＶ：ｆｉｒｓｔｐｅｒｓｏｎｖｉｅｗ）から捕捉される場面を含む。更に、該方法は、メディアストリームの少なくとも１つのフレームに後続するフレームのセットにおける指さしオブジェクトの軌跡を検出して、メディアストリームにおけるＲＯＩを選択するステップを含む。指さしオブジェクトの軌跡は、ＲＯＩ周りにバウンディングボックスを構成する。更にまた、該方法は、メディアストリームの複数のフレームにおいてＲＯＩを追跡するステップを含む。該複数のフレームは、メディアストリームにおける後続フレームのセットに続いて発生する。また、該方法は、追跡に基づいて、ＲＯＩ周りにバウンディングボックスを更新するステップであって、更新されたバウンディングボックスは、ＲＯＩを囲む、ステップを含む。

詳細な説明は、添付図を参照して記述される。図面では、参照番号の最も左側の桁で、当該参照番号が最初に現れる図面を特定する。同じ番号が、同様の特徴及びモジュールを参照するのに全図面を通して使用される。

本主題の一実施形態による、メディアストリームにおいてＲＯＩを標識するシステムのネットワーク実装を示している。例示の実施形態による、メディアストリームにおいてＲＯＩを標識する代表的な処理の流れを示している。（図３Ａ）例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを選択する処理の流れを示している。（図３Ｂ）例示の実施形態による、ＲＯＩの標識を実行するために、ＲＯＩを選択する処理の流れを示している。（図３Ｃ）例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを選択する処理の流れを示している。（図３Ｄ）例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを選択する処理の流れを示している。（図３Ｅ）例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを選択する処理の流れを示している。（図３Ｆ）例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを選択する処理の流れを示している。例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを追跡する処理の流れを示している。例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを追跡する処理の流れを示している。例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを追跡する処理の流れを示している。例示の実施形態による、ＲＯＩの標識を実行するためにＲＯＩを追跡する処理の流れを示している。本開示と一致する実施形態を実装する例示的なコンピュータシステムのブロック図である。

本明細書の何れのブロック図も、本主題の原理を具現化する実例のシステム及び装置に関する概念図を示していると、当業者には理解されるべきである。同様に、何れのフローチャート、フロー図及び同様なものは、様々な処理を表すものと理解され、該処理は、コンピュータ可読な媒体において実質的に示され、示された通りにコンピュータ又はプロセッサで、かかるコンピュータ又はプロセッサが明示される如何に関わらず、実行されてもよい。

拡張現実（ＡＲ：Ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）とは、物理的な実世界の環境の要素を、音、テキスト、グラフィックス、又は映像等のコンピュータ生成感覚入力によって拡張した視像で表すことを言う。ＡＲは、医療、教育、エンターテイメント、軍事等の様々な用途で有用である。そうしたＡＲ用途の一つとして、現場のオペレータが、その場にいない専門家の問題解決に関する指導を必要とする場合に、遠隔地からテレアシスタンスを提供するものがある。専門家の問題解決に関する指導を伴うかかる用途の例は、プリンタの故障診断、テレビ会議、製造業における修理、メンテナンス、及び点検、航空機の配線等が挙げられるが、これらに限定されない。

問題解決のために専門家が関わる典型的なシナリオでは、現場のオペレータは、遠隔支援及び遠隔場面調査をその場にいない専門家に提供することが求められる。或いは、専門家は、問題解決のために現地に移動することが期待される。どちらの解決方法も、実際の問題解決まで長期間かかる。加えて、専門家を現場に移動させるには、高いコストと、移動による長い中断時間も伴う。

かかる従来の慣例に関する課題に対処するために、遠隔支援のための様々なテレアシスタンスのフレームワークが提案されてきた。例えば、かかるテレアシスタンスのフレームワークの１つは、オペレータをサポートして、専門家の可視化を支援する機能を向上するために、マルチユーザのウェアラブル装置のクライアント−サーバアーキテクチャを具現化する。参加者らは、個別に自分の視野（ＦｏＶ：ＦｉｅｌｄｏｆＶｉｅｗ）における仮想コンテンツを制御しながら、同じ空間的に位置合せしたモデルを見ることができる。他の従来型のシステムでは、遠隔の専門家が、ユーザの従来のツールで作業でき、ウェアラブル装置を使用して、コンピュータインタフェースを通して、ユーザのＦｏＶにおいて、仮想オブジェクトを重ねることができる。しかしながら、かかる従来のシステムは、効率的に協働するために、不可欠なインタフェース及び機能性を提供できない。例えば、かかるシステムは、ウェアラブル装置から見ながら、ＦｏＶの関心領域（ＲＯＩ）を強調できない。その上、ユーザが頭部装着装置（ＨＭＤ：ＨｅａｄＭｏｕｎｔｅｄＤｅｖｉｃｅ）又はウェアラブルを着用するタスクを実行するため、更なるハードウェアを提供することで、コストが増大し、複雑になる。

特定の従来型のシステムは、手振りを、ウェアラブルを通して認識できる。しかしながら、かかるシステムは、手振りを認識する深度センサを採用しており、それにより、システムの全体的なコストが増大する。ＦＰＶから捕捉した単一の単眼ＲＧＢデータから手振りを認識することは、スマートフォンが深度センサを備えていないため、コンピュータビジョンにおいて困難なタスクである。特定の従来型のシステムは、自己中心的な映像（ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏ）において手を区分するためのランダムフォレストによる超画素分類（ｓｕｐｅｒｐｉｘｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）、混合ガウスモデルを使用した効果的な皮膚画素抽出、手の存在を検出した後にベイジアン法を使用して区分する手振り認識のための４段階アプローチ等の技術を採用する。上記技術は、高度な検出及び追跡を提供するが；上記技術は、計算的に重く、スマートフォンに移植するのは難しい。

典型的なテレアシスタンスのフレームワークは、ユーザの頭部装着装置からネットワークを介してサーバに送信するビデオストリームを観察することによって、サーバの場所に居る専門職員が、遠隔地に居る新米の検査官を補助することに関与する場合がある。遠隔地に居る検査官は、状態について評価するために専門職員と音響機器を介して通信してもよい。また、ユーザの視野（ＦｏＶ）を遠隔地の専門家と共有することに加えて、効率的に協働するために、適切なインタフェース及び機能性を専門家と作業者に提供する必要もある。従来型のシステムは、テレポインタを利用して、問題解決アプリケーション、例えば、ウェアラブルなテレビ会議システムにおいて領域を強調する。ＧｅｓｔｕｒｅＣａｍ等の他の従来型システムは、タッチスクリーン装置上で専門家の手振りを捕捉して、該手振りをユーザのウェアラブルに送信できる。しかしながら、かかるシステムは、ウェアラブル装置からＲＯＩを強調する機能がない。

非接触の手振りは、産業の屋外環境においてＲＯＩを強調するのにより効果的である。これは、専門家が問題を理解するのを助け、所望するタスクを正確且つ迅速に解決するように、音声／テキスト命令で現場の検査官を支援する。現在、Ｍｉｃｒｏｓｏｆｔ社のＨｏｌｏｌｅｎｓ、Ｄａｑｒｉ社スマートヘルメット等の様々な高性能で精巧なＡＲ機械装置が、利用可能である。しかしながら、かかる機械装置は、採算が合わず、携帯用でなく、大衆市場に拡大可能ではない。一人称視点（ＦＰＶ：ＦｉｒｓｔＰｅｒｓｏｎＶｉｅｗ）から捕捉した単一の単眼ＲＧＢデータから手振りを認識することは、スマートフォンが深度センサを備えていないために、コンピュータビジョンでは困難なタスクとなることがある。自己中心的な映像において手を区分するためのランダムフォレストのスーパーピクセル分類、混合ガウスモデルを使用する効果的な皮膚画素抽出等の高度な技術を利用する様々な従来のシステムが、利用可能である。従来の方法及びシステムは、高度な検出及び追跡を開示するが、該方法及びシステムは、計算的に重く、スマートフォン等の携帯用電子装置に移植するのは難しい。

本明細書に開示された様々な実施形態は、スマートフォン等電子装置上でのアルゴリズムのリアルタイム性能、精度、使い易さ及び待ち時間等の要因を考慮することによって、計算的に無駄がない方法で、ウェアラブルでＲＯＩを追跡できる方法及びシステムを提供する。例えば、一実施形態では、開示されたシステムは、一人称視点（ＦＰＶ）においてＲＯＩを局所化／選択するために、簡素なスマートフォンをベースにした頭部装着装置と一体化できる。手だけで描く身振りを使用して選択された領域は、専門家のアドバイス用遠隔サーバセットアップに強調される。開示されたシステム及び方法の重要な貢献は、スマートフォン上で実行でき、ウェアラブルな簡素な頭部装着装置と共に使用できる非接触の指ベースの身振り認識を可能にすることである。カメラ入力のステレオレンダリングを使用して、スマートフォンの画面上で関連情報を重ねることで、これらの装置を、ＡＲ用途に拡大適用できる。かかる簡素な頭部装着装置の例としては、Ｇｏｏｇｌｅ社のＣａｒｄｂｏａｒｄ／Ｗｅａｒａｌｉｔｙ等が挙げられるが、これらに限定されない。また、開示されたシステムは、ネットワーク待ち時間を短縮でき、ＲＯＩ認識モジュールの基板実装によってリアルタイム性能を達成できる。

本明細書の実施形態及び実施形態の様々な特徴及び有利な細部については、添付図で図示され、以下で詳述される非限定的な実施形態を参照して、より完全に説明される。本明細書で使用される実施例は、単に、本明細書の実施形態が実行されてもよい方法を理解し易くし、当業者が本明細書の実施形態を更に実行できるように意図されている。従って、実施例は、本明細書の実施形態の範囲を限定するものと解釈されるべきではない。

本方法及びシステムは、本明細書に記載された特定の実施形態に限定されない。また、本方法及びシステムは、本明細書に記載の他のモジュール及び方法とは無関係に且つ別々に実行できる。各装置要素／モジュール及び方法は、他の要素／モジュール及び他の方法と組合せて使用できる。

頭部装着装置を使用して関心領域（ＲＯＩ）を標識するシステム及び方法が実装されるやり方については、図１〜図５に関して詳細に説明した。頭部装着装置を使用してＲＯＩを標識するための記載された方法及びシステムの態様は、任意の数の異なるシステム、利用環境、及び／又は構成で実装できるが、実施形態については、以下の例示的なシステム（複数可）との関連で記述される。

次に、図１を参照すると、本主題の実施形態に従い、頭部装着装置を使用してメディアストリームにおいてＲＯＩを標識するシステム１０２のネットワーク実装１００が、示されている。一実施形態では、システム１０２は、標識無しでリアルタイムの２段階の連続した身振り認識方法で、ユーザの視野（ＦＯＶ）においてＲＯＩを強調し易くする。システム１０２は、動的な身振りを検出する。例示の実施形態では、動的な身振りの検出は、拳の残りを握りながら人差し指を立てた（指さし身振り）後に、安定した手の存在を検出することを含む。本実施形態の動的な身振りは、図２に示されている。本明細書で図示及び記載された身振りは、例示の身振りであることに留意されたい。頭部装着装置を使用するＲＯＩ標識は、本明細書に記載された身振りに限らず、当該技術分野で既知の様々な他の身振りを介して、実装できる。身振りは、ＲＯＩ選択をトリガするように構成される。第２の動的な身振りは、ＲＯＩ追跡をトリガしてもよい。例えば、第２身振りは、関心オブジェクト周りに指さし身振りを動かすことを含んでもよい。従って、本システムは、以下のステップを実行してもよい：（ｉ）指さし身振りの検出、（ｉｉ）ＲＯＩ選択、（ｉｉｉ）ＲＯＩ追跡、及び（ｉｖ）ＲＯＩ周りのバウンディングボックスのその後の更新。頭部装着装置を使用してＲＯＩを標識する方法について、図２〜図５を参照して、更に詳述される。

本主題は、システム１０２が、頭部装着装置を使用してＲＯＩを標識するように、実装されることを考えて、説明されるが、システム１０２は、如何なる特定の機械又は環境にも制約されないものと理解されてもよい。システム１０２は、工場の組立て及び保守作業に関係する様々な分野に利用できる。システム１０２は、ラップトップコンピュータ、デスクトップコンピュータ、ノート型パソコン、ワークステーション、メインフレームコンピュータ、サーバや、ネットワークサーバ及び同様なもの等の、様々なコンピュータシステムに実装されてもよい。

本明細書では、システム１０２は、複数の装置及び／又は機械１０４−１、１０４−２・・・１０４−Ｎを介して、メディアストリーム、例えば、画像を捕捉してもよい。これら複数の装置及び／又は機械１０４−１、１０４−２・・・１０４−Ｎは、これ以降、纏めて装置１０４と呼ぶ。装置１０４の例としては、ポータブルコンピュータ、携帯情報端末、携帯端末、ＶＲカメラ具現化装置（ＶＲｃａｍｅｒａｅｍｂｏｄｙｉｎｇｄｅｖｉｃｅ）、画像／映像を捕捉及び記憶するために備えた記憶装置等を挙げられるが、これらに限定されない。一実施形態では、装置１０４は、映像、例えば、オブジェクト及び／又は機械の拡張現実（ＡＲ）に基づく映像を捕捉できる装置を含んでもよい。装置１０４は、ネットワーク１０６を通じてシステム１０２に通信可能に結合され、補足した映像をシステム１０２に伝達可能にしてもよい。

一実装では、ネットワーク１０６は、無線ネットワーク、有線ネットワーク又はそれらの組合せであってもよい。ネットワーク１０６は、イントラネット、ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、広域ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、インターネット及び同様なもの等、異なる種類のネットワークの１つとして実装できる。ネットワーク１０６は、専用ネットワーク又は共有ネットワークのどちらかとしてもよい。共有ネットワークは、互いに通信するために、様々なプロトコル、例えば、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、無線アプリケーションプロトコル（ＷＡＰ）及び同様なものを使用する異なる種類のネットワークを関連付けすること（ａｓｓｏｃｉａｔｉｏｎ）を表す。更に、ネットワーク１０６は、ルータ、ブリッジ、サーバ、計算装置、記憶装置及び同様なものを含む、様々なネットワーク装置を含んでもよい。

装置１０４は、メディアストリームを、ネットワーク１０６を介してシステム１０２に送信してもよい。システム１０２は、装置１０４等のＡＲ装置によって捕捉されたメディアストリームにおいてＲＯＩを標識可能になる。本明細書では、ＡＲ装置は、ＡＲ技術を具現化し得る装置である。ＡＲ技術は、ユーザの知覚を高め、ユーザが環境についてより深く見る、聞く、感じるのを助ける。ＡＲ装置を使用すると、所望するオブジェクトのＲＯＩ選択が、ナチュラルユーザインタフェース（ＮＵＩ（ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃｅ））を用いて容易になる。

一実施形態では、システム１０２は、計算装置１１０において具現化されてもよい。計算装置１１０の例としては、デスクトップパソコン（ＰＣ：ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型パソコン、ラップトップコンピュータ、ポータブルコンピュータ、スマートフォン、タブレット及び同様なものが挙げられるが、これらに限定されない。また、システム１０２は、メディアストリームを記憶するために、データリポジトリ１１２と関連付けられてもよい。加えて又は或いは、データリポジトリ１１２は、メディアストリームにおいてＲＯＩを標識中に生成されたデータ及び／又は情報を記憶するように構成されてもよい。データリポジトリ１１２は、システム１０２を具現化する計算装置１１０の外部に構成され、該計算装置１１０に通信可能に結合されてもよい。或いは、データリポジトリ１１２は、システム１０２内に構成されてもよい。メディアストリームにおいてＲＯＩを標識するシステム１０２の例示の実装について、図２を参照して更に記述される。

図２は、本開示の幾つかの実施形態による頭部装着装置を使用してＲＯＩを標識する例示的な方法２００を示している。方法２００は、コンピュータ実行可能命令に一般的に関連して記述されてもよい。一般に、コンピュータ実行可能命令は、特定の機能を実行する、又は特定の抽出データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、手順、モジュール、機能等を含むことができる。また、方法２００は、機能が、通信ネットワークを通してリンクされる遠隔処理装置によって実行される分散計算環境で実行されてもよい。方法２００が記載されている順番は、限定として解釈されることを意図したものではなく、記載された方法ブロックの如何なる番号も、方法２００、又は別の方法を実装するために任意の順番で組合せできる。更に、方法２００は、任意の適当なハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せで、実装できる。一実施形態では、フローチャートで表された方法２００は、システム、例えば、図１のシステム１０２によって実行されてもよい。例示の実施形態では、システム１０２は、例示的なコンピュータシステム、例えば、コンピュータシステム５０１（図５）で具現化されてもよい。図２の方法２００は、図３Ａ〜図４Ｄを参照して、より詳細に以下で説明される。

図２を参照すると、図示された実施形態では、方法２００は、ユーザ２０２が、ウェアラブル２０４、例えば頭部装着装置及びスマートフォン（以下、纏めて、ＡＲウェアラブル装置と呼ぶ）を、ＡＲウェアラブル装置によって表現されたＡＲ場面においてＲＯＩ標識を実行するために、保持すると、開始される。ユーザ２０２は、ＡＲ場面においてＲＯＩを選択するために、身振り、例えば身振り２０６を実行できる。一実施形態では、身振りは、拳の残りを握りながら人差し指を立てた後に、安定した手の存在を検出することを伴う、動的な身振りを含んでもよい。かかる身振りは、指さし身振りと呼んでもよい。指さし身振りの例は、図３Ａに示されている。指さし身振りは、ＲＯＩ選択をトリガするための動的な身振り（図３Ａ）を検出するために、指をさす身振りのことを言う。或いは、身振りは、ＲＯＩの選択を容易にできる任意の既知の身振りとしてもよい。

身振りの表す指さしオブジェクトを有するメディアストリームの１つ又は複数の画像／フレームは、ＡＲウェアラブル装置から得られる。メディアストリームは、ユーザの一人称視点（ＦＰＶ）から捕捉される場面を含む。ＦＰＶで捕捉された上記画像は、２０８で、処理のために、システム（例えば、図１のシステム１０２）にストリーミングされる。一実装では、ＡＲウェアラブル装置から得られた画像は、まず、画質に関してそれ程妥協せずに、処理時間を短縮するために、例えば、６４０×４８０解像度にまで縮小される。例えば、図３Ａに示されるＲＧＢ画像フレームは、ＡＲウェアラブル装置２０４から入手されてもよい。

２１０では、メディア捕捉装置を使用してメディアストリームを捕捉しながら、身振りの表す指さしオブジェクトが、メディアストリームの少なくとも１つのフレームにおいて認識される。一実施形態では、指さしオブジェクトを認識することは、メディアストリームから彩度チャネル情報を抽出することを含む。特に、画像は、肌画素（例えば、図３Ｂに示すような）、例えば、ユーザの指先と関連する肌画素を検出するように処理される。一実施形態では、身振りをするユーザの指先を検出するために、システムは、肌画素検出モデルに彩度チャネル情報を利用してもよい；それにより、手の検出処理の照明を不変にできる。以下の式（１）では、背景場面から手の領域を区分するのに使用できる彩度範囲について記載している。

（数１）
７７＜Ｃ_b＜１２７式（１）
１３３＜Ｃ_r＜１７３

式中、Ｃ_b及びＣ_rは、彩度成分を表す。

彩度チャネル情報に基づいて、指さしオブジェクトは、メディアストリームにおいて捕捉された背景場面から区分される。本明細書では、その目的は、ＦＰＶから身振りを認識することであり、そのために、ユーザの手の領域が、ユーザのＦｏＶに存在する最も顕著なオブジェクトとなるかも知れない。システム、例えば、システム１０２は、境界追跡アルゴリズムによってデジタル化された二値画像のトポロジ構造分析を使用して、輪郭区分によって手の領域の大部分をカバーする最大のブロブを保持してもよい。このステップは、図３Ｃに示されるように、前のステップで区分された全ての肌状背景オブジェクトを効果的に除去する。輪郭抽出からの二値マスクは、原画像と組合されて、区分された手の領域を生成し、該手の領域は、指さし身振りを認識するのに更に使用できる。

例示の一実装では、ＲＯＩを強調する指さし身振りは、以下の条件が満たされた後に、初期化される：
１．手の領域は、ウェアラブルからユーザの手までの距離に基づいて、経験的に求めたＦＯＶの少なくとも１２％を占領すべきである。これは、肌状ブロブの誤検出を回避するのに役立つ。
２．不動の手は、短期間に特定の半径内でブロブの質量中心を観測することによって、検出される。これは、ＲＯＩを強調するためにユーザが自分の人差し指を立てた後に、行われる。本明細書では、ＲＯＩを強調することは、非接触の手振りを使用することによって、ウェアラブル装置上で表現された場面において輪郭を作成することを含んでもよい。質量中心から最も遠い点（指先）までの距離は、追跡され、この距離が徐々に大きくなると、前景の輪郭を指さし身振りとするのに相応しいと確認される。

指さし身振りの認識で、ＲＯＩ選択をトリガしてもよい。指さしオブジェクトの軌跡は、２１２で、メディアストリームにおいてＲＯＩを選択するために、メディアストリームの少なくとも１フレームに後続するフレームのセットにおいて検出される。本明細書では、指さしオブジェクトの軌跡は、ＲＯＩ周りでバウンディングボックスを構成する。一実施形態では、システムは、後続フレーム上で指先の検出を実行し、検出された指先の軌跡に追従して、関心オブジェクト周りに近似バウンディングボックスを描画する。指先検出は、Ｓｋｌａｎｓｋｙのアルゴリズム及び凸欠陥（開始点、終了点、及び欠陥点を含む）を使用して、前景の手の輪郭（図３Ｃ、図３Ｄに示されるような）の凸包を計算することによって、実行される。（ｉ）凸包の質量中心から最も遠く、（ｉｉ）該質量中心上方に存在する（誤判定を回避する）開始点又は終了点は、指先とするのが相応しい。同じ条件は、後続フレームに対して確認され、指先の軌跡は、記憶される。自由形式の描画は、乱雑に見える可能性があるため、バウンディングボックスをＲＯＩ上に重ねることによって、近似される。指さし身振りに続いて、後続フレームで指先位置を計算する。ＲＯＩを歪めることがある誤判定（又は、外れ値）の指先検出は、連続フレーム検出間の距離を閾値化することによって、排除される。この距離は、経験的に決定され、例えば、１００画素に設定される。この距離は、後続フレーム上で観測され、この距離が漸減する場合には、ＲＯＩは、完成に近いと推測され、直立の近似化されたバウンディングボックスは、指先軌跡上に被せられる。一実施形態では、軌跡は、システムと関連付けられるリポジトリに記憶される。

２１４では、方法は、メディアストリームにおける後続フレームのセットに続いて発生するメディアストリームの複数のフレームにおいてＲＯＩを追跡するステップを含む。標識されたＲＯＩのロバストな追跡は、遠隔地での快適なユーザエクスペリエンスのための重要な課題である。

一実施形態では、複数のフレームにおいてＲＯＩを追跡するステップは、複数のフレームのフレームにおいてＲＯＩと関連付けられる複数の特徴点を決定するステップを含む。例えば、Ｓｈｉ−Ｔｏｍａｓｉ特徴点は、前後進（ＦＢ：ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄ）誤差法を使用して後続フレームにおいて追跡される標識されたＲＯＩを表すのに利用されてもよい。図４Ａを参照すると、強調された領域及び該領域について決定された主要なＳｈｉ−Ｔｏｍａｓｉ特徴点（４０２として標識された）が、示されている。更に、上記特徴点は、第１フレームから後続のＮ番目のフレーム毎に追跡される。例えば、上記特徴点は、３フレーム毎に追跡され、ピラミッド的手法のＬｕｃａｓ−Ｋａｎａｄｅオプティカルフローを使用して、処理時間を短縮する。特徴点のオプティカルフロー軌道は、後続のｎ番目のフレーム上で決定される。図４Ｂ、図４Ｃでは、後続フレーム上の特徴点のオプティカルフロー軌道（其々４０６、４０８として標識された）を示している。追跡の精度を向上するために、前後進誤差法が採用され、該方法では、特徴点は、２回追跡され、初めに、前の画像から現在の画像（未来へ）へ追跡して点セットＰｆを得、次に、Ｐｆセットを使用して、現在の画像から前の画像へと追跡して、点セットＰｂを得る。前のフレームからの点は、検証点として使用される。ＦＢ誤差は、これら２追跡軌道間の距離として定義される。一実施形態では、ユークリッド距離が、誤差を求めるために使用できる。

（数２）
Ｄ（Ｐｆ，Ｐｂ）＝｜｜ｘｆ（ｉ）−ｘｂ（ｉ）｜｜式（２）

画素の閾値範囲、例えば、５画素内としてもよい変位は、信頼できる点軌跡と見なされ、対応する前進追跡点は、インライアとして標識されてもよい。その後、バウンディングボックスは、そうして入手された信頼できる点セットに描画され、それにより、ノイズの多い特徴点を除去してもよい。本明細書では、開示された適用シナリオは、ユーザの関心オブジェクトが変更されない限り、急激な動きとはならないかも知れない点に留意されたい。ＦＢ誤差は、小さな動きに対処する効率的な方法であり、より少ない計算資源を必要とする。２１６では、バウンディングボックスは、追跡に基づいて更新されてもよい。例えば、図４Ｄに示されるように、更新されたバウンディングボックス４１０は、ＲＯＩ上で近似化される。本明細書では、更新されたバウンディングボックス４１０は、ＲＯＩを囲む。２１８では、ＲＯＩ標識と共に視覚的なフィードバックが、専門家のテレアシスタンス用サーバセットアップ２２０に提供される。

図５は、本開示と一致する実施形態を実装する例示的なコンピュータシステム５０１のブロック図である。コンピュータシステム５０１は、単独で、又はシステム１０２（図１）の構成要素の組合せで実装されてもよい。コンピュータシステム５０１のバリエーションが、本開示に含まれる装置を実装するのに使用されてもよい。コンピュータシステム５０１は、中央演算処理装置（「ＣＰＵ」又は「ハードウェアプロセッサ」）５０２を含んでもよい。ハードウェアプロセッサ５０２は、ユーザ又はシステムが生成した要求を実行するためのプログラム構成要素を実行するための少なくとも１つのデータ処理装置を含んでもよい。プロセッサは、統合システム（バス）コントローラ、メモリ管理制御部、浮動小数点部、グラフィック処理部、デジタル信号処理部等の専門化された処理部を含んでもよい。プロセッサは、マイクロプロセッサ、例えば、ＡＭＤ社のＡｔｈｌｏｎ（登録商標）、Ｄｕｒｏｎ（登録商標）又はＯｐｔｅｒｏｎ（登録商標）、ＡＲＭ社のアプリケーション、埋込み又はセキュアプロセッサ、ＩＢＭ社のＰｏｗｅｒＰＣ（登録商標）、インテル社のＣｏｒｅ、Ｉｔａｎｉｕｍ（登録商標）、Ｘｅｏｎ（登録商標）、Ｃｅｌｅｒｏｎ（登録商標）又は他の系列のプロセッサ等を含んでもよい。プロセッサ５０２は、メインフレーム、分散型プロセッサ、マルチコア、並列、グリッド、若しくは他のアーキテクチャを使用して、実装されてもよい。幾つかの実施形態は、特定用途向集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のような埋込み技術を利用してもよい。

プロセッサ５０２は、入力／出力（Ｉ／Ｏ）インタフェース５０３を介して、１つ又は複数のＩ／Ｏ装置と通信状態に配設されてもよい。Ｉ／Ｏインタフェース５０３は、通信プロトコル／方法、例えば、限定せずに、音声、アナログ、デジタル、モノラル、ＲＣＡ、ステレオ、ＩＥＥＥ−１３９４、直列バス、ユニバーサルシリアルバス（ＵＳＢ）、赤外線、ＰＳ／２、ＢＮＣ、同軸、コンポーネント、複合、デジタルビジュアルインタフェース（ＤＶＩ）、高精細マルチメディアインタフェース（ＨＤＭＩ（登録商標）：ｈｉｇｈ−ｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ）、ＲＦアンテナ、Ｓ−ビデオ、ＶＧＡ、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ／ｘ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、セル方式（例えば、符号分割多重接続（ＣＤＭＡ：ｃｏｄｅ−ｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ＋）、ＧＳＭ（登録商標）（ｇｌｏｂａｌｓｙｓｔｅｍｆｏｒｍｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ）、ロングタームエボリューション（ＬＴＥ）、ＷｉＭａｘ、又は同様のもの）等を採用してもよい。

Ｉ／Ｏインタフェース５０３を使用して、コンピュータシステム５０１は、１つ又は複数のＩ／Ｏ装置と通信してもよい。例えば、入力装置５０４は、アンテナ、キーボード、マウス、ジョイスティック、（赤外線）リモコン、カメラ、カードリーダ、ファックス装置、ドングル、生体認証リーダ、マイクロホン、タッチスクリーン、タッチパッド、トラックボール、センサ（例えば、加速度計、光センサ、ＧＰＳ、ジャイロスコープ、近接センサ、又は同様のもの）、スタイラス、スキャナ、記憶装置、トランシーバ、映像装置／源、Ｖｉｓｏｒ等としてもよい。

出力装置５０５は、プリンタ、ファックス装置、ビデオディスプレイ（例えば、ブラウン管（ＣＲＴ：ｃａｔｈｏｄｅｒａｙｔｕｂｅ）、液晶ディスプレイ（ＬＣＤ：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、発光ダイオード（ＬＥＤ：ｌｉｇｈｔ−ｅｍｉｔｔｉｎｇｄｉｏｄｅ）、プラズマ、又は同様のもの）、音声スピーカ等としてもよい。幾つかの実施形態では、トランシーバ５０６は、プロセッサ５０２と接続した状態で配設されてもよい。トランシーバにより、様々な種類の無線送受信を容易にしてもよい。例えば、トランシーバは、トランシーバチップ（例えば、ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓ社のＷｉＬｉｎｋＷＬ１２８３、Ｂｒｏａｄｃｏｍ社のＢＣＭ４７５０ＩＵＢ８、ＩｎｆｉｎｅｏｎＴｅｃｈｎｏｌｏｇｉｅｓ社のＸ−Ｇｏｌｄ６１８−ＰＭＢ９８００、又は同様のもの）に動作可能に接続されたアンテナを含んでもよく、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＦＭ、全地球側位システム（ＧＰＳ：ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）、２Ｇ／３ＧＨＳＤＰＡ／ＨＳＵＰＡ通信等を提供してもよい。

幾つかの実施形態では、プロセッサ５０２は、ネットワークインタフェース５０７を介して、通信ネットワーク５０８と通信状態に配設されてもよい。ネットワークインタフェース５０７は、通信ネットワーク５０８と通信してもよい。ネットワークインタフェースは、限定せずに、直接接続、イーサネット（登録商標）（例えば、ツイストペア１０／１００／１０００ＢＡＳＥＴ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、トークンリング、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ／ｘ等を含む接続プロトコルを採用してもよい。通信ネットワーク５０８は、限定せずに、直接相互接続、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、無線ネットワーク（例えば、無線アプリケーションプロトコルを使用する）、インターネット等を含んでもよい。ネットワークインタフェース５０７及び通信ネットワーク５０８を使用して、コンピュータシステム５０１は、装置５０９及び５１０と通信してもよい。これらの装置は、限定せずに、パーソナルコンピュータ（複数可）、サーバ（複数可）、ファックス装置、プリンタ、スキャナ、携帯電話、スマートフォン等の様々なモバイル機器（例えば、Ａｐｐｌｅ社のｉＰｈｏｎｅ（登録商標）、Ｂｌａｃｋｂｅｒｒｙ、Ａｎｄｒｏｉｄベースの電話機等）、タブレットコンピュータ、ｅＢｏｏｋリーダ（Ａｍａｚｏｎ社のＫｉｎｄｌｅ、Ｎｏｏｋ等）、ラップトップコンピュータ、ノート型コンピュータ、テレビゲーム機（Ｍｉｃｒｏｓｏｆｔ社のＸｂｏｘ、任天堂社のＤＳ、ソニー社のプレイステーション等）、又は同様のものを含んでもよい。幾つかの実施形態では、コンピュータシステム５０１自体は、これらの装置の１台又は複数を具現化してもよい。

幾つかの実施形態では、プロセッサ５０２は、ストレージインタフェース５１２を介して１つ又は複数のメモリ装置（例えば、ＲＡＭ５１３、ＲＯＭ５１４等）と通信状態に配設されてもよい。ストレージインタフェースは、メモリ装置に接続してもよく、該メモリ装置は、限定せずに、メモリドライブ、リムーバブルディスクドライブ等を含み、該接続には、シリアルＡＴＡ（ＳＡＴＡ：ｓｅｒｉａｌａｄｖａｎｃｅｄｔｅｃｈｎｏｌｏｇｙａｔｔａｃｈｍｅｎｔ）、統合ドライブエレクトロニクス（ＩＤＥ：ｉｎｔｅｇｒａｔｅｄｄｒｉｖｅｅｌｅｃｔｒｏｎｉｃｓ）、ＩＥＥＥ−１３９４、ユニバーサルシリアルバス（ＵＳＢ）、ファイバチャネル、小型コンピュータシステムインタフェース（ＳＣＳＩ：ｓｍａｌｌｃｏｍｐｕｔｅｒｓｙｓｔｅｍｓｉｎｔｅｒｆａｃｅ）等の接続プロトコルを採用する。メモリドライブは、ドラム、磁気ディスク装置、ＭＯドライブ、光学ドライブ、ＲＡＩＤ（ｒｅｄｕｎｄａｎｔａｒｒａｙｏｆｉｎｄｅｐｅｎｄｅｎｔｄｉｓｃｓ）、ソリッドステートメモリ装置、ソリッドステートドライブ等を更に含んでもよい。メモリ装置のバリエーションは、例えば、本開示で利用される任意のデータベースを実装するために、使用されてもよい。

メモリ装置は、プログラム又はデータベース構成要素の群を記憶してもよく、該構成要素は、限定せずに、オペレーティングシステム５１６、ユーザインタフェースアプリケーション５１７、ユーザ／アプリケーションデータ５１８（例えば、本開示で言及した任意のデータ変数又はデータ記録）等を含む。オペレーティングシステム５１６は、コンピュータシステム５０１のリソース管理及び動作を容易にしてもよい。オペレーティングシステムの例としては、限定せずに、Ａｐｐｌｅ社のＭａｃｉｎｔｏｓｈＯＳＸ、Ｕｎｉｘ、Ｕｎｉｘ系システムの配布（例えば、バークレー校のソフトウェア配布（ＢＳＤ：ＢｅｒｋｅｌｅｙＳｏｆｔｗａｒｅＤｉｓｔｒｉｂｕｔｉｏｎ）、ＦｒｅｅＢＳＤ、ＮｅｔＢＳＤ、ＯｐｅｎＢＳＤ等）、Ｌｉｎｕｘ（登録商標）配布（例えば、ＲｅｄＨａｔ、Ｕｂｕｎｔｕ、Ｋ−Ｕｂｕｎｔｕ等）、ＩＢＭ社のＯＳ／２、Ｍｉｃｒｏｓｏｆｔ社のＷｉｎｄｏｗｓ（ＸＰ、Ｖｉｓｔａ／７／８等）、Ａｐｐｌｅ社のｉＯＳ、Ｇｏｏｇｌｅ社のＡｎｄｒｏｉｄ、Ｂｌａｃｋｂｅｒｒｙ社のＯＳ、又は同様のものが挙げられる。ユーザインタフェース５１７は、テキスト又はグラフィック機能によってプログラム構成要素の表示、実行、相互作用、操作、又は動作を容易にしてもよい。例えば、ユーザインタフェースは、カーソル、アイコン、チェックボックス、メニュー、スクローラ、ウィンドウ、ウィジェット等、コンピュータ相互作用インタフェース要素を、コンピュータシステム５０１に動作可能に接続された表示システム上に設けてもよい。グラフィカルユーザインターフェース（ＧＵＩ）が、採用されてもよく、ＧＵＩは、限定せずに、Ａｐｐｌｅ社のＭａｃｉｎｔｏｓｈオペレーティングシステムのＡｑｕａ、ＩＢＭ社のＯＳ／２、Ｍｉｃｒｏｓｏｆｔ社のＷｉｎｄｏｗｓ（例えば、Ａｅｒｏ、Ｍｅｔｒｏ等）、ＵｎｉｘのＸ−Ｗｉｎｄｏｗｓ、ウェブインタフェースライブラリ（例えば、ＡｃｔｉｖｅＸ、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）ｓｃｒｉｐｔ、ＡＪＡＸ、ＨＴＭＬ、Ａｄｏｂｅ社のＦｌａｓｈ等）、又は同様のものを含む。

幾つかの実施形態では、コンピュータシステム５０１は、本開示で記載されたように、データ、変数、記録等のユーザ／アプリケーションデータ５１８を記憶してもよい。かかるデータベースは、Ｏｒａｃｌｅ又はＳｙｂａｓｅ等のフォールトレラントで、リレーショナルで、拡張可能で、安全なデータベースとして実装されてもよい。或いは、かかるデータベースは、アレイ、ハッシュ、リンクリスト、構造化テキストファイル（例えば、ＸＭＬ）、テーブル等の標準データ構造を使用して、又はオブジェクト指向型データベース（例えば、ＯｂｊｅｃｔＳｔｏｒｅ、Ｐｏｅｔ、Ｚｏｐｅ等）として、実装されてもよい。かかるデータベースは、本開示で上述した様々なコンピュータシステム中に、時々統合又は分散されることがある。任意のコンピュータ又はデータベース構成要素の構造及び動作は、任意の作動組合わせ（ｗｏｒｋｉｎｇｃｏｍｂｉｎａｔｉｏｎ）で、組合され、統合され又は分散されてもよいと、理解されるべきである。

また、幾つかの実施形態では、送受信されるサーバのメッセージ交換及び命令は、クラウド実装に存在するオペレーティングシステム及びプログラムコード（即ち、アプリケーションコード）を含むハードウェアから発信されてもよい。更に、本明細書で提供されるシステム及び方法の１つ又は複数は、クラウドベースの実装に適するかも知れない点に留意すべきである。例えば、幾つかの実施形態では、開示された方法で使用されるデータの一部又は全ては、任意のコンピューティングプラットフォームから発生されてもよい又は任意のコンピューティングプラットフォームに記憶されてもよい。

様々な実施形態では、ウェアラブルから関心領域を強調するためのＡＲテレプレゼンスのフレームワークを開示している。開示されたフレームワークは、動的背景設定において、Ｇｏｏｇｌｅ社のＣａｒｄｂｏａｒｄ等のウェアラブルで、スマートフォン上で非接触で身振りを認識するシステムを含む。これは、Ｇｏｏｇｌｅ社のＡＲ用Ｃａｒｄｂｏａｒｄ等の簡素な頭部装着装置で、より広範囲を可能にできる。リアルタイム性能は、基板に身振り認識モジュールを実装することによって、達成される。

開示されたＡＲフレームワークは、ＮＵＩ（ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）を使用して、所望するオブジェクトのＲＯＩ選択を容易にする。ＡＲシステムでは、ユーザが、自由な形の空中身振り（ａｉｒｇｅｓｔｕｒｅ）を介して、オブジェクトを選択でき、その後、該オブジェクト上に、バウンディングボックスが重ねられる。その結果、密集したターゲット及び豊富な視覚要素を伴う用途に特に適している。開示されたシステムは、より簡単な肌ベースのモデルを使用して、リアルタム性能を達成するため、最初の分類子のための複数の照明条件、複数の肌の色調及び複合環境をカバーする大規模な訓練セットの必要性が、排除される。その上、試験中の計算時間は、短縮される。

Claims

メディアストリームにおいて関心領域（ＲＯＩ：ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を標識するためのプロセッサ実装方法であって、
１台又は複数のハードウェアプロセッサを介して、ウェアラブル装置上で表現されるメディアストリームを捕捉中に、前記メディアストリームの少なくとも１つのフレームにおける身振りを表す指さしオブジェクトを認識するステップであって、前記メディアストリームは、ユーザの一人称視点（ＦＰＶ：ｆｉｒｓｔｐｅｒｓｏｎｖｉｅｗ）から捕捉される場面を含む、ステップと、
前記１台又は複数のハードウェアプロセッサを介して、前記メディアストリームの前記少なくとも１つのフレームに後続するフレームのセットにおける前記指さしオブジェクトの軌跡を検出して、ユーザの手の領域が、ウェアラブルからユーザの手までの距離に基づいて経験的に求めた視野（ＦｏＶ：ＦｉｅｌｄｏｆＶｉｅｗ）の割合を占領したときの、前記メディアストリームにおけるＲＯＩを選択するステップであって、前記指さしオブジェクトの前記軌跡は、前記ＲＯＩ周りにバウンディングボックスを構成し、前記フレームのセットにおける前記指さしオブジェクトの前記軌跡を検出するステップは、前記フレームのセットにおける指先を検出するステップを含み、前記指先の検出は、閾値距離だけ分離される前記フレームのセットの後続フレームに対して実行され、前記フレームのセットのフレームにおいて指先を検出するステップは、
Ｓｋｌａｎｓｋｙのアルゴリズム及び凸欠陥を使用して、前記指さしオブジェクトと関連付けられる前景の手の輪郭の凸包を計算するステップであって、前記凸欠陥は、開始点、終了点、及び欠陥点を含む、ステップと、
前記凸包の質量中心から最も遠く、質量中心上方に存在する開始及び終了点の１つを、指先として識別するステップであって、前記フレームのセットで検出された前記指先の経路が、前記軌跡を構成する、ステップと
を含む、ステップと、
前記１台又は複数のハードウェアプロセッサを介して、前記メディアストリームにおける前記後続フレームのセットに続いて発生する複数のフレームにおいて前記ＲＯＩを追跡するステップと、
前記１台又は複数のハードウェアプロセッサを介して、前記追跡に基づいて、前記ＲＯＩ周りに前記バウンディングボックスを更新するステップであって、前記更新されたバウンディングボックスは、前記ＲＯＩを囲む、ステップと
を含む、方法。
前記指さしオブジェクトを認識するステップは、
前記メディアストリームから彩度チャネル情報を抽出するステップと、
前記彩度チャネル情報を使用することによって、前記メディアストリームで捕捉された背景場面から前記指さしオブジェクトを区分するステップであって、区分に使用される前記彩度チャネル情報に関連付けられる彩度範囲が、
（数１）
７７＜Ｃ_b＜１２７
１３３＜Ｃ_r＜１７３
を含む、ステップと
を含む、請求項１に記載の方法。
前記軌跡を記憶するステップを更に含む、請求項１に記載の方法。
前記バウンディングボックスを追跡するステップは、
複数のフレームの少なくとも１つにおける前記ＲＯＩと関連付けられる複数の特徴点を決定するステップと、
前記少なくとも１つのフレームから、後続のｎ番目のフレーム毎に前記複数の特徴点を追跡するステップと、
前記後続のｎ番目のフレーム上で前記複数の特徴点のオプティカルフロー軌道を決定して、前記バウンディングボックスを追跡するステップであって、前記オプティカルフロー軌道は、ピラミッド的手法のＬｕｃａｓ−Ｋａｎａｄｅオプティカルフローを使用して決定される、ステップと
を含む、請求項１に記載の方法。
前記複数の特徴点から、ノイズの多い特徴点を除去するステップを更に含む、請求項４に記載の方法。
前記ノイズの多い特徴点は、前後進（ＦＢ：ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄ）誤差を決定することによって除去され、前後進誤差を決定することは、
点セット（Ｐｆ）を得るために、前記複数のフレームの前のフレームから現在のフレームへ（未来へ）、特徴点を追跡すること、
点セット（Ｐｂ）を得るために、Ｐｆを使用して、前記現在の画像から前記前の画像へ、特徴点を追跡すること、
以下の式（２）：
（数２）
Ｄ（Ｐｆ；Ｐｂ）＝｜｜ｘｆ（ｉ）−ｘｂ（ｉ）｜｜式（２）
を使用して、前記前後進誤差を決定することであって、前記距離は、ユークリッド距離を含むこと
を含む、請求項５に記載の方法。
メディアストリームにおいて関心領域（ＲＯＩ）を標識するシステムであって、該システムは、
１つ又は複数のメモリと、
１台又は複数のハードウェアプロセッサであって、前記１つ又は複数のメモリが結合される１台又は複数のハードウェアプロセッサと
を含み、
前記１台又は複数のハードウェアプロセッサは、前記１つ又は複数のメモリに記憶されたプログラム命令であって、
ウェアラブル装置上で表現される前記メディアストリームを捕捉中に、前記メディアストリームの少なくとも１つのフレームにおいて身振りを表す指さしオブジェクトを認識する命令であって、前記メディアストリームは、ユーザの一人称視点（ＦＰＶ）から捕捉された場面を含む、命令と、
前記メディアストリームの前記少なくとも１つのフレームに後続するフレームのセットにおいて前記指さしオブジェクトの軌跡を検出して、ユーザの手の領域が、ウェアラブルからユーザの手までの距離に基づいて経験的に求めた視野（ＦｏＶ）の割合を占領したときの、前記メディアストリームにおけるＲＯＩを選択する命令であって、前記指さしオブジェクトの前記軌跡は、前記ＲＯＩ周りにバウンディングボックスを構成し、前記フレームのセットにおける前記指さしオブジェクトの前記軌跡を検出する命令は、前記フレームのセットにおける前記指先を検出する命令を含み、前記指先の検出は、閾値距離だけ分離される前記フレームのセットの後続フレームに対して実行され、前記フレームのセットのフレームにおいて指先を検出する命令は、
Ｓｋｌａｎｓｋｙのアルゴリズム及び凸欠陥を使用して、前記指さしオブジェクトと関連付けられる前景の手の輪郭の凸包を計算する命令であって、前記凸欠陥は、開始点、終了点、及び欠陥点を含む、命令と、
前記凸包の質量中心から最も遠く、質量中心上方に存在する開始及び終了点の１つを、指先として識別する命令であって、前記フレームのセットで検出された前記指先の経路が、前記軌跡を構成する、命令と
を含む、命令と、
前記メディアストリームにおける前記後続フレームのセットの後に発生する複数のフレームにおいて前記ＲＯＩを追跡する命令と、
前記追跡に基づいて、前記ＲＯＩ周りで前記バウンディングボックスを更新する命令であって、前記更新されたバウンディングボックスは、前記ＲＯＩを囲む、命令と
を実行できる、システム。
前記指さしオブジェクトを認識するために、前記１台又は複数のハードウェアプロセッサは、
前記メディアストリームから彩度チャネル情報を抽出する命令と、
前記彩度チャネル情報を使用することによって、前記メディアストリームにおいて捕捉された背景場面から、前記指さしオブジェクトを区分する命令であって、区分に使用される前記彩度チャネル情報と関連付けられる彩度範囲は、
（数１）
７７＜Ｃ_b＜１２７
１３３＜Ｃ_r＜１７３
を含む、命令と
によって、更に構成される、請求項７に記載のシステム。
前記１台又は複数のハードウェアプロセッサは、前記軌跡を記憶する命令によって、更に構成される、請求項７に記載のシステム。
前記バウンディングボックスを追跡するために、前記１台又は複数のハードウェアプロセッサは、
複数のフレームの少なくとも１つのフレームにおける前記ＲＯＩに関連付けられる複数の特徴点を決定する命令と、
前記少なくとも１つのフレームから後続のｎ番目のフレーム毎における前記複数の特徴点を追跡する命令と、
前記後続のｎ番目のフレーム上で前記複数の特徴点のオプティカルフロー軌道を決定して、前記バウンディングボックスを、ピラミッド的手法のＬｕｃａｓ−Ｋａｎａｄｅオプティカルフローを使用して追跡する命令と
によって、更に構成される、請求項７に記載のシステム。
前記１台又は複数のハードウェアプロセッサは、前記複数の特徴点から、ノイズの多い特徴点を除去する命令によって、更に構成される、請求項１０に記載のシステム。
前記１台又は複数のハードウェアプロセッサは、前後進誤差を求めることによって、前記ノイズの多い特徴点を除去する命令によって、更に構成され、前記前後進誤差を求めるために、前記１台又は複数のハードウェアプロセッサは、
点セット（Ｐｆ）を得るために、前記複数のフレームの前のフレームから現在のフレームへ（未来へ）、特徴点を追跡する命令と、
点セット（Ｐｂ）を得るために、Ｐｆセットを使用して、前記現在の画像から前記前の画像へ、特徴点を追跡する命令と、
以下の式（２）：
（数２）
Ｄ（Ｐｆ；Ｐｂ）＝｜｜ｘｆ（ｉ）−ｘｂ（ｉ）｜｜式（２）
を使用して、前記前後進誤差を求める命令であって、前記距離は、ユークリッド距離を含む、命令とによって、更に構成される、請求項１１に記載のシステム。
メディアストリームにおいて関心領域（ＲＯＩ）を標識する方法を実行するためのコンピュータプログラムを具現化した非一時的なコンピュータ可読媒体であって、前記方法は、
１台又は複数のハードウェアプロセッサを介して、ウェアラブル装置上で表現される前記メディアストリームを捕捉中に、前記メディアストリームの少なくとも１つのフレームにおける身振りを表す指さしオブジェクトを認識するステップであって、前記メディアストリームは、ユーザの一人称視点（ＦＰＶ）から捕捉される場面を含む、ステップと、
前記１台又は複数のハードウェアプロセッサを介して、前記メディアストリームの前記少なくとも１つのフレームに後続するフレームのセットにおける前記指さしオブジェクトの軌跡を検出して、ユーザの手の領域が、ウェアラブルからユーザの手までの距離に基づいて経験的に求めた視野（ＦｏＶ）の割合を占領したときの、前記メディアストリームにおけるＲＯＩを選択するステップであって、前記指さしオブジェクトの前記軌跡は、前記ＲＯＩ周りにバウンディングボックスを構成し、前記フレームのセットにおける前記指さしオブジェクトの前記軌跡を検出するステップは、前記フレームのセットにおける前記指先を検出するステップを含み、前記指先の検出は、閾値距離だけ分離される前記フレームのセットの後続フレームに対して実行され、前記フレームのセットのフレームにおいて指先を検出するステップは、
Ｓｋｌａｎｓｋｙのアルゴリズム及び凸欠陥を使用して、前記指さしオブジェクトと関連付けられる前景の手の輪郭の凸包を計算するステップであって、前記凸欠陥は、開始点、終了点、及び欠陥点を含む、ステップと、
前記凸包の質量中心から最も遠く、質量中心上方に存在する開始及び終了点の１つを、指先として識別するステップであって、前記フレームのセットで検出された前記指先の経路が、前記軌跡を構成する、ステップと
を含む、ステップと、
前記１台又は複数のハードウェアプロセッサを介して、前記メディアストリームにおける後続フレームのセットに続いて発生する複数のフレームにおいて前記ＲＯＩを追跡するステップと、
前記１台又は複数のハードウェアプロセッサを介して、前記追跡に基づいて、前記ＲＯＩ周りに前記バウンディングボックスを更新するステップであって、前記更新されたバウンディングボックスは、前記ＲＯＩを囲む、ステップと
を含む、非一時的なコンピュータ可読媒体。