JP6858159B2 - 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク - Google Patents

頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク Download PDF

Info

Publication number
JP6858159B2
JP6858159B2 JP2018135982A JP2018135982A JP6858159B2 JP 6858159 B2 JP6858159 B2 JP 6858159B2 JP 2018135982 A JP2018135982 A JP 2018135982A JP 2018135982 A JP2018135982 A JP 2018135982A JP 6858159 B2 JP6858159 B2 JP 6858159B2
Authority
JP
Japan
Prior art keywords
roi
frames
media stream
frame
pointing object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018135982A
Other languages
English (en)
Other versions
JP2019021318A (ja
Inventor
サグナナ マーシー ヘバラグッペ、ラムヤ
サグナナ マーシー ヘバラグッペ、ラムヤ
グプタ、アルチー
ハッサン、エテスハム
マウルヤ、ジテンダ
ペルラ、ラマクリシュナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2019021318A publication Critical patent/JP2019021318A/ja
Application granted granted Critical
Publication of JP6858159B2 publication Critical patent/JP6858159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1686Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being an integrated camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本発明は、2017年7月20日にインド国で出願されたインド国特許仮出願第201721025858号明細書(特許文献1)(発明の名称:頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク)の優先権を主張する。
本明細書の実施形態は、概して、関心領域(ROI:region of interest)の標識に関し、特に、頭部装着装置等の非接触の手振りインタフェースを使用して、メディアストリームにおいてROIを標識するシステム及び方法に関する。
ウェアラブルな拡張現実(AR:Augmented Reality)装置は、リアルタイムのコンテキスト情報を可視化するための多くの用途で研究されている。例えば、上記装置は、現場のオペレータが、問題解決に関してその場にいない専門家の指導を必要とする場合に、遠隔地からのテレアシスタンスにおいて使用できる。テレアシスタンスを必要とする用途の例としては、プリンタの故障診断、テレビ会議、製造業における修理、メンテナンス、及び点検、航空機の配線、機械の遠隔操作等が挙げられるが、これらに限定されない。
典型的なテレアシスタンス装置は、高度なアルゴリズムを組込み、最初の分類子(classifier)のための複数の周囲条件(照明条件等)、複数の肌の色調、及び複合環境をカバーする大規模な訓練セットを必要とする。加えて、こうした装置は、試験中にかかる計算時間が長く、それにより処理待ち時間が増大する。
インド国特許仮出願第201721025858号明細書
以下では、実施形態に関する基本的な理解を提供するために、本開示の幾つかの実施形態に関する概略を示す。この概略は、実施形態に関する広範な概観ではない。この概略は、実施形態の主要な/重要な要素を特定すること、又は実施形態の範囲を線引きすることを意図するものではない。唯一の目的は、以下に示すより詳細な説明の前置きとして、単純化した形で幾つかの実施形態を示すことである。
上記を考慮して、本明細書の実施形態は、メディアストリームにおいて関心領域(ROI)を標識する方法及びシステムを提供する。メディアストリームにおいてROIを標識する方法は、1台又は複数のハードウェアプロセッサを介して、メディアストリームを捕捉中に、メディアストリームの少なくとも1つのフレームにおける身振りを表す指さしオブジェクトを認識するステップであって、メディアストリームは、ユーザの一人称視点(FPV:first person view)から捕捉される場面を含む、ステップを含む。更に、該方法は、1台又は複数のハードウェアプロセッサを介して、メディアストリームの少なくとも1つのフレームに後続するフレームのセットにおける指さしオブジェクトの軌跡を検出して、メディアストリームにおけるROIを選択するステップを含む。指さしオブジェクトの軌跡は、ROI周りにバウンディングボックスを構成する。更にまた、該方法は、1台又は複数のハードウェアプロセッサを介して、メディアストリームの複数のフレームにおいてROIを追跡するステップを含む。該複数のフレームは、メディアストリームにおける後続フレームのセットに続いて発生する。また、該方法は、1台又は複数のハードウェアプロセッサを介して、追跡に基づいて、ROI周りにバウンディングボックスを更新するステップであって、更新されたバウンディングボックスは、ROIを囲む、ステップを含む。
別の態様では、メディアストリームにおける関心領域(ROI)を標識するシステムが提供される。該システムは、1つ又は複数のメモリ;及び1台又は複数のハードウェアプロセッサを含み、該1つ又は複数のメモリは、少なくとも1つのプロセッサ及び少なくとも1つのメディアセンサに結合され、該少なくとも1つのプロセッサは、1つ又は複数のメモリに記憶されたプログラム命令であり、メディアストリームを捕捉中に、メディアストリームの少なくとも1つのフレームにおいて身振りを表す指さしオブジェクトを認識する命令であって、メディアストリームは、ユーザの一人称視点(FPV)から捕捉された場面を含む、命令を実行できる。1台又は複数のハードウェアプロセッサは、メディアストリームの少なくとも1つのフレームに後続するフレームのセットにおいて指さしオブジェクトの軌跡を検出して、メディアストリームにおけるROIを選択する命令であって、指さしオブジェクトの軌跡は、ROI周りにバウンディングボックスを構成する、命令によって更に構成される。更にまた、1台又は複数のハードウェアプロセッサは、メディアストリームの複数のフレームにおいてROIを追跡する命令によって更に構成され、複数のフレームは、メディアストリームにおける後続フレームのセットに続いて発生する。また、1台又は複数のハードウェアプロセッサは、追跡に基づいて、ROI周りでバウンディングボックスを更新する命令であって、更新されたバウンディングボックスは、ROIを囲む、命令によって更に構成される。
また別の態様では、メディアストリームにおいてROIを標識する方法を実行するためのコンピュータプログラムを具現化した非一時的なコンピュータ可読媒体が、提供される。該方法は、メディアストリームを捕捉中に、メディアストリームの少なくとも1つのフレームにおける身振りを表す指さしオブジェクトを認識するステップを含み、メディアストリームは、ユーザの一人称視点(FPV:first person view)から捕捉される場面を含む。更に、該方法は、メディアストリームの少なくとも1つのフレームに後続するフレームのセットにおける指さしオブジェクトの軌跡を検出して、メディアストリームにおけるROIを選択するステップを含む。指さしオブジェクトの軌跡は、ROI周りにバウンディングボックスを構成する。更にまた、該方法は、メディアストリームの複数のフレームにおいてROIを追跡するステップを含む。該複数のフレームは、メディアストリームにおける後続フレームのセットに続いて発生する。また、該方法は、追跡に基づいて、ROI周りにバウンディングボックスを更新するステップであって、更新されたバウンディングボックスは、ROIを囲む、ステップを含む。
詳細な説明は、添付図を参照して記述される。図面では、参照番号の最も左側の桁で、当該参照番号が最初に現れる図面を特定する。同じ番号が、同様の特徴及びモジュールを参照するのに全図面を通して使用される。
本主題の一実施形態による、メディアストリームにおいてROIを標識するシステムのネットワーク実装を示している。 例示の実施形態による、メディアストリームにおいてROIを標識する代表的な処理の流れを示している。 (図3A)例示の実施形態による、ROIの標識を実行するためにROIを選択する処理の流れを示している。 (図3B)例示の実施形態による、ROIの標識を実行するために、ROIを選択する処理の流れを示している。 (図3C)例示の実施形態による、ROIの標識を実行するためにROIを選択する処理の流れを示している。 (図3D)例示の実施形態による、ROIの標識を実行するためにROIを選択する処理の流れを示している。 (図3E)例示の実施形態による、ROIの標識を実行するためにROIを選択する処理の流れを示している。 (図3F)例示の実施形態による、ROIの標識を実行するためにROIを選択する処理の流れを示している。 例示の実施形態による、ROIの標識を実行するためにROIを追跡する処理の流れを示している。 例示の実施形態による、ROIの標識を実行するためにROIを追跡する処理の流れを示している。 例示の実施形態による、ROIの標識を実行するためにROIを追跡する処理の流れを示している。 例示の実施形態による、ROIの標識を実行するためにROIを追跡する処理の流れを示している。 本開示と一致する実施形態を実装する例示的なコンピュータシステムのブロック図である。
本明細書の何れのブロック図も、本主題の原理を具現化する実例のシステム及び装置に関する概念図を示していると、当業者には理解されるべきである。同様に、何れのフローチャート、フロー図及び同様なものは、様々な処理を表すものと理解され、該処理は、コンピュータ可読な媒体において実質的に示され、示された通りにコンピュータ又はプロセッサで、かかるコンピュータ又はプロセッサが明示される如何に関わらず、実行されてもよい。
拡張現実(AR:Augmented reality)とは、物理的な実世界の環境の要素を、音、テキスト、グラフィックス、又は映像等のコンピュータ生成感覚入力によって拡張した視像で表すことを言う。ARは、医療、教育、エンターテイメント、軍事等の様々な用途で有用である。そうしたAR用途の一つとして、現場のオペレータが、その場にいない専門家の問題解決に関する指導を必要とする場合に、遠隔地からテレアシスタンスを提供するものがある。専門家の問題解決に関する指導を伴うかかる用途の例は、プリンタの故障診断、テレビ会議、製造業における修理、メンテナンス、及び点検、航空機の配線等が挙げられるが、これらに限定されない。
問題解決のために専門家が関わる典型的なシナリオでは、現場のオペレータは、遠隔支援及び遠隔場面調査をその場にいない専門家に提供することが求められる。或いは、専門家は、問題解決のために現地に移動することが期待される。どちらの解決方法も、実際の問題解決まで長期間かかる。加えて、専門家を現場に移動させるには、高いコストと、移動による長い中断時間も伴う。
かかる従来の慣例に関する課題に対処するために、遠隔支援のための様々なテレアシスタンスのフレームワークが提案されてきた。例えば、かかるテレアシスタンスのフレームワークの1つは、オペレータをサポートして、専門家の可視化を支援する機能を向上するために、マルチユーザのウェアラブル装置のクライアント−サーバアーキテクチャを具現化する。参加者らは、個別に自分の視野(FoV:Field of View)における仮想コンテンツを制御しながら、同じ空間的に位置合せしたモデルを見ることができる。他の従来型のシステムでは、遠隔の専門家が、ユーザの従来のツールで作業でき、ウェアラブル装置を使用して、コンピュータインタフェースを通して、ユーザのFoVにおいて、仮想オブジェクトを重ねることができる。しかしながら、かかる従来のシステムは、効率的に協働するために、不可欠なインタフェース及び機能性を提供できない。例えば、かかるシステムは、ウェアラブル装置から見ながら、FoVの関心領域(ROI)を強調できない。その上、ユーザが頭部装着装置(HMD:Head Mounted Device)又はウェアラブルを着用するタスクを実行するため、更なるハードウェアを提供することで、コストが増大し、複雑になる。
特定の従来型のシステムは、手振りを、ウェアラブルを通して認識できる。しかしながら、かかるシステムは、手振りを認識する深度センサを採用しており、それにより、システムの全体的なコストが増大する。FPVから捕捉した単一の単眼RGBデータから手振りを認識することは、スマートフォンが深度センサを備えていないため、コンピュータビジョンにおいて困難なタスクである。特定の従来型のシステムは、自己中心的な映像(egocentric video)において手を区分するためのランダムフォレストによる超画素分類(super pixel classification)、混合ガウスモデルを使用した効果的な皮膚画素抽出、手の存在を検出した後にベイジアン法を使用して区分する手振り認識のための4段階アプローチ等の技術を採用する。上記技術は、高度な検出及び追跡を提供するが;上記技術は、計算的に重く、スマートフォンに移植するのは難しい。
典型的なテレアシスタンスのフレームワークは、ユーザの頭部装着装置からネットワークを介してサーバに送信するビデオストリームを観察することによって、サーバの場所に居る専門職員が、遠隔地に居る新米の検査官を補助することに関与する場合がある。遠隔地に居る検査官は、状態について評価するために専門職員と音響機器を介して通信してもよい。また、ユーザの視野(FoV)を遠隔地の専門家と共有することに加えて、効率的に協働するために、適切なインタフェース及び機能性を専門家と作業者に提供する必要もある。従来型のシステムは、テレポインタを利用して、問題解決アプリケーション、例えば、ウェアラブルなテレビ会議システムにおいて領域を強調する。GestureCam等の他の従来型システムは、タッチスクリーン装置上で専門家の手振りを捕捉して、該手振りをユーザのウェアラブルに送信できる。しかしながら、かかるシステムは、ウェアラブル装置からROIを強調する機能がない。
非接触の手振りは、産業の屋外環境においてROIを強調するのにより効果的である。これは、専門家が問題を理解するのを助け、所望するタスクを正確且つ迅速に解決するように、音声/テキスト命令で現場の検査官を支援する。現在、Microsoft社のHololens、Daqri社スマートヘルメット等の様々な高性能で精巧なAR機械装置が、利用可能である。しかしながら、かかる機械装置は、採算が合わず、携帯用でなく、大衆市場に拡大可能ではない。一人称視点(FPV:First Person View)から捕捉した単一の単眼RGBデータから手振りを認識することは、スマートフォンが深度センサを備えていないために、コンピュータビジョンでは困難なタスクとなることがある。自己中心的な映像において手を区分するためのランダムフォレストのスーパーピクセル分類、混合ガウスモデルを使用する効果的な皮膚画素抽出等の高度な技術を利用する様々な従来のシステムが、利用可能である。従来の方法及びシステムは、高度な検出及び追跡を開示するが、該方法及びシステムは、計算的に重く、スマートフォン等の携帯用電子装置に移植するのは難しい。
本明細書に開示された様々な実施形態は、スマートフォン等電子装置上でのアルゴリズムのリアルタイム性能、精度、使い易さ及び待ち時間等の要因を考慮することによって、計算的に無駄がない方法で、ウェアラブルでROIを追跡できる方法及びシステムを提供する。例えば、一実施形態では、開示されたシステムは、一人称視点(FPV)においてROIを局所化/選択するために、簡素なスマートフォンをベースにした頭部装着装置と一体化できる。手だけで描く身振りを使用して選択された領域は、専門家のアドバイス用遠隔サーバセットアップに強調される。開示されたシステム及び方法の重要な貢献は、スマートフォン上で実行でき、ウェアラブルな簡素な頭部装着装置と共に使用できる非接触の指ベースの身振り認識を可能にすることである。カメラ入力のステレオレンダリングを使用して、スマートフォンの画面上で関連情報を重ねることで、これらの装置を、AR用途に拡大適用できる。かかる簡素な頭部装着装置の例としては、Google社のCardboard/Wearality等が挙げられるが、これらに限定されない。また、開示されたシステムは、ネットワーク待ち時間を短縮でき、ROI認識モジュールの基板実装によってリアルタイム性能を達成できる。
本明細書の実施形態及び実施形態の様々な特徴及び有利な細部については、添付図で図示され、以下で詳述される非限定的な実施形態を参照して、より完全に説明される。本明細書で使用される実施例は、単に、本明細書の実施形態が実行されてもよい方法を理解し易くし、当業者が本明細書の実施形態を更に実行できるように意図されている。従って、実施例は、本明細書の実施形態の範囲を限定するものと解釈されるべきではない。
本方法及びシステムは、本明細書に記載された特定の実施形態に限定されない。また、本方法及びシステムは、本明細書に記載の他のモジュール及び方法とは無関係に且つ別々に実行できる。各装置要素/モジュール及び方法は、他の要素/モジュール及び他の方法と組合せて使用できる。
頭部装着装置を使用して関心領域(ROI)を標識するシステム及び方法が実装されるやり方については、図1〜図5に関して詳細に説明した。頭部装着装置を使用してROIを標識するための記載された方法及びシステムの態様は、任意の数の異なるシステム、利用環境、及び/又は構成で実装できるが、実施形態については、以下の例示的なシステム(複数可)との関連で記述される。
次に、図1を参照すると、本主題の実施形態に従い、頭部装着装置を使用してメディアストリームにおいてROIを標識するシステム102のネットワーク実装100が、示されている。一実施形態では、システム102は、標識無しでリアルタイムの2段階の連続した身振り認識方法で、ユーザの視野(FOV)においてROIを強調し易くする。システム102は、動的な身振りを検出する。例示の実施形態では、動的な身振りの検出は、拳の残りを握りながら人差し指を立てた(指さし身振り)後に、安定した手の存在を検出することを含む。本実施形態の動的な身振りは、図2に示されている。本明細書で図示及び記載された身振りは、例示の身振りであることに留意されたい。頭部装着装置を使用するROI標識は、本明細書に記載された身振りに限らず、当該技術分野で既知の様々な他の身振りを介して、実装できる。身振りは、ROI選択をトリガするように構成される。第2の動的な身振りは、ROI追跡をトリガしてもよい。例えば、第2身振りは、関心オブジェクト周りに指さし身振りを動かすことを含んでもよい。従って、本システムは、以下のステップを実行してもよい:(i)指さし身振りの検出、(ii)ROI選択、(iii)ROI追跡、及び(iv)ROI周りのバウンディングボックスのその後の更新。頭部装着装置を使用してROIを標識する方法について、図2〜図5を参照して、更に詳述される。
本主題は、システム102が、頭部装着装置を使用してROIを標識するように、実装されることを考えて、説明されるが、システム102は、如何なる特定の機械又は環境にも制約されないものと理解されてもよい。システム102は、工場の組立て及び保守作業に関係する様々な分野に利用できる。システム102は、ラップトップコンピュータ、デスクトップコンピュータ、ノート型パソコン、ワークステーション、メインフレームコンピュータ、サーバや、ネットワークサーバ及び同様なもの等の、様々なコンピュータシステムに実装されてもよい。
本明細書では、システム102は、複数の装置及び/又は機械104−1、104−2・・・104−Nを介して、メディアストリーム、例えば、画像を捕捉してもよい。これら複数の装置及び/又は機械104−1、104−2・・・104−Nは、これ以降、纏めて装置104と呼ぶ。装置104の例としては、ポータブルコンピュータ、携帯情報端末、携帯端末、VRカメラ具現化装置(VR camera embodying device)、画像/映像を捕捉及び記憶するために備えた記憶装置等を挙げられるが、これらに限定されない。一実施形態では、装置104は、映像、例えば、オブジェクト及び/又は機械の拡張現実(AR)に基づく映像を捕捉できる装置を含んでもよい。装置104は、ネットワーク106を通じてシステム102に通信可能に結合され、補足した映像をシステム102に伝達可能にしてもよい。
一実装では、ネットワーク106は、無線ネットワーク、有線ネットワーク又はそれらの組合せであってもよい。ネットワーク106は、イントラネット、ローカルエリアネットワーク(LAN:local area network)、広域ネットワーク(WAN:wide area network)、インターネット及び同様なもの等、異なる種類のネットワークの1つとして実装できる。ネットワーク106は、専用ネットワーク又は共有ネットワークのどちらかとしてもよい。共有ネットワークは、互いに通信するために、様々なプロトコル、例えば、ハイパーテキスト転送プロトコル(HTTP)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、無線アプリケーションプロトコル(WAP)及び同様なものを使用する異なる種類のネットワークを関連付けすること(association)を表す。更に、ネットワーク106は、ルータ、ブリッジ、サーバ、計算装置、記憶装置及び同様なものを含む、様々なネットワーク装置を含んでもよい。
装置104は、メディアストリームを、ネットワーク106を介してシステム102に送信してもよい。システム102は、装置104等のAR装置によって捕捉されたメディアストリームにおいてROIを標識可能になる。本明細書では、AR装置は、AR技術を具現化し得る装置である。AR技術は、ユーザの知覚を高め、ユーザが環境についてより深く見る、聞く、感じるのを助ける。AR装置を使用すると、所望するオブジェクトのROI選択が、ナチュラルユーザインタフェース(NUI(natural user interface))を用いて容易になる。
一実施形態では、システム102は、計算装置110において具現化されてもよい。計算装置110の例としては、デスクトップパソコン(PC:personal computer)、ノート型パソコン、ラップトップコンピュータ、ポータブルコンピュータ、スマートフォン、タブレット及び同様なものが挙げられるが、これらに限定されない。また、システム102は、メディアストリームを記憶するために、データリポジトリ112と関連付けられてもよい。加えて又は或いは、データリポジトリ112は、メディアストリームにおいてROIを標識中に生成されたデータ及び/又は情報を記憶するように構成されてもよい。データリポジトリ112は、システム102を具現化する計算装置110の外部に構成され、該計算装置110に通信可能に結合されてもよい。或いは、データリポジトリ112は、システム102内に構成されてもよい。メディアストリームにおいてROIを標識するシステム102の例示の実装について、図2を参照して更に記述される。
図2は、本開示の幾つかの実施形態による頭部装着装置を使用してROIを標識する例示的な方法200を示している。方法200は、コンピュータ実行可能命令に一般的に関連して記述されてもよい。一般に、コンピュータ実行可能命令は、特定の機能を実行する、又は特定の抽出データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、手順、モジュール、機能等を含むことができる。また、方法200は、機能が、通信ネットワークを通してリンクされる遠隔処理装置によって実行される分散計算環境で実行されてもよい。方法200が記載されている順番は、限定として解釈されることを意図したものではなく、記載された方法ブロックの如何なる番号も、方法200、又は別の方法を実装するために任意の順番で組合せできる。更に、方法200は、任意の適当なハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せで、実装できる。一実施形態では、フローチャートで表された方法200は、システム、例えば、図1のシステム102によって実行されてもよい。例示の実施形態では、システム102は、例示的なコンピュータシステム、例えば、コンピュータシステム501(図5)で具現化されてもよい。図2の方法200は、図3A〜図4Dを参照して、より詳細に以下で説明される。
図2を参照すると、図示された実施形態では、方法200は、ユーザ202が、ウェアラブル204、例えば頭部装着装置及びスマートフォン(以下、纏めて、ARウェアラブル装置と呼ぶ)を、ARウェアラブル装置によって表現されたAR場面においてROI標識を実行するために、保持すると、開始される。ユーザ202は、AR場面においてROIを選択するために、身振り、例えば身振り206を実行できる。一実施形態では、身振りは、拳の残りを握りながら人差し指を立てた後に、安定した手の存在を検出することを伴う、動的な身振りを含んでもよい。かかる身振りは、指さし身振りと呼んでもよい。指さし身振りの例は、図3Aに示されている。指さし身振りは、ROI選択をトリガするための動的な身振り(図3A)を検出するために、指をさす身振りのことを言う。或いは、身振りは、ROIの選択を容易にできる任意の既知の身振りとしてもよい。
身振りの表す指さしオブジェクトを有するメディアストリームの1つ又は複数の画像/フレームは、ARウェアラブル装置から得られる。メディアストリームは、ユーザの一人称視点(FPV)から捕捉される場面を含む。FPVで捕捉された上記画像は、208で、処理のために、システム(例えば、図1のシステム102)にストリーミングされる。一実装では、ARウェアラブル装置から得られた画像は、まず、画質に関してそれ程妥協せずに、処理時間を短縮するために、例えば、640×480解像度にまで縮小される。例えば、図3Aに示されるRGB画像フレームは、ARウェアラブル装置204から入手されてもよい。
210では、メディア捕捉装置を使用してメディアストリームを捕捉しながら、身振りの表す指さしオブジェクトが、メディアストリームの少なくとも1つのフレームにおいて認識される。一実施形態では、指さしオブジェクトを認識することは、メディアストリームから彩度チャネル情報を抽出することを含む。特に、画像は、肌画素(例えば、図3Bに示すような)、例えば、ユーザの指先と関連する肌画素を検出するように処理される。一実施形態では、身振りをするユーザの指先を検出するために、システムは、肌画素検出モデルに彩度チャネル情報を利用してもよい;それにより、手の検出処理の照明を不変にできる。以下の式(1)では、背景場面から手の領域を区分するのに使用できる彩度範囲について記載している。
(数1)
77<Cb<127 式(1)
133<Cr<173
式中、Cb及びCrは、彩度成分を表す。
彩度チャネル情報に基づいて、指さしオブジェクトは、メディアストリームにおいて捕捉された背景場面から区分される。本明細書では、その目的は、FPVから身振りを認識することであり、そのために、ユーザの手の領域が、ユーザのFoVに存在する最も顕著なオブジェクトとなるかも知れない。システム、例えば、システム102は、境界追跡アルゴリズムによってデジタル化された二値画像のトポロジ構造分析を使用して、輪郭区分によって手の領域の大部分をカバーする最大のブロブを保持してもよい。このステップは、図3Cに示されるように、前のステップで区分された全ての肌状背景オブジェクトを効果的に除去する。輪郭抽出からの二値マスクは、原画像と組合されて、区分された手の領域を生成し、該手の領域は、指さし身振りを認識するのに更に使用できる。
例示の一実装では、ROIを強調する指さし身振りは、以下の条件が満たされた後に、初期化される:
1.手の領域は、ウェアラブルからユーザの手までの距離に基づいて、経験的に求めたFOVの少なくとも12%を占領すべきである。これは、肌状ブロブの誤検出を回避するのに役立つ。
2.不動の手は、短期間に特定の半径内でブロブの質量中心を観測することによって、検出される。これは、ROIを強調するためにユーザが自分の人差し指を立てた後に、行われる。本明細書では、ROIを強調することは、非接触の手振りを使用することによって、ウェアラブル装置上で表現された場面において輪郭を作成することを含んでもよい。質量中心から最も遠い点(指先)までの距離は、追跡され、この距離が徐々に大きくなると、前景の輪郭を指さし身振りとするのに相応しいと確認される。
指さし身振りの認識で、ROI選択をトリガしてもよい。指さしオブジェクトの軌跡は、212で、メディアストリームにおいてROIを選択するために、メディアストリームの少なくとも1フレームに後続するフレームのセットにおいて検出される。本明細書では、指さしオブジェクトの軌跡は、ROI周りでバウンディングボックスを構成する。一実施形態では、システムは、後続フレーム上で指先の検出を実行し、検出された指先の軌跡に追従して、関心オブジェクト周りに近似バウンディングボックスを描画する。指先検出は、Sklanskyのアルゴリズム及び凸欠陥(開始点、終了点、及び欠陥点を含む)を使用して、前景の手の輪郭(図3C、図3Dに示されるような)の凸包を計算することによって、実行される。(i)凸包の質量中心から最も遠く、(ii)該質量中心上方に存在する(誤判定を回避する)開始点又は終了点は、指先とするのが相応しい。同じ条件は、後続フレームに対して確認され、指先の軌跡は、記憶される。自由形式の描画は、乱雑に見える可能性があるため、バウンディングボックスをROI上に重ねることによって、近似される。指さし身振りに続いて、後続フレームで指先位置を計算する。ROIを歪めることがある誤判定(又は、外れ値)の指先検出は、連続フレーム検出間の距離を閾値化することによって、排除される。この距離は、経験的に決定され、例えば、100画素に設定される。この距離は、後続フレーム上で観測され、この距離が漸減する場合には、ROIは、完成に近いと推測され、直立の近似化されたバウンディングボックスは、指先軌跡上に被せられる。一実施形態では、軌跡は、システムと関連付けられるリポジトリに記憶される。
214では、方法は、メディアストリームにおける後続フレームのセットに続いて発生するメディアストリームの複数のフレームにおいてROIを追跡するステップを含む。標識されたROIのロバストな追跡は、遠隔地での快適なユーザエクスペリエンスのための重要な課題である。
一実施形態では、複数のフレームにおいてROIを追跡するステップは、複数のフレームのフレームにおいてROIと関連付けられる複数の特徴点を決定するステップを含む。例えば、Shi−Tomasi特徴点は、前後進(FB:forward−backward)誤差法を使用して後続フレームにおいて追跡される標識されたROIを表すのに利用されてもよい。図4Aを参照すると、強調された領域及び該領域について決定された主要なShi−Tomasi特徴点(402として標識された)が、示されている。更に、上記特徴点は、第1フレームから後続のN番目のフレーム毎に追跡される。例えば、上記特徴点は、3フレーム毎に追跡され、ピラミッド的手法のLucas−Kanadeオプティカルフローを使用して、処理時間を短縮する。特徴点のオプティカルフロー軌道は、後続のn番目のフレーム上で決定される。図4B、図4Cでは、後続フレーム上の特徴点のオプティカルフロー軌道(其々406、408として標識された)を示している。追跡の精度を向上するために、前後進誤差法が採用され、該方法では、特徴点は、2回追跡され、初めに、前の画像から現在の画像(未来へ)へ追跡して点セットPfを得、次に、Pfセットを使用して、現在の画像から前の画像へと追跡して、点セットPbを得る。前のフレームからの点は、検証点として使用される。FB誤差は、これら2追跡軌道間の距離として定義される。一実施形態では、ユークリッド距離が、誤差を求めるために使用できる。
(数2)
D(Pf,Pb)=||xf(i)−xb(i)|| 式(2)
画素の閾値範囲、例えば、5画素内としてもよい変位は、信頼できる点軌跡と見なされ、対応する前進追跡点は、インライアとして標識されてもよい。その後、バウンディングボックスは、そうして入手された信頼できる点セットに描画され、それにより、ノイズの多い特徴点を除去してもよい。本明細書では、開示された適用シナリオは、ユーザの関心オブジェクトが変更されない限り、急激な動きとはならないかも知れない点に留意されたい。FB誤差は、小さな動きに対処する効率的な方法であり、より少ない計算資源を必要とする。216では、バウンディングボックスは、追跡に基づいて更新されてもよい。例えば、図4Dに示されるように、更新されたバウンディングボックス410は、ROI上で近似化される。本明細書では、更新されたバウンディングボックス410は、ROIを囲む。218では、ROI標識と共に視覚的なフィードバックが、専門家のテレアシスタンス用サーバセットアップ220に提供される。
図5は、本開示と一致する実施形態を実装する例示的なコンピュータシステム501のブロック図である。コンピュータシステム501は、単独で、又はシステム102(図1)の構成要素の組合せで実装されてもよい。コンピュータシステム501のバリエーションが、本開示に含まれる装置を実装するのに使用されてもよい。コンピュータシステム501は、中央演算処理装置(「CPU」又は「ハードウェアプロセッサ」)502を含んでもよい。ハードウェアプロセッサ502は、ユーザ又はシステムが生成した要求を実行するためのプログラム構成要素を実行するための少なくとも1つのデータ処理装置を含んでもよい。プロセッサは、統合システム(バス)コントローラ、メモリ管理制御部、浮動小数点部、グラフィック処理部、デジタル信号処理部等の専門化された処理部を含んでもよい。プロセッサは、マイクロプロセッサ、例えば、AMD社のAthlon(登録商標)、Duron(登録商標)又はOpteron(登録商標)、ARM社のアプリケーション、埋込み又はセキュアプロセッサ、IBM社のPowerPC(登録商標)、インテル社のCore、Itanium(登録商標)、Xeon(登録商標)、Celeron(登録商標)又は他の系列のプロセッサ等を含んでもよい。プロセッサ502は、メインフレーム、分散型プロセッサ、マルチコア、並列、グリッド、若しくは他のアーキテクチャを使用して、実装されてもよい。幾つかの実施形態は、特定用途向集積回路(ASIC:application specific integrated circuit)、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)等のような埋込み技術を利用してもよい。
プロセッサ502は、入力/出力(I/O)インタフェース503を介して、1つ又は複数のI/O装置と通信状態に配設されてもよい。I/Oインタフェース503は、通信プロトコル/方法、例えば、限定せずに、音声、アナログ、デジタル、モノラル、RCA、ステレオ、IEEE−1394、直列バス、ユニバーサルシリアルバス(USB)、赤外線、PS/2、BNC、同軸、コンポーネント、複合、デジタルビジュアルインタフェース(DVI)、高精細マルチメディアインタフェース(HDMI(登録商標):high−definition multimedia interface)、RFアンテナ、S−ビデオ、VGA、IEEE802.11a/b/g/n/x、Bluetooth(登録商標)、セル方式(例えば、符号分割多重接続(CDMA:code−division multiple access)、高速パケットアクセス(HSPA+)、GSM(登録商標)(global system for mobile communications)、ロングタームエボリューション(LTE)、WiMax、又は同様のもの)等を採用してもよい。
I/Oインタフェース503を使用して、コンピュータシステム501は、1つ又は複数のI/O装置と通信してもよい。例えば、入力装置504は、アンテナ、キーボード、マウス、ジョイスティック、(赤外線)リモコン、カメラ、カードリーダ、ファックス装置、ドングル、生体認証リーダ、マイクロホン、タッチスクリーン、タッチパッド、トラックボール、センサ(例えば、加速度計、光センサ、GPS、ジャイロスコープ、近接センサ、又は同様のもの)、スタイラス、スキャナ、記憶装置、トランシーバ、映像装置/源、Visor等としてもよい。
出力装置505は、プリンタ、ファックス装置、ビデオディスプレイ(例えば、ブラウン管(CRT:cathode ray tube)、液晶ディスプレイ(LCD:liquid crystal display)、発光ダイオード(LED:light−emitting diode)、プラズマ、又は同様のもの)、音声スピーカ等としてもよい。幾つかの実施形態では、トランシーバ506は、プロセッサ502と接続した状態で配設されてもよい。トランシーバにより、様々な種類の無線送受信を容易にしてもよい。例えば、トランシーバは、トランシーバチップ(例えば、Texas Instruments社のWiLink WL1283、Broadcom社のBCM4750IUB8、Infineon Technologies社のX−Gold618−PMB9800、又は同様のもの)に動作可能に接続されたアンテナを含んでもよく、IEEE 802.11a/b/g/n、Bluetooth(登録商標)、FM、全地球側位システム(GPS:global positioning system)、2G/3G HSDPA/HSUPA通信等を提供してもよい。
幾つかの実施形態では、プロセッサ502は、ネットワークインタフェース507を介して、通信ネットワーク508と通信状態に配設されてもよい。ネットワークインタフェース507は、通信ネットワーク508と通信してもよい。ネットワークインタフェースは、限定せずに、直接接続、イーサネット(登録商標)(例えば、ツイストペア10/100/1000BASE T)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、トークンリング、IEEE 802.11a/b/g/n/x等を含む接続プロトコルを採用してもよい。通信ネットワーク508は、限定せずに、直接相互接続、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、無線ネットワーク(例えば、無線アプリケーションプロトコルを使用する)、インターネット等を含んでもよい。ネットワークインタフェース507及び通信ネットワーク508を使用して、コンピュータシステム501は、装置509及び510と通信してもよい。これらの装置は、限定せずに、パーソナルコンピュータ(複数可)、サーバ(複数可)、ファックス装置、プリンタ、スキャナ、携帯電話、スマートフォン等の様々なモバイル機器(例えば、Apple社のiPhone(登録商標)、Blackberry、Androidベースの電話機等)、タブレットコンピュータ、eBookリーダ(Amazon社のKindle、Nook等)、ラップトップコンピュータ、ノート型コンピュータ、テレビゲーム機(Microsoft社のXbox、任天堂社のDS、ソニー社のプレイステーション等)、又は同様のものを含んでもよい。幾つかの実施形態では、コンピュータシステム501自体は、これらの装置の1台又は複数を具現化してもよい。
幾つかの実施形態では、プロセッサ502は、ストレージインタフェース512を介して1つ又は複数のメモリ装置(例えば、RAM513、ROM514等)と通信状態に配設されてもよい。ストレージインタフェースは、メモリ装置に接続してもよく、該メモリ装置は、限定せずに、メモリドライブ、リムーバブルディスクドライブ等を含み、該接続には、シリアルATA(SATA:serial advanced technology attachment)、統合ドライブエレクトロニクス(IDE:integrated drive electronics)、IEEE−1394、ユニバーサルシリアルバス(USB)、ファイバチャネル、小型コンピュータシステムインタフェース(SCSI:small computer systems interface)等の接続プロトコルを採用する。メモリドライブは、ドラム、磁気ディスク装置、MOドライブ、光学ドライブ、RAID(redundant array of independent discs)、ソリッドステートメモリ装置、ソリッドステートドライブ等を更に含んでもよい。メモリ装置のバリエーションは、例えば、本開示で利用される任意のデータベースを実装するために、使用されてもよい。
メモリ装置は、プログラム又はデータベース構成要素の群を記憶してもよく、該構成要素は、限定せずに、オペレーティングシステム516、ユーザインタフェースアプリケーション517、ユーザ/アプリケーションデータ518(例えば、本開示で言及した任意のデータ変数又はデータ記録)等を含む。オペレーティングシステム516は、コンピュータシステム501のリソース管理及び動作を容易にしてもよい。オペレーティングシステムの例としては、限定せずに、Apple社のMacintosh OS X、Unix、Unix系システムの配布(例えば、バークレー校のソフトウェア配布(BSD:Berkeley Software Distribution)、FreeBSD、NetBSD、OpenBSD等)、Linux(登録商標)配布(例えば、Red Hat、Ubuntu、K−Ubuntu等)、IBM社のOS/2、Microsoft社のWindows(XP、Vista/7/8等)、Apple社のiOS、Google社のAndroid、Blackberry社のOS、又は同様のものが挙げられる。ユーザインタフェース517は、テキスト又はグラフィック機能によってプログラム構成要素の表示、実行、相互作用、操作、又は動作を容易にしてもよい。例えば、ユーザインタフェースは、カーソル、アイコン、チェックボックス、メニュー、スクローラ、ウィンドウ、ウィジェット等、コンピュータ相互作用インタフェース要素を、コンピュータシステム501に動作可能に接続された表示システム上に設けてもよい。グラフィカルユーザインターフェース(GUI)が、採用されてもよく、GUIは、限定せずに、Apple社のMacintoshオペレーティングシステムのAqua、IBM社のOS/2、Microsoft社のWindows(例えば、Aero、Metro等)、UnixのX−Windows、ウェブインタフェースライブラリ(例えば、ActiveX、Java(登録商標)、Java(登録商標)script、AJAX、HTML、Adobe社のFlash等)、又は同様のものを含む。
幾つかの実施形態では、コンピュータシステム501は、本開示で記載されたように、データ、変数、記録等のユーザ/アプリケーションデータ518を記憶してもよい。かかるデータベースは、Oracle又はSybase等のフォールトレラントで、リレーショナルで、拡張可能で、安全なデータベースとして実装されてもよい。或いは、かかるデータベースは、アレイ、ハッシュ、リンクリスト、構造化テキストファイル(例えば、XML)、テーブル等の標準データ構造を使用して、又はオブジェクト指向型データベース(例えば、ObjectStore、Poet、Zope等)として、実装されてもよい。かかるデータベースは、本開示で上述した様々なコンピュータシステム中に、時々統合又は分散されることがある。任意のコンピュータ又はデータベース構成要素の構造及び動作は、任意の作動組合わせ(working combination)で、組合され、統合され又は分散されてもよいと、理解されるべきである。
また、幾つかの実施形態では、送受信されるサーバのメッセージ交換及び命令は、クラウド実装に存在するオペレーティングシステム及びプログラムコード(即ち、アプリケーションコード)を含むハードウェアから発信されてもよい。更に、本明細書で提供されるシステム及び方法の1つ又は複数は、クラウドベースの実装に適するかも知れない点に留意すべきである。例えば、幾つかの実施形態では、開示された方法で使用されるデータの一部又は全ては、任意のコンピューティングプラットフォームから発生されてもよい又は任意のコンピューティングプラットフォームに記憶されてもよい。
様々な実施形態では、ウェアラブルから関心領域を強調するためのARテレプレゼンスのフレームワークを開示している。開示されたフレームワークは、動的背景設定において、Google社のCardboard等のウェアラブルで、スマートフォン上で非接触で身振りを認識するシステムを含む。これは、Google社のAR用Cardboard等の簡素な頭部装着装置で、より広範囲を可能にできる。リアルタイム性能は、基板に身振り認識モジュールを実装することによって、達成される。
開示されたARフレームワークは、NUI(natural user interface)を使用して、所望するオブジェクトのROI選択を容易にする。ARシステムでは、ユーザが、自由な形の空中身振り(air gesture)を介して、オブジェクトを選択でき、その後、該オブジェクト上に、バウンディングボックスが重ねられる。その結果、密集したターゲット及び豊富な視覚要素を伴う用途に特に適している。開示されたシステムは、より簡単な肌ベースのモデルを使用して、リアルタム性能を達成するため、最初の分類子のための複数の照明条件、複数の肌の色調及び複合環境をカバーする大規模な訓練セットの必要性が、排除される。その上、試験中の計算時間は、短縮される。

Claims (13)

  1. メディアストリームにおいて関心領域(ROI:region of interest)を標識するためのプロセッサ実装方法であって、
    1台又は複数のハードウェアプロセッサを介して、ウェアラブル装置上で表現されるメディアストリームを捕捉中に、前記メディアストリームの少なくとも1つのフレームにおける身振りを表す指さしオブジェクトを認識するステップであって、前記メディアストリームは、ユーザの一人称視点(FPV:first person view)から捕捉される場面を含む、ステップと、
    前記1台又は複数のハードウェアプロセッサを介して、前記メディアストリームの前記少なくとも1つのフレームに後続するフレームのセットにおける前記指さしオブジェクトの軌跡を検出して、ユーザの手の領域が、ウェアラブルからユーザの手までの距離に基づいて経験的に求めた視野(FoV:Field of View)の割合を占領したときの、前記メディアストリームにおけるROIを選択するステップであって、前記指さしオブジェクトの前記軌跡は、前記ROI周りにバウンディングボックスを構成し、前記フレームのセットにおける前記指さしオブジェクトの前記軌跡を検出するステップは、前記フレームのセットにおける指先を検出するステップを含み、前記指先の検出は、閾値距離だけ分離される前記フレームのセットの後続フレームに対して実行され、前記フレームのセットのフレームにおいて指先を検出するステップは、
    Sklanskyのアルゴリズム及び凸欠陥を使用して、前記指さしオブジェクトと関連付けられる前景の手の輪郭の凸包を計算するステップであって、前記凸欠陥は、開始点、終了点、及び欠陥点を含む、ステップと、
    前記凸包の質量中心から最も遠く、質量中心上方に存在する開始及び終了点の1つを、指先として識別するステップであって、前記フレームのセットで検出された前記指先の経路が、前記軌跡を構成する、ステップと
    を含む、ステップと、
    前記1台又は複数のハードウェアプロセッサを介して、前記メディアストリームにおける前記後続フレームのセットに続いて発生する複数のフレームにおいて前記ROIを追跡するステップと、
    前記1台又は複数のハードウェアプロセッサを介して、前記追跡に基づいて、前記ROI周りに前記バウンディングボックスを更新するステップであって、前記更新されたバウンディングボックスは、前記ROIを囲む、ステップと
    を含む、方法。
  2. 前記指さしオブジェクトを認識するステップは、
    前記メディアストリームから彩度チャネル情報を抽出するステップと、
    前記彩度チャネル情報を使用することによって、前記メディアストリームで捕捉された背景場面から前記指さしオブジェクトを区分するステップであって、区分に使用される前記彩度チャネル情報に関連付けられる彩度範囲が、
    (数1)
    77<Cb<127
    133<Cr<173
    を含む、ステップと
    を含む、請求項1に記載の方法。
  3. 前記軌跡を記憶するステップを更に含む、請求項1に記載の方法。
  4. 前記バウンディングボックスを追跡するステップは、
    複数のフレームの少なくとも1つにおける前記ROIと関連付けられる複数の特徴点を決定するステップと、
    前記少なくとも1つのフレームから、後続のn番目のフレーム毎に前記複数の特徴点を追跡するステップと、
    前記後続のn番目のフレーム上で前記複数の特徴点のオプティカルフロー軌道を決定して、前記バウンディングボックスを追跡するステップであって、前記オプティカルフロー軌道は、ピラミッド的手法のLucas−Kanadeオプティカルフローを使用して決定される、ステップと
    を含む、請求項1に記載の方法。
  5. 前記複数の特徴点から、ノイズの多い特徴点を除去するステップを更に含む、請求項4に記載の方法。
  6. 前記ノイズの多い特徴点は、前後進(FB:forward−backward)誤差を決定することによって除去され、前後進誤差を決定することは、
    点セット(Pf)を得るために、前記複数のフレームの前のフレームから現在のフレームへ(未来へ)、特徴点を追跡すること、
    点セット(Pb)を得るために、Pfを使用して、前記現在の画像から前記前の画像へ、特徴点を追跡すること、
    以下の式(2):
    (数2)
    D(Pf;Pb)=||xf(i)−xb(i)|| 式(2)
    を使用して、前記前後進誤差を決定することであって、前記距離は、ユークリッド距離を含むこと
    を含む、請求項に記載の方法。
  7. メディアストリームにおいて関心領域(ROI)を標識するシステムであって、該システムは、
    1つ又は複数のメモリと、
    1台又は複数のハードウェアプロセッサであって、前記1つ又は複数のメモリが結合される1台又は複数のハードウェアプロセッサと
    を含み、
    前記1台又は複数のハードウェアプロセッサは、前記1つ又は複数のメモリに記憶されたプログラム命令であって、
    ウェアラブル装置上で表現される前記メディアストリームを捕捉中に、前記メディアストリームの少なくとも1つのフレームにおいて身振りを表す指さしオブジェクトを認識する命令であって、前記メディアストリームは、ユーザの一人称視点(FPV)から捕捉された場面を含む、命令と、
    前記メディアストリームの前記少なくとも1つのフレームに後続するフレームのセットにおいて前記指さしオブジェクトの軌跡を検出して、ユーザの手の領域が、ウェアラブルからユーザの手までの距離に基づいて経験的に求めた視野(FoV)の割合を占領したときの、前記メディアストリームにおけるROIを選択する命令であって、前記指さしオブジェクトの前記軌跡は、前記ROI周りにバウンディングボックスを構成前記フレームのセットにおける前記指さしオブジェクトの前記軌跡を検出する命令は、前記フレームのセットにおける前記指先を検出する命令を含み、前記指先の検出は、閾値距離だけ分離される前記フレームのセットの後続フレームに対して実行され、前記フレームのセットのフレームにおいて指先を検出する命令は、
    Sklanskyのアルゴリズム及び凸欠陥を使用して、前記指さしオブジェクトと関連付けられる前景の手の輪郭の凸包を計算する命令であって、前記凸欠陥は、開始点、終了点、及び欠陥点を含む、命令と、
    前記凸包の質量中心から最も遠く、質量中心上方に存在する開始及び終了点の1つを、指先として識別する命令であって、前記フレームのセットで検出された前記指先の経路が、前記軌跡を構成する、命令と
    を含む、命令と、
    前記メディアストリームにおける前記後続フレームのセットの後に発生する複数のフレームにおいて前記ROIを追跡する命令と、
    前記追跡に基づいて、前記ROI周りで前記バウンディングボックスを更新する命令であって、前記更新されたバウンディングボックスは、前記ROIを囲む、命令と
    を実行できる、システム。
  8. 前記指さしオブジェクトを認識するために、前記1台又は複数のハードウェアプロセッサは、
    前記メディアストリームから彩度チャネル情報を抽出する命令と、
    前記彩度チャネル情報を使用することによって、前記メディアストリームにおいて捕捉された背景場面から、前記指さしオブジェクトを区分する命令であって、区分に使用される前記彩度チャネル情報と関連付けられる彩度範囲は、
    (数1)
    77<Cb<127
    133<Cr<173
    を含む、命令と
    によって、更に構成される、請求項に記載のシステム。
  9. 前記1台又は複数のハードウェアプロセッサは、前記軌跡を記憶する命令によって、更に構成される、請求項に記載のシステム。
  10. 前記バウンディングボックスを追跡するために、前記1台又は複数のハードウェアプロセッサは、
    複数のフレームの少なくとも1つのフレームにおける前記ROIに関連付けられる複数の特徴点を決定する命令と、
    前記少なくとも1つのフレームから後続のn番目のフレーム毎における前記複数の特徴点を追跡する命令と、
    前記後続のn番目のフレーム上で前記複数の特徴点のオプティカルフロー軌道を決定して、前記バウンディングボックスを、ピラミッド的手法のLucas−Kanadeオプティカルフローを使用して追跡する命令と
    によって、更に構成される、請求項に記載のシステム。
  11. 前記1台又は複数のハードウェアプロセッサは、前記複数の特徴点から、ノイズの多い特徴点を除去する命令によって、更に構成される、請求項10に記載のシステム。
  12. 前記1台又は複数のハードウェアプロセッサは、前後進誤差を求めることによって、前記ノイズの多い特徴点を除去する命令によって、更に構成され、前記前後進誤差を求めるために、前記1台又は複数のハードウェアプロセッサは、
    点セット(Pf)を得るために、前記複数のフレームの前のフレームから現在のフレームへ(未来へ)、特徴点を追跡する命令と、
    点セット(Pb)を得るために、Pfセットを使用して、前記現在の画像から前記前の画像へ、特徴点を追跡する命令と、
    以下の式(2):
    (数2)
    D(Pf;Pb)=||xf(i)−xb(i)|| 式(2)
    を使用して、前記前後進誤差を求める命令であって、前記距離は、ユークリッド距離を含む、命令とによって、更に構成される、請求項11に記載のシステム。
  13. メディアストリームにおいて関心領域(ROI)を標識する方法を実行するためのコンピュータプログラムを具現化した非一時的なコンピュータ可読媒体であって、前記方法は、
    1台又は複数のハードウェアプロセッサを介して、ウェアラブル装置上で表現される前記メディアストリームを捕捉中に、前記メディアストリームの少なくとも1つのフレームにおける身振りを表す指さしオブジェクトを認識するステップであって、前記メディアストリームは、ユーザの一人称視点(FPV)から捕捉される場面を含む、ステップと、
    前記1台又は複数のハードウェアプロセッサを介して、前記メディアストリームの前記少なくとも1つのフレームに後続するフレームのセットにおける前記指さしオブジェクトの軌跡を検出して、ユーザの手の領域が、ウェアラブルからユーザの手までの距離に基づいて経験的に求めた視野(FoV)の割合を占領したときの、前記メディアストリームにおけるROIを選択するステップであって、前記指さしオブジェクトの前記軌跡は、前記ROI周りにバウンディングボックスを構成前記フレームのセットにおける前記指さしオブジェクトの前記軌跡を検出するステップは、前記フレームのセットにおける前記指先を検出するステップを含み、前記指先の検出は、閾値距離だけ分離される前記フレームのセットの後続フレームに対して実行され、前記フレームのセットのフレームにおいて指先を検出するステップは、
    Sklanskyのアルゴリズム及び凸欠陥を使用して、前記指さしオブジェクトと関連付けられる前景の手の輪郭の凸包を計算するステップであって、前記凸欠陥は、開始点、終了点、及び欠陥点を含む、ステップと、
    前記凸包の質量中心から最も遠く、質量中心上方に存在する開始及び終了点の1つを、指先として識別するステップであって、前記フレームのセットで検出された前記指先の経路が、前記軌跡を構成する、ステップと
    を含む、ステップと、
    前記1台又は複数のハードウェアプロセッサを介して、前記メディアストリームにおける後続フレームのセットに続いて発生する複数のフレームにおいて前記ROIを追跡するステップと、
    前記1台又は複数のハードウェアプロセッサを介して、前記追跡に基づいて、前記ROI周りに前記バウンディングボックスを更新するステップであって、前記更新されたバウンディングボックスは、前記ROIを囲む、ステップと
    を含む、非一時的なコンピュータ可読媒体。
JP2018135982A 2017-07-20 2018-07-19 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク Active JP6858159B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201721025858 2017-07-20
IN201721025858 2017-07-20

Publications (2)

Publication Number Publication Date
JP2019021318A JP2019021318A (ja) 2019-02-07
JP6858159B2 true JP6858159B2 (ja) 2021-04-14

Family

ID=62791529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018135982A Active JP6858159B2 (ja) 2017-07-20 2018-07-19 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク

Country Status (3)

Country Link
US (1) US10831360B2 (ja)
EP (1) EP3432204B1 (ja)
JP (1) JP6858159B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109690616A (zh) * 2016-09-16 2019-04-26 三菱电机株式会社 光流精度计算装置和光流精度计算方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308112B2 (en) * 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
FR2911983B1 (fr) * 2007-01-25 2009-05-29 St Microelectronics Sa Procede de suivi automatique des mouvements de la mains dans une sequence d'images.
US9740293B2 (en) * 2009-04-02 2017-08-22 Oblong Industries, Inc. Operating environment with gestural control and multiple client devices, displays, and users
US8325982B1 (en) * 2009-07-23 2012-12-04 Videomining Corporation Method and system for detecting and tracking shopping carts from videos
EP2703950A4 (en) * 2011-04-28 2015-01-14 Nec Solution Innovators Ltd INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND RECORDING MEDIUM
AU2011203028B1 (en) * 2011-06-22 2012-03-08 Microsoft Technology Licensing, Llc Fully automatic dynamic articulated model calibration
JP2014035302A (ja) * 2012-08-09 2014-02-24 Panasonic Corp 対象物検出装置、対象物検出方法、プログラム
US10133342B2 (en) * 2013-02-14 2018-11-20 Qualcomm Incorporated Human-body-gesture-based region and volume selection for HMD
US9354711B2 (en) * 2014-09-30 2016-05-31 Xerox Corporation Dynamic hand-gesture-based region of interest localization
US9766713B2 (en) * 2015-09-08 2017-09-19 Unity IPR ApS System and method for providing user interface tools
WO2017139509A1 (en) * 2016-02-12 2017-08-17 Purdue Research Foundation Manipulating 3d virtual objects using hand-held controllers
US9865062B2 (en) * 2016-02-12 2018-01-09 Qualcomm Incorporated Systems and methods for determining a region in an image

Also Published As

Publication number Publication date
US20190026001A1 (en) 2019-01-24
US10831360B2 (en) 2020-11-10
EP3432204A1 (en) 2019-01-23
EP3432204C0 (en) 2024-01-17
JP2019021318A (ja) 2019-02-07
EP3432204B1 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
CA3016921C (en) System and method for deep learning based hand gesture recognition in first person view
US11573641B2 (en) Gesture recognition system and method of using same
TW202119199A (zh) 虛擬鍵盤
US20160019718A1 (en) Method and system for providing visual feedback in a virtual reality environment
US20130249786A1 (en) Gesture-based control system
JP6323202B2 (ja) 映像を取得するシステム、方法及びプログラム
US11922721B2 (en) Information display method, device and storage medium for superimposing material on image
JP6858159B2 (ja) 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク
US20180150957A1 (en) Multi-spectrum segmentation for computer vision
US9727778B2 (en) System and method for guided continuous body tracking for complex interaction
Gupta et al. Hand gesture based region marking for tele-support using wearables
US10489921B2 (en) Behavior analysis apparatus and behavior analysis method
JP2020021331A (ja) 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク
Fiorentino et al. Magic mirror interface for augmented reality maintenance: an automotive case study
JP2015184986A (ja) 複合現実感共有装置
JP6350331B2 (ja) 追尾装置、追尾方法及び追尾プログラム
JP6170696B2 (ja) 画像処理装置及び画像処理方法
Xie et al. Hand posture recognition using kinect
JP2009205498A (ja) 情報提示装置、情報提示方法、情報提示プログラムおよびそのプログラムを記録した記録媒体
KR20190059597A (ko) 동작 인식 장치 및 그 방법
JP6762544B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
US20170069137A1 (en) Information processing device, information processing method, and information processing program
JP6805375B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
TWI460683B (zh) The way to track the immediate movement of the head
Prathyakshini et al. Hand Gesture Controlled Video Player Application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200831

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210323

R150 Certificate of patent or registration of utility model

Ref document number: 6858159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250