JP2016509293A

JP2016509293A - 前景オブジェクトに基づく拡張現実のレンダリング

Info

Publication number: JP2016509293A
Application number: JP2015551683A
Authority: JP
Inventors: ピユシュ・シャルマ; ラミン・レザイーファー
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2013-01-03
Filing date: 2013-12-06
Publication date: 2016-03-24
Also published as: US20140184644A1; US9076257B2; CN104903934A; CN104903934B; EP2941756B1; WO2014107261A1; KR20150103104A; JP2019192288A; EP2941756A1

Abstract

モバイルデバイスは、たとえば、深さ情報のない一連のビデオフレームなど、キャプチャされた画像において可動前景オブジェクトを検出する。オブジェクトは、ユーザの指の1つまたは複数でもよい。オブジェクトを含むシーンのキャプチャされた画像、およびオブジェクトのないシーンの参照画像の一方を、それらが同じビューを有するようにワープし、ワープ後にキャプチャされた画像を参照画像と比較することによって、オブジェクトが検出され得る。キャプチャされた画像からオブジェクトをセグメント化するために、マスクが使用され得る。オブジェクトの抽出された画像においてピクセルが検出され、ピクセルは、前景オブジェクト上の関心ポイントを検出するために使用される。次いで、その後の画像において、オブジェクトが追跡され得る。オーグメンテーションがレンダリングされ、相互作用され得る、または、時間的ジェスチャが検出され、それに応じて所望のアクションが実行され得る。

Description

関連出願の相互参照
本出願は、本出願の譲受人に譲渡され、参照により本明細書に組み込まれる、2013年1月3日に出願した「Rendering Augmented Reality Based on Foreground Object」という名称の米国出願第13/733,740号の利益および優先権を主張するものである。

本明細書で説明する主題の実施形態は、一般に、ビデオストリームなど、一連のキャプチャされた画像において可動オブジェクトを検出し、追跡することに関し、より詳細には、可動オブジェクトを使用して、キャプチャされた画像の表示においてレンダリングされるオーグメンテーション（augmentation）と相互作用することに関する。

拡張現実(augmented reality, AR)のアプリケーションでは、現実世界のオブジェクトが撮像され、画像情報、グラフィック情報、またはテキスト情報などのコンピュータ生成情報とともにスクリーン上に表示される。コンピュータ生成情報は、現実世界のオブジェクト上にレンダリングされ、たとえば、現実世界のオブジェクトについての、または、たとえばアニメーションもしくはゲームなど娯楽のためのグラフィック情報もしくはテキスト情報を提供するために使用され得る。しかしながら、従来、ARタイプのアプリケーションで表示されるレンダリングされたオブジェクトと相互作用するユーザの能力は、限られており、非直感的である。

ユーザがレンダリングされたオブジェクトと相互作用するための現在の手法は、一般的に、たとえばボタンやタッチスクリーンなど、デバイス上の物理的な入力要素を使用する。ユーザとレンダリングされたオーグメンテーションとの間の相互作用の別の手法は、仮想ボタンと呼ばれる。ユーザは、たとえば指などのオブジェクトで撮像されたシーンのあらかじめ指定されたエリアを遮ることによって、仮想ボタンと相互作用することができる。あらかじめ指定されたエリアの遮断は、視覚的に検出され得、それに応答して、アクションが実行され得る。しかしながら、仮想ボタンがユーザと同じスペースに実際に存在しているかのように、ユーザが仮想ボタンと相互作用しないので、仮想ボタンによる結果として生じるオーグメンテーションは、限られる。

一実装形態では、方法は、シーンにアタッチ(attach)していない前景オブジェクトを含むシーンの画像をキャプチャするステップであり、前景オブジェクトが、異なる物理的様相である関心ポイントを含む、ステップと、前景オブジェクトを含まないシーンの画像および参照画像の少なくとも一方を、画像および参照画像が同じビューを有するようにワープするステップと、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像を参照画像と比較するステップと、検出されたピクセルを使用して前景オブジェクト上の関心ポイントを検出するステップと、画像をディスプレイに表示するステップと、関心ポイントに基づいて、ディスプレイで画像の上にオーグメンテーションをレンダリングするステップとを含む。

一実装形態では、装置は、カメラと、ディスプレイと、ディスプレイに結合され、シーンにアタッチしていない前景オブジェクトを含むシーンの画像を受信するためにカメラに結合されたプロセッサとを含み、前景オブジェクトが、異なる物理的様相である関心ポイントを含み、プロセッサが、前景オブジェクトを含まないシーンの画像および参照画像の少なくとも一方を、画像および参照画像が同じビューを有するようにワープし、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像を参照画像と比較し、検出されたピクセルを使用して前景オブジェクト上の関心ポイントを検出し、画像をディスプレイに表示し、関心ポイントに基づいて、ディスプレイで画像の上にオーグメンテーションをレンダリングするように構成される。

一実装形態では、装置は、シーンにアタッチしていない前景オブジェクトを含むシーンの画像をキャプチャするための手段であり、前景オブジェクトが、異なる物理的様相である関心ポイントを含む、手段と、前景オブジェクトを含まないシーンの画像および参照画像の少なくとも一方を、画像および参照画像が同じビューを有するようにワープするための手段と、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像を参照画像と比較するための手段と、検出されたピクセルを使用して前景オブジェクト上の関心ポイントを検出するための手段と、画像をディスプレイに表示するための手段と、関心ポイントに基づいて、ディスプレイで画像の上にオーグメンテーションをレンダリングするための手段とを含む。

一実装形態では、プログラムコードが記憶された記憶媒体は、シーンにアタッチしていない前景オブジェクトを含むシーンの画像を受信するためのプログラムコードであり、前景オブジェクトが、異なる物理的様相である関心ポイントを含む、プログラムコードと、前景オブジェクトを含まないシーンの画像および参照画像の少なくとも一方を、画像および参照画像が同じビューを有するようにワープするためのプログラムコードと、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像を参照画像と比較するためのプログラムコードと、検出されたピクセルを使用して前景オブジェクト上の関心ポイントを検出するためのプログラムコードと、画像をディスプレイに表示するためのプログラムコードと、関心ポイントに基づいて、ディスプレイで画像の上にオーグメンテーションをレンダリングするためのプログラムコードとを含む。

キャプチャされた画像において可動前景オブジェクトを検出し、追跡することができるモバイルデバイスを示す図である。撮像されたシーンにおいて前景オブジェクトを検出し、追跡する方法のフローチャートである。マスクを使用して前景オブジェクトが画像からセグメント化される図2の方法の一部を詳述するフローチャートである。マスクを使用することなく前景オブジェクトが画像から抽出される図2の方法の一部を詳述するフローチャートである。マスクを生成するための異なる手法を示すフローチャートである。テーブル上のターゲットおよび前景オブジェクトを含むキャプチャされた画像を示す図である。図5Aからのターゲットの参照画像を示す図である。ターゲットおよび前景オブジェクトの一部を含むワープされた画像を示す図である。マスクによってセグメント化される前景オブジェクトを示す図である。図5Cからワープされた画像における前景オブジェクトにおいて検出される複数の関心ポイントを示す図である。検出された前景オブジェクトに基づいてレンダリングされたオーグメンテーションを含むキャプチャされた画像を示す図である。マスクを生成するためにキャプチャされた画像を参照画像と比較することをグラフィカルに示す図である。キャプチャされた画像において前景オブジェクトを検出するためのシステム図を示す図である。ジェスチャ認識のために1つまたは複数の前景オブジェクトを追跡することを示すフローチャートである。図1と類似し、ターゲットよりも大きいスペースにレンダリングされたオーグメンテーションを示す図である。撮像されたシーンにおいて前景オブジェクトを検出し、追跡することができるモバイルデバイスのブロック図である。

図1は、深さ情報のないカメラ110によってキャプチャされた画像において可動前景オブジェクトを検出することができるモバイルデバイス100を示す。前景オブジェクトは、たとえば、ユーザ111の指112もしくは手、または撮像されたシーンにアタッチしていない任意の他の所望のオブジェクトでもよい。前景オブジェクトは、その後キャプチャされた画像において追跡され得る。モバイルデバイス100がシーンのビデオストリームをキャプチャすることができ、この場合、ビデオストリームが複数のフレームまたは画像から構成されることを理解されたい。したがって、本明細書で使用するキャプチャされた画像は、ビデオのフレームと同様に個々の画像も含むことを理解されたい。

横方向モードで、ターゲット106を含むテーブル104、およびユーザ111の指の形の前景オブジェクト112を含むシーン102を撮像するモバイルデバイス100が図1に示されている。前景オブジェクト112を含む撮像されたシーンが、オーグメンテーション108、すなわち、コンピュータレンダリングオブジェクトとともに、モバイルデバイス100のディスプレイ101に表示される。前景オブジェクト112を検出することによって、オーグメンテーション108は、ユーザ111がオーグメンテーション108と相互作用しているように見えるようにレンダリングされ得る。たとえば、オーグメンテーション108は、それがディスプレイ101内の前景オブジェクト112の下にあるように見えるようにレンダリングされ得る。さらに、その後キャプチャされた画像において前景オブジェクト112を追跡することによって、オーグメンテーションが、ディスプレイ101において、ユーザ111によってタッチされる、押される、引かれるか、またはそうでなければ操作されるように見えるように、レンダリングされ得る。もちろん、検出された前景オブジェクト112は、任意の所望の用途で使用され得る。たとえば、複数の画像上のユーザの指先の位置を追跡することによって、モバイルデバイス100は、ユーザによって行われるジェスチャを識別し、したがって、ユーザの意図されたアクションがキャプチャされた画像から決定され得る。

本明細書で使用するモバイルデバイスは、キャプチャされた画像またはビデオストリームから視覚ベースの位置検出および追跡ができる任意のポータブル電子デバイスを指し、たとえば、セルラーまたは他のワイヤレス通信デバイス、パーソナル通信システム(PCS)デバイス、パーソナルナビゲーションデバイス(PND)、パーソナルインフォメーションマネージャー(PIM)、携帯情報端末(PDA)、またはカメラ、ワイヤレス通信デバイス、コンピュータ、ラップトップ、タブレット型コンピュータなどを含む他の適したモバイルデバイスなどを含み得る。モバイルデバイスは、必ずしもそうではないが、ナビゲーション測位信号など、ワイヤレス通信および/またはナビゲーション信号を受信することが可能であり得る。「モバイルデバイス」という用語はまた、衛星信号受信、支援データ受信、および/または、位置関連処理が、デバイスまたはPNDで生じているか否かにかかわらず、短距離ワイヤレス、赤外線、有線接続、あるいは他の接続などによって、パーソナルナビゲーションデバイス(PND)と通信するデバイスを含むことが意図されている。

モバイルデバイス100は、たとえばユーザ111の指または撮像されたシーンにアタッチしていない他の可動オブジェクトなど、1つまたは複数のオブジェクト112の位置を検出し、追跡することができる。たとえばRandom Forest分類器などの分類器を使用して、たとえば、前景オブジェクトを確実に検出することができる。前景にあり、シーンにアタッチしていないオブジェクトは、背景セグメンテーションを使用して検出され得る。しかしながら、背景セグメンテーションは、一般的に、深さ情報の使用を必要とする。しかしながら、モバイルデバイス100は、既知のターゲット106を含む背景、およびターゲット106に対するモバイルデバイス100の現在のポーズ(位置および配向)を推定することによって、深さ情報なしに背景セグメンテーションを実行することができる。推定された背景は、前景オブジェクトを識別するために、画像から減算され得る。したがって、表示されたオーグメンテーションと相互作用するために、ユーザ111は、たとえば分類器を使用して、指112がセグメント化され、検出され得るように、キャプチャされた画像における背景上にオブジェクト112を持ってくることができる。

モバイルデバイス100は、追跡システム(すなわち、既知のターゲットおよびポーズ)においてすでに利用可能である情報を使用して、背景セグメントを実行し、これは、オブジェクト検出プロセスを単純化し、加速する。さらに、オブジェクトが背景からセグメント化された状態で、オブジェクトを迅速に検出するために、たとえばRandom Forest分類器などの分類器が使用され得る。したがって、オブジェクトは、ユーザが自然にARオーグメンテーションと相互作用することができる効率的な方法で検出され、追跡され得、それによって、ユーザエクスペリエンスが向上する。

図2は、撮像されたシーンにおいて前景オブジェクトを検出する方法のフローチャートである。図示するように、シーンの画像がキャプチャされる(202)。画像は、そうでなければ深さ情報を提供しないカメラによってキャプチャされるビデオのフレームまたは個々の画像でもよい。画像は、シーンにアタッチしていない前景オブジェクトを含み、すなわち、前景オブジェクトは、シーンに対して移動可能である。例として、前景オブジェクトは、ユーザの指、ポインタ、または他のオブジェクトでもよい。前景オブジェクトは、本明細書で使用する際、前景オブジェクトの異なる物理的様相(distinct physical aspect)である関心ポイントを含む。したがって、本明細書で使用する際、前景オブジェクトの関心ポイントは、たとえばSIFT(Scale Invariant Feature Transforms)、SURF(Speeded Up Robust Feature)などを使用するなど、技法を使用して画像から抽出される特徴とは対照的に、指またはポインタの先端、指の爪、または他のそのようなオブジェクトなど、前景オブジェクトの物理的な特徴または属性である。シーンは、環境に対するカメラのポーズを提供するために、既知のターゲットを含み得る。ターゲットは先験的に既知でもよく、すなわち、参照画像またはターゲットのモデルは既知で、記憶されていてもよく、または、ターゲットは、たとえばSimultaneous Localization and Mapping(SLAM)、または他の適切な技法を使用して、シーンの1つまたは複数のキャプチャされた画像に基づいてリアルタイムに学習されてもよい。追加または代替として、ポーズは、たとえば、センサーベースのトラッカを使用して決定され得る。

前景オブジェクトを含まないシーンの画像および参照画像の少なくとも一方が、画像および参照画像が、たとえばフロントビューなど、同じビューを有するようにワープされる(204)。参照画像は、シーンまたはシーンの一部のものであり、前景オブジェクトを含まず、したがって、シーンにおける背景である。たとえば、参照画像は、既知のターゲットのみの画像でもよく、または既知のターゲット、およびターゲットの周辺のエリアを含む画像でもよい。前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像が参照画像と比較される(206)。画像と参照画像との比較は、たとえばSIFT、SURFなどを使用して、ピクセルが抽出された特徴として検出され得る前景オブジェクトである画像の部分を識別する。必要な場合、必ずしもそうではないが、前景オブジェクトのマスクは、画像と参照画像との比較に基づいて生成され得、前景オブジェクトは、マスクを使用して、画像からセグメント化され得る。次いで、画像からセグメント化された前景オブジェクトを使用して、ピクセルが検出され得る。ピクセルを使用して前景オブジェクト上の関心ポイントが検出される(208)。例として、分類器を使用して、前景オブジェクト上の関心ポイントを検出することができる。分類器への入力は、たとえば、セグメント化された前景オブジェクトまたは前景マスクでもよく、この場合、分類器に供給されるトレーニングデータは、2つの上述したケースにおいて異なる。分類器を使用して前景オブジェクト上の関心ポイントを検出することに関して、前景オブジェクトにおける所定の幾何学的制約は必要とされない。次いで、関心ポイントは、任意の所望の用途において使用され得る。たとえば、画像がディスプレイ上に表示され(210)、関心ポイントに基づいてディスプレイで画像の上にオーグメンテーションがレンダリングされる(212)。たとえば、オーグメンテーションは、オーグメンテーションがディスプレイに表示される前景オブジェクトの下にあるかのように見えるようにレンダリングされ得る。さらに、その後キャプチャされた画像がディスプレイに表示され得、オーグメンテーションは、その後キャプチャされた画像における関心ポイントに基づいて変えられ得る。

図3Aは、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像を参照画像と比較するプロセスを示す(図2のステップ206)。図示のように、画像と参照画像との比較に基づいて、前景オブジェクトのためのマスクが生成される(222)。たとえば、ワープ後に各ピクセルの差を生成するために画像におけるピクセルを参照画像における対応するピクセルから減算し、各ピクセルの差を、マスクを生成するための閾値と比較することによって、マスクが生成され得る。代替として、ワープ後の画像および参照画像における対応するピクセルの比率が生成され得、対応するピクセルの比率がマスクを生成するための閾値と比較される。マスクを使用して、前景オブジェクトが画像からセグメント化され得(224)、画像からセグメント化された前景オブジェクトを使用してピクセルが検出され得る(226)。

図3Bは、マスクを生成し、前景オブジェクトをキャプチャされた画像からセグメント化する中間ステップなしで、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後に画像を参照画像と比較するプロセスの別の実施形態を示す(図2のステップ206)。図示のように、参照画像における対応するピクセルとは異なるキャプチャされた画像におけるピクセルを使用して、前景オブジェクト画像が生成される(225)。たとえば、ワープされた画像284と参照画像282との比較の間、異なるものとして検出された任意のピクセル、およびしたがって、前景オブジェクトにおいてピクセルの強度が、最初は黒色であり得る新しい画像の対応する位置にコピーされる。このようにして、前景ピクセルが前景画像にマッピングされる。前景オブジェクト上の関心ポイントに属するピクセルが検出され、たとえば、前景オブジェクト画像から抽出され得る。

図4は、例として、キャプチャされた画像および参照画像の少なくとも一方を、他方と同じビューを有するようにワープし(図2のステップ204)、ワープ後にキャプチャされた画像を参照画像と比較する(図2のステップ206)異なる手法を示す。図示のように、たとえば、初期化プロセスの間、参照画像が生成される(231)。前景オブジェクト112の存在なしに、ターゲット106の画像をキャプチャすることによって、初期化の期間で、参照画像が生成され得る。キャプチャされた画像に基づいて、ポーズが生成される(232)。ポーズは、たとえば、シーンが平面であるとき、キャプチャされた画像とターゲットの参照画像との間のホモグラフィを計算することによって生成され得る。よく知られているように、ポーズは、たとえばSIFT(スケール不変特徴変換)、SURF(Speeded Up Robust Feature)などを使用して、キャプチャされた画像から特徴を抽出し、キャプチャされた画像において抽出された特徴を、参照画像において同じように抽出された特徴と比較し、たとえば、キャプチャされた画像から抽出された特徴を参照画像にマッピングするためのホモグラフィを計算することによって決定され得る。

一実施形態では、キャプチャされた画像は、参照画像と同じビューを有するように、ポーズに基づいてワープされ(234)、すなわち、キャプチャされた画像がバックワープされる(backwarped)。この実施形態では、前景オブジェクトでなくターゲットを含む最初の画像と、既知のターゲット画像、すなわち、ターゲットについての記憶された参照画像との間のホモグラフィに基づいて初期化の期間にキャプチャされる画像をワープすることによって、参照画像が生成され得る(231)。参照画像がその後キャプチャされた画像と似た照明状態を有するように、初期化の期間にキャプチャされた画像を参照画像として使用することは、有利である。例として、図5Aは、テーブル104上のターゲット106、ならびにユーザの指112を含むキャプチャされた画像280を示す。図5Bは、たとえば、図4のステップ231で、初期化の期間に以前生成されたターゲット106の参照画像282を示す。わかるように、参照画像282は、フロントビューのターゲット106の画像である。必要な場合、参照画像282は、ターゲット106の周辺の追加のスペース、すなわちテーブル104を含むことができる。しかしながら、図5Aでわかるように、キャプチャされた画像280は、サイドビューから撮られている。したがって、キャプチャされた画像280は、結果として得られたワープした画像が、たとえばフロントビューなど、参照画像と同じビューを有するようにバックワープされる。キャプチャされた画像280のバックワープは、たとえば、キャプチャされた画像280と既知のターゲット画像との間のホモグラフィを決定し、キャプチャされた画像280をワープするためにホモグラフィを使用することによって実行され得る。したがって、参照画像282とキャプチャされた画像280の両方は、同じビューからのものである。図5Cは、例として、ワープ後のキャプチャされた画像280の一部を、ターゲット106およびターゲット106より上にあるユーザの指112の部分のみを含むワープされた画像284として示す。必要な場合、キャプチャされた画像280全体がワープされ得る。

図4において考察されるように、次いで、マスクを生成するために、参照画像がワープされた画像と比較される(236)。たとえば、ワープされた画像におけるピクセルが参照画像における対応するピクセルと比較され得、または、ピクセルのパッチが参照画像におけるピクセルの対応する部分と比較され得る。マスクを生成するために、閾値が結果とともに使用される。対応するピクセルを減算する、またはピクセルの比率を生成することによって、比較が実行され得る。ワープされた画像284および参照画像282のピクセル×ピクセル(またはパッチ×パッチ)の比較が、たとえば、YUVドメインにおいて実行され得る。強度チャネル(Y)は、破棄され得、彩度チャネル(UおよびV)は、個々に比較され得る。一実施形態では、図6にグラフィカルに示されるように、ピクセル×ピクセル(またはパッチ×パッチ)の比較は、参照画像282をワープされた画像284から減算することに基づき得る。ワープされた画像における任意のピクセル(またはパッチ)と参照画像における対応するピクセル(またはパッチ)との間の差が、UチャネルまたはVチャネルにおいて、閾値よりも大きい場合、参照画像における対応するピクセル(またはパッチ)とは異なる色を有するために、ワープされた画像におけるピクセル(またはパッチ)が決定され、したがって、ピクセル(またはパッチ)は、前景オブジェクト(たとえば、ユーザの指112)に属する。別の実施形態では、対応するピクセルを減算するのではなく、ワープ後に画像および参照画像における対応するピクセルについて、比率が生成され、対応するピクセルについての結果として生じる比率が、たとえば、マスクを生成するための閾値と比較され、この場合、比率が1を中心とする閾値の外にある場合、ピクセルは異なる色であると考えられる。

閾値は、固定でもよく、または、画像ごとに適応されてもよい。さらに、閾値は、同じでもよく、またはピクセル(またはパッチ)ごとに変わってもよい。一実装形態では、閾値は、2つの画像の間のピクセル的な差のパーセンタイルとして生成され得、たとえば、閾値は、差分値の90パーセンタイルでもよい。別の実装形態では、閾値は、各ブロックが同じ色であるように視覚的に見えるように、(彩度チャネルUおよびVにおける)色の範囲をN個のブロックに分割することによって決定され得、閾値は、単一ブロックの長さである。Nに使用される値は、UチャネルおよびVチャネルの範囲に基づき得、経験的に決定され得る。たとえば、UおよびVが0から1にわたる場合、範囲を20個のブロックに分割することは、0.05のブロック長を作り出し、これが閾値である。別の実装形態では、閾値は、初期化中に収集されたいくつかのフレームにわたる各ピクセルの色の平均および分散についての収集された統計に基づき得、この場合、たとえば、平均±2.5*標準偏差が、特定ピクセルの閾値として使用され得る。

図6に示したように、マスクを生成するために、キャプチャされた画像と参照画像との比較が使用され得る。たとえば、参照画像282とワープされた画像284との間の差が、生のマスク287をもたらす閾値と比較される。図6の矢印289で示されるように、生のマスク287は、たとえば、ガウスぼかしを使用してフィルタ処理され得る、または、たとえば拡大または浸食などの形態学的操作を受け、次いで、スムーズなマスク288を生成するために、閾値が続き得る。フィルタは、対応するピクセルを減算することとは対照的に、対応するピクセルの比率を使用して生成される生のマスクとともに使用され得る。

代替として、キャプチャされた画像と参照画像との比較は、マスクを生成し、キャプチャされた画像から前景オブジェクトをセグメント化する中間ステップなしにキャプチャされた画像における前景オブジェクトを識別するために使用され得る。たとえば、ワープされた画像284と参照画像282との比較の間、異なるものとして検出された任意のピクセル、およびしたがって、前景オブジェクトにおいて、ピクセルの強度は、最初は黒色であり得る新しい画像の対応する位置にコピーされる。このようにして、前景ピクセルは、マスクの使用なしに、図5Dに示される前景画像290にマッピングされる。

図4に示したように、キャプチャされた画像をバックワープする代わりに、参照画像は、ポーズに基づいてキャプチャされた画像と同じビューにワープされ得る(235)。この実施形態では、参照画像が、前景オブジェクトのないターゲットの最初の画像として生成される(231)。参照画像と既知のターゲット画像との間のホモグラフィおよび232からのポーズを使用して、参照画像をキャプチャされた画像と同じビューにワープする。キャプチャされた画像は、ブロック236に関して上記で説明したものと同様の方法でワープされた参照画像と比較され得る(237)。

図3Aで説明したように、マスクが生成される場合、マスクを使用して、前景オブジェクト上の関心ポイントに属するピクセルを検出する前にキャプチャされた画像から前景オブジェクトをセグメント化することができる(224)。例として、図4のブロック234および236で説明するように、マスクを生成するために、キャプチャされた画像がバックワープされ、背景、たとえば、ターゲット106を取り除くために、マスク288(図6)がワープされた画像284(図5C)に適用され得、それによって、図5Dの前景画像290によって示すように、前景オブジェクト、すなわち、指112のみが残る。同様に、図4のブロック235および237で説明するように、マスクを生成するために、参照画像がワープされ、背景、たとえば、ターゲット106を取り除くために、マスクがキャプチャされた画像に適用され、それによって、前景画像において、前景オブジェクト、すなわち、指112のみが残る。図3Bで説明したように、マスクが使用されない場合、ワープ後のキャプチャされた画像と参照画像との比較において異なる任意のピクセルの強度が、図5Dの前景画像290を生成するために新しい画像にマッピングされ得る。

次いで、前景オブジェクト上の関心ポイントに属するピクセルが検出され得る。たとえば、SIFT、SURF、または任意の他の適切な技法を使用して特徴を抽出することによって、ピクセルが検出され得る。キャプチャされた画像がバックワープされた場合(図4の234)、ピクセルは、たとえば、図5Dに示される前景画像290において検出され、ワープされた画像284にマッピングされ得る。図5Eは、例として、ワープされた画像284において指112上で検出される複数のピクセル291を示し、一方、背景、すなわちターゲット106は、検出されたピクセルを有していない。ワープされた画像284からのピクセルは、必要な場合、ホモグラフィに基づいてキャプチャされた画像に投影され得る。代替として、参照画像がワープされる場合(図4の235)、この実施形態では前景画像がワープされないので、ピクセルは、結果として生じる前景画像において検出され、キャプチャされた画像にマッピングされ得る。

上記で説明したように、ピクセルは、画像における前景オブジェクト上の関心ポイントを検出するために使用され得る(図2のステップ208)。すなわち、前景オブジェクトが特定の構成を有すると仮定すると、関心ポイントは、ピクセルおよび所定の幾何学的制約を使用して検出され得る。しかしながら、分類器を使用すると、関心ポイントは、所定の幾何学的制約なしにピクセルを使用して検出され得る。したがって、関心ポイント、たとえば、前景オブジェクト112の先端293を検出するために、図5Eのピクセル291の構成が分類器によって使用され得る。ワープされた画像284からの関心ポイントは、ホモグラフィに基づいてキャプチャされた画像に投影され得る。代替として、参照画像がワープされる場合(図4の235)、この実施形態では前景画像がワープされないので、関心ポイントは、結果として生じる前景画像において検出され、キャプチャされた画像にマッピングされ得る。

したがって、前景オブジェクト、および具体的には、前景オブジェクト上の関心ポイントがキャプチャされた画像において検出される。図5Bに示したように、参照画像282がターゲット106のみを含むとき、前景オブジェクトは、ターゲット106上で検出され得る。ターゲット106、たとえば、テーブル104周辺の追加のスペースを含むために、参照画像282が拡張される場合、前景オブジェクトは、ターゲット106外のエリア上で検出され得る。

キャプチャされた画像において前景オブジェクトが検出された状態で、キャプチャされた画像における前景オブジェクトに対して、オーグメンテーションがレンダリングされ得る。たとえば、オーグメンテーションは、図5Fに示したように、指112がディスク294を部分的に遮るなど、オーグメンテーションが前景オブジェクトの下にあるように見えるようにレンダリングされ得る。

キャプチャされた画像において前景オブジェクト112が検出された状態で、前景オブジェクトは、その後キャプチャされた画像において追跡され得る。前景オブジェクトは、たとえば、シーンのその後キャプチャされた画像および参照画像の少なくとも一方をワープし、前景オブジェクト上の関心ポイントに属するピクセルを検出するために、ワープ後にその後キャプチャされた画像を参照画像と比較し、その後キャプチャされた画像における検出されたピクセルを使用して前景オブジェクト上の関心ポイントを検出するなど、たとえば、その後キャプチャされた画像ごとにプロセスを繰り返すことによって、その後キャプチャされた画像において追跡され得る。代替または追加として、前景オブジェクトは、たとえば抽出された特徴など、その後キャプチャされた画像において関心ポイントの検出されたピクセルの動きを追跡するために、オプティカルフローなどのプロセスを使用して、その後キャプチャされた画像において追跡され得る。その後キャプチャされた画像は、モバイルデバイス100のディスプレイ101に表示され得、その間、ユーザがオーグメンテーションと相互作用し得るように見えるように、オーグメンテーションが追跡された前景オブジェクトに基づいてディスプレイにレンダリングされる。たとえば、図5Fに示したように、各キャプチャされた画像280において、画像292に示したように、オーグメンテーション、たとえば、ディスク294は、検出された指112の位置に基づいて生成され、表示され得る。したがって、オーグメンテーションは、追跡された前景オブジェクトがディスプレイにおけるオーグメンテーションと相互作用するように見えるようにレンダリングされ得る。

図7は、前景オブジェクトのマスクが生成され、画像から前景オブジェクトをセグメント化するために使用される、前景オブジェクトの検出をさらに詳述するシステム図を示す。わかるように、入力画像、すなわち、初期化画像およびその後キャプチャされた画像は、既知のターゲット画像304とともに、トラッカ302に提供される。上記で説明したように、トラッカは、入力画像および既知のターゲット画像304から特徴を抽出し、ポーズ、すなわち、入力画像と参照画像との間のホモグラフィを生成する。トラッカは、特定の既知のターゲット、たとえば長方形など、リアルタイムに取得され、学習されたターゲットを使用し得、または、SLAMまたはセンサーベースのトラッカに基づき得る。図示のように、背景推定器306は、トラッカ302によって生成されるホモグラフィを使用して参照画像を形成するために、既知のターゲット画像に基づいて、初期化の期間にキャプチャされる画像をワープする。入力画像、参照画像、および入力画像の現在のポーズは、前景マスク生成器308に提供される。前景マスク生成器308は、ワープされた入力画像が参照画像と同じビューからであるように、ポーズに基づいて入力画像をワープする。前景マスク生成器308は、ワープされた入力画像および参照画像における対応するピクセル間の差を閾値と比較して、前景マスクが生成され、これは、上記で説明したように、フィルタ処理され得る。結果として生じる前景マスクは、前景抽出器310に提供され得る。前景抽出器310は、前景マスクからのピクセルを使用して、検出器312に対して、セグメント化された前景オブジェクトを生成するために、入力画像から前景を抽出する。検出器312は、セグメント化された前景オブジェクトにおけるピクセルを検出し、たとえば、特徴を抽出し、ピクセルに基づいて前景オブジェクト上の関心ポイントを検出する。検出器312は、前景オブジェクト上の関心ポイントを検出するために、たとえばRandom Forest分類器などの分類器を含み得る。分類器の一般の動作は、当技術分野ではよく理解されている。必要な場合、オブジェクトの幾何学的形状がわかっている場合、前景マスク生成器308からの前景マスクが直接検出器312によって使用されて前景オブジェクトが検出されるようにしてもよい。たとえば、前景マスクから指の
シルエットが与えられると、検出器312は、たとえば、この目的のために訓練される分類器を使用することによって、指の位置を決定することができる。

シーンの変化がある場合、参照画像を更新することは望ましい場合がある。たとえば、参照画像が初期化された後、鉛筆がターゲット106に配置される場合、鉛筆は、前景オブジェクトとして検出される。シーンの変化は、たとえば、いくつかのフレームにわたって前景マスクに現れる一致した静止領域を検出することによって検出され得る。

さらに、現在の照明状態でのターゲットの外観における変化は、最初の数個のカメラフレームをバックワープし、そこから統計を生成することによって学習することもできる。これはまた、トラッカ302(図7)によって戻されるポーズにおけるエラーをシステムがあまり被らないようにする。たとえば、前景マスク生成器308によって遭遇され得る問題の可能な原因は、トラッカ302によって戻されるポーズが、わずかに、たとえば、数ピクセル離れることであり、これによって、誤ったピクセルが、ワープされた現在の画像および参照画像において比較されることになる。エラーの別の原因は、入力画像のピクセルを近隣とぼやけさせてしまう恐れがある被写体ぶれ(または手ぶれ)であり、したがって、現在の画像におけるぼやけたピクセルと参照画像における対応するピクセルとの間の差が誇張される。前景マスクを生成するための閾値として、初期化の期間に学習された各ピクセルの外観(たとえば、色)の平均および偏差などの統計を使用することによって、モーションブラーおよびポーズエラーによって生じるエラーは、最低限に抑えられ得る。

複数の画像にわたって前景オブジェクトを追跡することは、ユーザの意図されたアクションを識別するために使用され得、したがって、ユーザは、オーグメンテーションと相互作用する、または他の所望のアクションを実行することができる。たとえば、図8に示したように、その後キャプチャされた画像において、前景オブジェクトの関心ポイントが追跡される(402)。必要な場合、たとえばユーザの指先など、1つまたは複数の前景オブジェクトが一連の画像、たとえば、ビデオストリームにおいて追跡され得る。追跡されたオブジェクトの動きを使用して、たとえばある時間期間にわたって前景オブジェクトの動きによって生成される時間的ジェスチャなどのジェスチャを決定することができる(404)。たとえば、追跡された前景オブジェクトの動きのパターンは、どのジェスチャが実行されているかを決定するために、以前提供され、および/または学習され、モバイルデバイス100に記憶され得る、ジェスチャのデータベースと比較され得る。さらに、前景オブジェクトの構成は、ジェスチャのライブラリに記憶され得、たとえば、検出された前景オブジェクトと比較され得るピンチジェスチャは、単一のフレームにおけるジェスチャ、すなわち、非時間的ジェスチャを検出するために比較され得る。次いで、ジェスチャと関連するアクションが実行され得る(406)。アクションは、オーグメンテーションとの相互作用に関連し得る、または、モバイルデバイスの制御に関連し得る。たとえば、決定されたジェスチャを使用して、たとえば拡大もしくは縮小、減光もしくは増光など、表示を変える、または曲もしくはビデオの早送りもしくは巻き戻しなど、アプリケーションを制御することができる。したがって、前景オブジェクト上の検出された関心ポイントを使用して、任意の所望の用途で使用され得る。さらに、オーグメンテーションは、ユーザによって操作され得る入力デバイスでもよい。図9は、たとえば、図1と類似しているが、オーグメンテーションをキーボード108aとして示しており、この場合、ユーザの指先は、ユーザのタイピングを決定するために追跡され得る。仮想ボタンによって従来必要とされるターゲットの特別に設計されたエリアの遮断によって決定されることとは対照的に、ユーザのタイピングが、位置から、および必要に応じて、ユーザの指先の動きから決定されるので、キーボード108aが従来の仮想ボタンとは異なることに留意されたい。さらに、キーボードよりはむしろ、ユーザインターフェースは、他のタイプの選択デバイスでもよい。一実施形態では、ターゲット106上にレンダリングされるオーグメンテーションは、ターゲット106に投影されるモバイルデバイス100からの表示でもよい。たとえば、表示されたインターフェースと相互作用するためにレンダリングされたオーグメンテーションに対してユーザの指または他のオブジェクトが追跡される間に、ウェブブラウザウィンドウまたは他のディスプレイインターフェースはワープされ、ディスプレイ101のターゲット106上に現れるように投影され得る。

図10は、撮像されたシーンにおいて前景オブジェクトを検出することができるモバイルデバイス100のブロック図である。モバイルデバイス100は、シーンが撮像されるカメラ110を含む。モバイルデバイス100は、たとえば、ディスプレイ101、ならびにキーパッドまたはユーザが情報をモバイルデバイス100に入力することのできる他の入力デバイスを含む、ユーザインターフェース103をさらに含む。モバイルデバイス100は、たとえば動きセンサー114など、追加の要素を含むことができ、それは、たとえば、加速度計、ジャイロスコープ、磁力計などを含み得、よく知られているように、モバイルデバイス100のポーズ決定を支援するために使用され得る。たとえばユーザインターフェース103におけるマイクロフォンおよびスピーカー、ワイヤレスインターフェースなど、本開示とは無関係である追加の要素もモバイルデバイス100に含まれ得る。

モバイルデバイス100は、カメラ110およびディスプレイ101に接続され、カメラ110およびディスプレイ101と通信する制御ユニット105、ならびに、使用する場合、動きセンサー114など他の要素も含む。制御ユニット105は、本明細書で説明するようにカメラ110から得られるデータを受け取り、処理し、ディスプレイ101がレンダリングされたオーグメンテーションを表示するようにする。制御ユニット105は、バス105b、プロセッサ105pおよび関連するメモリ105m、ハードウェア105h、ファームウェア105f、ならびにソフトウェア105sによって提供され得る。制御ユニット105は、ターゲット106を含み得る、撮像されたシーンに対して、モバイルデバイス100のポーズ、または、より詳細には、カメラ110を追跡するトラッカ302を含むものとして、さらに示される。制御ユニット105は、たとえば、トラッカ302によって生成されるポーズに基づいて参照画像に前景オブジェクトのない最初の画像をワープすることによって、参照画像を生成するために使用され得る背景推定器306をさらに含み得る。制御ユニット105における前景マスク生成器308は、前景オブジェクトのためのマスクを生成するために、参照画像を現在画像と比較する。オブジェクトの幾何学的形状がまだわかっていない場合、前景抽出器310は、たとえば、マスクに基づいて、現在画像から前景オブジェクトをセグメント化するために使用され得る。検出器312は、前景オブジェクト上の関心ポイントに属するピクセルを検出するための抽出器312e、およびキャプチャされた画像にわたってディスプレイ101に示されるオーグメンテーションを生成するためにレンダリングモジュール314が使用される間に、ピクセルを使用して関心ポイントを検出するための分類器312cを含み得る。

様々なモジュール302、306、308、310、312、および314は、明確にするために互いに別に、およびプロセッサ105pとは別に示されているが、プロセッサ105pの一部であるか、またはプロセッサ105p内で実行されるソフトウェア105s内の命令に基づいてプロセッサ内に実装され得る。本明細書で使用する場合、プロセッサ105pは、1つまたは複数のマイクロプロセッサ、埋め込み式プロセッサ、コントローラ、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)などを含み得るが、必ずしもそれらを含む必要がないことが理解されよう。プロセッサという用語は、特定のハードウェアではなく、システムによって実施される機能について説明するものである。さらに、本明細書で使用する場合、「メモリ」という用語は、モバイルデバイスに関連する長期メモリ、短期メモリ、または他のメモリを含む、任意のタイプのコンピュータ記憶媒体を指し、任意の特定のタイプのメモリもしくは任意の特定の数のメモリ、またはメモリが記憶される媒体のタイプに限定されない。

本明細書に記載された方法論は、アプリケーションに依存する様々な手段によって実施され得る。たとえば、これらの方法は、ハードウェア105h、ファームウェア105f、ソフトウェア105s、またはそれらの任意の組合せで実装され得る。ハードウェア実装形態の場合、各処理ユニットは、本明細書に記載された機能を実行するように設計された、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、他の電子ユニット、あるいはそれらの組合せ内で実装されてもよい。

ファームウェアおよび/またはソフトウェア実装形態の場合、これらの方法論は、本明細書に記載された機能を実行するモジュール(たとえば、手順、機能等)で実施され得る。命令を有形に具現化するいずれの機械可読媒体も、本明細書で説明する方法を実装する際に使用され得る。たとえば、ソフトウェアコードは、メモリ105m内に記憶され、プロセッサ105pによって実行され得る。メモリ105mは、プロセッサ105p内に実装されるか、またはプロセッサ105pの外部に実装され得る。機能は、ファームウェアおよび/またはソフトウェアに実装される場合、コンピュータ可読である記憶媒体上に1つまたは複数の命令またはコードとして記憶され得、その記憶媒体は、過渡的な伝播信号を含まない。例としては、データ構造を用いて符号化された記憶媒体、およびコンピュータプログラムを用いて符号化されたストレージがある。記憶媒体としては、物理的なコンピュータ記憶媒体がある。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく、例として、そのような記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気記憶デバイス、または所望のプログラムコードを命令もしくはデータ構造の形で記憶するのに使用することができ、かつコンピュータからアクセスすることができる任意の他の媒体を含むことができ、本明細書で使用するディスク(diskおよびdisc)には、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびブルーレイディスク(disc)が含まれ、ディスク(disk)は通常、データを磁気的に再生するが、ディスク(disc)はデータをレーザによって光学的に再生する。上記の組合せも、記憶媒体の範囲内に含めるべきである。

したがって、モバイルデバイス100は、シーンにアタッチしていない前景オブジェクトを含むシーンの画像をキャプチャするための手段であり、前景オブジェクトが、異なる物理的様相である関心ポイントを含む、手段を含み、これは、たとえばカメラ110とすることができる。前景オブジェクトを含まないシーンの画像および参照画像の少なくとも一方を、画像および参照画像が同じビューを有するようにワープするための手段は、たとえば、トラッカ302、背景推定器306、および前景マスク生成器308、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。前景オブジェクト上の関心ポイントに属するピクセルを検出するためにワープ後に画像を参照画像と比較するための手段は、たとえば、前景マスク生成器308、前景抽出器310、および検出器312、ならびにより詳細には、抽出器312e、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。検出されたピクセルを使用して前景オブジェクト上の関心ポイントを検出するための手段は、たとえば、検出器312、およびより詳細には、分類器、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。画像をディスプレイに表示するための手段は、たとえば、ディスプレイ101でもよい。関心ポイントに基づいて、ディスプレイで画像の上にオーグメンテーションをレンダリングするための手段は、たとえば、レンダリングモジュール314、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。

マスクを使用して画像から前景オブジェクトをセグメント化するための手段は、たとえば、前景抽出器310、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。画像から前景オブジェクトを抽出するための手段は、たとえば、前景抽出器310、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。画像および参照画像の少なくとも一方をワープするための手段は、たとえば、トラッカ302、あるいはソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい、画像と参照画像との間のポーズを生成するための手段と、たとえば、背景推定器306、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい、ポーズに基づいて、画像および参照画像の一方をワープするための手段とを含み得る。モバイルデバイス100は、その後キャプチャされた画像を、たとえばディスプレイ101でもよいディスプレイに表示するための手段を含み得る。その後キャプチャされた画像における関心ポイントに基づいて、オーグメンテーションを変えるための手段は、たとえば、レンダリングモジュール314、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。モバイルデバイス100は、その後キャプチャされた画像における前景オブジェクト上の関心ポイントを追跡するための手段をさらに含むことができ、これは、トラッカ302、背景推定器306、前景マスク生成器308、前景抽出器310、および検出器312、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。前景オブジェクト上の関心ポイントの動きに基づいて時間的ジェスチャを検出するために手段は、たとえば、ハードウェア105h、ファームウェア105f、あるいはソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよく、時間的ジェスチャと関連したアクションを実行するための手段は、たとえば、ハードウェア105h、ファームウェア105f、あるいは、ソフトウェア105sから受信された命令を実行するハードウェア105h、ファームウェア105f、またはプロセッサ105pでもよい。

教授の目的で本発明を特定の実施形態に関連して示したが、本発明はそれらの実施形態に限定されない。本発明の範囲から逸脱することなく様々な適応および変更を行うことができる。したがって、添付の特許請求の範囲における趣旨および範囲は、上記の説明に限定されるべきではない。

100 モバイルデバイス
101 ディスプレイ
102 シーン
103 ユーザインターフェース
104 テーブル
105 制御ユニット
105f ファームウェア
105h ハードウェア
105m メモリ
105p プロセッサ
105s ソフトウェア
106 ターゲット
108 オーグメンテーション
108a キーボード
110 カメラ
111 ユーザ
112 指
112 前景オブジェクト
114 動きセンサー
280 キャプチャされた画像
282 参照画像
284 ワープされた画像
287 生のマスク
288 マスク
290 前景画像
291 ピクセル
293 先端
294 ディスク
302 トラッカ
304 既知のターゲット画像
306 背景推定器
308 前景マスク生成器
310 前景抽出器
312 検出器
312c 分類器
312e 抽出器
314 レンダリングモジュール

Claims

シーンにアタッチしていない前景オブジェクトを含む前記シーンの画像をキャプチャするステップであって、前記前景オブジェクトが、異なる物理的様相である関心ポイントを含む、ステップと、
前記前景オブジェクトを含まない前記シーンの前記画像および参照画像の少なくとも一方を、前記画像および前記参照画像が同じビューを有するようにワープするステップと、
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較するステップと、
前記検出されたピクセルを使用して前記前景オブジェクト上の前記関心ポイントを検出するステップと、
前記画像をディスプレイに表示するステップと、
前記関心ポイントに基づいて、前記ディスプレイで前記画像の上にオーグメンテーションをレンダリングするステップと
を含む方法。
前記シーンにアタッチしていない前記前景オブジェクトが、ユーザの少なくとも1つの指であり、前記関心ポイントが前記指の先端である、請求項1に記載の方法。
前記前景オブジェクト上の前記関心ポイントを検出するステップが、前記前景オブジェクトにおける所定の幾何学的制約なしに実行される、請求項1に記載の方法。
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較するステップが、
前記前景オブジェクトのためのマスクを生成するステップと、
前記マスクを使用して前記画像から前記前景オブジェクトをセグメント化するステップと、
前記画像からセグメント化された前記前景オブジェクトを使用して、前記ピクセルを検出するステップと
を含む、請求項1に記載の方法。
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較するステップが、
前記参照画像における対応するピクセルとは異なる前記画像におけるピクセルを使用して、前景オブジェクト画像を生成するステップと、
前記前景オブジェクト画像における前記前景オブジェクト上の前記関心ポイントに属する前記ピクセルを検出するステップと
を含む、請求項1に記載の方法。
ワープ後に前記画像を前記参照画像と比較するステップが、
ワープ後に各ピクセルの差を生成するために、前記参照画像における対応するピクセルから前記画像におけるピクセルを減算するステップと、
各ピクセルの前記差を閾値と比較するステップと
を含む、請求項1に記載の方法。
ワープ後に前記画像を前記参照画像と比較するステップが、
ワープ後に前記画像および前記参照画像における対応するピクセルについての比率を生成するステップと、
対応するピクセルについての前記比率を閾値と比較するステップと
を含む、請求項1に記載の方法。
前記画像および前記参照画像の少なくとも一方をワープするステップが、
前記画像と前記参照画像との間のポーズを生成するステップと、
前記ポーズに基づいて前記画像および前記参照画像の一方をワープするステップと
を含む、請求項1に記載の方法。
その後キャプチャされた画像を前記ディスプレイに表示するステップと、
前記その後キャプチャされた画像における前記関心ポイントに基づいて前記オーグメンテーションを変えるステップと
をさらに含む、請求項1に記載の方法。
前記ディスプレイに前記オーグメンテーションをレンダリングするステップが、前記オーグメンテーションが前記ディスプレイに表示される前記前景オブジェクトの下にあるかのように見えるように前記オーグメンテーションをレンダリングするステップを含む、請求項1に記載の方法。
前記シーンが、関心ポイントを有する複数の前景オブジェクトを含み、前記方法が、
ワープ後に前記画像を前記参照画像と比較することによって前記複数の前景オブジェクト上の前記関心ポイントに属するピクセルを検出するステップと、
前記検出されたピクセルを使用して前記複数の前景オブジェクト上の前記関心ポイントを検出するステップと
をさらに含む、請求項1に記載の方法。
その後キャプチャされた画像における前記前景オブジェクト上の前記関心ポイントを追跡するステップと、
前記前景オブジェクト上の前記関心ポイントの動きに基づいて時間的ジェスチャを検出するステップと、
前記時間的ジェスチャと関連したアクションを実行するステップと
をさらに含む、請求項1に記載の方法。
前記前景オブジェクト上の前記関心ポイントの構成をジェスチャ構成のライブラリと比較するステップと、
前記前景オブジェクト上の前記関心ポイントの前記構成からジェスチャを識別するステップと、
前記ジェスチャと関連したアクションを実行するステップと
をさらに含む、請求項1に記載の方法。
前記画像が、深さ情報なしでカメラを使用してキャプチャされる、請求項1に記載の方法。
その後キャプチャされた画像における前記前景オブジェクトを追跡するステップであって、
その後キャプチャされた画像ごとに、前記シーンの前記その後キャプチャされた画像および前記参照画像の少なくとも一方をワープするステップと、
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記その後キャプチャされた画像を前記参照画像と比較するステップと、
前記その後キャプチャされた画像における前記検出されたピクセルを使用して前記前景オブジェクト上の前記関心ポイントを検出するステップと
を含む、ステップをさらに含む、請求項1に記載の方法。
前記関心ポイントに属する前記ピクセルに関して、オプティカルフローを使用して、その後キャプチャされた画像における前記前景オブジェクトを追跡するステップをさらに含む、請求項1に記載の方法。
カメラと、
ディスプレイと、
前記ディスプレイに結合され、シーンにアタッチしていない前景オブジェクトを含む前記シーンの画像を受信するために前記カメラに結合されたプロセッサとを含み、前記前景オブジェクトが、異なる物理的様相である関心ポイントを含み、前記プロセッサが、前記前景オブジェクトを含まない前記シーンの前記画像および参照画像の少なくとも一方を、前記画像および前記参照画像が同じビューを有するようにワープし、前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較し、前記検出されたピクセルを使用して前記前景オブジェクト上の前記関心ポイントを検出し、前記画像を前記ディスプレイに表示し、前記関心ポイントに基づいて、前記ディスプレイで前記画像の上にオーグメンテーションをレンダリングするように構成される、装置。
前記シーンにアタッチしていない前記前景オブジェクトが、ユーザの少なくとも1つの指であり、前記関心ポイントが前記指の先端である、請求項17に記載の装置。
前記プロセッサが、前記前景オブジェクトにおける所定の幾何学的制約なしに前記前景オブジェクト上の前記関心ポイントを検出するように構成される、請求項17に記載の装置。
前記プロセッサが、
前記前景オブジェクトのためのマスクを生成し、
前記マスクを使用して前記画像から前記前景オブジェクトをセグメント化し、
前記画像からセグメント化された前記前景オブジェクトを使用して、ピクセルを検出する
ように構成されることによって、前記前景オブジェクト上の前記関心ポイントに属する前記ピクセルを検出するために、ワープ後に前記参照画像を比較するように構成される、請求項17に記載の装置。
前記プロセッサが、
前記参照画像における対応するピクセルとは異なる前記画像におけるピクセルを使用して、前景オブジェクト画像を生成し、
前記前景オブジェクト画像における前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出する
ように構成されることによって、前記前景オブジェクト上の前記関心ポイントに属する前記ピクセルを検出するために、ワープ後に前記参照画像を比較するように構成される、請求項17に記載の装置。
前記プロセッサが、ワープ後に各ピクセルの差を生成するために前記画像におけるピクセルを前記参照画像における対応するピクセルから減算し、各ピクセルの前記差を閾値と比較するように構成されることによって、ワープ後に前記画像を前記参照画像と比較するように構成される、請求項17に記載の装置。
前記プロセッサが、ワープ後の前記画像および前記参照画像における対応するピクセルの比率を生成し、対応するピクセルについての前記比率を閾値と比較するように構成されることによって、ワープ後に前記画像を前記参照画像と比較するように構成される、請求項17に記載の装置。
前記プロセッサが、前記画像と前記参照画像との間のポーズを生成し、前記ポーズに基づいて前記画像および前記参照画像の一方をワープするように構成されることによって、前記画像および前記参照画像の前記少なくとも一方をワープするように構成される、請求項17に記載の装置。
前記プロセッサが、その後キャプチャされた画像を前記ディスプレイに表示させ、前記その後キャプチャされた画像における前記関心ポイントに基づいて前記オーグメンテーションを変えるようにさらに構成される、請求項17に記載の装置。
前記プロセッサが、前記オーグメンテーションが前記ディスプレイに表示される前記前景オブジェクトの下にあるかのように見えるように前記オーグメンテーションをレンダリングするように構成されることによって、前記ディスプレイに前記オーグメンテーションをレンダリングするように構成される、請求項17に記載の装置。
前記シーンが、関心ポイントを有する複数の前景オブジェクトを含み、前記プロセッサが、
ワープ後に前記画像を前記参照画像と比較することによって前記複数の前景オブジェクト上の前記関心ポイントに属するピクセルを検出し、
前記検出されたピクセルを使用して前記複数の前景オブジェクト上の前記関心ポイントを検出する
ようにさらに構成される、請求項17に記載の装置。
前記プロセッサが、
その後キャプチャされた画像における前記前景オブジェクト上の前記関心ポイントを追跡し、
前記前景オブジェクト上の前記関心ポイントの動きに基づいて時間的ジェスチャを検出し、
前記時間的ジェスチャと関連したアクションを実行する
ようにさらに構成される、請求項17に記載の装置。
前記プロセッサが、
前記前景オブジェクト上の前記関心ポイントの構成をジェスチャ構成のライブラリと比較し、
前記前景オブジェクト上の前記関心ポイントの前記構成からジェスチャを識別し、
前記ジェスチャと関連したアクションを実行する
ようにさらに構成される、請求項17に記載の装置。
前記カメラが、深さ情報を提供しない、請求項17に記載の装置。
前記プロセッサが、
その後キャプチャされた画像ごとに、前記シーンの前記その後キャプチャされた画像および前記参照画像の少なくとも一方をワープし、
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記その後キャプチャされた画像を前記参照画像と比較し、
前記その後キャプチャされた画像における前記検出されたピクセルを使用して前記前景オブジェクト上の前記関心ポイントを検出する
ように構成されることによって、その後キャプチャされた画像における前記前景オブジェクトを追跡するように構成される、請求項17に記載の装置。
前記プロセッサが、前記関心ポイントに属する前記ピクセルに関して、オプティカルフローを使用するように構成されることによって、その後キャプチャされた画像における前記前景オブジェクトを追跡するように構成される、請求項17に記載の装置。
シーンにアタッチしていない前景オブジェクトを含む前記シーンの画像をキャプチャするための手段であって、前記前景オブジェクトが、異なる物理的様相である関心ポイントを含む、手段と、
前記前景オブジェクトを含まない前記シーンの前記画像および参照画像の少なくとも一方を、前記画像および前記参照画像が同じビューを有するようにワープするための手段と、
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較するための手段と、
前記検出されたピクセルを使用して前記前景オブジェクト上の前記関心ポイントを検出するための手段と、
前記画像をディスプレイに表示するための手段と、
前記関心ポイントに基づいて、前記ディスプレイで前記画像の上にオーグメンテーションをレンダリングするための手段と
を含む装置。
前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較することが、前景オブジェクトのためのマスクを生成し、前記装置が、前記マスクを使用して前記画像から前記前景オブジェクトをセグメント化するための手段をさらに含む、請求項33に記載の装置。
前記画像から前記前景オブジェクトを抽出するための手段をさらに含む、請求項33に記載の装置。
前記画像および前記参照画像の少なくとも一方をワープするための手段が、
前記画像と前記参照画像との間のポーズを生成するための手段と、
前記ポーズに基づいて前記画像および前記参照画像の一方をワープするための手段と
を含む、請求項33に記載の装置。
ワープ後に前記画像を前記参照画像と比較するための前記手段が、ワープ後に各ピクセルの差を生成するために、前記画像におけるピクセルを前記参照画像における対応するピクセルから減算し、各ピクセルの前記差を閾値と比較する、請求項33に記載の装置。
ワープ後に前記画像を前記参照画像と前記比較することが、ワープ後に前記画像および前記参照画像における対応するピクセルについての比率を生成し、対応するピクセルについての前記比率を閾値と比較する、請求項33に記載の装置。
その後キャプチャされた画像を前記ディスプレイに表示するための手段と、
前記その後キャプチャされた画像における前記関心ポイントに基づいて前記オーグメンテーションを変えるための手段と
をさらに含む、請求項33に記載の装置。
その後キャプチャされた画像における前記前景オブジェクト上の前記関心ポイントを追跡するための手段と、
前記前景オブジェクト上の前記関心ポイントの動きに基づいて時間的ジェスチャを検出するための手段と、
前記時間的ジェスチャと関連したアクションを実行するための手段と
をさらに含む、請求項33に記載の装置。
プログラムコードが記憶された記憶媒体であって、
シーンにアタッチしていない前景オブジェクトを含む前記シーンの画像を受信するためのプログラムコードであって、前記前景オブジェクトが、異なる物理的様相である関心ポイントを含む、プログラムコードと、
前記前景オブジェクトを含まない前記シーンの前記画像および参照画像の少なくとも一方を、前記画像および前記参照画像が同じビューを有するようにワープするためのプログラムコードと、
前記前景オブジェクト上の前記関心ポイントに属するピクセルを検出するために、ワープ後に前記画像を前記参照画像と比較するためのプログラムコードと、
前記検出されたピクセルを使用して前記前景オブジェクト上の前記関心ポイントを検出するためのプログラムコードと、
前記画像をディスプレイに表示するためのプログラムコードと、
前記関心ポイントに基づいて、前記ディスプレイで前記画像の上にオーグメンテーションをレンダリングするためのプログラムコードと
を含む記憶媒体。
前記画像から前記前景オブジェクトを抽出するためのプログラムコードをさらに含む、請求項41に記載の記憶媒体。
前記画像および前記参照画像の少なくとも一方をワープするための前記プログラムコードが、
前記画像と前記参照画像との間のポーズを生成するためのプログラムコードと、
前記ポーズに基づいて前記画像および前記参照画像の一方をワープするためのプログラムコードと
を含む、請求項41に記載の記憶媒体。
ワープ後に前記画像を前記参照画像と比較するための前記プログラムコードが、
ワープ後に各ピクセルの差を生成するために、前記参照画像における対応するピクセルから前記画像におけるピクセルを減算するためのプログラムコードと、
各ピクセルの前記差を閾値と比較するためのプログラムコードと
を含む、請求項41に記載の記憶媒体。
ワープ後に前記画像を前記参照画像と比較するための前記プログラムコードが、
ワープ後に前記画像および前記参照画像における対応するピクセルについての比率を生成するためのプログラムコードと、
対応するピクセルについての前記比率を閾値と比較するためのプログラムコードと
を含む、請求項41に記載の記憶媒体。
その後キャプチャされた画像を表示するためのプログラムコードと、
前記その後キャプチャされた画像における前記関心ポイントに基づいて前記オーグメンテーションを変えるためのプログラムコードと
をさらに含む、請求項41に記載の記憶媒体。
その後キャプチャされた画像における前記前景オブジェクト上の前記関心ポイントを追跡するためのプログラムコードと、
前記前景オブジェクト上の前記関心ポイントの動きに基づいて時間的ジェスチャを検出するためのプログラムコードと、
前記時間的ジェスチャと関連したアクションを実行するためのプログラムコードと
をさらに含む、請求項41に記載の記憶媒体。