JP2015510629A

JP2015510629A - 音分析および幾何解析を用いた拡張現実

Info

Publication number: JP2015510629A
Application number: JP2014552191A
Authority: JP
Inventors: ユ、キスン; キム、テス; ホワン、キュウォン; ジン、ミンホ; チョ、ヒュン−モク; リ、テ−ウォン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-12
Filing date: 2012-11-21
Publication date: 2015-04-09
Anticipated expiration: 2032-11-21
Also published as: WO2013106133A1; KR20140117369A; EP2802962A1; US20130182858A1; IN2014CN04458A; CN104054039A; CN104054039B; JP5996669B2; KR102078427B1; US9563265B2

Abstract

モバイルデバイスの拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するための方法が開示される。モバイルデバイスはターゲットを検出する。ＡＲアプリケーションにおいて仮想オブジェクトを起動する。さらに、モバイルデバイスの少なくとも１つの音センサーが、音源から外部音を受信する。音源とターゲットとの間の幾何学的情報を判断し、幾何学的情報に基づいて、ＡＲアプリケーションにおいて仮想オブジェクトが実行すべき少なくとも１つの応答を生成する。

Description

関連出願の相互参照
本出願は、その内容全体が参照により本明細書に組み込まれる、２０１２年８月１５日に出願された米国出願第１３／５８５，９２７号、および２０１２年１月１２日に出願された米国仮特許出願第６１／５８５，９４５号に基づくものであり、その優先権の利益を主張する。

本開示は、一般に、モバイルデバイスにおいて拡張現実（augmented reality）を実現することに関する。より詳細には、本開示は、外部音に基づいて、モバイルデバイスの拡張現実環境において仮想オブジェクトについての応答を生成することに関する。

最近、携帯性および機能性におけるモバイルデバイスの利便性により、モバイルデバイスの使用が大幅に増加した。同時に、モバイルデバイスの使用の普及とともに、エンターテインメントアプリケーションおよび現実アプリケーションに対する消費者の需要が増加した。エンターテインメントアプリケーションおよび現実アプリケーションを提供するために、いくつかのモバイルデバイスは拡張現実技術を提供する。

拡張現実（「ＡＲ」）は、現実世界環境をデジタル情報とマージすることを目的とする仮想現実のタイプである。仮想空間において仮想オブジェクトを提供する典型的な仮想現実とは異なり、拡張現実システムが、ユーザによって見られる現実世界画像とコンピュータ生成画像とを組み合わせた複合ビューを生成して、追加情報で現実世界画像を拡張する。

視覚的拡張現実を提供することに加えて、いくつかのＡＲ環境が、モバイルデバイスの外部音を認識する能力を提供してきた。しかしながら、そのようなＡＲ環境は、一般に外部音環境を適切に反映していない。したがって、これらのＡＲ環境は十分なレベルの現実をユーザに提供しないことがある。たとえば、従来のＡＲ環境では、すべての外部音がモバイルデバイスから発生するかのように、ＡＲオブジェクトが反応するだけであり得る。したがって、そのようなＡＲアプリケーションは満足な拡張現実エクスペリエンスをユーザに提供していない。

本開示は、モバイルデバイスの拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するための方法および装置を提供する。これらの方法および装置では、受信された外部音に基づいて、モバイルデバイスとターゲットと外部音の音源との間の幾何学的情報を判断する。次いで、幾何学的情報に基づいて、ＡＲアプリケーションのＡＲ環境において仮想オブジェクトが実行すべき応答を生成する。

本開示の一態様によれば、モバイルデバイスの拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するための方法が開示される。本方法は、ターゲットを検出することを含む。ＡＲアプリケーションにおいて仮想オブジェクトを起動する。さらに、モバイルデバイスの少なくとも１つの音センサーが、音源から外部音を受信する。音源とターゲットとの間の第１の幾何学的情報を判断し、第１の幾何学的情報に基づいて、ＡＲアプリケーションにおいて仮想オブジェクトが実行すべき少なくとも１つの応答を生成する。本開示では、本方法に関係するデバイス、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本開示の別の態様によれば、拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するためのデバイスが開示される。本デバイスはセンサーと制御ユニットとを含む。画像センサーと少なくとも１つの音センサーとを含むセンサーは、ターゲットを含む画像と、１つの音源からの外部音とを受信するように構成される。制御ユニットは、ターゲットオブジェクト検出器と、アプリケーション起動ユニットと、幾何学的情報計算ユニットと、ＡＲ応答生成器とを含む。ターゲットオブジェクト検出器は、画像中のターゲットを検出するように構成される。アプリケーション起動ユニットは、検出されたターゲットに応答して、ＡＲアプリケーションにおいて仮想オブジェクトを起動するように構成される。幾何学的情報計算ユニットは、１つの音源とターゲットとの間の第１の幾何学的情報を判断するように構成される。また、第１の幾何学的情報に基づいて、ＡＲアプリケーションにおいて仮想オブジェクトが実行すべき少なくとも１つの応答がＡＲ応答生成器によって生成される。

本開示の発明的態様の実施形態は、以下の発明を実施するための形態を参照し、添付の図面とともに読めば理解されよう。

本開示の一実施形態による、拡張現実（ＡＲ）アプリケーションがモバイルデバイスにおいて実行される現実世界環境の図。本開示の一実施形態による、モバイルデバイスにおいて拡張現実環境を見る図。本開示の一実施形態による、モバイルデバイスにおいて拡張現実環境を終了する図。本開示の一実施形態による、音源からの外部音に応答する仮想オブジェクトの図。本開示の一実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイスのブロック図。本開示の一実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイスの制御ユニットのブロック図。本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成するための方法を示すフローチャート。本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成することを示す図。本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成することを示す図。本開示の一実施形態による、ターゲットと音源とモバイルデバイスとの間の幾何学的関係を判断することを示す図。本開示の一実施形態による、ターゲットと音源とモバイルデバイスとの間の幾何学的関係を判断することを示す図。本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答を生成することを示す図。本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答を生成することを示す図。本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答を生成することを示す図。本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答を生成することを示す図。本開示の一実施形態による、ＡＲ環境において、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成するための方法を示すフローチャート。本開示の別の実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイスの制御ユニットを示すブロック図。本開示の一実施形態による、外部音について異なる音源を識別し、複数の音の各々に関連する仮想オブジェクトについての応答を生成するための方法を示すフローチャート。本開示の一実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答の順序を生成することを示す図。本開示の一実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答の順序を生成することを示す図。本開示の別の実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクトによって実行されるべきＡＲ応答の順序を生成することを示す図。本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整することを示す図。本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整することを示す図。本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整するための方法を示すフローチャート。本開示のＡＲアプリケーションが本開示のいくつかの実施形態に従って実行され得る、例示的なモバイルコンピューティングデバイスのブロック図。

次に、図面を参照しながら様々な実施形態について説明する。図面全体にわたって、同様の要素を指すのに同様の参照番号を使用する。以下の説明では、説明のために、１つまたは複数の実施形態の完全な理解を与えるために多数の具体的な詳細を記載する。ただし、そのような（１つまたは複数の）実施形態は、これらの具体的な詳細なしに実施され得ることは明らかであろう。他の事例では、１つまたは複数の実施形態の説明を円滑にするために、よく知られている構造およびデバイスをブロック図の形態で示す。

図１に、本開示の一実施形態による、拡張現実（ＡＲ）アプリケーションが、外部音に応答するためのモバイルデバイス１１０において実行される、現実世界環境１００を示す。ユーザ１２０が、少なくともビデオカメラと、ディスプレイスクリーンと、少なくとも１つのマイクロフォンと、ＡＲアプリケーションとを含むモバイルデバイス１１０を操作する。モバイルデバイス１１０は、タブレットＰＣ、スマートフォン、ゲームデバイスなど、ポータブルコンピューティングデバイスであり得、そのようなデバイスの標準の構成要素および機能を含み得る。

図１に示すように、ユーザ１２０は、モバイルデバイス１１０上に表示される拡張現実環境と対話する。ターゲット１３０が、テーブル１５０上に設けられ、ターゲット１３０が検出されたときにＡＲアプリケーションを起動するために、モバイルデバイス１１０によって使用される。ターゲット１３０は、ＡＲアプリケーションを起動するためにモバイルデバイス１１０によって検出され得る所定のＡＲタグまたはマーカーであり得る。ターゲット１３０が検出される限り、ＡＲアプリケーションはモバイルデバイス１１０上で動作し続ける。たとえば、ユーザ１２０が、ビデオカメラなどの画像センサーを介してターゲット１３０をキャプチャするためにモバイルデバイス１１０を動かしたとき、モバイルデバイス１１０は、ＡＲ環境において仮想オブジェクト１４０と仮想バックグラウンド１７０とを表示するＡＲアプリケーションを起動する。ＡＲアプリケーションが起動された後、ＡＲ環境は、実質的な時間遅延なしにリアルタイムでモバイルデバイス１１０のディスプレイ上に表示され、外部音またはユーザのアクションを反映するように構成される。たとえば、モバイルデバイス１１０は、ユーザ１２０または外部音源１６０、たとえば、現実世界環境１００中に存在する人から外部音を受信し得る。

図２Ａに、本開示の一実施形態による、拡張現実環境を見るためにモバイルデバイス２１０を使用するユーザ２２０を示す。図２Ａにおいて、ユーザ２２０は、モバイルデバイス２１０の画像センサーを介してテーブル２５０上にあるターゲット２３０の画像をキャプチャするためにモバイルデバイス２１０を動かす。ターゲット２３０の画像が検出されたとき、モバイルデバイス２１０は、キャプチャされたターゲット２３０をそこに記憶された複数の所定のターゲットと比較する。次いで、キャプチャされたターゲット２３０が複数の所定のターゲットのうちの１つに一致するとモバイルデバイス２１０が判断した場合、ＡＲアプリケーションは起動される。代替として、モバイルデバイス２１０は、音センサーを介して受信された所定の外部音に応答してＡＲアプリケーションを起動し得る。この場合、外部音は、ＡＲアプリケーションを起動するために所定の音モデルと比較され得る。さらに、ＡＲアプリケーションは、ユーザインターフェース（たとえば、タッチスクリーン、ボタン、キーパッド、ジョイスティック、タッチパッドなど）を介して情報を入力することなど、モバイルデバイス２１０上のユーザ入力に応答して、または光入力の変化に応答して起動され得る。

ＡＲアプリケーションは、モバイルデバイス２１０上にＡＲ環境を生成および表示するために、仮想オブジェクト２４０と仮想バックグラウンド２７０とを用いて、リアルタイムでのキャプチャされた画像を拡張する。たとえば、仮想オブジェクト２４０および仮想環境２７０は、モバイルデバイス２１０のディスプレイ上の表示のために、現実世界環境２００のキャプチャされたバックグラウンド画像上に重畳され得る。この構成では、仮想オブジェクト２４０は、対話型エクスペリエンスのために外部音とユーザのアクションとに応答するように構成され得る。ＡＲアプリケーションの起動時に、図２Ａに示すように、仮想オブジェクト２４０は、初めにターゲット２３０上に表示される。代替として、仮想オブジェクト２４０はターゲット２３０に対して任意の好適な位置に位置し得る。さらに、ターゲット２３０は、拡張現実環境において表示されることがあるか、または拡張現実環境において表示されないことがある。

モバイルデバイス２１０のディスプレイ上にリアルタイムで表示されるＡＲ環境のユーザの視点から、仮想オブジェクト２４０および仮想バックグラウンド２７０は、それらがモバイルデバイス２１０のディスプレイ上にのみ表示されるという点で仮想である。仮想オブジェクト２４０およびターゲット２３０は、テーブル２５０上の点線によって示されているように、説明のために示したものにすぎない。仮想オブジェクト２４０は、人間のようなキャラクタまたは車などのオブジェクトを含む任意のコンピュータ生成画像であり得る。

図２Ｂに、本開示の一実施形態による、モバイルデバイス２１０におけるＡＲ環境の終了、および通常ビデオ動作に戻ることを示す。初めに、図２Ｂにおいて、仮想オブジェクト２４０と仮想バックグラウンド２７０とを含むＡＲ環境は、ターゲット２３０が検出されている間、モバイルデバイス２１０のディスプレイ上に表示される。しかしながら、ユーザ２２０が、モバイルデバイス２１０をターゲット２３０から遠ざけると、モバイルデバイス２１０は、ＡＲ環境を表示することを終了し、それの通常ビデオ動作に戻る。図２Ｂに示された例では、ユーザ２２０は、電話２８０をキャプチャするためにモバイルデバイス２１０をターゲットから遠ざけ、したがって、モバイルデバイス２１０は、ＡＲ環境を表示することを終了し、代わりに、それの通常ビデオ動作において電話２８０の画像を表示する。一方、別のターゲットが電話２８０上でまたはそれに近接して検出された場合、モバイルデバイス２１０は、仮想オブジェクト２４０および／または仮想バックグラウンド２７０をもつＡＲ環境を起動し得る。いくつかの実施形態では、ＡＲ環境が起動された後、ターゲット２３０または所定の外部音がもはや検出されないとき、モバイルデバイス２１０は、バックグラウンドでＡＲ環境を実行し続けながら、他のタスクを実行し得る。この場合、ターゲット２３０または音が検出された場合、モバイルデバイス２１０は、ＡＲ環境を表示することに戻り得る。

図３に、本開示の一実施形態による、外部音源３６０からの外部音に応答する仮想オブジェクト３４０の図を示す。理解しやすいように、テーブルおよびターゲットは図３に示していないが、ターゲットがモバイルデバイス３１０によって検出された後、ＡＲ環境はモバイルデバイス３１０中で動作していることを諒解されたい。このＡＲ環境では、モバイルデバイス３１０は、現実世界環境中に存在する外部音源３６０から外部音を受信する。外部音源３６０は、図３に示す別の人、またはモバイルデバイス３１０によって検出され得る音を生成する任意の音源であり得る。外部音に応答して、仮想オブジェクト３４０は、それが、外部音がそこから生成される外部音源３６０に気づいていることを示すアクションを実行するように構成され得る。たとえば、仮想オブジェクト３４０は、仮想オブジェクト３４０が初めに配置されたターゲットの中心から外部音源３６０の方向を見るかまたはその方向に移動し得る。仮想オブジェクト３４０はまた、受信された外部音に応答してアクションまたはイナクションをとるように構成され得る。たとえば、モバイルデバイス３１０が、雑音であると知覚される周囲音を受信した場合、仮想オブジェクト３４０は、受信された周囲音に応答してアクションを実行しないことがある。

図４は、本開示の一実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイス１１０のブロック図である。モバイルデバイス１１０は、制御ユニット４００と、センサー４２０と、ストレージユニット４４０と、ディスプレイ４６０とを含む。センサー４２０は画像センサー４２０Ａと音センサー４２０Ｂとをさらに含む。これらの構成要素は、本開示で説明する任意のモバイルデバイスと組み合わされ得ることを理解されたい。

通常ビデオモードで動作しているとき、モバイルデバイス１１０の画像センサー４２０Ａは現実世界画像をキャプチャし、音センサー４２０Ｂは外部音を受信する。キャプチャされた現実世界画像から、制御ユニット４００は、それらの画像がターゲットを含むかどうかを判断するように構成される。ターゲットが検出されない場合、モバイルデバイス１１０は通常ビデオモードで動作し続け得る。一方、キャプチャされた画像のうちの少なくとも１つがターゲットを含むと制御ユニット４００が判断した場合、制御ユニット４００は、ストレージユニット４４０に記憶されたＡＲアプリケーションを起動し、ユーザのためにモバイルデバイス１１０のディスプレイ上にＡＲ環境を表示するように構成される。たとえば、図１に示したように、モバイルデバイス１１０がターゲット１３０をキャプチャしたとき、制御ユニット４００は、モバイルデバイス１１０のディスプレイ４６０上のリアルタイムでのキャプチャされた画像上に仮想オブジェクト１４０と仮想バックグラウンド１７０とを重畳し得る。

さらに、制御ユニット４００は、音センサー４２０Ｂによって受信された外部音を分析するように構成される。受信された外部音に基づいて、制御ユニット４００は、ＡＲ環境において仮想オブジェクトが実行すべき応答を生成するように構成される。特に、制御ユニット４００は、ターゲット１３０とモバイルデバイス１１０と外部音の音源１６０とに関する幾何学的情報を判断する。

幾何学的情報は、モバイルデバイス１１０とターゲット１３０と音源１６０との間の方向関係および位置関係を示す。モバイルデバイス１１０とターゲット１３０との間の幾何学的情報は、ターゲット１３０の特徴点に関する、モバイルデバイス１１０に記憶された情報（たとえば、特徴点の数、特徴点の座標）と、ターゲット１３０の物理的サイズとを使用するカメラ姿勢推定技法を使用することによって判断され得る。カメラ姿勢推定技法は、従来のカメラモデルの再投影誤差（re-projection error）を低減するために使用される。たとえば、本技法は、２Ｄ画像における特徴点と３Ｄ画像における特徴点との間の対応を判断することによって、所定の数の自由度（ＤＯＦ：degree of freedom）を有するカメラ姿勢を推定し得る。対応に基づいて、よく知られているカメラ姿勢変換方法を使用して、３Ｄ特徴点が２Ｄ特徴点に投影され得る。

たとえば、モバイルデバイス１１０の画像センサー４２０Ａの焦点距離と、ディスプレイ４６０上のキャプチャされたターゲットのサイズに対する検出されたターゲット１３０の記憶された物理的サイズの比とに基づいて、モバイルデバイス１１０とターゲット１３０との間の距離が判断され得る。さらに、モバイルデバイス１１０と音源１６０との間の幾何学的情報は、ビームフォーミング技法を使用して取得され得る。たとえば、ビームフォーミング技法は、モバイルデバイス１１０の音センサー４２０Ｂによって音源１６０から受信された音に基づいて音源１６０のロケーションを推定し得る。上記の取得された幾何学的情報に基づいて、ターゲット１３０と音源１６０との間の幾何学的情報は判断され得る。幾何学的情報を判断することについて、図８Ａおよび図８Ｂを参照しながらより詳細に説明する。

さらに、制御ユニット４００は、異なる音源からの複数の音が、受信された外部音中に含まれると判断するように構成される。この場合、受信された外部音は複数の音に分離され得る。さらに、制御ユニット４００は、それぞれ複数の音に対応する音源の各々について幾何学的情報を判断するように構成される。判断された幾何学的情報に基づいて、仮想オブジェクトが実行すべきアクションまたはイナクションであり得る応答が音源の各々について判断される。次いで、制御ユニット４００は、仮想オブジェクト１４０が実行すべき応答の出力順序を判断し得る。応答がイナクションである場合、応答の出力順序は完全にイナクション応答を省略し得る。

さらに、外部音の音特性（たとえば、音楽、拍手など）に基づいて、制御ユニット４００はまた、ＡＲ環境において仮想オブジェクト１４０が実行すべき応答を判断し得る。基準音のセットおよび対応するＡＲ応答がストレージユニット４４０に記憶され得、受信された外部音は、記憶された基準音と比較され得る。さらに、基準音のセットは、受信された外部音と比較されるべき参照モデルとして使用され得る。比較に基づいて、制御ユニット４００は、一致する基準音に対する対応する応答を判断し、ＡＲ環境において仮想オブジェクト１４０が実行すべき応答を出力し得る。外部音に基づいて仮想オブジェクト１４０が実行すべき応答は上記の例に限定されず、応答の順序は、ターゲット１３０に関するモバイルデバイス１１０の距離に基づいて実行され得る。たとえば、外部音が、雑音など、認識されない音である場合、制御ユニット４００は、認識されない音に関連するアクションまたはイナクションを生成しないことがある。さらに、制御ユニット４００は、他の構成要素を含み、図４に示されていない従来のモバイルデバイスの機能を実行し得る。

図５は、本開示の一実施形態による、モバイルデバイス１１０の制御ユニット４００のより詳細なブロック図である。制御ユニット４００は、ターゲットオブジェクト検出器５１０と、ＡＲアプリケーション起動ユニット５２０と、音分析器５３０と、幾何学的情報計算ユニット５４０と、ＡＲ応答生成器５５０とを含む。

ターゲットオブジェクト検出器５１０は、キャプチャされた画像から所定のターゲットを検出するように構成される。キャプチャされた画像がターゲット１３０を含むとターゲットオブジェクト検出器５１０が判断した場合、ＡＲアプリケーション起動ユニット５２０は、ユーザ１２０のためにモバイルデバイス１１０のディスプレイ４６０上にＡＲ環境を生成するためにＡＲアプリケーションを起動するように構成される。たとえば、図１に示したように、仮想オブジェクト１４０および仮想バックグラウンド１７０はモバイルデバイス１１０のディスプレイ上に表示される。

制御ユニット４００中の音分析器５３０は音センサー４２０Ｂから外部音を検出するように構成される。外部音が検出された場合、幾何学的情報計算ユニット５４０は、モバイルデバイス１１０とターゲット１３０と外部音の音源１６０との間の幾何学的情報を判断するように構成される。キャプチャされた画像中のターゲット１３０の位置および配向を取得するために、ターゲット１３０は、たとえば、モバイルデバイス１１０からの特定の距離および角度におけるターゲットの事前記憶された画像と比較される。比較に基づいて、幾何学的情報計算ユニット５４０は、モバイルデバイス１１０の位置、配向および動きを判断するように構成される。さらに、モバイルデバイス１１０の動きは、加速度計、磁力計、またはジャイロスコープなど、モバイルデバイス１１０内の動き感知デバイスからの情報に基づいて監視され得る。さらに、幾何学的情報計算ユニット５４０は、モバイルデバイス１１０とターゲット１３０と音源１６０との間の幾何学的情報を判断するために、モバイルデバイス１１０の位置および配向を判断し得る。さらに、動き感知デバイスからの情報は、モバイルデバイス１１０の位置および動きを確認することができる任意の好適な方法と組み合わされ得る。

次に、幾何学的情報計算ユニット５４０は、カメラ姿勢推定技法を使用して、モバイルデバイス１１０とターゲット１３０との間の幾何学的情報を判断し、ビームフォーミング技法を使用して、音源１６０の位置を含む、モバイルデバイス１１０と音源１６０との間の幾何学的情報を判断するように構成される。モバイルデバイス１１０の判断された位置および配向と、モバイルデバイス１１０とターゲット１３０との間の幾何学的情報と、モバイルデバイス１１０と音源１６０との間の幾何学的情報とに基づいて、幾何学的情報計算ユニット５４０は、ターゲット１３０と音源１６０との間の幾何学的情報を判断するように構成される。

モバイルデバイス１１０とターゲット１３０との間の幾何学的情報は、モバイルデバイス１１０とターゲット１３０との間の距離および角度のうちの少なくとも１つを含み得る。この場合、モバイルデバイス１１０の位置および配向に基づいて、モバイルデバイス１１０の主面（たとえば、モバイルデバイス１１０の裏面）が基準面として使用され得る。さらに、幾何学的情報計算ユニット５４０は、基準面に直交するベクトルと、基準面からターゲットまでのベクトルとを判断し得る。次いで、２つのベクトル間の角度が、モバイルデバイス１１０とターゲット１３０との間の幾何学的情報の一部として判断され得る。モバイルデバイス１１０と音源１６０との間の幾何学的情報は同様の方法で判断され得る。

モバイルデバイス１１０とターゲット１３０との間の判断された幾何学的情報と、モバイルデバイス１１０と音源１６０との間の判断された幾何学的情報とに基づいて、幾何学的情報計算ユニット５４０は、ターゲット１３０と音源１６０との間の幾何学的情報を判断し得る。たとえば、３つの点、すなわち、モバイルデバイス１１０、ターゲットおよび音源に基づいて、２つのあらかじめ判断されたベクトルを使用して、ターゲット１３０と音源１６０との間の距離が判断され得る。幾何学的情報を判断するためのさらなる詳細について、図８Ａおよび図８Ｂを参照しながら説明する。

モバイルデバイス１１０とターゲット１３０と音源１６０との間の判断された幾何学的情報に基づいて、ＡＲ応答生成器５５０は、ＡＲ環境において仮想オブジェクト１４０が実行すべき応答を生成するように構成される。たとえば、ＡＲ応答生成器５５０は、音源１６０の方向を見るためにターゲットの中心に立っている仮想オブジェクト１４０についての応答を生成し得る。代替として、ターゲットの中心に立っている仮想オブジェクト１４０は、応答として音源の方向に移動し得る。ＡＲ応答生成器５５０は、外部音に基づいて仮想オブジェクト１４０が実行すべきアクションまたはイナクションを生成し得る。たとえば、雑音など、外部音が認識されない場合、応答生成器５５０は、アクションを生成しないことがあるか、または仮想オブジェクト１４０が実行すべき、認識されない音に関連するイナクションを生成することがある。さらに、音源１６０とモバイルデバイス１１０との間の位置情報および／またはターゲット１３０とモバイルデバイス１１０との間の位置情報を識別するために、任意の好適な方法が使用され得る。

図６は、本開示の一実施形態による、外部音に基づいて、仮想オブジェクトが実行すべき応答を生成するための方法を示すフローチャート６００である。初めに、６１０において、通常ビデオモードでモバイルデバイスが動作する。６２０において、ビデオモードで、ターゲットが検出されたかどうかを判断するために、リアルタイムでの現実世界環境のキャプチャされた画像を連続的に追跡する。キャプチャされた画像中の所定のターゲットが検出された場合、ＡＲアプリケーションが起動され、６３０において仮想オブジェクトおよび仮想環境を表示する。代替として、仮想オブジェクトおよび仮想環境は、所定の外部音を検出すると表示され得る。いくつかの実施形態では、画像中のターゲットが検出されない場合、通常ビデオ動作は続く。ＡＲ環境は、リアルタイムでのキャプチャされた画像を仮想オブジェクトと組み合わせることによって生成される。たとえば、図２Ａを参照すると、モバイルデバイス２１０が、ターゲット２３０を含む現実世界画像をキャプチャしたとき、仮想オブジェクト２４０および仮想バックグラウンド２７０は、モバイルデバイス２１０のディスプレイ上のＡＲ環境におけるターゲット２３０上に現れる。

次いで、６４０において、モバイルデバイスは、外部音が受信されたかどうかを判断する。６５０において、モバイルデバイスは、ターゲットと音源とモバイルデバイスとの間の幾何学的情報（たとえば、位置関係および方向関係）を判断する。たとえば、ターゲットと音源との間の幾何学的情報は、上記で説明したように、モバイルデバイスとターゲットとの間の幾何学的情報と、モバイルデバイスと音源との間の幾何学的情報とに基づいて判断され得る。判断された幾何学的情報に基づいて、６６０において、仮想オブジェクトについての応答を生成する。次いで、６７０において、仮想バックグラウンド（たとえば、仮想バックグラウンド１７０）とともに応答を実行する仮想オブジェクトをモバイルデバイスのディスプレイ上に表示する。

図７Ａおよび図７Ｂに、本開示の一実施形態による、外部音に基づいて、仮想オブジェクトについての実行されるべき応答を生成するための図を示す。初めに、モバイルデバイス７１０が通常カメラ動作を実行する。図７Ａに示すように、所定のターゲット７３０がモバイルデバイス７１０によって検出されると、ＡＲアプリケーションが起動され得、仮想オブジェクト７４０と仮想バックグラウンド７７０とを含むＡＲ環境はモバイルデバイス７１０のディスプレイ上に表示される。

ＡＲアプリケーションが動作している間、モバイルデバイス７１０は、外部音源７６０から外部音を検出するように構成される。外部音に基づいて、モバイルデバイス７１０は、モバイルデバイス７１０とターゲット７３０と外部音源７６０との間の幾何学的情報を判断する。モバイルデバイス７１０とターゲット７３０と外部音源７６０との間の幾何学的情報は、ＡＲ環境において仮想オブジェクト７４０が実行すべき応答を判断するために使用され得る。たとえば、図７Ｂにおいて、仮想オブジェクト７４０は、外部音に対する応答として外部音源７６０の方向を見る。

図８Ａおよび図８Ｂに、本開示の一実施形態による、外部音に基づいてＡＲ応答を生成するために、ターゲットと音源とモバイルデバイスとの間の幾何学的関係を判断するための図を示す。幾何学的情報は、概して、２つの物体間の距離および角度のうちの少なくとも１つを含む。本開示の一実施形態では、幾何学的情報は、モバイルデバイス８１０の画像センサーおよび音センサーを使用して判断され得る。図８Ａにおいて、モバイルデバイス８１０とターゲット８３０との間の幾何学的情報は、画像センサーを使用することによって判断されるが、モバイルデバイス８１０と外部音源８６０との間の幾何学的情報は、音センサーを使用することによって判断される。

図８Ａにおいて、距離ａがモバイルデバイス８１０と外部音源８６０との間の距離を示し、距離ｂがモバイルデバイス８１０とターゲット８３０のロケーションとの間の距離を示し、距離ｃがターゲット８３０のロケーションと外部音源８６０との間の距離を示す。これらの距離を測定することの詳細について、図８Ｂを参照しながらより詳細に説明する。距離ａは、モバイルデバイス８１０の裏面の中心から外部音源８６０の推定ロケーションまで測定され、距離ｂは、モバイルデバイス８１０の裏面の中心からターゲット８３０の中心まで測定される。さらに、仮想オブジェクト８４０と外部音源８６０との間の距離ｃを計算するために角度θも判断され、モバイルデバイス８１０と外部音源８６０とに対してターゲット８３０の角度φが形成される。距離ｃを計算するための方法について、図８Ｂを参照しながらより詳細に説明する。

図８Ｂは、図８Ａからの、モバイルデバイス８１０とターゲット８３０と外部音源８６０との間の簡略化された幾何学的関係を示す。図８Ｂにおいて、距離ａ、ｂおよびｃは、外部音源８６０から受信された外部音に基づいて、仮想オブジェクト８４０が実行すべき応答を生成するために判断される。ターゲット８３０と外部音源８６０との間の距離ｃを計算するために、距離ａおよびｂ、ならびに角度θが判断される。モバイルデバイス８１０と外部音源８６０との間の距離ａは、限定はしないが、ビームフォーミング技法を含む、当技術分野でよく知られている任意の信号処理技法を使用することによって判断され得る。ビームフォーミング技法は、モバイルデバイス８１０の音センサーによって音源から受信された音に基づいて音源のロケーションを推定する。

距離ａが判断されると、角度αも判断され得る。最初に、モバイルデバイス８１０の裏面が基準面として使用され、基準面に直交するベクトルｖが判断される。次いで、基準面から外部音源８６０までのベクトルとして、ベクトルｖと距離ａとの間の角度を計算することによって、角度αが判断される。

さらに、上記で説明したように、画像センサーを使用した、当技術分野でよく知られているカメラ姿勢推定技法によって、モバイルデバイス８１０とターゲット８３０との間の距離ｂが判断され得る。また、基準面からターゲット８３０までのベクトルとして、ベクトルｖと距離ｂとの間の角度を計算することによって、角度βが判断される。本開示による一実施形態では、ターゲットの記憶された特徴点の座標と、モバイルデバイス８１０のディスプレイスクリーン上の検出されたターゲット８３０の座標とを比較することによって、角度βが推定され得る。

次に、角度αと角度βとを加算することによって角度θが計算される。距離ａ、距離ｂ、および角度θに基づいて、ターゲット８３０と外部音源８６０との間の距離ｃが推定され得る。さらに、距離ａ、距離ｂ、および距離ｃに基づいて、モバイルデバイス８１０と外部音源８６０とに対して形成されたターゲット８３０の角度φも推定され得る。距離ｃおよび角度φを使用して、モバイルデバイス８１０は、仮想オブジェクト８４０が実行すべき応答を判断することができる。

再び図８Ａを参照すると、仮想オブジェクト８４０についての応答は、ターゲット８３０から外部音源８６０の方向を見ることである。したがって、ユーザ８２０のために表示されるＡＲ環境において、仮想オブジェクト８４０は、ＡＲ環境の現実世界知覚を向上させるために、外部音源８６０と仮想オブジェクト８４０との間の幾何学的情報に基づいて外部音源８６０の方向を見る。

図９Ａおよび図９Ｂに、本開示の別の実施形態による、外部音に基づいて、仮想オブジェクト９４０によって実行されるべき応答を生成するための図を示す。理解しやすいように、テーブルおよびターゲットは図９Ａおよび図９Ｂに示していないが、ターゲットがモバイルデバイス９１０によって検出された後、ＡＲ環境はモバイルデバイス９１０中で動作していることを諒解されたい。図７Ｂと同様に、図９Ａにおいて、ＡＲアプリケーションが起動され、仮想オブジェクト９４０は、外部音に基づく応答として、外部音源９６０の方向を見る。モバイルデバイス９１０とターゲットと外部音源９６０との間の幾何学的情報は、上記で説明したように、仮想オブジェクト９４０についての応答を生成するために判断され得る。

図９Ｂに示すように、外部音に応答して、仮想オブジェクト９４０についての追加の応答が生成され得る。図７Ｂを参照しながら説明したように、外部音が外部音源９６０から継続的に受信される間、仮想オブジェクト９４０は外部音源９６０の方向を見続ける。外部音から、「スマイル」など、所定の言葉が検出された場合、「スマイル」という言葉に基づいて仮想オブジェクト９４０が実行すべき対応する応答が、モバイルデバイス９１０のストレージユニットにおいて探索され得る。たとえば、図９Ｂに示すように、「スマイル」という言葉についての応答は、仮想オブジェクト９４０の笑顔の表情である。したがって、仮想オブジェクト９４０は、ＡＲ環境において「スマイル」という言葉に基づいて笑う。代替として、受信された音は、音の所定のリストおよび対応する応答を記憶する、サーバなどの外部デバイスに送信され得る。この場合、外部デバイスは、受信された音に対応する応答を探索し、モバイルデバイスにおいて仮想オブジェクト９４０が実行すべき応答を与え得る。

図１０Ａおよび図１０Ｂに、本開示の別の実施形態による、外部音に基づいて、仮想オブジェクト１０４０によって実行されるべき応答を生成するための図を示す。図１０Ａにおいて、仮想オブジェクト１０４０と仮想バックグラウンド１０７０とを含むＡＲアプリケーションは、ターゲットの検出に応答して起動される。この図示の実施形態では、仮想バックグラウンド１０７０は、異なるタイプの音特性、たとえば、雑音、ポップ、クラシック、および拍手音を識別する、円などの複数の領域を含み、仮想オブジェクト１０４０は中心領域に位置する。代替として、仮想バックグラウンド１０７０の領域は、異なるタイプの音特性を識別することを可能にするために、幾何学的形状と、マップと、仮想オブジェクトとを含む任意の形状または形態であり得る。

外部音源１０６０からの外部音が受信されると、モバイルデバイス１０１０は、外部音が、ＡＲ環境における複数の領域のうちの１つにおいて示される音特性を有することが識別され得るかどうかを判断する。たとえば、外部音が受信されたとき、少なくとも１つの音特徴が外部音から抽出される。次いで、外部音の抽出された音特徴は、複数の基準音モデル、たとえば、仮想バックグラウンド１０７０の複数の領域において識別された音特性（または音クラス）に関連する統計モデル（たとえば、ガウス混合モデル（ＧＭＭ：gaussian mixture model））と比較され得る。基準音モデルは、モバイルデバイス１０１０のストレージユニットに事前記憶され得るか、または外部メモリ、サーバなど、モバイルデバイス１０１０の外部に記憶され得る。抽出された音特徴の音特性を識別するために、モバイルデバイス１０１０は、抽出された音特徴がどのように基準音モデルの各々に一致するかを判断するためにスコア演算を実行するように構成され得る。

スコア演算では、一致する結果に基づいて、基準音モデルの各々に数値が割り当てられ得る。いくつかの実施形態では、モバイルデバイス１０１０は、次いで、スコア演算において受信された最も高い数値を用いて、（所定の音クラスを識別するために）基準音モデルを判断し、仮想オブジェクト１０４０が実行すべき対応する応答を出力し得る。たとえば、図１０Ｂに示すように、ポップミュージックを示す基準音モデルは、スコア演算の結果として最も高い数値を受信し、仮想オブジェクト１０４０は、「ポップ」と標示された領域に移動する。別の実施形態では、スコア演算はいくつかの基準音モデルに数値のみを与え得る。代替として、スコア演算は、抽出された音特徴が基準音モデルのうちの１つにおいて特徴づけられる可能性を単に与え得る。

図１１は、本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成するための方法を示すフローチャート１１００である。初めに、仮想オブジェクトと仮想バックグラウンドとを含むＡＲアプリケーションが起動される。外部音がモバイルデバイス１０１０によって受信されたとき、１１２０において、外部音から音特徴を抽出する。抽出された音特徴は、次いで基準音モデルと比較され、基準音モデルは、比較結果に基づいて数値を与えられる。１１４０において、モバイルデバイス１０１０は、スコア演算の結果に基づいて受信された最も高い数値をもつ基準音モデルを探索する。最も高い数値をもつ基準音モデルが判断されると、１１６０において、仮想オブジェクト１０４０が実行すべき、そのような基準音モデルに関連する応答を判断する。次いで、１１８０において、仮想オブジェクトは、ＡＲ環境において、対応する応答を実行する。

図１２に、本開示の一実施形態による、仮想オブジェクトが実行すべき応答を生成するための制御ユニット４００のための詳細ブロック図を示す。図示の実施形態では、音分析器５３０と、幾何学的情報計算ユニット５４０と、ＡＲ応答生成器５５０とを含む図５の制御ユニット４００の一部分について、より詳細に説明する。特に、音分析器５３０は、音分離器１２１０と音源識別ユニット１２２０とを含み、ＡＲ応答生成器５５０は、応答生成ユニット１２３０と、応答順序セレクタ１２４０と、応答出力制御ユニット１２５０とを含む。

次に、モバイルデバイス１１０の音センサーによって、異なる音源からの複数の音を含む外部音が受信され得る。外部音は、次いで、外部音を、異なる音源から発生した複数の音に分離するように構成された音分離器１２１０に与えられる。分離された音が音源識別ユニット１２２０に与えられると、音源識別ユニット１２２０は、モバイルデバイス１１０に対する音源の各々の距離および方向を判断することによって、分離された音の各々に関連する音源を識別する。次いで、音源識別情報は、図８Ａおよび図８Ｂを参照しながら説明したように、モバイルデバイス１１０とターゲットと複数の音の各音源との間の幾何学的情報を判断するために幾何学的情報計算ユニット５４０に与えられる。

ＡＲ応答生成器５５０は、幾何学的情報計算ユニット５４０から幾何学的情報を受信し、ＡＲ環境において仮想オブジェクトが実行すべき応答を生成するように構成される。特に、ＡＲ応答生成器５５０の応答生成ユニット１２３０は、たとえば、図５で説明したように、幾何学的情報計算ユニット５４０からの幾何学的情報に基づいて音源の各々についての応答を生成するように構成される。生成された応答に基づいて、応答順序セレクタ１２４０は音源の各々についての応答の出力順序を判断する。たとえば、応答順序セレクタ１２４０は、ターゲットからの識別された音源の近接度など、所定の条件に従って、仮想オブジェクトが実行すべき応答のための出力順序を判断し得る。一実施形態では、応答順序セレクタ１２４０は、音源とターゲットとの間の相対距離に従って応答のための出力順序を判断し得る。一方、出力順序の条件は、あるタイプの音に関連する応答を出力することだけであり得る。さらに、出力順序は、外部音が受信される前または後に、あるいはランダムに、ユーザによって選択されるか、またはあらかじめ判断され得る。応答の出力順序が判断されると、応答出力制御ユニット１２５０は、ＡＲ環境において仮想オブジェクトが実行すべき応答を出力するように構成される。さらに、分離された音のうちの１つまたは複数が識別可能な音源に対応しない場合、対応しない音は、無視されるべき周囲音として識別され得る。

図１３は、本開示の一実施形態による、複数の音に関連する仮想オブジェクトについての応答を生成するための方法を示すフローチャート１３００である。１３１０において、ＡＲアプリケーションが動作している間、モバイルデバイスの音センサーが複数の音源から外部音を受信する。外部音が複数の音源からの複数の音を含む場合、１３２０において、外部音を複数の音に分離する。次いで、１３３０において、異なる音源とともに複数の音の各々を識別する。音源が複数の音について識別されると、上記で説明したように、たとえば、ビームフォーミング技法を使用して、音源のロケーションおよび方向に関する情報が判断される。音源についての音源情報を使用して、上記で説明したように、モバイルデバイスとターゲットと音源の各々との間の幾何学的情報が判断される。

１３４０において、そのような幾何学的情報を使用して、各音源および分離された音について、仮想オブジェクトが実行すべき応答を判断する。音源および／または音についての応答が判断されると、１３５０において、所定の条件に従って、ＡＲ環境において仮想オブジェクトが実行すべき応答の出力順序を判断する。１３６０において、仮想オブジェクトは、次いで、出力順序に従って応答を実行する。

図１４Ａおよび図１４Ｂに、本開示の一実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクト１４４０によって実行されるべき応答の順序を生成するための図を示す。図２Ａと同様に、初めに、ＡＲアプリケーションを起動するモバイルデバイス１４１０の画像センサーによって、ターゲット１４３０が検出される。ＡＲアプリケーションを起動すると、モバイルデバイス１４１０のディスプレイ上のＡＲ環境において、仮想オブジェクト１４４０および仮想バックグラウンド１４７０がレンダリングされる。ＡＲアプリケーションが動作している間、モバイルデバイス１４１０の音センサーは、図１４Ａに示すように、複数の音源１４８０および１４９０から外部音を受信する。外部音が受信されると、モバイルデバイス１４１０は、外部音を、異なる音源からの複数の音に分離する。受信された各外部音について、分離された音の各々についての対応する音源が識別される。音源の識別に基づいて、分離された音および／または音源の各々についての応答が生成される。応答が生成されると、仮想オブジェクト１４４０が実行すべき応答の出力順序が選択され、応答の出力順序に基づいて、仮想オブジェクト１４４０は、次いで、ＡＲ環境において応答を実行する。

いくつかの実施形態では、仮想オブジェクト１４４０からの音源１４８０および１４９０の距離に基づいて、仮想オブジェクトが実行すべき応答として出力されるべき所定の出力シーケンスが生成され得る。たとえば、図１４Ａに示すように、音源１４８０は、音源１４９０よりもターゲット１４３０の近くに位置する。この図示の実施形態では、仮想オブジェクト１４４０のための出力順序は、最初にターゲット１４４０により近い音源１４８０を見、次いで、ターゲット１４３０からより遠く離れている音源１４９０を見ることを含む。したがって、仮想オブジェクト１４４０は、図１４Ａにおいて、音源１４８０からの音に基づいて、最初に、ターゲット１４３０のより近くに位置する音源１４８０を凝視する。次いで、仮想オブジェクト１４４０は、図１４Ｂに示すように、音源１４９０からの音に応答して、ターゲット１４３０からより遠く離れて位置する音源１４９０を見る。

図１５に、本開示の別の実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクト１５４０によって実行されるべき応答の順序を生成するための図を示す。図１５において、モバイルデバイス１５１０によって受信された外部音は、音源１５８０からの音と、音源１５９０からの音とを含む。受信された各外部音について、分離された音の各々についての対応する音源が識別される。さらに、分離された音は、それらの音が、モバイルデバイス１５１０のストレージに記憶された音特性を含むかどうかを判断するために分析される。この場合、図９Ａおよび図９Ｂを参照しながら説明した音特性識別動作と同様の音特性識別動作が実行され得る。音源と、複数の音の音特性との識別に基づいて、分離された音および／または音源の各々についての応答が生成され得る。すなわち、音源１５８０からの音は、雑音であり、仮想オブジェクト１５４０が実行すべき応答に関連しないと判断され、一方、音源１５９０からの音についての応答は、音源１５９０を見ることである。したがって、図１５に示すように、仮想オブジェクト１５４０は、音源からの音に基づいて音源１５９０を見るだけであり、外部音に応答して音源１５８０を見ることはない。

図１６Ａおよび図１６Ｂに、本開示の一実施形態による、モバイルデバイス１６１０とターゲット１６３０との間の距離に基づいて仮想オブジェクト１６４０の音量を調整するための図を示す。仮想オブジェクト１６４０によって生成された音量は、モバイルデバイス１６１０とターゲット１６３０との間の距離に基づいて変更され得る。上述のように、カメラ姿勢推定技法を使用することによって、モバイルデバイス１６１０とターゲット１６３０との間の距離が推定され得る。たとえば、前にキャプチャされたターゲットのサイズと、現在キャプチャされているターゲットのサイズとを比較することによって、モバイルデバイス１６１０とターゲット１６３０との間の相対距離が計算される。前にキャプチャされたターゲットのサイズが、現在キャプチャされているターゲットのサイズよりも小さい場合、モバイルデバイス１６１０とターゲット１６３０との間の距離が減少したと判断される。逆に、前にキャプチャされたターゲットのサイズが、現在キャプチャされているターゲットのサイズよりも大きい場合、モバイルデバイス１６１０とターゲット１６３０との間の距離が増加したと判断される。モバイルデバイス１６１０とターゲット１６３０との間の相対距離に基づいて、ＡＲ環境における音量は、距離を反映するように調整され得る。

図１６Ａにおいて、初めに、仮想オブジェクト１６４０と仮想バックグラウンド１６７０とを含むＡＲアプリケーションは、ターゲット１６３０の検出に応答して起動される。この図示の実施形態では、モバイルデバイス１６１０は、ＡＲ環境において仮想オブジェクト１６４０によって実行されるアクションに従って、音、たとえば、エンジン音を出力するように構成される。図１６Ｂに示すように、モバイルデバイス１６１０が、ターゲット１６３０からさらに遠ざかるとき、仮想オブジェクト１６４０はＡＲ環境においてより小さく見えるようになる。現実感を向上させるために、モバイルデバイス１６１０がターゲット１６３０からさらに遠ざかるにつれて、仮想オブジェクト１６４０によって生成された音量も減少する。逆に、モバイルデバイス１６１０がターゲット１６３０に近づくにつれて、仮想オブジェクト１６４０によって生成された音量は増加する。したがって、音量は、ターゲット１６３０に対するモバイルデバイス１６１０のロケーションに基づいて調整され得る。

図１７は、本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整するための方法を示すフローチャート１７００である。図１７について、図１６Ａおよび図１６Ｂを参照しながら説明する。ターゲット１６３０が検出されたとき、ＡＲアプリケーションが起動され、１７１０において、モバイルデバイス１６１０のディスプレイ上のＡＲ環境において仮想オブジェクト１６４０と仮想バックグラウンド１６７０とを表示する。この時点で、仮想オブジェクト１６４０も一定の音量でエンジン音を出力する。１７３０において、モバイルデバイス１６１０がターゲット１６３０からさらに遠ざかるとき、１７５０において、モバイルデバイス１６１０は、モバイルデバイス１６１０の動きに基づいて、仮想オブジェクト１６４０によって生成された音量を減少させるように調整する。さらに、１７５０において、モバイルデバイス１６１０は、その中に仮想オブジェクト１６４０がより小さく見えるようにするためにＡＲ環境を調整する。次いで、１７７０において、調整されたＡＲ環境および音量をモバイルデバイス１６１０のディスプレイに出力する。

図１８に、本開示のＡＲアプリケーションが実行され得る、例示的なモバイルデバイス１８００の構成を示す。モバイルデバイス１８００の構成は、図１〜図１８を参照しながら説明した上記の実施形態に従ってモバイルデバイス中で実装され得る。モバイルデバイス１８００は、セルラーフォン、端末、ハンドセット、携帯情報端末（ＰＤＡ）、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、符号分割多元接続（ＣＤＭＡ）システム、モバイル通信用グローバルシステム（ＧＳＭ（登録商標）：Global System for Mobile Communications）システム、広帯域ＣＤＭＡ（ＷＣＤＭＡ）（登録商標）システム、ロングタームエボリューション（ＬＴＥ：Long Tern Evolution）システム、ＬＴＥＡｄｖａｎｃｅｄシステムなどであり得る。さらに、モバイルデバイス１８００は、たとえば、Ｗｉ−ＦｉＤｉｒｅｃｔ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＦｌａｓｈＬｉｎｑ技術を使用して、別のモバイルデバイスと直接通信し得る。

モバイルデバイス１８００は、受信経路および送信経路を介して双方向通信を行うことが可能である。受信経路上では、基地局によって送信された信号は、アンテナ１８１２によって受信され、受信機（ＲＣＶＲ）１８１４に与えられる。受信機１８１４は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化されたデジタル信号などのサンプルをデジタルセクションに与える。送信経路上では、送信機（ＴＭＴＲ）１８１６は、デジタルセクション１８２０から送信されるべきデータを受信し、データを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ１８１２を介して基地局に送信される。受信機１８１４および送信機１８１６は、ＣＤＭＡ、ＧＳＭ、ＬＴＥ、ＬＴＥＡｄｖａｎｃｅｄなどをサポートし得るトランシーバの一部であり得る。

デジタルセクション１８２０は、たとえば、モデムプロセッサ１８２２、縮小命令セットコンピュータ／デジタル信号プロセッサ（ＲＩＳＣ／ＤＳＰ）１８２４、コントローラ／プロセッサ１８２６、内部メモリ１８２８、一般化オーディオエンコーダ１８３２、一般化オーディオデコーダ１８３４、グラフィックス／ディスプレイプロセッサ１８３６、および外部バスインターフェース（ＥＢＩ）１８３８など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ１８２２は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行し得る。ＲＩＳＣ／ＤＳＰ１８２４は、モバイルデバイス１８００のための一般的専用処理を実行し得る。コントローラ／プロセッサ１８２６は、デジタルセクション１８２０内の様々な処理ユニットおよびインターフェースユニットの演算を実行し得る。内部メモリ１８２８は、デジタルセクション１８２０内の様々なユニットのためのデータおよび／または命令を記憶し得る。

一般化オーディオエンコーダ１８３２は、オーディオソース１８４２、マイクロフォン１８４３などからの入力信号に対して符号化を実行し得る。一般化オーディオデコーダ１８３４は、コード化オーディオデータに対して復号を実行し得、出力信号をスピーカー／ヘッドセット１８４４に与え得る。グラフィックス／ディスプレイプロセッサ１８３６は、ディスプレイユニット１８４６に提示され得る、グラフィックス、ビデオ、画像、およびテキストのための処理を実行し得る。ＥＢＩ１８３８は、デジタルセクション１８２０とメインメモリ１８４８との間のデータの転送を可能にし得る。

デジタルセクション１８２０は、１つまたは複数のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣなどを用いて実装され得る。デジタルセクション１８２０はまた、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、および／または何らかの他のタイプの集積回路（ＩＣ）上に作製され得る。

概して、本明細書で説明したいかなるデバイスも、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ（ＰＣ）カード、ＰＤＡ、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなど、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを記憶するためのメモリを有し得る。

本明細書で説明した技法は様々な手段によって実装され得る。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。さらに、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。

ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、１つまたは複数のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。

したがって、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装され得る。

ファームウェアおよび／またはソフトウェア実装の場合、本技法は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリ、コンパクトディスク（ＣＤ）、磁気または光学データストレージデバイスなど、コンピュータ可読媒体上に記憶された命令として組み込まれ得る。命令は、１つまたは複数のプロセッサによって実行可能であり得、本明細書で説明した機能のいくつかの態様を（１つまたは複数の）プロセッサに実行させ得る。

ソフトウェアで実装した場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体とコンピュータ通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。

たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、ＣＤ（disc）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐し得る。ＡＳＩＣはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。

本開示についての以上の説明は、いかなる当業者も本開示を作成または使用することができるように与えたものである。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用され得る。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。

例示的な実装形態は、１つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に、複数のデバイスにわたって記憶が影響を受けることがある。そのようなデバイスは、ＰＣと、ネットワークサーバと、ハンドヘルドデバイスとを含み得る。

主題について構造的特徴および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。

主題について構造的特徴および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
モバイルデバイスの拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するための方法であって、前記方法は、
ターゲットを検出することと、
前記ＡＲアプリケーションにおいて仮想オブジェクトを起動することと、
前記モバイルデバイスの少なくとも１つの音センサーが、音源から前記外部音を受信することと、
前記音源と前記ターゲットとの間の第１の幾何学的情報を判断することと、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成することと
を備える、方法。
［Ｃ２］
前記第１の幾何学的情報を判断することが、
前記モバイルデバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記モバイルデバイスと前記音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を含む、Ｃ１に記載の方法。
［Ｃ３］
前記第２の幾何学的情報が、前記モバイルデバイスと前記ターゲットとの間の距離と、前記ターゲットと前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、Ｃ２に記載の方法。
［Ｃ４］
前記第３の幾何学的情報が、前記モバイルデバイスと前記音源との間の距離と、前記音源と前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、Ｃ２に記載の方法。
［Ｃ５］
前記第１の幾何学的情報が、前記ターゲットと前記音源との間の距離と、前記モバイルデバイスと前記音源とに対して形成された前記ターゲットの角度とのうちの少なくとも１つを含む、Ｃ２に記載の方法。
［Ｃ６］
前記第３の幾何学的情報が、カメラ姿勢推定に基づいて判断される、Ｃ２に記載の方法。
［Ｃ７］
前記少なくとも１つの応答を生成することが、
前記受信された外部音から少なくとも１つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、Ｃ１に記載の方法。
［Ｃ８］
前記外部音を受信することは、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された音源と前記ターゲットとの間の第４の幾何学的情報を判断することと
を含む、Ｃ２に記載の方法。
［Ｃ９］
前記少なくとも１つの応答を生成することは、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、Ｃ８に記載の方法。
［Ｃ１０］
前記仮想オブジェクトが、前記ＡＲアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも１つを含む、Ｃ１に記載の方法。
［Ｃ１１］
第１の幾何学的情報を前記判断することが、前記音源と前記ターゲットとの間の距離および方向を判断することを含む、Ｃ１に記載の方法。
［Ｃ１２］
第１の幾何学的情報を前記判断することが、前記モバイルデバイス、前記ターゲットおよび前記音源のロケーションを判断することを含む、Ｃ１に記載の方法。
［Ｃ１３］
前記外部音を受信することは、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
２つ以上の音源の各々と前記ターゲットとの間の第４の幾何学的情報を判断することと、
前記分離された音の各々を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスと前記第４の幾何学的情報とのうちの少なくとも１つに基づいて、前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、Ｃ１に記載の方法。
［Ｃ１４］
拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスが、
画像センサーと少なくとも１つの音センサーとを含み、ターゲットを含む画像と、１つの音源からの前記外部音とを受信するように構成されたセンサーと、
前記画像中の前記ターゲットを検出するように構成されたターゲットオブジェクト検出器と、
前記検出されたターゲットに応答して、前記ＡＲアプリケーションにおいて仮想オブジェクトを起動するように構成されたアプリケーション起動ユニットと、
前記１つの音源と前記ターゲットとの間の第１の幾何学的情報を判断するように構成された幾何学的情報計算ユニットと、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成するように構成されたＡＲ応答生成器と
を含む制御ユニットと
を備える、デバイス。
［Ｃ１５］
前記幾何学的情報計算ユニットが、
前記デバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記デバイスと前記１つの音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を行うようにさらに構成された、Ｃ１４に記載のデバイス。
［Ｃ１６］
前記第２の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、Ｃ１５に記載のデバイス。
［Ｃ１７］
前記第３の幾何学的情報が、前記デバイスと前記１つの音源との間の距離と、前記１つの音源と前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、Ｃ１５に記載のデバイス。
［Ｃ１８］
前記第１の幾何学的情報が、前記ターゲットと前記１つの音源との間の距離と、前記デバイスと前記１つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも１つを含む、Ｃ１５に記載のデバイス。
［Ｃ１９］
前記第３の幾何学的情報が、カメラ姿勢推定に基づいて判断される、Ｃ１５に記載のデバイス。
［Ｃ２０］
前記ＡＲ応答生成器が、
前記受信された外部音から少なくとも１つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも１つの所定の音クラスとして識別することと、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うようにさらに構成された、Ｃ１４に記載のデバイス。
［Ｃ２１］
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、前記複数の分離された音に関連する追加の音源を識別することと、前記識別された音源と前記ターゲットとの間の第４の幾何学的情報を判断することとを行うように構成された音分析器
をさらに備える、Ｃ１５に記載のデバイス。
［Ｃ２２］
前記ＡＲ応答生成器が、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うようにさらに構成された、Ｃ２１に記載のデバイス。
［Ｃ２３］
前記仮想オブジェクトが、前記ＡＲアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも１つを含む、Ｃ１４に記載のデバイス。
［Ｃ２４］
前記幾何学的情報計算ユニットが、前記１つの音源と前記ターゲットとの間の距離および方向を判断するようにさらに構成された、Ｃ１４に記載のデバイス。
［Ｃ２５］
前記幾何学的情報計算ユニットが、前記デバイス、前記ターゲットおよび前記１つの音源のロケーションを判断するようにさらに構成された、Ｃ１４に記載のデバイス。
［Ｃ２６］
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、２つ以上の音源の各々と前記ターゲットとの間の第４の幾何学的情報を判断することと、前記分離された音の各々を少なくとも１つの所定の音クラスとして識別することと、前記識別された音クラスと前記第４の幾何学的情報とのうちの少なくとも１つに基づいて、前記仮想オブジェクトについての前記少なくとも１つの応答を生成することとを行うように構成された音分析器
をさらに備え、
前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、Ｃ１４に記載のデバイス。
［Ｃ２７］
拡張現実（ＡＲ）アプリケーションにおいてモバイルデバイスが外部音に応答するための命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、
ターゲットを検出する動作と、
前記ＡＲアプリケーションにおいて仮想オブジェクトを起動する動作と、
前記モバイルデバイスの少なくとも１つの音センサーが、１つの音源から前記外部音を受信する動作と、
前記１つの音源と前記ターゲットとの間の第１の幾何学的情報を判断する動作と、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成する動作と
をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
［Ｃ２８］
前記第１の幾何学的情報を判断することが、
前記モバイルデバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記モバイルデバイスと前記１つの音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を含む、Ｃ２７に記載の記憶媒体。
［Ｃ２９］
前記外部音を受信することは、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された追加の音源と前記ターゲットとの間の第４の幾何学的情報を判断することと
を含む、Ｃ２８に記載の記憶媒体。
［Ｃ３０］
前記少なくとも１つの応答を生成することは、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、Ｃ２９に記載の記憶媒体。
［Ｃ３１］
拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスは、
ターゲットを検出するための手段と、
前記ＡＲアプリケーションにおいて仮想オブジェクトを起動するための手段と、
１つの音源から前記外部音を受信するための手段と、
前記１つの音源と前記ターゲットとの間の第１の幾何学的情報を判断するための手段と、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成するための手段と
を備える、デバイス。
［Ｃ３２］
前記第１の幾何学的情報を判断するための前記手段が、
前記デバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記デバイスと前記１つの音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を行うように構成された、Ｃ３１に記載のデバイス。
［Ｃ３３］
前記第２の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含み、
前記第３の幾何学的情報が、前記デバイスと前記１つの音源との間の距離と、前記１つの音源と前記デバイスの前記平面に直交する前記軸との間の角度とのうちの少なくとも１つを含み、
前記第１の幾何学的情報が、前記ターゲットと前記１つの音源との間の距離と、前記デバイスと前記１つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも１つを含む、Ｃ３２に記載のデバイス。
［Ｃ３４］
前記第３の幾何学的情報が、カメラ姿勢推定に基づいて判断される、Ｃ３２に記載のデバイス。
［Ｃ３５］
前記少なくとも１つの応答を生成するための前記手段が、
前記受信された外部音から少なくとも１つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うように構成された、Ｃ３１に記載のデバイス。
［Ｃ３６］
前記外部音を受信するための前記手段は、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された追加の音源と前記ターゲットとの間の第４の幾何学的情報を判断することと
を行うように構成された、Ｃ３２に記載のデバイス。
［Ｃ３７］
前記少なくとも１つの応答を生成するための前記手段は、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うように構成された、Ｃ３６に記載のデバイス。
［Ｃ３８］
前記外部音を受信するための前記手段は、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
２つ以上の音源の各々と前記ターゲットとの間の第４の幾何学的情報を判断することと、
前記分離された音の各々を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスと前記第４の幾何学的情報とのうちの少なくとも１つに基づいて、前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うように構成された、Ｃ３１に記載のデバイス。

Claims

モバイルデバイスの拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するための方法であって、前記方法は、
ターゲットを検出することと、
前記ＡＲアプリケーションにおいて仮想オブジェクトを起動することと、
前記モバイルデバイスの少なくとも１つの音センサーが、音源から前記外部音を受信することと、
前記音源と前記ターゲットとの間の第１の幾何学的情報を判断することと、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成することと
を備える、方法。
前記第１の幾何学的情報を判断することが、
前記モバイルデバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記モバイルデバイスと前記音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を含む、請求項１に記載の方法。
前記第２の幾何学的情報が、前記モバイルデバイスと前記ターゲットとの間の距離と、前記ターゲットと前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、請求項２に記載の方法。
前記第３の幾何学的情報が、前記モバイルデバイスと前記音源との間の距離と、前記音源と前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、請求項２に記載の方法。
前記第１の幾何学的情報が、前記ターゲットと前記音源との間の距離と、前記モバイルデバイスと前記音源とに対して形成された前記ターゲットの角度とのうちの少なくとも１つを含む、請求項２に記載の方法。
前記第３の幾何学的情報が、カメラ姿勢推定に基づいて判断される、請求項２に記載の方法。
前記少なくとも１つの応答を生成することが、
前記受信された外部音から少なくとも１つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、請求項１に記載の方法。
前記外部音を受信することは、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された音源と前記ターゲットとの間の第４の幾何学的情報を判断することと
を含む、請求項２に記載の方法。
前記少なくとも１つの応答を生成することは、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、請求項８に記載の方法。
前記仮想オブジェクトが、前記ＡＲアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも１つを含む、請求項１に記載の方法。
第１の幾何学的情報を前記判断することが、前記音源と前記ターゲットとの間の距離および方向を判断することを含む、請求項１に記載の方法。
第１の幾何学的情報を前記判断することが、前記モバイルデバイス、前記ターゲットおよび前記音源のロケーションを判断することを含む、請求項１に記載の方法。
前記外部音を受信することは、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
２つ以上の音源の各々と前記ターゲットとの間の第４の幾何学的情報を判断することと、
前記分離された音の各々を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスと前記第４の幾何学的情報とのうちの少なくとも１つに基づいて、前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、請求項１に記載の方法。
拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスが、
画像センサーと少なくとも１つの音センサーとを含み、ターゲットを含む画像と、１つの音源からの前記外部音とを受信するように構成されたセンサーと、
前記画像中の前記ターゲットを検出するように構成されたターゲットオブジェクト検出器と、
前記検出されたターゲットに応答して、前記ＡＲアプリケーションにおいて仮想オブジェクトを起動するように構成されたアプリケーション起動ユニットと、
前記１つの音源と前記ターゲットとの間の第１の幾何学的情報を判断するように構成された幾何学的情報計算ユニットと、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成するように構成されたＡＲ応答生成器と
を含む制御ユニットと
を備える、デバイス。
前記幾何学的情報計算ユニットが、
前記デバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記デバイスと前記１つの音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を行うようにさらに構成された、請求項１４に記載のデバイス。
前記第２の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、請求項１５に記載のデバイス。
前記第３の幾何学的情報が、前記デバイスと前記１つの音源との間の距離と、前記１つの音源と前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含む、請求項１５に記載のデバイス。
前記第１の幾何学的情報が、前記ターゲットと前記１つの音源との間の距離と、前記デバイスと前記１つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも１つを含む、請求項１５に記載のデバイス。
前記第３の幾何学的情報が、カメラ姿勢推定に基づいて判断される、請求項１５に記載のデバイス。
前記ＡＲ応答生成器が、
前記受信された外部音から少なくとも１つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも１つの所定の音クラスとして識別することと、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うようにさらに構成された、請求項１４に記載のデバイス。
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、前記複数の分離された音に関連する追加の音源を識別することと、前記識別された音源と前記ターゲットとの間の第４の幾何学的情報を判断することとを行うように構成された音分析器
をさらに備える、請求項１５に記載のデバイス。
前記ＡＲ応答生成器が、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うようにさらに構成された、請求項２１に記載のデバイス。
前記仮想オブジェクトが、前記ＡＲアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも１つを含む、請求項１４に記載のデバイス。
前記幾何学的情報計算ユニットが、前記１つの音源と前記ターゲットとの間の距離および方向を判断するようにさらに構成された、請求項１４に記載のデバイス。
前記幾何学的情報計算ユニットが、前記デバイス、前記ターゲットおよび前記１つの音源のロケーションを判断するようにさらに構成された、請求項１４に記載のデバイス。
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、２つ以上の音源の各々と前記ターゲットとの間の第４の幾何学的情報を判断することと、前記分離された音の各々を少なくとも１つの所定の音クラスとして識別することと、前記識別された音クラスと前記第４の幾何学的情報とのうちの少なくとも１つに基づいて、前記仮想オブジェクトについての前記少なくとも１つの応答を生成することとを行うように構成された音分析器
をさらに備え、
前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、請求項１４に記載のデバイス。
拡張現実（ＡＲ）アプリケーションにおいてモバイルデバイスが外部音に応答するための命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、
ターゲットを検出する動作と、
前記ＡＲアプリケーションにおいて仮想オブジェクトを起動する動作と、
前記モバイルデバイスの少なくとも１つの音センサーが、１つの音源から前記外部音を受信する動作と、
前記１つの音源と前記ターゲットとの間の第１の幾何学的情報を判断する動作と、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成する動作と
をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
前記第１の幾何学的情報を判断することが、
前記モバイルデバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記モバイルデバイスと前記１つの音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を含む、請求項２７に記載の記憶媒体。
前記外部音を受信することは、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された追加の音源と前記ターゲットとの間の第４の幾何学的情報を判断することと
を含む、請求項２８に記載の記憶媒体。
前記少なくとも１つの応答を生成することは、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を含む、請求項２９に記載の記憶媒体。
拡張現実（ＡＲ）アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスは、
ターゲットを検出するための手段と、
前記ＡＲアプリケーションにおいて仮想オブジェクトを起動するための手段と、
１つの音源から前記外部音を受信するための手段と、
前記１つの音源と前記ターゲットとの間の第１の幾何学的情報を判断するための手段と、
前記第１の幾何学的情報に基づいて、前記ＡＲアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも１つの応答を生成するための手段と
を備える、デバイス。
前記第１の幾何学的情報を判断するための前記手段が、
前記デバイスと前記ターゲットとの間の第２の幾何学的情報を判断することと、
前記デバイスと前記１つの音源との間の第３の幾何学的情報を判断することと、
前記第２および第３の幾何学的情報に基づいて前記第１の幾何学的情報を計算することと
を行うように構成された、請求項３１に記載のデバイス。
前記第２の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも１つを含み、
前記第３の幾何学的情報が、前記デバイスと前記１つの音源との間の距離と、前記１つの音源と前記デバイスの前記平面に直交する前記軸との間の角度とのうちの少なくとも１つを含み、
前記第１の幾何学的情報が、前記ターゲットと前記１つの音源との間の距離と、前記デバイスと前記１つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも１つを含む、請求項３２に記載のデバイス。
前記第３の幾何学的情報が、カメラ姿勢推定に基づいて判断される、請求項３２に記載のデバイス。
前記少なくとも１つの応答を生成するための前記手段が、
前記受信された外部音から少なくとも１つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うように構成された、請求項３１に記載のデバイス。
前記外部音を受信するための前記手段は、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された追加の音源と前記ターゲットとの間の第４の幾何学的情報を判断することと
を行うように構成された、請求項３２に記載のデバイス。
前記少なくとも１つの応答を生成するための前記手段は、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも１つの応答を判断することと、ここにおいて、前記少なくとも１つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも１つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うように構成された、請求項３６に記載のデバイス。
前記外部音を受信するための前記手段は、
前記外部音が２つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記２つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
２つ以上の音源の各々と前記ターゲットとの間の第４の幾何学的情報を判断することと、
前記分離された音の各々を少なくとも１つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも１つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも１つの応答に関連する、
前記識別された音クラスと前記第４の幾何学的情報とのうちの少なくとも１つに基づいて、前記仮想オブジェクトについての前記少なくとも１つの応答を生成することと
を行うように構成された、請求項３１に記載のデバイス。