JP2015510629A - 音分析および幾何解析を用いた拡張現実 - Google Patents

音分析および幾何解析を用いた拡張現実 Download PDF

Info

Publication number
JP2015510629A
JP2015510629A JP2014552191A JP2014552191A JP2015510629A JP 2015510629 A JP2015510629 A JP 2015510629A JP 2014552191 A JP2014552191 A JP 2014552191A JP 2014552191 A JP2014552191 A JP 2014552191A JP 2015510629 A JP2015510629 A JP 2015510629A
Authority
JP
Japan
Prior art keywords
sound
geometric information
target
response
virtual object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014552191A
Other languages
English (en)
Other versions
JP2015510629A5 (ja
JP5996669B2 (ja
Inventor
ユ、キスン
キム、テス
ホワン、キュウォン
ジン、ミンホ
チョ、ヒュン−モク
リ、テ−ウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015510629A publication Critical patent/JP2015510629A/ja
Publication of JP2015510629A5 publication Critical patent/JP2015510629A5/ja
Application granted granted Critical
Publication of JP5996669B2 publication Critical patent/JP5996669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

モバイルデバイスの拡張現実(AR)アプリケーションにおいて外部音に応答するための方法が開示される。モバイルデバイスはターゲットを検出する。ARアプリケーションにおいて仮想オブジェクトを起動する。さらに、モバイルデバイスの少なくとも1つの音センサーが、音源から外部音を受信する。音源とターゲットとの間の幾何学的情報を判断し、幾何学的情報に基づいて、ARアプリケーションにおいて仮想オブジェクトが実行すべき少なくとも1つの応答を生成する。

Description

関連出願の相互参照
本出願は、その内容全体が参照により本明細書に組み込まれる、2012年8月15日に出願された米国出願第13/585,927号、および2012年1月12日に出願された米国仮特許出願第61/585,945号に基づくものであり、その優先権の利益を主張する。
本開示は、一般に、モバイルデバイスにおいて拡張現実(augmented reality)を実現することに関する。より詳細には、本開示は、外部音に基づいて、モバイルデバイスの拡張現実環境において仮想オブジェクトについての応答を生成することに関する。
最近、携帯性および機能性におけるモバイルデバイスの利便性により、モバイルデバイスの使用が大幅に増加した。同時に、モバイルデバイスの使用の普及とともに、エンターテインメントアプリケーションおよび現実アプリケーションに対する消費者の需要が増加した。エンターテインメントアプリケーションおよび現実アプリケーションを提供するために、いくつかのモバイルデバイスは拡張現実技術を提供する。
拡張現実(「AR」)は、現実世界環境をデジタル情報とマージすることを目的とする仮想現実のタイプである。仮想空間において仮想オブジェクトを提供する典型的な仮想現実とは異なり、拡張現実システムが、ユーザによって見られる現実世界画像とコンピュータ生成画像とを組み合わせた複合ビューを生成して、追加情報で現実世界画像を拡張する。
視覚的拡張現実を提供することに加えて、いくつかのAR環境が、モバイルデバイスの外部音を認識する能力を提供してきた。しかしながら、そのようなAR環境は、一般に外部音環境を適切に反映していない。したがって、これらのAR環境は十分なレベルの現実をユーザに提供しないことがある。たとえば、従来のAR環境では、すべての外部音がモバイルデバイスから発生するかのように、ARオブジェクトが反応するだけであり得る。したがって、そのようなARアプリケーションは満足な拡張現実エクスペリエンスをユーザに提供していない。
本開示は、モバイルデバイスの拡張現実(AR)アプリケーションにおいて外部音に応答するための方法および装置を提供する。これらの方法および装置では、受信された外部音に基づいて、モバイルデバイスとターゲットと外部音の音源との間の幾何学的情報を判断する。次いで、幾何学的情報に基づいて、ARアプリケーションのAR環境において仮想オブジェクトが実行すべき応答を生成する。
本開示の一態様によれば、モバイルデバイスの拡張現実(AR)アプリケーションにおいて外部音に応答するための方法が開示される。本方法は、ターゲットを検出することを含む。ARアプリケーションにおいて仮想オブジェクトを起動する。さらに、モバイルデバイスの少なくとも1つの音センサーが、音源から外部音を受信する。音源とターゲットとの間の第1の幾何学的情報を判断し、第1の幾何学的情報に基づいて、ARアプリケーションにおいて仮想オブジェクトが実行すべき少なくとも1つの応答を生成する。本開示では、本方法に関係するデバイス、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本開示の別の態様によれば、拡張現実(AR)アプリケーションにおいて外部音に応答するためのデバイスが開示される。本デバイスはセンサーと制御ユニットとを含む。画像センサーと少なくとも1つの音センサーとを含むセンサーは、ターゲットを含む画像と、1つの音源からの外部音とを受信するように構成される。制御ユニットは、ターゲットオブジェクト検出器と、アプリケーション起動ユニットと、幾何学的情報計算ユニットと、AR応答生成器とを含む。ターゲットオブジェクト検出器は、画像中のターゲットを検出するように構成される。アプリケーション起動ユニットは、検出されたターゲットに応答して、ARアプリケーションにおいて仮想オブジェクトを起動するように構成される。幾何学的情報計算ユニットは、1つの音源とターゲットとの間の第1の幾何学的情報を判断するように構成される。また、第1の幾何学的情報に基づいて、ARアプリケーションにおいて仮想オブジェクトが実行すべき少なくとも1つの応答がAR応答生成器によって生成される。
本開示の発明的態様の実施形態は、以下の発明を実施するための形態を参照し、添付の図面とともに読めば理解されよう。
本開示の一実施形態による、拡張現実(AR)アプリケーションがモバイルデバイスにおいて実行される現実世界環境の図。 本開示の一実施形態による、モバイルデバイスにおいて拡張現実環境を見る図。 本開示の一実施形態による、モバイルデバイスにおいて拡張現実環境を終了する図。 本開示の一実施形態による、音源からの外部音に応答する仮想オブジェクトの図。 本開示の一実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイスのブロック図。 本開示の一実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイスの制御ユニットのブロック図。 本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成するための方法を示すフローチャート。 本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成することを示す図。 本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成することを示す図。 本開示の一実施形態による、ターゲットと音源とモバイルデバイスとの間の幾何学的関係を判断することを示す図。 本開示の一実施形態による、ターゲットと音源とモバイルデバイスとの間の幾何学的関係を判断することを示す図。 本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答を生成することを示す図。 本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答を生成することを示す図。 本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答を生成することを示す図。 本開示の別の実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答を生成することを示す図。 本開示の一実施形態による、AR環境において、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成するための方法を示すフローチャート。 本開示の別の実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイスの制御ユニットを示すブロック図。 本開示の一実施形態による、外部音について異なる音源を識別し、複数の音の各々に関連する仮想オブジェクトについての応答を生成するための方法を示すフローチャート。 本開示の一実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答の順序を生成することを示す図。 本開示の一実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答の順序を生成することを示す図。 本開示の別の実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクトによって実行されるべきAR応答の順序を生成することを示す図。 本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整することを示す図。 本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整することを示す図。 本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整するための方法を示すフローチャート。 本開示のARアプリケーションが本開示のいくつかの実施形態に従って実行され得る、例示的なモバイルコンピューティングデバイスのブロック図。
次に、図面を参照しながら様々な実施形態について説明する。図面全体にわたって、同様の要素を指すのに同様の参照番号を使用する。以下の説明では、説明のために、1つまたは複数の実施形態の完全な理解を与えるために多数の具体的な詳細を記載する。ただし、そのような(1つまたは複数の)実施形態は、これらの具体的な詳細なしに実施され得ることは明らかであろう。他の事例では、1つまたは複数の実施形態の説明を円滑にするために、よく知られている構造およびデバイスをブロック図の形態で示す。
図1に、本開示の一実施形態による、拡張現実(AR)アプリケーションが、外部音に応答するためのモバイルデバイス110において実行される、現実世界環境100を示す。ユーザ120が、少なくともビデオカメラと、ディスプレイスクリーンと、少なくとも1つのマイクロフォンと、ARアプリケーションとを含むモバイルデバイス110を操作する。モバイルデバイス110は、タブレットPC、スマートフォン、ゲームデバイスなど、ポータブルコンピューティングデバイスであり得、そのようなデバイスの標準の構成要素および機能を含み得る。
図1に示すように、ユーザ120は、モバイルデバイス110上に表示される拡張現実環境と対話する。ターゲット130が、テーブル150上に設けられ、ターゲット130が検出されたときにARアプリケーションを起動するために、モバイルデバイス110によって使用される。ターゲット130は、ARアプリケーションを起動するためにモバイルデバイス110によって検出され得る所定のARタグまたはマーカーであり得る。ターゲット130が検出される限り、ARアプリケーションはモバイルデバイス110上で動作し続ける。たとえば、ユーザ120が、ビデオカメラなどの画像センサーを介してターゲット130をキャプチャするためにモバイルデバイス110を動かしたとき、モバイルデバイス110は、AR環境において仮想オブジェクト140と仮想バックグラウンド170とを表示するARアプリケーションを起動する。ARアプリケーションが起動された後、AR環境は、実質的な時間遅延なしにリアルタイムでモバイルデバイス110のディスプレイ上に表示され、外部音またはユーザのアクションを反映するように構成される。たとえば、モバイルデバイス110は、ユーザ120または外部音源160、たとえば、現実世界環境100中に存在する人から外部音を受信し得る。
図2Aに、本開示の一実施形態による、拡張現実環境を見るためにモバイルデバイス210を使用するユーザ220を示す。図2Aにおいて、ユーザ220は、モバイルデバイス210の画像センサーを介してテーブル250上にあるターゲット230の画像をキャプチャするためにモバイルデバイス210を動かす。ターゲット230の画像が検出されたとき、モバイルデバイス210は、キャプチャされたターゲット230をそこに記憶された複数の所定のターゲットと比較する。次いで、キャプチャされたターゲット230が複数の所定のターゲットのうちの1つに一致するとモバイルデバイス210が判断した場合、ARアプリケーションは起動される。代替として、モバイルデバイス210は、音センサーを介して受信された所定の外部音に応答してARアプリケーションを起動し得る。この場合、外部音は、ARアプリケーションを起動するために所定の音モデルと比較され得る。さらに、ARアプリケーションは、ユーザインターフェース(たとえば、タッチスクリーン、ボタン、キーパッド、ジョイスティック、タッチパッドなど)を介して情報を入力することなど、モバイルデバイス210上のユーザ入力に応答して、または光入力の変化に応答して起動され得る。
ARアプリケーションは、モバイルデバイス210上にAR環境を生成および表示するために、仮想オブジェクト240と仮想バックグラウンド270とを用いて、リアルタイムでのキャプチャされた画像を拡張する。たとえば、仮想オブジェクト240および仮想環境270は、モバイルデバイス210のディスプレイ上の表示のために、現実世界環境200のキャプチャされたバックグラウンド画像上に重畳され得る。この構成では、仮想オブジェクト240は、対話型エクスペリエンスのために外部音とユーザのアクションとに応答するように構成され得る。ARアプリケーションの起動時に、図2Aに示すように、仮想オブジェクト240は、初めにターゲット230上に表示される。代替として、仮想オブジェクト240はターゲット230に対して任意の好適な位置に位置し得る。さらに、ターゲット230は、拡張現実環境において表示されることがあるか、または拡張現実環境において表示されないことがある。
モバイルデバイス210のディスプレイ上にリアルタイムで表示されるAR環境のユーザの視点から、仮想オブジェクト240および仮想バックグラウンド270は、それらがモバイルデバイス210のディスプレイ上にのみ表示されるという点で仮想である。仮想オブジェクト240およびターゲット230は、テーブル250上の点線によって示されているように、説明のために示したものにすぎない。仮想オブジェクト240は、人間のようなキャラクタまたは車などのオブジェクトを含む任意のコンピュータ生成画像であり得る。
図2Bに、本開示の一実施形態による、モバイルデバイス210におけるAR環境の終了、および通常ビデオ動作に戻ることを示す。初めに、図2Bにおいて、仮想オブジェクト240と仮想バックグラウンド270とを含むAR環境は、ターゲット230が検出されている間、モバイルデバイス210のディスプレイ上に表示される。しかしながら、ユーザ220が、モバイルデバイス210をターゲット230から遠ざけると、モバイルデバイス210は、AR環境を表示することを終了し、それの通常ビデオ動作に戻る。図2Bに示された例では、ユーザ220は、電話280をキャプチャするためにモバイルデバイス210をターゲットから遠ざけ、したがって、モバイルデバイス210は、AR環境を表示することを終了し、代わりに、それの通常ビデオ動作において電話280の画像を表示する。一方、別のターゲットが電話280上でまたはそれに近接して検出された場合、モバイルデバイス210は、仮想オブジェクト240および/または仮想バックグラウンド270をもつAR環境を起動し得る。いくつかの実施形態では、AR環境が起動された後、ターゲット230または所定の外部音がもはや検出されないとき、モバイルデバイス210は、バックグラウンドでAR環境を実行し続けながら、他のタスクを実行し得る。この場合、ターゲット230または音が検出された場合、モバイルデバイス210は、AR環境を表示することに戻り得る。
図3に、本開示の一実施形態による、外部音源360からの外部音に応答する仮想オブジェクト340の図を示す。理解しやすいように、テーブルおよびターゲットは図3に示していないが、ターゲットがモバイルデバイス310によって検出された後、AR環境はモバイルデバイス310中で動作していることを諒解されたい。このAR環境では、モバイルデバイス310は、現実世界環境中に存在する外部音源360から外部音を受信する。外部音源360は、図3に示す別の人、またはモバイルデバイス310によって検出され得る音を生成する任意の音源であり得る。外部音に応答して、仮想オブジェクト340は、それが、外部音がそこから生成される外部音源360に気づいていることを示すアクションを実行するように構成され得る。たとえば、仮想オブジェクト340は、仮想オブジェクト340が初めに配置されたターゲットの中心から外部音源360の方向を見るかまたはその方向に移動し得る。仮想オブジェクト340はまた、受信された外部音に応答してアクションまたはイナクションをとるように構成され得る。たとえば、モバイルデバイス310が、雑音であると知覚される周囲音を受信した場合、仮想オブジェクト340は、受信された周囲音に応答してアクションを実行しないことがある。
図4は、本開示の一実施形態による、拡張現実環境をユーザに提供するためのモバイルデバイス110のブロック図である。モバイルデバイス110は、制御ユニット400と、センサー420と、ストレージユニット440と、ディスプレイ460とを含む。センサー420は画像センサー420Aと音センサー420Bとをさらに含む。これらの構成要素は、本開示で説明する任意のモバイルデバイスと組み合わされ得ることを理解されたい。
通常ビデオモードで動作しているとき、モバイルデバイス110の画像センサー420Aは現実世界画像をキャプチャし、音センサー420Bは外部音を受信する。キャプチャされた現実世界画像から、制御ユニット400は、それらの画像がターゲットを含むかどうかを判断するように構成される。ターゲットが検出されない場合、モバイルデバイス110は通常ビデオモードで動作し続け得る。一方、キャプチャされた画像のうちの少なくとも1つがターゲットを含むと制御ユニット400が判断した場合、制御ユニット400は、ストレージユニット440に記憶されたARアプリケーションを起動し、ユーザのためにモバイルデバイス110のディスプレイ上にAR環境を表示するように構成される。たとえば、図1に示したように、モバイルデバイス110がターゲット130をキャプチャしたとき、制御ユニット400は、モバイルデバイス110のディスプレイ460上のリアルタイムでのキャプチャされた画像上に仮想オブジェクト140と仮想バックグラウンド170とを重畳し得る。
さらに、制御ユニット400は、音センサー420Bによって受信された外部音を分析するように構成される。受信された外部音に基づいて、制御ユニット400は、AR環境において仮想オブジェクトが実行すべき応答を生成するように構成される。特に、制御ユニット400は、ターゲット130とモバイルデバイス110と外部音の音源160とに関する幾何学的情報を判断する。
幾何学的情報は、モバイルデバイス110とターゲット130と音源160との間の方向関係および位置関係を示す。モバイルデバイス110とターゲット130との間の幾何学的情報は、ターゲット130の特徴点に関する、モバイルデバイス110に記憶された情報(たとえば、特徴点の数、特徴点の座標)と、ターゲット130の物理的サイズとを使用するカメラ姿勢推定技法を使用することによって判断され得る。カメラ姿勢推定技法は、従来のカメラモデルの再投影誤差(re-projection error)を低減するために使用される。たとえば、本技法は、2D画像における特徴点と3D画像における特徴点との間の対応を判断することによって、所定の数の自由度(DOF:degree of freedom)を有するカメラ姿勢を推定し得る。対応に基づいて、よく知られているカメラ姿勢変換方法を使用して、3D特徴点が2D特徴点に投影され得る。
たとえば、モバイルデバイス110の画像センサー420Aの焦点距離と、ディスプレイ460上のキャプチャされたターゲットのサイズに対する検出されたターゲット130の記憶された物理的サイズの比とに基づいて、モバイルデバイス110とターゲット130との間の距離が判断され得る。さらに、モバイルデバイス110と音源160との間の幾何学的情報は、ビームフォーミング技法を使用して取得され得る。たとえば、ビームフォーミング技法は、モバイルデバイス110の音センサー420Bによって音源160から受信された音に基づいて音源160のロケーションを推定し得る。上記の取得された幾何学的情報に基づいて、ターゲット130と音源160との間の幾何学的情報は判断され得る。幾何学的情報を判断することについて、図8Aおよび図8Bを参照しながらより詳細に説明する。
さらに、制御ユニット400は、異なる音源からの複数の音が、受信された外部音中に含まれると判断するように構成される。この場合、受信された外部音は複数の音に分離され得る。さらに、制御ユニット400は、それぞれ複数の音に対応する音源の各々について幾何学的情報を判断するように構成される。判断された幾何学的情報に基づいて、仮想オブジェクトが実行すべきアクションまたはイナクションであり得る応答が音源の各々について判断される。次いで、制御ユニット400は、仮想オブジェクト140が実行すべき応答の出力順序を判断し得る。応答がイナクションである場合、応答の出力順序は完全にイナクション応答を省略し得る。
さらに、外部音の音特性(たとえば、音楽、拍手など)に基づいて、制御ユニット400はまた、AR環境において仮想オブジェクト140が実行すべき応答を判断し得る。基準音のセットおよび対応するAR応答がストレージユニット440に記憶され得、受信された外部音は、記憶された基準音と比較され得る。さらに、基準音のセットは、受信された外部音と比較されるべき参照モデルとして使用され得る。比較に基づいて、制御ユニット400は、一致する基準音に対する対応する応答を判断し、AR環境において仮想オブジェクト140が実行すべき応答を出力し得る。外部音に基づいて仮想オブジェクト140が実行すべき応答は上記の例に限定されず、応答の順序は、ターゲット130に関するモバイルデバイス110の距離に基づいて実行され得る。たとえば、外部音が、雑音など、認識されない音である場合、制御ユニット400は、認識されない音に関連するアクションまたはイナクションを生成しないことがある。さらに、制御ユニット400は、他の構成要素を含み、図4に示されていない従来のモバイルデバイスの機能を実行し得る。
図5は、本開示の一実施形態による、モバイルデバイス110の制御ユニット400のより詳細なブロック図である。制御ユニット400は、ターゲットオブジェクト検出器510と、ARアプリケーション起動ユニット520と、音分析器530と、幾何学的情報計算ユニット540と、AR応答生成器550とを含む。
ターゲットオブジェクト検出器510は、キャプチャされた画像から所定のターゲットを検出するように構成される。キャプチャされた画像がターゲット130を含むとターゲットオブジェクト検出器510が判断した場合、ARアプリケーション起動ユニット520は、ユーザ120のためにモバイルデバイス110のディスプレイ460上にAR環境を生成するためにARアプリケーションを起動するように構成される。たとえば、図1に示したように、仮想オブジェクト140および仮想バックグラウンド170はモバイルデバイス110のディスプレイ上に表示される。
制御ユニット400中の音分析器530は音センサー420Bから外部音を検出するように構成される。外部音が検出された場合、幾何学的情報計算ユニット540は、モバイルデバイス110とターゲット130と外部音の音源160との間の幾何学的情報を判断するように構成される。キャプチャされた画像中のターゲット130の位置および配向を取得するために、ターゲット130は、たとえば、モバイルデバイス110からの特定の距離および角度におけるターゲットの事前記憶された画像と比較される。比較に基づいて、幾何学的情報計算ユニット540は、モバイルデバイス110の位置、配向および動きを判断するように構成される。さらに、モバイルデバイス110の動きは、加速度計、磁力計、またはジャイロスコープなど、モバイルデバイス110内の動き感知デバイスからの情報に基づいて監視され得る。さらに、幾何学的情報計算ユニット540は、モバイルデバイス110とターゲット130と音源160との間の幾何学的情報を判断するために、モバイルデバイス110の位置および配向を判断し得る。さらに、動き感知デバイスからの情報は、モバイルデバイス110の位置および動きを確認することができる任意の好適な方法と組み合わされ得る。
次に、幾何学的情報計算ユニット540は、カメラ姿勢推定技法を使用して、モバイルデバイス110とターゲット130との間の幾何学的情報を判断し、ビームフォーミング技法を使用して、音源160の位置を含む、モバイルデバイス110と音源160との間の幾何学的情報を判断するように構成される。モバイルデバイス110の判断された位置および配向と、モバイルデバイス110とターゲット130との間の幾何学的情報と、モバイルデバイス110と音源160との間の幾何学的情報とに基づいて、幾何学的情報計算ユニット540は、ターゲット130と音源160との間の幾何学的情報を判断するように構成される。
モバイルデバイス110とターゲット130との間の幾何学的情報は、モバイルデバイス110とターゲット130との間の距離および角度のうちの少なくとも1つを含み得る。この場合、モバイルデバイス110の位置および配向に基づいて、モバイルデバイス110の主面(たとえば、モバイルデバイス110の裏面)が基準面として使用され得る。さらに、幾何学的情報計算ユニット540は、基準面に直交するベクトルと、基準面からターゲットまでのベクトルとを判断し得る。次いで、2つのベクトル間の角度が、モバイルデバイス110とターゲット130との間の幾何学的情報の一部として判断され得る。モバイルデバイス110と音源160との間の幾何学的情報は同様の方法で判断され得る。
モバイルデバイス110とターゲット130との間の判断された幾何学的情報と、モバイルデバイス110と音源160との間の判断された幾何学的情報とに基づいて、幾何学的情報計算ユニット540は、ターゲット130と音源160との間の幾何学的情報を判断し得る。たとえば、3つの点、すなわち、モバイルデバイス110、ターゲットおよび音源に基づいて、2つのあらかじめ判断されたベクトルを使用して、ターゲット130と音源160との間の距離が判断され得る。幾何学的情報を判断するためのさらなる詳細について、図8Aおよび図8Bを参照しながら説明する。
モバイルデバイス110とターゲット130と音源160との間の判断された幾何学的情報に基づいて、AR応答生成器550は、AR環境において仮想オブジェクト140が実行すべき応答を生成するように構成される。たとえば、AR応答生成器550は、音源160の方向を見るためにターゲットの中心に立っている仮想オブジェクト140についての応答を生成し得る。代替として、ターゲットの中心に立っている仮想オブジェクト140は、応答として音源の方向に移動し得る。AR応答生成器550は、外部音に基づいて仮想オブジェクト140が実行すべきアクションまたはイナクションを生成し得る。たとえば、雑音など、外部音が認識されない場合、応答生成器550は、アクションを生成しないことがあるか、または仮想オブジェクト140が実行すべき、認識されない音に関連するイナクションを生成することがある。さらに、音源160とモバイルデバイス110との間の位置情報および/またはターゲット130とモバイルデバイス110との間の位置情報を識別するために、任意の好適な方法が使用され得る。
図6は、本開示の一実施形態による、外部音に基づいて、仮想オブジェクトが実行すべき応答を生成するための方法を示すフローチャート600である。初めに、610において、通常ビデオモードでモバイルデバイスが動作する。620において、ビデオモードで、ターゲットが検出されたかどうかを判断するために、リアルタイムでの現実世界環境のキャプチャされた画像を連続的に追跡する。キャプチャされた画像中の所定のターゲットが検出された場合、ARアプリケーションが起動され、630において仮想オブジェクトおよび仮想環境を表示する。代替として、仮想オブジェクトおよび仮想環境は、所定の外部音を検出すると表示され得る。いくつかの実施形態では、画像中のターゲットが検出されない場合、通常ビデオ動作は続く。AR環境は、リアルタイムでのキャプチャされた画像を仮想オブジェクトと組み合わせることによって生成される。たとえば、図2Aを参照すると、モバイルデバイス210が、ターゲット230を含む現実世界画像をキャプチャしたとき、仮想オブジェクト240および仮想バックグラウンド270は、モバイルデバイス210のディスプレイ上のAR環境におけるターゲット230上に現れる。
次いで、640において、モバイルデバイスは、外部音が受信されたかどうかを判断する。650において、モバイルデバイスは、ターゲットと音源とモバイルデバイスとの間の幾何学的情報(たとえば、位置関係および方向関係)を判断する。たとえば、ターゲットと音源との間の幾何学的情報は、上記で説明したように、モバイルデバイスとターゲットとの間の幾何学的情報と、モバイルデバイスと音源との間の幾何学的情報とに基づいて判断され得る。判断された幾何学的情報に基づいて、660において、仮想オブジェクトについての応答を生成する。次いで、670において、仮想バックグラウンド(たとえば、仮想バックグラウンド170)とともに応答を実行する仮想オブジェクトをモバイルデバイスのディスプレイ上に表示する。
図7Aおよび図7Bに、本開示の一実施形態による、外部音に基づいて、仮想オブジェクトについての実行されるべき応答を生成するための図を示す。初めに、モバイルデバイス710が通常カメラ動作を実行する。図7Aに示すように、所定のターゲット730がモバイルデバイス710によって検出されると、ARアプリケーションが起動され得、仮想オブジェクト740と仮想バックグラウンド770とを含むAR環境はモバイルデバイス710のディスプレイ上に表示される。
ARアプリケーションが動作している間、モバイルデバイス710は、外部音源760から外部音を検出するように構成される。外部音に基づいて、モバイルデバイス710は、モバイルデバイス710とターゲット730と外部音源760との間の幾何学的情報を判断する。モバイルデバイス710とターゲット730と外部音源760との間の幾何学的情報は、AR環境において仮想オブジェクト740が実行すべき応答を判断するために使用され得る。たとえば、図7Bにおいて、仮想オブジェクト740は、外部音に対する応答として外部音源760の方向を見る。
図8Aおよび図8Bに、本開示の一実施形態による、外部音に基づいてAR応答を生成するために、ターゲットと音源とモバイルデバイスとの間の幾何学的関係を判断するための図を示す。幾何学的情報は、概して、2つの物体間の距離および角度のうちの少なくとも1つを含む。本開示の一実施形態では、幾何学的情報は、モバイルデバイス810の画像センサーおよび音センサーを使用して判断され得る。図8Aにおいて、モバイルデバイス810とターゲット830との間の幾何学的情報は、画像センサーを使用することによって判断されるが、モバイルデバイス810と外部音源860との間の幾何学的情報は、音センサーを使用することによって判断される。
図8Aにおいて、距離aがモバイルデバイス810と外部音源860との間の距離を示し、距離bがモバイルデバイス810とターゲット830のロケーションとの間の距離を示し、距離cがターゲット830のロケーションと外部音源860との間の距離を示す。これらの距離を測定することの詳細について、図8Bを参照しながらより詳細に説明する。距離aは、モバイルデバイス810の裏面の中心から外部音源860の推定ロケーションまで測定され、距離bは、モバイルデバイス810の裏面の中心からターゲット830の中心まで測定される。さらに、仮想オブジェクト840と外部音源860との間の距離cを計算するために角度θも判断され、モバイルデバイス810と外部音源860とに対してターゲット830の角度φが形成される。距離cを計算するための方法について、図8Bを参照しながらより詳細に説明する。
図8Bは、図8Aからの、モバイルデバイス810とターゲット830と外部音源860との間の簡略化された幾何学的関係を示す。図8Bにおいて、距離a、bおよびcは、外部音源860から受信された外部音に基づいて、仮想オブジェクト840が実行すべき応答を生成するために判断される。ターゲット830と外部音源860との間の距離cを計算するために、距離aおよびb、ならびに角度θが判断される。モバイルデバイス810と外部音源860との間の距離aは、限定はしないが、ビームフォーミング技法を含む、当技術分野でよく知られている任意の信号処理技法を使用することによって判断され得る。ビームフォーミング技法は、モバイルデバイス810の音センサーによって音源から受信された音に基づいて音源のロケーションを推定する。
距離aが判断されると、角度αも判断され得る。最初に、モバイルデバイス810の裏面が基準面として使用され、基準面に直交するベクトルvが判断される。次いで、基準面から外部音源860までのベクトルとして、ベクトルvと距離aとの間の角度を計算することによって、角度αが判断される。
さらに、上記で説明したように、画像センサーを使用した、当技術分野でよく知られているカメラ姿勢推定技法によって、モバイルデバイス810とターゲット830との間の距離bが判断され得る。また、基準面からターゲット830までのベクトルとして、ベクトルvと距離bとの間の角度を計算することによって、角度βが判断される。本開示による一実施形態では、ターゲットの記憶された特徴点の座標と、モバイルデバイス810のディスプレイスクリーン上の検出されたターゲット830の座標とを比較することによって、角度βが推定され得る。
次に、角度αと角度βとを加算することによって角度θが計算される。距離a、距離b、および角度θに基づいて、ターゲット830と外部音源860との間の距離cが推定され得る。さらに、距離a、距離b、および距離cに基づいて、モバイルデバイス810と外部音源860とに対して形成されたターゲット830の角度φも推定され得る。距離cおよび角度φを使用して、モバイルデバイス810は、仮想オブジェクト840が実行すべき応答を判断することができる。
再び図8Aを参照すると、仮想オブジェクト840についての応答は、ターゲット830から外部音源860の方向を見ることである。したがって、ユーザ820のために表示されるAR環境において、仮想オブジェクト840は、AR環境の現実世界知覚を向上させるために、外部音源860と仮想オブジェクト840との間の幾何学的情報に基づいて外部音源860の方向を見る。
図9Aおよび図9Bに、本開示の別の実施形態による、外部音に基づいて、仮想オブジェクト940によって実行されるべき応答を生成するための図を示す。理解しやすいように、テーブルおよびターゲットは図9Aおよび図9Bに示していないが、ターゲットがモバイルデバイス910によって検出された後、AR環境はモバイルデバイス910中で動作していることを諒解されたい。図7Bと同様に、図9Aにおいて、ARアプリケーションが起動され、仮想オブジェクト940は、外部音に基づく応答として、外部音源960の方向を見る。モバイルデバイス910とターゲットと外部音源960との間の幾何学的情報は、上記で説明したように、仮想オブジェクト940についての応答を生成するために判断され得る。
図9Bに示すように、外部音に応答して、仮想オブジェクト940についての追加の応答が生成され得る。図7Bを参照しながら説明したように、外部音が外部音源960から継続的に受信される間、仮想オブジェクト940は外部音源960の方向を見続ける。外部音から、「スマイル」など、所定の言葉が検出された場合、「スマイル」という言葉に基づいて仮想オブジェクト940が実行すべき対応する応答が、モバイルデバイス910のストレージユニットにおいて探索され得る。たとえば、図9Bに示すように、「スマイル」という言葉についての応答は、仮想オブジェクト940の笑顔の表情である。したがって、仮想オブジェクト940は、AR環境において「スマイル」という言葉に基づいて笑う。代替として、受信された音は、音の所定のリストおよび対応する応答を記憶する、サーバなどの外部デバイスに送信され得る。この場合、外部デバイスは、受信された音に対応する応答を探索し、モバイルデバイスにおいて仮想オブジェクト940が実行すべき応答を与え得る。
図10Aおよび図10Bに、本開示の別の実施形態による、外部音に基づいて、仮想オブジェクト1040によって実行されるべき応答を生成するための図を示す。図10Aにおいて、仮想オブジェクト1040と仮想バックグラウンド1070とを含むARアプリケーションは、ターゲットの検出に応答して起動される。この図示の実施形態では、仮想バックグラウンド1070は、異なるタイプの音特性、たとえば、雑音、ポップ、クラシック、および拍手音を識別する、円などの複数の領域を含み、仮想オブジェクト1040は中心領域に位置する。代替として、仮想バックグラウンド1070の領域は、異なるタイプの音特性を識別することを可能にするために、幾何学的形状と、マップと、仮想オブジェクトとを含む任意の形状または形態であり得る。
外部音源1060からの外部音が受信されると、モバイルデバイス1010は、外部音が、AR環境における複数の領域のうちの1つにおいて示される音特性を有することが識別され得るかどうかを判断する。たとえば、外部音が受信されたとき、少なくとも1つの音特徴が外部音から抽出される。次いで、外部音の抽出された音特徴は、複数の基準音モデル、たとえば、仮想バックグラウンド1070の複数の領域において識別された音特性(または音クラス)に関連する統計モデル(たとえば、ガウス混合モデル(GMM:gaussian mixture model))と比較され得る。基準音モデルは、モバイルデバイス1010のストレージユニットに事前記憶され得るか、または外部メモリ、サーバなど、モバイルデバイス1010の外部に記憶され得る。抽出された音特徴の音特性を識別するために、モバイルデバイス1010は、抽出された音特徴がどのように基準音モデルの各々に一致するかを判断するためにスコア演算を実行するように構成され得る。
スコア演算では、一致する結果に基づいて、基準音モデルの各々に数値が割り当てられ得る。いくつかの実施形態では、モバイルデバイス1010は、次いで、スコア演算において受信された最も高い数値を用いて、(所定の音クラスを識別するために)基準音モデルを判断し、仮想オブジェクト1040が実行すべき対応する応答を出力し得る。たとえば、図10Bに示すように、ポップミュージックを示す基準音モデルは、スコア演算の結果として最も高い数値を受信し、仮想オブジェクト1040は、「ポップ」と標示された領域に移動する。別の実施形態では、スコア演算はいくつかの基準音モデルに数値のみを与え得る。代替として、スコア演算は、抽出された音特徴が基準音モデルのうちの1つにおいて特徴づけられる可能性を単に与え得る。
図11は、本開示の一実施形態による、外部音に基づいて、仮想オブジェクトによって実行されるべき応答を生成するための方法を示すフローチャート1100である。初めに、仮想オブジェクトと仮想バックグラウンドとを含むARアプリケーションが起動される。外部音がモバイルデバイス1010によって受信されたとき、1120において、外部音から音特徴を抽出する。抽出された音特徴は、次いで基準音モデルと比較され、基準音モデルは、比較結果に基づいて数値を与えられる。1140において、モバイルデバイス1010は、スコア演算の結果に基づいて受信された最も高い数値をもつ基準音モデルを探索する。最も高い数値をもつ基準音モデルが判断されると、1160において、仮想オブジェクト1040が実行すべき、そのような基準音モデルに関連する応答を判断する。次いで、1180において、仮想オブジェクトは、AR環境において、対応する応答を実行する。
図12に、本開示の一実施形態による、仮想オブジェクトが実行すべき応答を生成するための制御ユニット400のための詳細ブロック図を示す。図示の実施形態では、音分析器530と、幾何学的情報計算ユニット540と、AR応答生成器550とを含む図5の制御ユニット400の一部分について、より詳細に説明する。特に、音分析器530は、音分離器1210と音源識別ユニット1220とを含み、AR応答生成器550は、応答生成ユニット1230と、応答順序セレクタ1240と、応答出力制御ユニット1250とを含む。
次に、モバイルデバイス110の音センサーによって、異なる音源からの複数の音を含む外部音が受信され得る。外部音は、次いで、外部音を、異なる音源から発生した複数の音に分離するように構成された音分離器1210に与えられる。分離された音が音源識別ユニット1220に与えられると、音源識別ユニット1220は、モバイルデバイス110に対する音源の各々の距離および方向を判断することによって、分離された音の各々に関連する音源を識別する。次いで、音源識別情報は、図8Aおよび図8Bを参照しながら説明したように、モバイルデバイス110とターゲットと複数の音の各音源との間の幾何学的情報を判断するために幾何学的情報計算ユニット540に与えられる。
AR応答生成器550は、幾何学的情報計算ユニット540から幾何学的情報を受信し、AR環境において仮想オブジェクトが実行すべき応答を生成するように構成される。特に、AR応答生成器550の応答生成ユニット1230は、たとえば、図5で説明したように、幾何学的情報計算ユニット540からの幾何学的情報に基づいて音源の各々についての応答を生成するように構成される。生成された応答に基づいて、応答順序セレクタ1240は音源の各々についての応答の出力順序を判断する。たとえば、応答順序セレクタ1240は、ターゲットからの識別された音源の近接度など、所定の条件に従って、仮想オブジェクトが実行すべき応答のための出力順序を判断し得る。一実施形態では、応答順序セレクタ1240は、音源とターゲットとの間の相対距離に従って応答のための出力順序を判断し得る。一方、出力順序の条件は、あるタイプの音に関連する応答を出力することだけであり得る。さらに、出力順序は、外部音が受信される前または後に、あるいはランダムに、ユーザによって選択されるか、またはあらかじめ判断され得る。応答の出力順序が判断されると、応答出力制御ユニット1250は、AR環境において仮想オブジェクトが実行すべき応答を出力するように構成される。さらに、分離された音のうちの1つまたは複数が識別可能な音源に対応しない場合、対応しない音は、無視されるべき周囲音として識別され得る。
図13は、本開示の一実施形態による、複数の音に関連する仮想オブジェクトについての応答を生成するための方法を示すフローチャート1300である。1310において、ARアプリケーションが動作している間、モバイルデバイスの音センサーが複数の音源から外部音を受信する。外部音が複数の音源からの複数の音を含む場合、1320において、外部音を複数の音に分離する。次いで、1330において、異なる音源とともに複数の音の各々を識別する。音源が複数の音について識別されると、上記で説明したように、たとえば、ビームフォーミング技法を使用して、音源のロケーションおよび方向に関する情報が判断される。音源についての音源情報を使用して、上記で説明したように、モバイルデバイスとターゲットと音源の各々との間の幾何学的情報が判断される。
1340において、そのような幾何学的情報を使用して、各音源および分離された音について、仮想オブジェクトが実行すべき応答を判断する。音源および/または音についての応答が判断されると、1350において、所定の条件に従って、AR環境において仮想オブジェクトが実行すべき応答の出力順序を判断する。1360において、仮想オブジェクトは、次いで、出力順序に従って応答を実行する。
図14Aおよび図14Bに、本開示の一実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクト1440によって実行されるべき応答の順序を生成するための図を示す。図2Aと同様に、初めに、ARアプリケーションを起動するモバイルデバイス1410の画像センサーによって、ターゲット1430が検出される。ARアプリケーションを起動すると、モバイルデバイス1410のディスプレイ上のAR環境において、仮想オブジェクト1440および仮想バックグラウンド1470がレンダリングされる。ARアプリケーションが動作している間、モバイルデバイス1410の音センサーは、図14Aに示すように、複数の音源1480および1490から外部音を受信する。外部音が受信されると、モバイルデバイス1410は、外部音を、異なる音源からの複数の音に分離する。受信された各外部音について、分離された音の各々についての対応する音源が識別される。音源の識別に基づいて、分離された音および/または音源の各々についての応答が生成される。応答が生成されると、仮想オブジェクト1440が実行すべき応答の出力順序が選択され、応答の出力順序に基づいて、仮想オブジェクト1440は、次いで、AR環境において応答を実行する。
いくつかの実施形態では、仮想オブジェクト1440からの音源1480および1490の距離に基づいて、仮想オブジェクトが実行すべき応答として出力されるべき所定の出力シーケンスが生成され得る。たとえば、図14Aに示すように、音源1480は、音源1490よりもターゲット1430の近くに位置する。この図示の実施形態では、仮想オブジェクト1440のための出力順序は、最初にターゲット1440により近い音源1480を見、次いで、ターゲット1430からより遠く離れている音源1490を見ることを含む。したがって、仮想オブジェクト1440は、図14Aにおいて、音源1480からの音に基づいて、最初に、ターゲット1430のより近くに位置する音源1480を凝視する。次いで、仮想オブジェクト1440は、図14Bに示すように、音源1490からの音に応答して、ターゲット1430からより遠く離れて位置する音源1490を見る。
図15に、本開示の別の実施形態による、複数の音源からの外部音に基づいて、仮想オブジェクト1540によって実行されるべき応答の順序を生成するための図を示す。図15において、モバイルデバイス1510によって受信された外部音は、音源1580からの音と、音源1590からの音とを含む。受信された各外部音について、分離された音の各々についての対応する音源が識別される。さらに、分離された音は、それらの音が、モバイルデバイス1510のストレージに記憶された音特性を含むかどうかを判断するために分析される。この場合、図9Aおよび図9Bを参照しながら説明した音特性識別動作と同様の音特性識別動作が実行され得る。音源と、複数の音の音特性との識別に基づいて、分離された音および/または音源の各々についての応答が生成され得る。すなわち、音源1580からの音は、雑音であり、仮想オブジェクト1540が実行すべき応答に関連しないと判断され、一方、音源1590からの音についての応答は、音源1590を見ることである。したがって、図15に示すように、仮想オブジェクト1540は、音源からの音に基づいて音源1590を見るだけであり、外部音に応答して音源1580を見ることはない。
図16Aおよび図16Bに、本開示の一実施形態による、モバイルデバイス1610とターゲット1630との間の距離に基づいて仮想オブジェクト1640の音量を調整するための図を示す。仮想オブジェクト1640によって生成された音量は、モバイルデバイス1610とターゲット1630との間の距離に基づいて変更され得る。上述のように、カメラ姿勢推定技法を使用することによって、モバイルデバイス1610とターゲット1630との間の距離が推定され得る。たとえば、前にキャプチャされたターゲットのサイズと、現在キャプチャされているターゲットのサイズとを比較することによって、モバイルデバイス1610とターゲット1630との間の相対距離が計算される。前にキャプチャされたターゲットのサイズが、現在キャプチャされているターゲットのサイズよりも小さい場合、モバイルデバイス1610とターゲット1630との間の距離が減少したと判断される。逆に、前にキャプチャされたターゲットのサイズが、現在キャプチャされているターゲットのサイズよりも大きい場合、モバイルデバイス1610とターゲット1630との間の距離が増加したと判断される。モバイルデバイス1610とターゲット1630との間の相対距離に基づいて、AR環境における音量は、距離を反映するように調整され得る。
図16Aにおいて、初めに、仮想オブジェクト1640と仮想バックグラウンド1670とを含むARアプリケーションは、ターゲット1630の検出に応答して起動される。この図示の実施形態では、モバイルデバイス1610は、AR環境において仮想オブジェクト1640によって実行されるアクションに従って、音、たとえば、エンジン音を出力するように構成される。図16Bに示すように、モバイルデバイス1610が、ターゲット1630からさらに遠ざかるとき、仮想オブジェクト1640はAR環境においてより小さく見えるようになる。現実感を向上させるために、モバイルデバイス1610がターゲット1630からさらに遠ざかるにつれて、仮想オブジェクト1640によって生成された音量も減少する。逆に、モバイルデバイス1610がターゲット1630に近づくにつれて、仮想オブジェクト1640によって生成された音量は増加する。したがって、音量は、ターゲット1630に対するモバイルデバイス1610のロケーションに基づいて調整され得る。
図17は、本開示の一実施形態による、モバイルデバイスとターゲットとの間の距離に基づいて仮想オブジェクトの音量を調整するための方法を示すフローチャート1700である。図17について、図16Aおよび図16Bを参照しながら説明する。ターゲット1630が検出されたとき、ARアプリケーションが起動され、1710において、モバイルデバイス1610のディスプレイ上のAR環境において仮想オブジェクト1640と仮想バックグラウンド1670とを表示する。この時点で、仮想オブジェクト1640も一定の音量でエンジン音を出力する。1730において、モバイルデバイス1610がターゲット1630からさらに遠ざかるとき、1750において、モバイルデバイス1610は、モバイルデバイス1610の動きに基づいて、仮想オブジェクト1640によって生成された音量を減少させるように調整する。さらに、1750において、モバイルデバイス1610は、その中に仮想オブジェクト1640がより小さく見えるようにするためにAR環境を調整する。次いで、1770において、調整されたAR環境および音量をモバイルデバイス1610のディスプレイに出力する。
図18に、本開示のARアプリケーションが実行され得る、例示的なモバイルデバイス1800の構成を示す。モバイルデバイス1800の構成は、図1〜図18を参照しながら説明した上記の実施形態に従ってモバイルデバイス中で実装され得る。モバイルデバイス1800は、セルラーフォン、端末、ハンドセット、携帯情報端末(PDA)、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標):Global System for Mobile Communications)システム、広帯域CDMA(WCDMA)(登録商標)システム、ロングタームエボリューション(LTE:Long Tern Evolution)システム、LTE Advancedシステムなどであり得る。さらに、モバイルデバイス1800は、たとえば、Wi−Fi Direct、Bluetooth(登録商標)、またはFlashLinq技術を使用して、別のモバイルデバイスと直接通信し得る。
モバイルデバイス1800は、受信経路および送信経路を介して双方向通信を行うことが可能である。受信経路上では、基地局によって送信された信号は、アンテナ1812によって受信され、受信機(RCVR)1814に与えられる。受信機1814は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化されたデジタル信号などのサンプルをデジタルセクションに与える。送信経路上では、送信機(TMTR)1816は、デジタルセクション1820から送信されるべきデータを受信し、データを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ1812を介して基地局に送信される。受信機1814および送信機1816は、CDMA、GSM、LTE、LTE Advancedなどをサポートし得るトランシーバの一部であり得る。
デジタルセクション1820は、たとえば、モデムプロセッサ1822、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1824、コントローラ/プロセッサ1826、内部メモリ1828、一般化オーディオエンコーダ1832、一般化オーディオデコーダ1834、グラフィックス/ディスプレイプロセッサ1836、および外部バスインターフェース(EBI)1838など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ1822は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行し得る。RISC/DSP1824は、モバイルデバイス1800のための一般的専用処理を実行し得る。コントローラ/プロセッサ1826は、デジタルセクション1820内の様々な処理ユニットおよびインターフェースユニットの演算を実行し得る。内部メモリ1828は、デジタルセクション1820内の様々なユニットのためのデータおよび/または命令を記憶し得る。
一般化オーディオエンコーダ1832は、オーディオソース1842、マイクロフォン1843などからの入力信号に対して符号化を実行し得る。一般化オーディオデコーダ1834は、コード化オーディオデータに対して復号を実行し得、出力信号をスピーカー/ヘッドセット1844に与え得る。グラフィックス/ディスプレイプロセッサ1836は、ディスプレイユニット1846に提示され得る、グラフィックス、ビデオ、画像、およびテキストのための処理を実行し得る。EBI1838は、デジタルセクション1820とメインメモリ1848との間のデータの転送を可能にし得る。
デジタルセクション1820は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装され得る。デジタルセクション1820はまた、1つまたは複数の特定用途向け集積回路(ASIC)、および/または何らかの他のタイプの集積回路(IC)上に作製され得る。
概して、本明細書で説明したいかなるデバイスも、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなど、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを記憶するためのメモリを有し得る。
本明細書で説明した技法は様々な手段によって実装され得る。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。さらに、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。
ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。
したがって、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装され得る。
ファームウェアおよび/またはソフトウェア実装の場合、本技法は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブル読取り専用メモリ(PROM)、電気的消去可能PROM(EEPROM(登録商標))、フラッシュメモリ、コンパクトディスク(CD)、磁気または光学データストレージデバイスなど、コンピュータ可読媒体上に記憶された命令として組み込まれ得る。命令は、1つまたは複数のプロセッサによって実行可能であり得、本明細書で説明した機能のいくつかの態様を(1つまたは複数の)プロセッサに実行させ得る。
ソフトウェアで実装した場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体とコンピュータ通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。
たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、CD(disc)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイ(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
本開示についての以上の説明は、いかなる当業者も本開示を作成または使用することができるように与えたものである。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用され得る。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。
例示的な実装形態は、1つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に、複数のデバイスにわたって記憶が影響を受けることがある。そのようなデバイスは、PCと、ネットワークサーバと、ハンドヘルドデバイスとを含み得る。
主題について構造的特徴および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
主題について構造的特徴および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
モバイルデバイスの拡張現実(AR)アプリケーションにおいて外部音に応答するための方法であって、前記方法は、
ターゲットを検出することと、
前記ARアプリケーションにおいて仮想オブジェクトを起動することと、
前記モバイルデバイスの少なくとも1つの音センサーが、音源から前記外部音を受信することと、
前記音源と前記ターゲットとの間の第1の幾何学的情報を判断することと、
前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成することと
を備える、方法。
[C2]
前記第1の幾何学的情報を判断することが、
前記モバイルデバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
前記モバイルデバイスと前記音源との間の第3の幾何学的情報を判断することと、
前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
を含む、C1に記載の方法。
[C3]
前記第2の幾何学的情報が、前記モバイルデバイスと前記ターゲットとの間の距離と、前記ターゲットと前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、C2に記載の方法。
[C4]
前記第3の幾何学的情報が、前記モバイルデバイスと前記音源との間の距離と、前記音源と前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、C2に記載の方法。
[C5]
前記第1の幾何学的情報が、前記ターゲットと前記音源との間の距離と、前記モバイルデバイスと前記音源とに対して形成された前記ターゲットの角度とのうちの少なくとも1つを含む、C2に記載の方法。
[C6]
前記第3の幾何学的情報が、カメラ姿勢推定に基づいて判断される、C2に記載の方法。
[C7]
前記少なくとも1つの応答を生成することが、
前記受信された外部音から少なくとも1つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を含む、C1に記載の方法。
[C8]
前記外部音を受信することは、
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された音源と前記ターゲットとの間の第4の幾何学的情報を判断することと
を含む、C2に記載の方法。
[C9]
前記少なくとも1つの応答を生成することは、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を含む、C8に記載の方法。
[C10]
前記仮想オブジェクトが、前記ARアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも1つを含む、C1に記載の方法。
[C11]
第1の幾何学的情報を前記判断することが、前記音源と前記ターゲットとの間の距離および方向を判断することを含む、C1に記載の方法。
[C12]
第1の幾何学的情報を前記判断することが、前記モバイルデバイス、前記ターゲットおよび前記音源のロケーションを判断することを含む、C1に記載の方法。
[C13]
前記外部音を受信することは、
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
2つ以上の音源の各々と前記ターゲットとの間の第4の幾何学的情報を判断することと、
前記分離された音の各々を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
前記識別された音クラスと前記第4の幾何学的情報とのうちの少なくとも1つに基づいて、前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を含む、C1に記載の方法。
[C14]
拡張現実(AR)アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスが、
画像センサーと少なくとも1つの音センサーとを含み、ターゲットを含む画像と、1つの音源からの前記外部音とを受信するように構成されたセンサーと、
前記画像中の前記ターゲットを検出するように構成されたターゲットオブジェクト検出器と、
前記検出されたターゲットに応答して、前記ARアプリケーションにおいて仮想オブジェクトを起動するように構成されたアプリケーション起動ユニットと、
前記1つの音源と前記ターゲットとの間の第1の幾何学的情報を判断するように構成された幾何学的情報計算ユニットと、
前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成するように構成されたAR応答生成器と
を含む制御ユニットと
を備える、デバイス。
[C15]
前記幾何学的情報計算ユニットが、
前記デバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
前記デバイスと前記1つの音源との間の第3の幾何学的情報を判断することと、
前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
を行うようにさらに構成された、C14に記載のデバイス。
[C16]
前記第2の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、C15に記載のデバイス。
[C17]
前記第3の幾何学的情報が、前記デバイスと前記1つの音源との間の距離と、前記1つの音源と前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、C15に記載のデバイス。
[C18]
前記第1の幾何学的情報が、前記ターゲットと前記1つの音源との間の距離と、前記デバイスと前記1つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも1つを含む、C15に記載のデバイス。
[C19]
前記第3の幾何学的情報が、カメラ姿勢推定に基づいて判断される、C15に記載のデバイス。
[C20]
前記AR応答生成器が、
前記受信された外部音から少なくとも1つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも1つの所定の音クラスとして識別することと、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を行うようにさらに構成された、C14に記載のデバイス。
[C21]
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、前記複数の分離された音に関連する追加の音源を識別することと、前記識別された音源と前記ターゲットとの間の第4の幾何学的情報を判断することとを行うように構成された音分析器
をさらに備える、C15に記載のデバイス。
[C22]
前記AR応答生成器が、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を行うようにさらに構成された、C21に記載のデバイス。
[C23]
前記仮想オブジェクトが、前記ARアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも1つを含む、C14に記載のデバイス。
[C24]
前記幾何学的情報計算ユニットが、前記1つの音源と前記ターゲットとの間の距離および方向を判断するようにさらに構成された、C14に記載のデバイス。
[C25]
前記幾何学的情報計算ユニットが、前記デバイス、前記ターゲットおよび前記1つの音源のロケーションを判断するようにさらに構成された、C14に記載のデバイス。
[C26]
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、2つ以上の音源の各々と前記ターゲットとの間の第4の幾何学的情報を判断することと、前記分離された音の各々を少なくとも1つの所定の音クラスとして識別することと、前記識別された音クラスと前記第4の幾何学的情報とのうちの少なくとも1つに基づいて、前記仮想オブジェクトについての前記少なくとも1つの応答を生成することとを行うように構成された音分析器
をさらに備え、
前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、C14に記載のデバイス。
[C27]
拡張現実(AR)アプリケーションにおいてモバイルデバイスが外部音に応答するための命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、
ターゲットを検出する動作と、
前記ARアプリケーションにおいて仮想オブジェクトを起動する動作と、
前記モバイルデバイスの少なくとも1つの音センサーが、1つの音源から前記外部音を受信する動作と、
前記1つの音源と前記ターゲットとの間の第1の幾何学的情報を判断する動作と、
前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成する動作と
をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
[C28]
前記第1の幾何学的情報を判断することが、
前記モバイルデバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
前記モバイルデバイスと前記1つの音源との間の第3の幾何学的情報を判断することと、
前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
を含む、C27に記載の記憶媒体。
[C29]
前記外部音を受信することは、
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された追加の音源と前記ターゲットとの間の第4の幾何学的情報を判断することと
を含む、C28に記載の記憶媒体。
[C30]
前記少なくとも1つの応答を生成することは、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を含む、C29に記載の記憶媒体。
[C31]
拡張現実(AR)アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスは、
ターゲットを検出するための手段と、
前記ARアプリケーションにおいて仮想オブジェクトを起動するための手段と、
1つの音源から前記外部音を受信するための手段と、
前記1つの音源と前記ターゲットとの間の第1の幾何学的情報を判断するための手段と、
前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成するための手段と
を備える、デバイス。
[C32]
前記第1の幾何学的情報を判断するための前記手段が、
前記デバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
前記デバイスと前記1つの音源との間の第3の幾何学的情報を判断することと、
前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
を行うように構成された、C31に記載のデバイス。
[C33]
前記第2の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含み、
前記第3の幾何学的情報が、前記デバイスと前記1つの音源との間の距離と、前記1つの音源と前記デバイスの前記平面に直交する前記軸との間の角度とのうちの少なくとも1つを含み、
前記第1の幾何学的情報が、前記ターゲットと前記1つの音源との間の距離と、前記デバイスと前記1つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも1つを含む、C32に記載のデバイス。
[C34]
前記第3の幾何学的情報が、カメラ姿勢推定に基づいて判断される、C32に記載のデバイス。
[C35]
前記少なくとも1つの応答を生成するための前記手段が、
前記受信された外部音から少なくとも1つの音特徴を抽出することと、
前記抽出された音特徴を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を行うように構成された、C31に記載のデバイス。
[C36]
前記外部音を受信するための前記手段は、
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
前記複数の分離された音に関連する追加の音源を識別することと、
前記識別された追加の音源と前記ターゲットとの間の第4の幾何学的情報を判断することと
を行うように構成された、C32に記載のデバイス。
[C37]
前記少なくとも1つの応答を生成するための前記手段は、
前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を行うように構成された、C36に記載のデバイス。
[C38]
前記外部音を受信するための前記手段は、
前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
2つ以上の音源の各々と前記ターゲットとの間の第4の幾何学的情報を判断することと、
前記分離された音の各々を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
前記識別された音クラスと前記第4の幾何学的情報とのうちの少なくとも1つに基づいて、前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
を行うように構成された、C31に記載のデバイス。

Claims (38)

  1. モバイルデバイスの拡張現実(AR)アプリケーションにおいて外部音に応答するための方法であって、前記方法は、
    ターゲットを検出することと、
    前記ARアプリケーションにおいて仮想オブジェクトを起動することと、
    前記モバイルデバイスの少なくとも1つの音センサーが、音源から前記外部音を受信することと、
    前記音源と前記ターゲットとの間の第1の幾何学的情報を判断することと、
    前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成することと
    を備える、方法。
  2. 前記第1の幾何学的情報を判断することが、
    前記モバイルデバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
    前記モバイルデバイスと前記音源との間の第3の幾何学的情報を判断することと、
    前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
    を含む、請求項1に記載の方法。
  3. 前記第2の幾何学的情報が、前記モバイルデバイスと前記ターゲットとの間の距離と、前記ターゲットと前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、請求項2に記載の方法。
  4. 前記第3の幾何学的情報が、前記モバイルデバイスと前記音源との間の距離と、前記音源と前記モバイルデバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、請求項2に記載の方法。
  5. 前記第1の幾何学的情報が、前記ターゲットと前記音源との間の距離と、前記モバイルデバイスと前記音源とに対して形成された前記ターゲットの角度とのうちの少なくとも1つを含む、請求項2に記載の方法。
  6. 前記第3の幾何学的情報が、カメラ姿勢推定に基づいて判断される、請求項2に記載の方法。
  7. 前記少なくとも1つの応答を生成することが、
    前記受信された外部音から少なくとも1つの音特徴を抽出することと、
    前記抽出された音特徴を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
    前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を含む、請求項1に記載の方法。
  8. 前記外部音を受信することは、
    前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
    前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
    前記複数の分離された音に関連する追加の音源を識別することと、
    前記識別された音源と前記ターゲットとの間の第4の幾何学的情報を判断することと
    を含む、請求項2に記載の方法。
  9. 前記少なくとも1つの応答を生成することは、
    前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
    前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
    前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を含む、請求項8に記載の方法。
  10. 前記仮想オブジェクトが、前記ARアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも1つを含む、請求項1に記載の方法。
  11. 第1の幾何学的情報を前記判断することが、前記音源と前記ターゲットとの間の距離および方向を判断することを含む、請求項1に記載の方法。
  12. 第1の幾何学的情報を前記判断することが、前記モバイルデバイス、前記ターゲットおよび前記音源のロケーションを判断することを含む、請求項1に記載の方法。
  13. 前記外部音を受信することは、
    前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
    前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
    2つ以上の音源の各々と前記ターゲットとの間の第4の幾何学的情報を判断することと、
    前記分離された音の各々を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
    前記識別された音クラスと前記第4の幾何学的情報とのうちの少なくとも1つに基づいて、前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を含む、請求項1に記載の方法。
  14. 拡張現実(AR)アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスが、
    画像センサーと少なくとも1つの音センサーとを含み、ターゲットを含む画像と、1つの音源からの前記外部音とを受信するように構成されたセンサーと、
    前記画像中の前記ターゲットを検出するように構成されたターゲットオブジェクト検出器と、
    前記検出されたターゲットに応答して、前記ARアプリケーションにおいて仮想オブジェクトを起動するように構成されたアプリケーション起動ユニットと、
    前記1つの音源と前記ターゲットとの間の第1の幾何学的情報を判断するように構成された幾何学的情報計算ユニットと、
    前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成するように構成されたAR応答生成器と
    を含む制御ユニットと
    を備える、デバイス。
  15. 前記幾何学的情報計算ユニットが、
    前記デバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
    前記デバイスと前記1つの音源との間の第3の幾何学的情報を判断することと、
    前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
    を行うようにさらに構成された、請求項14に記載のデバイス。
  16. 前記第2の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、請求項15に記載のデバイス。
  17. 前記第3の幾何学的情報が、前記デバイスと前記1つの音源との間の距離と、前記1つの音源と前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含む、請求項15に記載のデバイス。
  18. 前記第1の幾何学的情報が、前記ターゲットと前記1つの音源との間の距離と、前記デバイスと前記1つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも1つを含む、請求項15に記載のデバイス。
  19. 前記第3の幾何学的情報が、カメラ姿勢推定に基づいて判断される、請求項15に記載のデバイス。
  20. 前記AR応答生成器が、
    前記受信された外部音から少なくとも1つの音特徴を抽出することと、
    前記抽出された音特徴を少なくとも1つの所定の音クラスとして識別することと、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
    前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を行うようにさらに構成された、請求項14に記載のデバイス。
  21. 前記外部音が2つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、前記複数の分離された音に関連する追加の音源を識別することと、前記識別された音源と前記ターゲットとの間の第4の幾何学的情報を判断することとを行うように構成された音分析器
    をさらに備える、請求項15に記載のデバイス。
  22. 前記AR応答生成器が、
    前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
    前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
    前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を行うようにさらに構成された、請求項21に記載のデバイス。
  23. 前記仮想オブジェクトが、前記ARアプリケーションにおける、キャラクタと、クラウドと、バックグラウンドとのうちの少なくとも1つを含む、請求項14に記載のデバイス。
  24. 前記幾何学的情報計算ユニットが、前記1つの音源と前記ターゲットとの間の距離および方向を判断するようにさらに構成された、請求項14に記載のデバイス。
  25. 前記幾何学的情報計算ユニットが、前記デバイス、前記ターゲットおよび前記1つの音源のロケーションを判断するようにさらに構成された、請求項14に記載のデバイス。
  26. 前記外部音が2つ以上の音源から受信されたかどうかを判断することと、前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、2つ以上の音源の各々と前記ターゲットとの間の第4の幾何学的情報を判断することと、前記分離された音の各々を少なくとも1つの所定の音クラスとして識別することと、前記識別された音クラスと前記第4の幾何学的情報とのうちの少なくとも1つに基づいて、前記仮想オブジェクトについての前記少なくとも1つの応答を生成することとを行うように構成された音分析器
    をさらに備え、
    前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、請求項14に記載のデバイス。
  27. 拡張現実(AR)アプリケーションにおいてモバイルデバイスが外部音に応答するための命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、
    ターゲットを検出する動作と、
    前記ARアプリケーションにおいて仮想オブジェクトを起動する動作と、
    前記モバイルデバイスの少なくとも1つの音センサーが、1つの音源から前記外部音を受信する動作と、
    前記1つの音源と前記ターゲットとの間の第1の幾何学的情報を判断する動作と、
    前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成する動作と
    をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
  28. 前記第1の幾何学的情報を判断することが、
    前記モバイルデバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
    前記モバイルデバイスと前記1つの音源との間の第3の幾何学的情報を判断することと、
    前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
    を含む、請求項27に記載の記憶媒体。
  29. 前記外部音を受信することは、
    前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
    前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
    前記複数の分離された音に関連する追加の音源を識別することと、
    前記識別された追加の音源と前記ターゲットとの間の第4の幾何学的情報を判断することと
    を含む、請求項28に記載の記憶媒体。
  30. 前記少なくとも1つの応答を生成することは、
    前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
    前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
    前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を含む、請求項29に記載の記憶媒体。
  31. 拡張現実(AR)アプリケーションにおいて外部音に応答するためのデバイスであって、前記デバイスは、
    ターゲットを検出するための手段と、
    前記ARアプリケーションにおいて仮想オブジェクトを起動するための手段と、
    1つの音源から前記外部音を受信するための手段と、
    前記1つの音源と前記ターゲットとの間の第1の幾何学的情報を判断するための手段と、
    前記第1の幾何学的情報に基づいて、前記ARアプリケーションにおいて前記仮想オブジェクトが実行すべき少なくとも1つの応答を生成するための手段と
    を備える、デバイス。
  32. 前記第1の幾何学的情報を判断するための前記手段が、
    前記デバイスと前記ターゲットとの間の第2の幾何学的情報を判断することと、
    前記デバイスと前記1つの音源との間の第3の幾何学的情報を判断することと、
    前記第2および第3の幾何学的情報に基づいて前記第1の幾何学的情報を計算することと
    を行うように構成された、請求項31に記載のデバイス。
  33. 前記第2の幾何学的情報が、前記デバイスと前記ターゲットとの間の距離と、前記ターゲットと前記デバイスの平面に直交する軸との間の角度とのうちの少なくとも1つを含み、
    前記第3の幾何学的情報が、前記デバイスと前記1つの音源との間の距離と、前記1つの音源と前記デバイスの前記平面に直交する前記軸との間の角度とのうちの少なくとも1つを含み、
    前記第1の幾何学的情報が、前記ターゲットと前記1つの音源との間の距離と、前記デバイスと前記1つの音源とに対して形成された前記ターゲットの角度とのうちの少なくとも1つを含む、請求項32に記載のデバイス。
  34. 前記第3の幾何学的情報が、カメラ姿勢推定に基づいて判断される、請求項32に記載のデバイス。
  35. 前記少なくとも1つの応答を生成するための前記手段が、
    前記受信された外部音から少なくとも1つの音特徴を抽出することと、
    前記抽出された音特徴を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
    前記識別された音クラスに基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を行うように構成された、請求項31に記載のデバイス。
  36. 前記外部音を受信するための前記手段は、
    前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
    前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
    前記複数の分離された音に関連する追加の音源を識別することと、
    前記識別された追加の音源と前記ターゲットとの間の第4の幾何学的情報を判断することと
    を行うように構成された、請求項32に記載のデバイス。
  37. 前記少なくとも1つの応答を生成するための前記手段は、
    前記仮想オブジェクトについて、前記識別された音源の各々に関連する前記少なくとも1つの応答を判断することと、ここにおいて、前記少なくとも1つの応答は、前記仮想オブジェクトが実行すべきアクションまたはイナクションを含む、
    前記仮想オブジェクトについての前記少なくとも1つの応答の順序を判断することと、
    前記判断された順序に基づいて前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を行うように構成された、請求項36に記載のデバイス。
  38. 前記外部音を受信するための前記手段は、
    前記外部音が2つ以上の音源から受信されたかどうかを判断することと、
    前記外部音が前記2つ以上の音源から受信された場合、前記受信された外部音を複数の音に分離することと、
    2つ以上の音源の各々と前記ターゲットとの間の第4の幾何学的情報を判断することと、
    前記分離された音の各々を少なくとも1つの所定の音クラスとして識別することと、ここにおいて、前記少なくとも1つの所定の音クラスが前記仮想オブジェクトについての前記少なくとも1つの応答に関連する、
    前記識別された音クラスと前記第4の幾何学的情報とのうちの少なくとも1つに基づいて、前記仮想オブジェクトについての前記少なくとも1つの応答を生成することと
    を行うように構成された、請求項31に記載のデバイス。
JP2014552191A 2012-01-12 2012-11-21 音分析および幾何解析を用いた拡張現実 Active JP5996669B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261585945P 2012-01-12 2012-01-12
US61/585,945 2012-01-12
US13/585,927 US9563265B2 (en) 2012-01-12 2012-08-15 Augmented reality with sound and geometric analysis
US13/585,927 2012-08-15
PCT/US2012/066194 WO2013106133A1 (en) 2012-01-12 2012-11-21 Augmented reality with sound and geometric analysis

Publications (3)

Publication Number Publication Date
JP2015510629A true JP2015510629A (ja) 2015-04-09
JP2015510629A5 JP2015510629A5 (ja) 2015-12-17
JP5996669B2 JP5996669B2 (ja) 2016-09-21

Family

ID=48779976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552191A Active JP5996669B2 (ja) 2012-01-12 2012-11-21 音分析および幾何解析を用いた拡張現実

Country Status (7)

Country Link
US (1) US9563265B2 (ja)
EP (1) EP2802962A1 (ja)
JP (1) JP5996669B2 (ja)
KR (1) KR102078427B1 (ja)
CN (1) CN104054039B (ja)
IN (1) IN2014CN04458A (ja)
WO (1) WO2013106133A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221492A1 (ja) * 2016-06-20 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2018160248A (ja) * 2018-05-01 2018-10-11 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US10642575B2 (en) 2014-12-02 2020-05-05 Sony Corporation Information processing device and method of information processing for notification of user speech received at speech recognizable volume levels
WO2021095330A1 (ja) * 2019-11-12 2021-05-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9206446B2 (en) 2006-05-01 2015-12-08 Board Of Trustees Of Michigan State University Extraction of solubles from plant biomass for use as microbial growth stimulant and methods related thereto
US20130249811A1 (en) * 2012-03-23 2013-09-26 Microsoft Corporation Controlling a device with visible light
US9367870B2 (en) * 2012-10-05 2016-06-14 Sap Se Determining networked mobile device position and orientation for augmented-reality window shopping
CN104936665B (zh) 2012-10-22 2017-12-26 开放信息公司 合作增强现实
DK2926224T3 (da) * 2012-11-29 2021-11-15 Imran Haddish Instruktionssystem til virtuel og augmented reality
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
JP5884811B2 (ja) * 2013-11-18 2016-03-15 コニカミノルタ株式会社 Ar表示装置、ar表示制御装置、印刷条件設定システム、印刷システム、印刷設定表示方法およびプログラム
US20150187143A1 (en) * 2013-12-26 2015-07-02 Shadi Mere Rendering a virtual representation of a hand
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
US10930038B2 (en) 2014-06-10 2021-02-23 Lab Of Misfits Ar, Inc. Dynamic location based digital element
US10026226B1 (en) * 2014-06-10 2018-07-17 Ripple Inc Rendering an augmented reality object
US12008697B2 (en) 2014-06-10 2024-06-11 Ripple, Inc. Of Delaware Dynamic location based digital element
US9875080B2 (en) * 2014-07-17 2018-01-23 Nokia Technologies Oy Method and apparatus for an interactive user interface
JP6344125B2 (ja) * 2014-07-31 2018-06-20 セイコーエプソン株式会社 表示装置、表示装置の制御方法、および、プログラム
KR102226820B1 (ko) * 2014-08-20 2021-03-11 삼성전자주식회사 데이터 공유 방법 및 그 전자 장치
US10915161B2 (en) * 2014-12-11 2021-02-09 Intel Corporation Facilitating dynamic non-visual markers for augmented reality on computing devices
WO2016099947A1 (en) * 2014-12-19 2016-06-23 Halo Life Science, Llc Use of ellagic acid dihydrate in food products and nutraceuticals
US20170061700A1 (en) * 2015-02-13 2017-03-02 Julian Michael Urbach Intercommunication between a head mounted display and a real world object
JP6822410B2 (ja) * 2015-09-30 2021-01-27 ソニー株式会社 情報処理システム及び情報処理方法
US9959682B2 (en) 2016-05-28 2018-05-01 Acoustic Knowledge, LLC Digital camera system for acoustic modeling
RU167769U1 (ru) * 2016-06-17 2017-01-10 Виталий Витальевич Аверьянов Устройство формирования виртуальных объектов дополненной реальности
WO2017217894A1 (ru) * 2016-06-17 2017-12-21 Виталий Витальевич АВЕРЬЯНОВ Устройство формирования виртуальных объектов дополненной реальности
WO2018034894A1 (en) * 2016-08-15 2018-02-22 Pcms Holdings, Inc. System and method using sound signal for material and texture identification for augmented reality
US10074205B2 (en) 2016-08-30 2018-09-11 Intel Corporation Machine creation of program with frame analysis method and apparatus
US10359858B2 (en) * 2016-09-07 2019-07-23 Disney Enterprises, Inc. Systems and methods for simulating sounds of a virtual object using procedural audio
DE102016121281A1 (de) * 2016-11-08 2018-05-09 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit virtuellen Bild- und Audiodaten und ein mobiles Gerät
US20180158243A1 (en) * 2016-12-02 2018-06-07 Google Inc. Collaborative manipulation of objects in virtual reality
US10304239B2 (en) 2017-07-20 2019-05-28 Qualcomm Incorporated Extended reality virtual assistant
CN107608519A (zh) * 2017-09-26 2018-01-19 深圳传音通讯有限公司 一种声音调整方法及虚拟现实设备
CN107678828A (zh) * 2017-10-26 2018-02-09 北京易讯理想科技有限公司 一种基于图像追踪技术实现的声音音量控制方法
CN107885331A (zh) * 2017-11-09 2018-04-06 北京易讯理想科技有限公司 一种基于增强现实技术实现音频切换的交互方法
US20190200154A1 (en) * 2017-12-21 2019-06-27 Facebook, Inc. Systems and methods for audio-based augmented reality
CN108415570B (zh) * 2018-03-07 2021-08-24 网易(杭州)网络有限公司 基于增强现实的控件选择方法和装置
TWI656362B (zh) * 2018-03-26 2019-04-11 仁寶電腦工業股份有限公司 電子裝置及其物件重製方法
CN108769535B (zh) * 2018-07-04 2021-08-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN109065055B (zh) * 2018-09-13 2020-12-11 三星电子(中国)研发中心 基于声音生成ar内容的方法、存储介质和装置
CN109308179A (zh) * 2018-09-25 2019-02-05 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109597481B (zh) * 2018-11-16 2021-05-04 Oppo广东移动通信有限公司 Ar虚拟人物绘制方法、装置、移动终端及存储介质
KR102600989B1 (ko) * 2019-01-29 2023-11-13 삼성전자주식회사 디스플레이 패널 및 이를 포함하는 디스플레이 장치
US11071912B2 (en) * 2019-03-11 2021-07-27 International Business Machines Corporation Virtual reality immersion
CN112449210A (zh) * 2019-08-28 2021-03-05 北京字节跳动网络技术有限公司 声音处理方法、装置、电子设备及计算机可读存储介质
US20220291744A1 (en) * 2019-09-03 2022-09-15 Sony Group Corporation Display processing device, display processing method, and recording medium
US11159766B2 (en) 2019-09-16 2021-10-26 Qualcomm Incorporated Placement of virtual content in environments with a plurality of physical participants
WO2022211357A1 (en) 2021-03-30 2022-10-06 Samsung Electronics Co., Ltd. Method and electronic device for automatically animating graphical object
US12020382B2 (en) 2022-03-24 2024-06-25 Kyndryl, Inc. Physical and virtual environment synchronization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1165814A (ja) * 1997-08-26 1999-03-09 Fujitsu Ltd インタラクティブシステム及び画像表示方法
JP2008539874A (ja) * 2005-05-05 2008-11-20 株式会社ソニー・コンピュータエンタテインメント コンピューターインタラクティブ処理による選択的音源聴取
US20110242134A1 (en) * 2010-03-30 2011-10-06 Sony Computer Entertainment Inc. Method for an augmented reality character to maintain and exhibit awareness of an observer
JP2012094100A (ja) * 2010-06-02 2012-05-17 Nintendo Co Ltd 画像表示システム、画像表示装置および画像表示方法

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018771A1 (en) * 1997-07-15 2003-01-23 Computer Associates Think, Inc. Method and apparatus for generating and recognizing speech as a user interface element in systems and network management
US6330486B1 (en) 1997-07-16 2001-12-11 Silicon Graphics, Inc. Acoustic perspective in a virtual three-dimensional environment
US6816437B1 (en) 2002-06-03 2004-11-09 Massachusetts Institute Of Technology Method and apparatus for determining orientation
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7760248B2 (en) 2002-07-27 2010-07-20 Sony Computer Entertainment Inc. Selective sound source listening in conjunction with computer interactive processing
WO2004038697A1 (en) 2002-10-23 2004-05-06 Koninklijke Philips Electronics N.V. Controlling an apparatus based on speech
DE602006018897D1 (de) 2005-05-05 2011-01-27 Sony Computer Entertainment Inc Videospielsteuerung mittels Joystick
JP4019095B2 (ja) * 2005-12-28 2007-12-05 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
US20090238378A1 (en) * 2008-03-18 2009-09-24 Invism, Inc. Enhanced Immersive Soundscapes Production
US8170222B2 (en) * 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
US8520872B2 (en) * 2008-08-14 2013-08-27 Samsung Electronics Co., Ltd. Apparatus and method for sound processing in a virtual reality system
US9128281B2 (en) * 2010-09-14 2015-09-08 Microsoft Technology Licensing, Llc Eyepiece with uniformly illuminated reflective display
US20120194553A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses with sensor and user action based control of external devices with feedback
US20120200601A1 (en) * 2010-02-28 2012-08-09 Osterhout Group, Inc. Ar glasses with state triggered eye control interaction with advertising facility
US10180572B2 (en) * 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US20120194550A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Sensor-based command and control of external devices with feedback from the external device to the ar glasses
US20130314303A1 (en) * 2010-02-28 2013-11-28 Osterhout Group, Inc. Ar glasses with user action control of and between internal and external applications with feedback
US9285589B2 (en) * 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US9759917B2 (en) * 2010-02-28 2017-09-12 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered AR eyepiece interface to external devices
US20120194552A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses with predictive control of external device based on event input
US20140063055A1 (en) * 2010-02-28 2014-03-06 Osterhout Group, Inc. Ar glasses specific user interface and control interface based on a connected external device type
US20140063054A1 (en) * 2010-02-28 2014-03-06 Osterhout Group, Inc. Ar glasses specific control interface based on a connected external device type
US20120200488A1 (en) * 2010-02-28 2012-08-09 Osterhout Group, Inc. Ar glasses with sensor and user action based control of eyepiece applications with feedback
US20110214082A1 (en) * 2010-02-28 2011-09-01 Osterhout Group, Inc. Projection triggering through an external marker in an augmented reality eyepiece
US20120206485A1 (en) * 2010-02-28 2012-08-16 Osterhout Group, Inc. Ar glasses with event and sensor triggered user movement control of ar eyepiece facilities
US8488246B2 (en) * 2010-02-28 2013-07-16 Osterhout Group, Inc. See-through near-eye display glasses including a curved polarizing film in the image source, a partially reflective, partially transmitting optical element and an optically flat film
US20120206334A1 (en) * 2010-02-28 2012-08-16 Osterhout Group, Inc. Ar glasses with event and user action capture device control of external applications
US20120194420A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses with event triggered user action control of ar eyepiece facility
US20120206322A1 (en) * 2010-02-28 2012-08-16 Osterhout Group, Inc. Ar glasses with event and sensor input triggered user action capture device control of ar eyepiece facility
US20120206335A1 (en) * 2010-02-28 2012-08-16 Osterhout Group, Inc. Ar glasses with event, sensor, and user action based direct control of external devices with feedback
EP2539759A1 (en) * 2010-02-28 2013-01-02 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US20120194418A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses with user action control and event input based control of eyepiece application
US20110213664A1 (en) * 2010-02-28 2011-09-01 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US20120194551A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses with user-action based command and control of external devices
US20120194549A1 (en) * 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses specific user interface based on a connected external device type
US20120200499A1 (en) * 2010-02-28 2012-08-09 Osterhout Group, Inc. Ar glasses with event, sensor, and user action based control of applications resident on external devices with feedback
US8610771B2 (en) 2010-03-08 2013-12-17 Empire Technology Development Llc Broadband passive tracking for augmented reality
US8384770B2 (en) * 2010-06-02 2013-02-26 Nintendo Co., Ltd. Image display system, image display apparatus, and image display method
EP2395768B1 (en) 2010-06-11 2015-02-25 Nintendo Co., Ltd. Image display program, image display system, and image display method
WO2011160114A1 (en) * 2010-06-18 2011-12-22 Minx, Inc. Augmented reality
US8581844B2 (en) * 2010-06-23 2013-11-12 Google Inc. Switching between a first operational mode and a second operational mode using a natural motion gesture
KR101683676B1 (ko) * 2010-07-22 2016-12-07 삼성전자 주식회사 사운드를 이용한 증강 현실 서비스 제공 장치 및 방법
US8854356B2 (en) * 2010-09-28 2014-10-07 Nintendo Co., Ltd. Storage medium having stored therein image processing program, image processing apparatus, image processing system, and image processing method
US20120207308A1 (en) * 2011-02-15 2012-08-16 Po-Hsun Sung Interactive sound playback device
US20120306850A1 (en) * 2011-06-02 2012-12-06 Microsoft Corporation Distributed asynchronous localization and mapping for augmented reality
US8184069B1 (en) * 2011-06-20 2012-05-22 Google Inc. Systems and methods for adaptive transmission of data
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
AU2011204946C1 (en) * 2011-07-22 2012-07-26 Microsoft Technology Licensing, Llc Automatic text scrolling on a head-mounted display
KR20140059213A (ko) * 2011-08-30 2014-05-15 마이크로소프트 코포레이션 홍채 스캔 프로파일링을 이용하는 헤드 마운티드 디스플레이
US9606992B2 (en) * 2011-09-30 2017-03-28 Microsoft Technology Licensing, Llc Personal audio/visual apparatus providing resource management
TW201316328A (zh) * 2011-10-14 2013-04-16 Hon Hai Prec Ind Co Ltd 聲音反饋裝置及其工作方法
US9672659B2 (en) * 2011-12-27 2017-06-06 Here Global B.V. Geometrically and semanitically aware proxy for content placement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1165814A (ja) * 1997-08-26 1999-03-09 Fujitsu Ltd インタラクティブシステム及び画像表示方法
JP2008539874A (ja) * 2005-05-05 2008-11-20 株式会社ソニー・コンピュータエンタテインメント コンピューターインタラクティブ処理による選択的音源聴取
US20110242134A1 (en) * 2010-03-30 2011-10-06 Sony Computer Entertainment Inc. Method for an augmented reality character to maintain and exhibit awareness of an observer
JP2012094100A (ja) * 2010-06-02 2012-05-17 Nintendo Co Ltd 画像表示システム、画像表示装置および画像表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016029198; 大槻 麻衣: '複合現実空間との新しいマルチモーダル・インタラクション方法の提案と実現' 日本バーチャルリアリティ学会論文誌 第13巻 第2号 Vol.13 No.2, 20080630, P.247-255, 特定非営利活動法人日本バーチャルリアリティ学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642575B2 (en) 2014-12-02 2020-05-05 Sony Corporation Information processing device and method of information processing for notification of user speech received at speech recognizable volume levels
WO2017221492A1 (ja) * 2016-06-20 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2018160248A (ja) * 2018-05-01 2018-10-11 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
WO2021095330A1 (ja) * 2019-11-12 2021-05-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
WO2013106133A1 (en) 2013-07-18
KR20140117369A (ko) 2014-10-07
EP2802962A1 (en) 2014-11-19
US20130182858A1 (en) 2013-07-18
IN2014CN04458A (ja) 2015-09-04
CN104054039A (zh) 2014-09-17
CN104054039B (zh) 2017-04-19
JP5996669B2 (ja) 2016-09-21
KR102078427B1 (ko) 2020-02-17
US9563265B2 (en) 2017-02-07

Similar Documents

Publication Publication Date Title
JP5996669B2 (ja) 音分析および幾何解析を用いた拡張現実
US12002232B2 (en) Systems and methods for simultaneous localization and mapping
CN111417028B (zh) 信息处理方法、装置、存储介质及电子设备
US10007349B2 (en) Multiple sensor gesture recognition
JP6290331B2 (ja) クラウド支援型拡張現実のための適応可能なフレームワーク
KR101759859B1 (ko) 전자 디바이스들 사이의 접속을 확립하기 위한 방법 및 장치
US8306267B1 (en) Object tracking
US20130201215A1 (en) Accessing applications in a mobile augmented reality environment
US20200194027A1 (en) Method and apparatus for displaying pitch information in live webcast room, and storage medium
CN113424142A (zh) 用于提供增强现实用户界面的电子装置及其操作方法
CN112806022A (zh) 电子装置和用于控制该电子装置的方法
US20140232748A1 (en) Device, method and computer readable recording medium for operating the same
US11974060B2 (en) Varied depth determination using stereo vision and phase detection auto focus (PDAF)
US11967343B2 (en) Automated video editing
US20210304452A1 (en) Method and system for providing avatar service
WO2022192883A1 (en) Automated video editing to add visual or audio effect corresponding to a detected motion of an object in the video
CN117406611A (zh) 电子设备交互方法、系统、终端和可读存储介质
CN115004131A (zh) 设备和设备定位方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151023

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160824

R150 Certificate of patent or registration of utility model

Ref document number: 5996669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250