JP2023514571A - delayed audio tracking - Google Patents

delayed audio tracking Download PDF

Info

Publication number
JP2023514571A
JP2023514571A JP2022548902A JP2022548902A JP2023514571A JP 2023514571 A JP2023514571 A JP 2023514571A JP 2022548902 A JP2022548902 A JP 2022548902A JP 2022548902 A JP2022548902 A JP 2022548902A JP 2023514571 A JP2023514571 A JP 2023514571A
Authority
JP
Japan
Prior art keywords
user
determining
origin
audio signal
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022548902A
Other languages
Japanese (ja)
Other versions
JPWO2021163573A5 (en
Inventor
アナスタシア アンドレエヴナ タジク,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2023514571A publication Critical patent/JP2023514571A/en
Publication of JPWO2021163573A5 publication Critical patent/JPWO2021163573A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Abstract

複合現実オーディオを提示するためのシステムおよび方法が開示される。例示的方法では、オーディオが、ウェアラブル頭部デバイスのユーザに提示される。第1の時間におけるユーザの頭部の第1の位置が、ウェアラブル頭部デバイスの1つまたはそれを上回るセンサに基づいて決定される。第1の時間より後の第2の時間におけるユーザの頭部の第2の位置が、1つまたはそれを上回るセンサに基づいて決定される。オーディオ信号が、第1の位置と第2の位置との間の差異に基づいて決定される。オーディオ信号は、ウェアラブル頭部デバイスのスピーカを介して、ユーザに提示される。オーディオ信号を決定することは、仮想環境内のオーディオ信号の起点を決定することを含む。オーディオ信号をユーザに提示することは、決定された起点から生じるかのように、オーディオ信号を提示することを含む。Systems and methods for presenting mixed reality audio are disclosed. In an exemplary method, audio is presented to a user of a wearable head device. A first position of the user's head at a first time is determined based on one or more sensors of the wearable head device. A second position of the user's head at a second time after the first time is determined based on the one or more sensors. An audio signal is determined based on the difference between the first position and the second position. The audio signal is presented to the user via the wearable head device's speaker. Determining the audio signal includes determining the origin of the audio signal within the virtual environment. Presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin.

Description

(関連出願の相互参照)
本願は、その内容が、参照することによってその全体として本明細書に組み込まれる、2020年2月14日に出願された、米国仮出願第62/976,986号の利益を請求する。
(Cross reference to related applications)
This application claims the benefit of US Provisional Application No. 62/976,986, filed February 14, 2020, the contents of which are hereby incorporated by reference in its entirety.

本開示は、一般に、オーディオをユーザに提示するためのシステムおよび方法に関し、特に、複合現実環境内でオーディオをユーザに提示するためのシステムおよび方法に関する。 TECHNICAL FIELD This disclosure relates generally to systems and methods for presenting audio to users, and more particularly to systems and methods for presenting audio to users in mixed reality environments.

仮想環境は、コンピューティング環境において普遍的であって、ビデオゲーム(仮想環境が、ゲーム世界を表し得る)、マップ(仮想環境が、ナビゲートされるべき地形を表し得る)、シミュレーション(仮想環境が、実環境をシミュレートし得る)、デジタルストーリーテリング(仮想キャラクタが、仮想環境内で相互に相互作用し得る)、および多くの他の用途において使用を見出している。現代のコンピュータユーザは、概して、快適に仮想環境を知覚し、それと相互作用する。しかしながら、仮想環境を伴うユーザの体験は、仮想環境を提示するための技術によって限定され得る。例えば、従来のディスプレイ(例えば、2Dディスプレイ画面)およびオーディオシステム(例えば、固定スピーカ)は、人を引き付け、現実的で、かつ没入型の体験を作成するように、仮想環境を実現することが不可能であり得る。 Virtual environments are ubiquitous in computing environments and include video games (where the virtual environment can represent a game world), maps (where the virtual environment can represent terrain to be navigated), simulations (where the virtual environment can represent , can simulate a real environment), digital storytelling (where virtual characters can interact with each other in a virtual environment), and many other applications. Modern computer users are generally comfortable perceiving and interacting with virtual environments. However, a user's experience with a virtual environment can be limited by the technology for presenting the virtual environment. For example, conventional displays (e.g., 2D display screens) and audio systems (e.g., fixed speakers) are incapable of enabling virtual environments to create an engaging, realistic, and immersive experience. can be possible.

仮想現実(「VR」)、拡張現実(「AR」)、複合現実(「MR」)、および関連技術(集合的に、「XR」)は、XRシステムのユーザに、コンピュータシステム内のデータによって表される仮想環境に対応する、感覚情報を提示する能力を共有する。そのようなシステムは、仮想視覚的およびオーディオキューと実光景および音を組み合わせることによって、一意に増大した没入感および現実性をもたらすことができる。故に、音が自然に生じているように感じられように、かつユーザの実環境内の音のユーザの予期と一貫して、デジタル音をXRシステムのユーザに提示することが望ましくあり得る。概して、ユーザは、仮想音が、その中で彼らに聞こえる、実環境の音響性質を帯びるであろうことを予期する。例えば、大コンサートホール内のXRシステムのユーザは、XRシステムの仮想音が、大洞窟のような音波品質を有することを予期し、逆に言えば、狭いアパート内のユーザは、音が、より減衰され、近く、かつ即座であることを予期するであろう。仮想音と実および/または仮想環境の音響性質を合致させることに加え、現実性はさらに、仮想音を空間化することによって向上される。例えば、仮想オブジェクトが、視覚的に、背後からユーザを越えて飛行し得、ユーザは、対応する仮想音がユーザに対する仮想オブジェクトの空間移動を同様に反映させることを予期し得る。 Virtual reality (“VR”), augmented reality (“AR”), mixed reality (“MR”), and related technologies (collectively, “XR”) allow users of XR systems to Share the ability to present sensory information that corresponds to the virtual environment represented. Such systems can provide uniquely increased immersion and realism by combining virtual visual and audio cues with real sights and sounds. Therefore, it may be desirable to present digital sounds to a user of an XR system in such a way that the sounds feel natural and are consistent with the user's expectations of sounds in the user's real environment. Generally, users expect that virtual sounds will take on the acoustic properties of the real environment in which they hear them. For example, a user of an XR system in a large concert hall would expect the virtual sound of the XR system to have a cavernous sound quality, and conversely a user in a small apartment would expect the sound to be more You would expect it to be attenuated, close, and immediate. In addition to matching the acoustic properties of the virtual sounds with the real and/or virtual environment, realism is further enhanced by spatializing the virtual sounds. For example, a virtual object may visually fly past the user from behind, and the user may expect corresponding virtual sounds to similarly reflect the spatial movement of the virtual object relative to the user.

既存の技術は、多くの場合、ユーザの周囲を考慮せず、また仮想オブジェクトの空間移動に対応せず、ユーザ体験を損なわせ得る、不真正性の感覚につながる、仮想オーディオを提示すること等によって、これらの予期を欠いている。XRシステムのユーザの観察は、ユーザが、仮想コンテンツと実環境との間の視覚的不整合(例えば、照明における不一致)には比較的に寛容であり得るが、ユーザが、聴覚的不整合により敏感であり得ることを示す。我々の生活全体を通して持続的に精緻化される、我々の独自の聴覚的体験は、我々に、我々の物理的環境が我々が聞こえる音にどのように影響を及ぼすかを敏感に認知させ得、我々は、それらの予期と一致しない、音に非常に敏感であり得る。XRシステムでは、そのような不一致は、不快であり得、没入型かつ人を引き付ける体験を仕掛的な模倣したものに変えさせ得る。極端な実施例では、聴覚的不一致は、内耳が聴覚的刺激とその対応する視覚的キューを調和させることが不可能であるため、乗り物酔いおよび他の悪影響を及ぼし得る。 Existing technologies often do not consider the user's surroundings and do not accommodate the spatial movement of virtual objects, which can compromise the user experience, lead to a sense of inauthenticity, present virtual audio, etc. lacks these expectations by The user's observation of the XR system is that although the user may be relatively tolerant of visual inconsistencies (e.g., inconsistencies in lighting) between the virtual content and the real environment, the user may be more sensitive to auditory inconsistencies. Show that you can be sensitive. Our unique auditory experiences, which are continually refined throughout our lives, can make us acutely aware of how our physical environment affects the sounds we hear, We can be very sensitive to sounds that do not match our expectations. In XR systems, such discrepancies can be offensive and can turn an immersive and engaging experience into a gimmicky mimic. In extreme examples, auditory inconsistency can lead to motion sickness and other adverse effects due to the inability of the inner ear to reconcile auditory stimuli with their corresponding visual cues.

我々のオーディオ感知に対する我々の感度のため、没入型のオーディオ体験は、没入型の視覚的体験より重要ではないにしても、それと等しく重要であり得る。XRシステムに利用可能な種々の感知および演算能力のため、XRシステムは、音を1つまたはそれを上回るチャネルに分裂させることによって、音を空間化し得る、従来的オーディオシステムよりはるかに没入型のオーディオ体験をもたらすように位置付けられ得る。例えば、ステレオヘッドホンは、左チャネルおよび右チャネルを使用して、オーディオをユーザに提示し、異なる方向から生じる音の出現を与え得る。いくつかのステレオヘッドホンは、(5.1チャネルのような)付加的チャネルをシミュレートし、オーディオ空間化をさらに向上させ得る。しかしながら、従来的システムは、空間化音位置がユーザに対して静的であるという事実に悩まされ得る。例えば、ユーザの左耳から5フィートの場所で生じるようにユーザに提示され得る、ギター音は、ユーザがその頭部を回転させるにつれて、ユーザに対して動的に変化し得ない。そのような静的挙動は、「実」環境内のオーディオ挙動を反映させ得ない。ライブオーケストラを鑑賞している人物は、例えば、小頭部移動に基づいて、そのオーディオ体験に若干の変化を被り得る。これらの小音響挙動は、累積し、没入型のオーディオ体験に追加され得る。したがって、XRシステムがユーザのオーディオ体験を向上させるためのオーディオシステムおよび方法を開発することが望ましい。 Because of our sensitivity to our audio perception, an immersive audio experience can be equally, if not more important than, an immersive visual experience. Because of the variety of sensing and computing power available to XR systems, XR systems can spatialize sound by splitting it into one or more channels, making it much more immersive than conventional audio systems. It can be positioned to provide an audio experience. For example, stereo headphones may use left and right channels to present audio to the user, giving the appearance of sounds originating from different directions. Some stereo headphones may simulate additional channels (such as 5.1 channels) to further enhance audio spatialization. However, conventional systems can suffer from the fact that spatialized sound locations are static with respect to the user. For example, a guitar sound that may be presented to a user as occurring five feet from the user's left ear may not dynamically change to the user as he rotates his head. Such static behavior may not reflect the audio behavior within the "real" environment. A person watching a live orchestra may experience slight variations in their audio experience, for example, based on small head movements. These subacoustic behaviors can be cumulative and add to the immersive audio experience. Therefore, it is desirable to develop audio systems and methods for XR systems to enhance the user's audio experience.

ユーザの物理的環境の特性を考慮することによって、本明細書に説明されるシステムおよび方法は、ユーザによって聞こえるであろうものを、仮想音がその環境内で自然に生成される実音であるかのように、シミュレートすることができる。音が実世界内で挙動する方法に忠実な様式において、仮想音を提示することによって、ユーザは、複合現実環境とのつながりの増大した感覚を体験し得る。同様に、ユーザの移動および環境に応答する、場所を意識した仮想コンテンツを提示することによって、コンテンツは、より主観的で、双方向で、かつ現実的となり、例えば、点Aにおけるユーザの体験は、点Bにおけるその体験と全体的に異なり得る。本向上された現実性および相互作用は、空間的に意識したオーディオを使用して、新規形態のゲームプレー、ソーシャル特徴、または双方向挙動を有効にするもの等、複合現実の新しい用途のための基盤を提供することができる。 By taking into account the characteristics of the user's physical environment, the systems and methods described herein are able to compare what a user would hear to virtual sounds, whether they are real sounds that are naturally generated within the environment. can be simulated as By presenting virtual sounds in a manner that is faithful to the way sounds behave in the real world, users may experience an increased sense of connection with the mixed reality environment. Similarly, by presenting location-aware virtual content that responds to the user's movement and environment, the content becomes more subjective, interactive, and realistic, e.g., the user's experience at point A is , may be wholly different from that experience at point B. This enhanced realism and interaction is for new applications of mixed reality, such as those that use spatially aware audio to enable new forms of gameplay, social features, or interactive behavior. can provide a foundation.

本開示の実施例は、複合現実オーディオを提示するためのシステムおよび方法を説明する。本開示の実施例によると、オーディオが、ウェアラブル頭部デバイスのユーザに提示される。第1の時間におけるユーザの頭部の第1の位置が、ウェアラブル頭部デバイスの1つまたはそれを上回るセンサに基づいて決定される。第1の時間より後の第2の時間におけるユーザの頭部の第2の位置が、1つまたはそれを上回るセンサに基づいて決定される。オーディオ信号が、第1の位置と第2の位置との間の差異に基づいて決定される。オーディオ信号は、ウェアラブル頭部デバイスのスピーカを介して、ユーザに提示される。オーディオ信号を決定することは、仮想環境内のオーディオ信号の起点を決定することを含む。オーディオ信号をユーザに提示することは、決定された起点から生じるかのように、オーディオ信号を提示することを含む。オーディオ信号の起点を決定することは、オフセットをユーザの頭部の位置に適用することを含む。 Embodiments of the present disclosure describe systems and methods for presenting mixed reality audio. According to embodiments of the present disclosure, audio is presented to the user of the wearable head device. A first position of the user's head at a first time is determined based on one or more sensors of the wearable head device. A second position of the user's head at a second time after the first time is determined based on the one or more sensors. An audio signal is determined based on the difference between the first position and the second position. The audio signal is presented to the user via the wearable head device's speaker. Determining the audio signal includes determining the origin of the audio signal within the virtual environment. Presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin. Determining the origin of the audio signal includes applying an offset to the position of the user's head.

図1A-1Cは、いくつかの実施形態による、例示的複合現実環境を図示する。1A-1C illustrate an exemplary mixed reality environment, according to some embodiments. 図1A-1Cは、いくつかの実施形態による、例示的複合現実環境を図示する。1A-1C illustrate an exemplary mixed reality environment, according to some embodiments. 図1A-1Cは、いくつかの実施形態による、例示的複合現実環境を図示する。1A-1C illustrate an exemplary mixed reality environment, according to some embodiments.

図2A-2Dは、いくつかの実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。2A-2D illustrate components of an exemplary mixed reality system that may be used to generate and interact with a mixed reality environment, according to some embodiments. 図2A-2Dは、いくつかの実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。2A-2D illustrate components of an exemplary mixed reality system that may be used to generate and interact with a mixed reality environment, according to some embodiments. 図2A-2Dは、いくつかの実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。2A-2D illustrate components of an exemplary mixed reality system that may be used to generate and interact with a mixed reality environment, according to some embodiments. 図2A-2Dは、いくつかの実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。2A-2D illustrate components of an exemplary mixed reality system that may be used to generate and interact with a mixed reality environment, according to some embodiments.

図3Aは、いくつかの実施形態による、入力を複合現実環境に提供するために使用され得る、例示的複合現実ハンドヘルドコントローラを図示する。FIG. 3A illustrates an exemplary mixed reality handheld controller that may be used to provide input to a mixed reality environment, according to some embodiments.

図3Bは、いくつかの実施形態による、例示的複合現実システムと併用され得る、例示的補助ユニットを図示する。FIG. 3B illustrates an exemplary auxiliary unit that may be used with an exemplary mixed reality system, according to some embodiments.

図4は、いくつかの実施形態による、例示的複合現実システムのための例示的機能ブロック図を図示する。FIG. 4 illustrates an exemplary functional block diagram for an exemplary mixed reality system, according to some embodiments.

図5は、いくつかの実施形態による、複合現実空間化オーディオの実施例を図示する。FIG. 5 illustrates an example of mixed reality spatialized audio, according to some embodiments.

図6A-6Cは、いくつかの実施形態による、複合現実空間化オーディオの実施例を図示する。6A-6C illustrate examples of mixed reality spatialized audio, according to some embodiments. 図6A-6Cは、いくつかの実施形態による、複合現実空間化オーディオの実施例を図示する。6A-6C illustrate examples of mixed reality spatialized audio, according to some embodiments. 図6A-6Cは、いくつかの実施形態による、複合現実空間化オーディオの実施例を図示する。6A-6C illustrate examples of mixed reality spatialized audio, according to some embodiments.

詳細な説明
実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面を参照する。他の実施例も、使用されることができ、構造変更が、開示される実施例の範囲から逸脱することなく、行われることができることを理解されたい。
DETAILED DESCRIPTION In the following description of the embodiments, reference is made to the accompanying drawings, which form a part hereof and in which, by way of illustration, specific embodiments that may be practiced are shown. It is to be understood that other embodiments may be used and structural changes may be made without departing from the scope of the disclosed embodiments.

複合現実環境 mixed reality environment

全ての人々と同様に、複合現実システムのユーザは、実環境内に存在する、すなわち、「実世界」の3次元部分と、そのコンテンツの全てとが、ユーザによって知覚可能である。例えば、ユーザは、通常の人間の感覚、すなわち、視覚、聴覚、触覚、味覚、嗅覚を使用して、実環境を知覚し、実環境内で自身の身体を移動させることによって、実環境と相互作用する。実環境内の場所は、座標空間内の座標として説明されることができる。例えば、座標は、緯度、経度、および海抜に対する高度、基準点から3つの直交次元における距離、または他の好適な値を含むことができる。同様に、ベクトルは、座標空間内の方向および大きさを有する、量を説明することができる。 Like all people, users of mixed reality systems reside within a real environment, ie, a three-dimensional portion of the "real world" and all of its content is perceivable by the user. For example, a user may use normal human senses: sight, hearing, touch, taste and smell to perceive the real environment and interact with the real environment by moving his or her body within the real environment. works. Locations in the real environment can be described as coordinates in a coordinate space. For example, coordinates may include latitude, longitude, and altitude relative to sea level, distance in three orthogonal dimensions from a reference point, or other suitable values. Similarly, vectors can describe quantities that have direction and magnitude in coordinate space.

コンピューティングデバイスは、例えば、デバイスと関連付けられるメモリ内に、仮想環境の表現を維持することができる。本明細書で使用されるように、仮想環境は、3次元空間の算出表現である。仮想環境は、任意のオブジェクトの表現、アクション、信号、パラメータ、座標、ベクトル、またはその空間と関連付けられる他の特性を含むことができる。いくつかの実施例では、コンピューティングデバイスの回路(例えば、プロセッサ)は、仮想環境の状態を維持および更新することができる。すなわち、プロセッサは、第1の時間t0において、仮想環境と関連付けられるデータおよび/またはユーザによって提供される入力に基づいて、第2の時間t1における仮想環境の状態を決定することができる。例えば、仮想環境内のオブジェクトが、時間t0において、第1の座標に位置し、あるプログラムされた物理的パラメータ(例えば、質量、摩擦係数)を有し、ユーザから受信された入力が、力がある方向ベクトルにおいてオブジェクトに印加されるべきであることを示す場合、プロセッサは、運動学の法則を適用し、基本力学を使用して、時間t1におけるオブジェクトの場所を決定することができる。プロセッサは、仮想環境について既知の任意の好適な情報および/または任意の好適な入力を使用して、時間t1における仮想環境の状態を決定することができる。仮想環境の状態を維持および更新する際、プロセッサは、仮想環境内の仮想オブジェクトの作成および削除に関連するソフトウェア、仮想環境内の仮想オブジェクトまたはキャラクタの挙動を定義するためのソフトウェア(例えば、スクリプト)、仮想環境内の信号(例えば、オーディオ信号)の挙動を定義するためのソフトウェア、仮想環境と関連付けられるパラメータを作成および更新するためのソフトウェア、仮想環境内のオーディオ信号を生成するためのソフトウェア、入力および出力をハンドリングするためのソフトウェア、ネットワーク動作を実装するためのソフトウェア、アセットデータ(例えば、仮想オブジェクトを経時的に移動させるためのアニメーションデータ)を適用するためのソフトウェア、または多くの他の可能性を含む、任意の好適なソフトウェアを実行することができる。 A computing device may maintain a representation of a virtual environment, eg, in memory associated with the device. As used herein, a virtual environment is a computed representation of three-dimensional space. A virtual environment can include representations of any objects, actions, signals, parameters, coordinates, vectors, or other properties associated with that space. In some examples, the circuitry (eg, processor) of the computing device can maintain and update the state of the virtual environment. That is, the processor can determine the state of the virtual environment at the second time t1 based on data associated with the virtual environment and/or input provided by the user at the first time t0. For example, an object in the virtual environment is located at a first coordinate at time t0, has certain programmed physical parameters (e.g., mass, coefficient of friction), and the input received from the user is the force If it indicates that it should be applied to the object in some direction vector, the processor can apply the laws of kinematics and use the basic mechanics to determine the location of the object at time t1. The processor may use any suitable information known about the virtual environment and/or any suitable input to determine the state of the virtual environment at time t1. In maintaining and updating the state of the virtual environment, the processor includes software associated with creating and deleting virtual objects within the virtual environment, software (e.g., scripts) for defining the behavior of virtual objects or characters within the virtual environment. , software for defining the behavior of signals (e.g., audio signals) within the virtual environment, software for creating and updating parameters associated with the virtual environment, software for generating audio signals within the virtual environment, input and software for handling outputs, software for implementing network behavior, software for applying asset data (e.g. animation data for moving virtual objects over time), or many other possibilities. Any suitable software can be executed, including

ディスプレイまたはスピーカ等の出力デバイスは、仮想環境のいずれかまたは全ての側面をユーザに提示することができる。例えば、仮想環境は、ユーザに提示され得る、仮想オブジェクト(無生物オブジェクト、人々、動物、光等の表現を含み得る)を含んでもよい。プロセッサは、仮想環境のビュー(例えば、原点座標、視軸、および錐台を伴う、「カメラ」に対応する)を決定し、ディスプレイに、そのビューに対応する仮想環境の視認可能場面をレンダリングすることができる。任意の好適なレンダリング技術が、本目的のために使用されてもよい。いくつかの実施例では、視認可能場面は、仮想環境内のいくつかの仮想オブジェクトのみを含み、ある他の仮想オブジェクトを除外してもよい。同様に、仮想環境は、ユーザに1つまたはそれを上回るオーディオ信号として提示され得る、オーディオ側面を含んでもよい。例えば、仮想環境内の仮想オブジェクトは、オブジェクトの場所座標から生じる音を生成してもよい(例えば、仮想キャラクタが、発話する、または音効果を生じさせ得る)、または仮想環境は、特定の場所と関連付けられる場合とそうではない場合がある、音楽キューまたは周囲音と関連付けられてもよい。プロセッサは、「聴取者」座標に対応するオーディオ信号、例えば、仮想環境内の音の合成に対応し、聴取者座標において聴取者によって聞こえるであろうオーディオ信号をシミュレートするように混合および処理される、オーディオ信号を決定し、ユーザに、1つまたはそれを上回るスピーカを介して、オーディオ信号を提示することができる。 An output device, such as a display or speakers, can present any or all aspects of the virtual environment to the user. For example, the virtual environment may include virtual objects (which may include representations of inanimate objects, people, animals, lights, etc.) that may be presented to the user. The processor determines a view of the virtual environment (e.g., corresponding to a "camera" with origin coordinates, viewing axis, and frustum) and renders on the display a viewable scene of the virtual environment corresponding to that view. be able to. Any suitable rendering technique may be used for this purpose. In some embodiments, the viewable scene may include only some virtual objects within the virtual environment and exclude certain other virtual objects. Similarly, the virtual environment may include audio aspects, which may be presented to the user as one or more audio signals. For example, a virtual object within the virtual environment may generate a sound that originates from the object's location coordinates (eg, a virtual character may speak or produce a sound effect), or the virtual environment may represent a particular location. may be associated with musical cues or ambient sounds, which may or may not be associated with. The processor corresponds to audio signals corresponding to "listener" coordinates, e.g., synthesis of sounds in a virtual environment, mixed and processed to simulate audio signals that would be heard by a listener in listener coordinates. , an audio signal can be determined and presented to the user via one or more speakers.

仮想環境は、算出構造としてのみ存在するため、ユーザは、直接、通常の感覚を使用して、仮想環境を知覚することができない。代わりに、ユーザは、例えば、ディスプレイ、スピーカ、触覚的出力デバイス等によって、ユーザに提示されるように、間接的にのみ、仮想環境を知覚することができる。同様に、ユーザは、直接、仮想環境に触れる、それを操作する、または別様に、それと相互作用することができないが、入力データを、入力デバイスまたはセンサを介して、デバイスまたはセンサデータを使用して、仮想環境を更新し得る、プロセッサに提供することができる。例えば、カメラセンサは、ユーザが仮想環境のオブジェクトを移動させようとしていることを示す、光学データを提供することができ、プロセッサは、そのデータを使用して、仮想環境内において、適宜、オブジェクトを応答させることができる。 Since the virtual environment exists only as a computed structure, the user cannot perceive it directly using normal senses. Instead, the user can perceive the virtual environment only indirectly, as presented to the user, eg, by a display, speakers, tactile output device, or the like. Similarly, a user cannot touch, manipulate, or otherwise interact with the virtual environment directly, but input data through an input device or sensor, using device or sensor data. can be provided to the processor, which can then update the virtual environment. For example, a camera sensor can provide optical data indicating that a user is attempting to move an object in the virtual environment, and the processor uses that data to move the object accordingly within the virtual environment. can be answered.

複合現実システムは、ユーザに、例えば、透過型ディスプレイおよび/または1つまたはそれを上回るスピーカ(例えば、ウェアラブル頭部デバイスの中に組み込まれ得る)を使用して、実環境および仮想環境の側面を組み合わせる、複合現実環境(「MRE」)を提示することができる。いくつかの実施形態では、1つまたはそれを上回るスピーカは、頭部搭載型ウェアラブルユニットの外部にあってもよい。本明細書で使用されるように、MREは、実環境および対応する仮想環境の同時表現である。いくつかの実施例では、対応する実および仮想環境は、単一座標空間を共有する。いくつかの実施例では、実座標空間および対応する仮想座標空間は、変換行列(または他の好適な表現)によって相互に関連する。故に、単一座標(いくつかの実施例では、変換行列とともに)は、実環境内の第1の場所と、また、仮想環境内の第2の対応する場所とを定義し得、その逆も同様である。 Mixed reality systems provide users with aspects of real and virtual environments using, for example, transmissive displays and/or one or more speakers (which may be incorporated into wearable head devices, for example). Combined, a mixed reality environment (“MRE”) can be presented. In some embodiments, one or more speakers may be external to the head mounted wearable unit. As used herein, an MRE is a simultaneous representation of a real environment and a corresponding virtual environment. In some examples, corresponding real and virtual environments share a single coordinate space. In some embodiments, the real coordinate space and the corresponding virtual coordinate space are related to each other by a transformation matrix (or other suitable representation). Thus, a single coordinate (along with a transformation matrix in some embodiments) may define a first location in the real environment and a second corresponding location in the virtual environment, and vice versa. It is the same.

MREでは、(例えば、MREと関連付けられる仮想環境内の)仮想オブジェクトは、(例えば、MREと関連付けられる実環境内の)実オブジェクトに対応し得る。例えば、MREの実環境が、実街灯柱(実オブジェクト)をある場所座標に含む場合、MREの仮想環境は、仮想街灯柱(仮想オブジェクト)を対応する場所座標に含んでもよい。本明細書で使用されるように、実オブジェクトは、その対応する仮想オブジェクトとともに組み合わせて、「複合現実オブジェクト」を構成する。仮想オブジェクトが対応する実オブジェクトに完璧に合致または整合することは、必要ではない。いくつかの実施例では、仮想オブジェクトは、対応する実オブジェクトの簡略化されたバージョンであることができる。例えば、実環境が、実街灯柱を含む場合、対応する仮想オブジェクトは、実街灯柱と概ね同一高さおよび半径の円筒形を含んでもよい(街灯柱が略円筒形形状であり得ることを反映する)。仮想オブジェクトをこのように簡略化することは、算出効率を可能にすることができ、そのような仮想オブジェクト上で実施されるための計算を簡略化することができる。さらに、MREのいくつかの実施例では、実環境内の全ての実オブジェクトが、対応する仮想オブジェクトと関連付けられなくてもよい。同様に、MREのいくつかの実施例では、仮想環境内の全ての仮想オブジェクトが、対応する実オブジェクトと関連付けられなくてもよい。すなわち、いくつかの仮想オブジェクトが、任意の実世界対応物を伴わずに、MREの仮想環境内にのみ存在し得る。 In an MRE, virtual objects (eg, in a virtual environment associated with the MRE) may correspond to real objects (eg, in a real environment associated with the MRE). For example, if the MRE's real environment includes real lampposts (real objects) at certain location coordinates, the MRE's virtual environment may include virtual lampposts (virtual objects) at corresponding location coordinates. As used herein, a real object in combination with its corresponding virtual object constitutes a "mixed reality object." It is not necessary that the virtual objects perfectly match or match the corresponding real objects. In some implementations, a virtual object can be a simplified version of the corresponding real object. For example, if the real environment includes a real lamppost, the corresponding virtual object may include a cylinder of approximately the same height and radius as the real lamppost (reflecting that the lamppost may be approximately cylindrical in shape). do). Such simplification of virtual objects can allow for computational efficiency and can simplify computations to be performed on such virtual objects. Furthermore, in some implementations of the MRE, not all real objects in the real environment may be associated with corresponding virtual objects. Similarly, in some implementations of the MRE, not all virtual objects within the virtual environment may be associated with corresponding real objects. That is, some virtual objects may exist only within the MRE's virtual environment without any real-world counterparts.

いくつかの実施例では、仮想オブジェクトは、時として著しく、対応する実オブジェクトのものと異なる、特性を有してもよい。例えば、MRE内の実環境は、緑色の2本の枝が延びたサボテン、すなわち、とげだらけの無生物オブジェクトを含み得るが、MRE内の対応する仮想オブジェクトは、人間の顔特徴および無愛想な態度を伴う、緑色の2本の腕の仮想キャラクタの特性を有してもよい。本実施例では、仮想オブジェクトは、ある特性(色、腕の数)において、その対応する実オブジェクトに類似するが、他の特性(顔特徴、性格)において、実オブジェクトと異なる。このように、仮想オブジェクトは、創造的、抽象的、誇張された、または架空の様式において、実オブジェクトを表す、または挙動(例えば、人間の性格)をそうでなければ無生物である実オブジェクトに付与する潜在性を有する。いくつかの実施例では、仮想オブジェクトは、実世界対応物を伴わない、純粋に架空の創造物(例えば、おそらく、実環境内の虚空に対応する場所における、仮想環境内の仮想モンスタ)であってもよい。 In some embodiments, virtual objects may have properties that differ, sometimes significantly, from those of corresponding real objects. For example, the real environment in the MRE may include a green two-branched cactus, a spiny inanimate object, while the corresponding virtual object in the MRE has human facial features and a surly demeanor. It may have the properties of a green two-armed virtual character accompanying it. In this example, the virtual object resembles its corresponding real object in some characteristics (color, number of arms), but differs from the real object in other characteristics (facial features, personality). Thus, a virtual object represents a real object in a creative, abstract, exaggerated, or fictitious manner, or imparts behavior (e.g., human personality) to an otherwise inanimate real object. have the potential to In some examples, the virtual object is a purely fictitious creation with no real-world counterpart (eg, a virtual monster in a virtual environment, perhaps in a location corresponding to the void in the real environment). may

ユーザに、実環境を不明瞭にしながら、仮想環境を提示する、VRシステムと比較して、MREを提示する、複合現実システムは、仮想環境が提示される間、実環境が知覚可能なままであるという利点をもたらす。故に、複合現実システムのユーザは、実環境と関連付けられる視覚的およびオーディオキューを使用して、対応する仮想環境を体験し、それと相互作用することが可能である。実施例として、VRシステムのユーザは、上記に述べられたように、ユーザが、直接、仮想環境を知覚する、またはそれと相互作用することができないため、仮想環境内に表示される仮想オブジェクトを知覚する、またはそれと相互作用することに苦戦し得るが、MRシステムのユーザは、その自身の実環境内の対応する実オブジェクトが見え、聞こえ、触れることによって、仮想オブジェクトと相互作用することが直感的および自然であると見出し得る。本レベルの相互作用は、ユーザの仮想環境との没入感、つながり、および関与の感覚を向上させ得る。同様に、実環境および仮想環境を同時に提示することによって、複合現実システムは、VRシステムと関連付けられる負の心理学的感覚(例えば、認知的不協和)および負の物理的感覚(例えば、乗り物酔い)を低減させることができる。複合現実システムはさらに、実世界の我々の体験を拡張または改変し得る用途に関する多くの可能性をもたらす。 Mixed reality systems, which present the user with a virtual environment while obscuring the real environment, compared to VR systems, which present MRE, allow the real environment to remain perceptible while the virtual environment is presented. provide the advantage of being A user of the mixed reality system is thus able to experience and interact with the corresponding virtual environment using visual and audio cues associated with the real environment. As an example, a user of a VR system can perceive virtual objects displayed within a virtual environment because, as mentioned above, the user cannot directly perceive or interact with the virtual environment. However, users of MR systems find it intuitive to interact with virtual objects by seeing, hearing, and touching corresponding real objects in their own real environment. and can be found to be natural. This level of interaction can enhance the user's sense of immersion, connection, and involvement with the virtual environment. Similarly, by presenting real and virtual environments simultaneously, mixed reality systems can reduce the negative psychological sensations (e.g., cognitive dissonance) and negative physical sensations (e.g., motion sickness) associated with VR systems. ) can be reduced. Mixed reality systems also offer many possibilities for applications that can augment or modify our experience of the real world.

図1Aは、ユーザ110が複合現実システム112を使用する、例示的実環境100を図示する。複合現実システム112は、ディスプレイ(例えば、透過型ディスプレイ)および1つまたはそれを上回るスピーカと、例えば、下記に説明されるような1つまたはそれを上回るセンサ(例えば、カメラ)とを含んでもよい。示される実環境100は、その中にユーザ110が立っている、長方形の部屋104Aと、実オブジェクト122A(ランプ)、124A(テーブル)、126A(ソファ)、および128A(絵画)とを含む。部屋104Aはさらに、場所座標106を含み、これは、実環境100の原点と見なされ得る。図1Aに示されるように、その原点を点106(世界座標)に伴う、環境/世界座標系108(x-軸108X、y-軸108Y、およびz-軸108Zを備える)は、実環境100のための座標空間を定義し得る。いくつかの実施形態では、環境/世界座標系108の原点106は、複合現実システム112の電源がオンにされた場所に対応し得る。いくつかの実施形態では、環境/世界座標系108の原点106は、動作の間、リセットされてもよい。いくつかの実施例では、ユーザ110は、実環境100内の実オブジェクトと見なされ得る。同様に、ユーザ110の身体部分(例えば、手、足)は、実環境100内の実オブジェクトと見なされ得る。いくつかの実施例では、その原点を点115(例えば、ユーザ/聴取者/頭部座標)に伴う、ユーザ/聴取者/頭部座標系114(x-軸114X、y-軸114Y、およびz-軸114Zを備える)は、その上に複合現実システム112が位置する、ユーザ/聴取者/頭部のための座標空間を定義し得る。ユーザ/聴取者/頭部座標系114の原点115は、複合現実システム112の1つまたはそれを上回るコンポーネントに対して定義されてもよい。例えば、ユーザ/聴取者/頭部座標系114の原点115は、複合現実システム112の初期較正等の間、複合現実システム112のディスプレイに対して定義されてもよい。行列(平行移動行列および四元数行列または他の回転行列を含み得る)または他の好適な表現が、ユーザ/聴取者/頭部座標系114空間と環境/世界座標系108空間との間の変換を特性評価することができる。いくつかの実施形態では、左耳座標116および右耳座標117が、ユーザ/聴取者/頭部座標系114の原点115に対して定義されてもよい。行列(平行移動行列および四元数行列または他の回転行列を含み得る)または他の好適な表現が、左耳座標116および右耳座標117とユーザ/聴取者/頭部座標系114空間との間の変換を特性評価することができる。ユーザ/聴取者/頭部座標系114は、ユーザの頭部または頭部搭載型デバイスに対する、例えば、環境/世界座標系108に対する場所の表現を簡略化することができる。同時位置特定およびマッピング(SLAM)、ビジュアルオドメトリ、または他の技法を使用して、ユーザ座標系114と環境座標系108との間の変換が、リアルタイムで決定および更新されることができる。 FIG. 1A illustrates an exemplary real-world environment 100 in which a user 110 uses a mixed reality system 112. FIG. Mixed reality system 112 may include a display (eg, transmissive display) and one or more speakers, and one or more sensors (eg, cameras), eg, as described below. . The real environment 100 shown includes a rectangular room 104A in which a user 110 stands, and real objects 122A (lamp), 124A (table), 126A (sofa), and 128A (painting). Room 104 A also includes location coordinates 106 , which may be considered the origin of real environment 100 . As shown in FIG. 1A, environment/world coordinate system 108 (comprising x-axis 108X, y-axis 108Y, and z-axis 108Z), with its origin at point 106 (world coordinates), is real environment 100. We can define a coordinate space for In some embodiments, origin 106 of environment/world coordinate system 108 may correspond to where mixed reality system 112 is powered on. In some embodiments, the origin 106 of the environment/world coordinate system 108 may be reset during operation. In some examples, user 110 may be viewed as a real object within real environment 100 . Similarly, body parts (eg, hands, feet) of user 110 may be considered real objects within real environment 100 . In some embodiments, a user/listener/head coordinate system 114 (x-axis 114X, y-axis 114Y, and z - with axis 114Z) may define a coordinate space for the user/listener/head on which mixed reality system 112 is located. An origin 115 of user/listener/head coordinate system 114 may be defined with respect to one or more components of mixed reality system 112 . For example, the origin 115 of the user/listener/head coordinate system 114 may be defined relative to the display of the mixed reality system 112 , such as during initial calibration of the mixed reality system 112 . A matrix (which may include translation matrices and quaternion matrices or other rotation matrices) or other suitable representation is between the user/listener/head coordinate system 114 space and the environment/world coordinate system 108 space. Transformations can be characterized. In some embodiments, left ear coordinates 116 and right ear coordinates 117 may be defined relative to origin 115 of user/listener/head coordinate system 114 . A matrix (which may include translation and quaternion matrices or other rotation matrices) or other suitable representation is the relationship between left ear coordinates 116 and right ear coordinates 117 and user/listener/head coordinate system 114 space. Transformation between can be characterized. User/listener/head coordinate system 114 may simplify the representation of location relative to the user's head or head-mounted device, eg, relative to environment/world coordinate system 108 . Using simultaneous localization and mapping (SLAM), visual odometry, or other techniques, the transformation between the user coordinate system 114 and the environment coordinate system 108 can be determined and updated in real time.

図1Bは、実環境100に対応する、例示的仮想環境130を図示する。示される仮想環境130は、実長方形部屋104Aに対応する仮想長方形部屋104Bと、実オブジェクト122Aに対応する仮想オブジェクト122Bと、実オブジェクト124Aに対応する仮想オブジェクト124Bと、実オブジェクト126Aに対応する仮想オブジェクト126Bとを含む。仮想オブジェクト122B、124B、126Bと関連付けられるメタデータは、対応する実オブジェクト122A、124A、126Aから導出される情報を含むことができる。仮想環境130は、加えて、仮想モンスタ132を含み、これは、実環境100内の任意の実オブジェクトに対応しない。実環境100内の実オブジェクト128Aは、仮想環境130内の任意の仮想オブジェクトに対応しない。その原点を点134(持続的座標)に伴う、持続的座標系133(x-軸133X、y-軸133Y、およびz-軸133Zを備える)は、仮想コンテンツのための座標空間を定義し得る。持続的座標系133の原点134は、実オブジェクト126A等の1つまたはそれを上回る実オブジェクトと相対的に/それに対して定義されてもよい。行列(平行移動行列および四元数行列または他の回転行列を含み得る)または他の好適な表現は、持続的座標系133空間と環境/世界座標系108空間との間の変換を特性評価することができる。いくつかの実施形態では、仮想オブジェクト122B、124B、126B、および132はそれぞれ、持続的座標系133の原点134に対するその自身の持続的座標点を有してもよい。いくつかの実施形態では、複数の持続的座標系が存在してもよく、仮想オブジェクト122B、124B、126B、および132はそれぞれ、1つまたはそれを上回る持続的座標系に対するその自身の持続的座標点を有してもよい。 FIG. 1B illustrates an exemplary virtual environment 130 that corresponds to real environment 100 . Virtual environment 130 shown includes virtual rectangular room 104B corresponding to real rectangular room 104A, virtual object 122B corresponding to real object 122A, virtual object 124B corresponding to real object 124A, and virtual object 124B corresponding to real object 126A. 126B. Metadata associated with virtual objects 122B, 124B, 126B may include information derived from corresponding real objects 122A, 124A, 126A. Virtual environment 130 additionally includes virtual monster 132 , which does not correspond to any real object within real environment 100 . Real object 128 A in real environment 100 does not correspond to any virtual object in virtual environment 130 . A persistent coordinate system 133 (comprising x-axis 133X, y-axis 133Y, and z-axis 133Z), with its origin at point 134 (persistent coordinates), may define a coordinate space for virtual content. . An origin 134 of persistent coordinate system 133 may be defined relative to/with respect to one or more real objects, such as real object 126A. A matrix (which may include a translation matrix and a quaternion matrix or other rotation matrix) or other suitable representation characterizes the transformation between the persistent coordinate system 133 space and the environment/world coordinate system 108 space. be able to. In some embodiments, virtual objects 122 B, 124 B, 126 B, and 132 may each have their own persistent coordinate point relative to origin 134 of persistent coordinate system 133 . In some embodiments, multiple persistent coordinate systems may exist, and virtual objects 122B, 124B, 126B, and 132 each have their own persistent coordinates relative to one or more persistent coordinate systems. may have points.

図1Aおよび1Bに関して、環境/世界座標系108は、実環境100および仮想環境130の両方のための共有座標空間を定義する。示される実施例では、座標空間は、その原点を点106に有する。さらに、座標空間は、同一の3つの直交軸(108X、108Y、108Z)によって定義される。故に、実環境100内の第1の場所および仮想環境130内の第2の対応する場所は、同一座標空間に関して説明されることができる。これは、同一座標が両方の場所を識別するために使用され得るため、実および仮想環境内の対応する場所を識別および表示することを簡略化する。しかしながら、いくつかの実施例では、対応する実および仮想環境は、共有座標空間を使用する必要がない。例えば、いくつかの実施例では(図示せず)、行列(平行移動行列および四元数行列または他の回転行列を含み得る)または他の好適な表現は、実環境座標空間と仮想環境座標空間との間の変換を特性評価することができる。 1A and 1B, environment/world coordinate system 108 defines a shared coordinate space for both real environment 100 and virtual environment 130 . In the example shown, the coordinate space has its origin at point 106 . Furthermore, the coordinate space is defined by three identical orthogonal axes (108X, 108Y, 108Z). Thus, a first location in real environment 100 and a second corresponding location in virtual environment 130 can be described with respect to the same coordinate space. This simplifies identifying and displaying corresponding locations in real and virtual environments, as the same coordinates can be used to identify both locations. However, in some implementations, the corresponding real and virtual environments need not use a shared coordinate space. For example, in some embodiments (not shown), matrices (which may include translation matrices and quaternion matrices or other rotation matrices) or other suitable representations are represented in real-environment coordinate space and virtual-environment coordinate space , can be characterized.

図1Cは、同時に、実環境100および仮想環境130の側面をユーザ110に複合現実システム112を介して提示する、例示的MRE150を図示する。示される実施例では、MRE150は、同時に、ユーザ110に、実環境100からの実オブジェクト122A、124A、126A、および128A(例えば、複合現実システム112のディスプレイの透過性部分を介して)と、仮想環境130からの仮想オブジェクト122B、124B、126B、および132(例えば、複合現実システム112のディスプレイのアクティブディスプレイ部分を介して)とを提示する。上記のように、原点106は、MRE150に対応する座標空間のための原点として作用し、座標系108は、座標空間のためのx-軸、y-軸、およびz-軸を定義する。 FIG. 1C illustrates exemplary MRE 150 simultaneously presenting aspects of real environment 100 and virtual environment 130 to user 110 via mixed reality system 112 . In the illustrated example, MRE 150 simultaneously provides user 110 with real objects 122A, 124A, 126A, and 128A from real environment 100 (eg, via a transparent portion of the display of mixed reality system 112) and virtual Virtual objects 122B, 124B, 126B, and 132 from environment 130 (eg, via active display portions of the display of mixed reality system 112) are presented. As noted above, origin 106 acts as the origin for the coordinate space corresponding to MRE 150, and coordinate system 108 defines the x-, y-, and z-axes for the coordinate space.

示される実施例では、複合現実オブジェクトは、座標空間108内の対応する場所を占有する、対応する対の実オブジェクトおよび仮想オブジェクト(すなわち、122A/122B、124A/124B、126A/126B)を含む。いくつかの実施例では、実オブジェクトおよび仮想オブジェクトは両方とも、同時に、ユーザ110に可視であってもよい。これは、例えば、仮想オブジェクトが対応する実オブジェクトのビューを拡張させるように設計される情報を提示する、インスタンスにおいて望ましくあり得る(仮想オブジェクトが古代の損傷された彫像の欠けた部分を提示する、博物館用途等)。いくつかの実施例では、仮想オブジェクト(122B、124B、および/または126B)は、対応する実オブジェクト(122A、124A、および/または126A)をオクルードするように、表示されてもよい(例えば、ピクセル化オクルージョンシャッタを使用する、アクティブピクセル化オクルージョンを介して)。これは、例えば、仮想オブジェクトが対応する実オブジェクトのための視覚的置換として作用する、インスタンスにおいて望ましくあり得る(無生物実オブジェクトが「生きている」キャラクタとなる、双方向ストーリーテリング用途等)。 In the illustrated example, the mixed reality objects include corresponding pairs of real and virtual objects (ie, 122A/122B, 124A/124B, 126A/126B) that occupy corresponding locations in coordinate space 108 . In some examples, both real and virtual objects may be visible to user 110 at the same time. This may be desirable, for example, in instances where a virtual object presents information designed to enhance the view of the corresponding real object (the virtual object presents missing parts of ancient damaged statues, museum applications, etc.). In some embodiments, virtual objects (122B, 124B, and/or 126B) may be displayed (e.g., pixel via Active Pixelated Occlusion, which uses an occlusion shutter). This may be desirable, for example, in instances where virtual objects act as visual replacements for corresponding real objects (such as interactive storytelling applications, where inanimate real objects become "living" characters).

いくつかの実施例では、実オブジェクト(例えば、122A、124A、126A)は、必ずしも、仮想オブジェクトを構成するとは限らない、仮想コンテンツまたはヘルパデータと関連付けられてもよい。仮想コンテンツまたはヘルパデータは、複合現実環境内の仮想オブジェクトの処理またはハンドリングを促進することができる。例えば、そのような仮想コンテンツは、対応する実オブジェクトの2次元表現、対応する実オブジェクトと関連付けられるカスタムアセットタイプ、または対応する実オブジェクトと関連付けられる統計的データを含み得る。本情報は、不必要な算出オーバーヘッドを被ることなく、実オブジェクトに関わる計算を可能にする、または促進することができる。 In some examples, a real object (eg, 122A, 124A, 126A) may be associated with virtual content or helper data that does not necessarily constitute a virtual object. Virtual content or helper data can facilitate the processing or handling of virtual objects within a mixed reality environment. For example, such virtual content may include two-dimensional representations of corresponding real objects, custom asset types associated with corresponding real objects, or statistical data associated with corresponding real objects. This information can enable or facilitate computations involving real objects without incurring unnecessary computational overhead.

いくつかの実施例では、上記に説明される提示はまた、オーディオ側面を組み込んでもよい。例えば、MRE150では、仮想モンスタ132は、モンスタがMRE150の周囲を歩き回るにつれて生成される、足音効果等の1つまたはそれを上回るオーディオ信号と関連付けられ得る。下記にさらに説明されるように、複合現実システム112のプロセッサは、MRE150内の全てのそのような音の混合および処理された合成に対応するオーディオ信号を算出し、複合現実システム112内に含まれる1つまたはそれを上回るスピーカおよび/または1つまたはそれを上回る外部スピーカを介して、オーディオ信号をユーザ110に提示することができる。 In some embodiments, the presentations described above may also incorporate audio aspects. For example, in MRE 150 , virtual monster 132 may be associated with one or more audio signals, such as footstep effects, generated as the monster walks around MRE 150 . As further described below, the processor of mixed reality system 112 computes an audio signal corresponding to all such sound mixing and processed synthesis within MRE 150 and contained within mixed reality system 112. Audio signals may be presented to user 110 via one or more speakers and/or one or more external speakers.

例示的複合現実システム An exemplary mixed reality system

例示的複合現実システム112は、ディスプレイ(接眼ディスプレイであり得る、左および右透過型ディスプレイと、ディスプレイからの光をユーザの眼に結合するための関連付けられるコンポーネントとを含み得る)と、左および右スピーカ(例えば、それぞれ、ユーザの左および右耳に隣接して位置付けられる)と、慣性測定ユニット(IMU)(例えば、頭部デバイスのつるのアームに搭載される)と、直交コイル電磁受信機(例えば、左つる部品に搭載される)と、ユーザから離れるように配向される、左および右カメラ(例えば、深度(飛行時間)カメラ)と、ユーザに向かって配向される、左および右眼カメラ(例えば、ユーザの眼移動を検出するため)とを備える、ウェアラブル頭部デバイス(例えば、ウェアラブル拡張現実または複合現実頭部デバイス)を含むことができる。しかしながら、複合現実システム112は、任意の好適なディスプレイ技術および任意の好適なセンサ(例えば、光学、赤外線、音響、LIDAR、EOG、GPS、磁気)を組み込むことができる。加えて、複合現実システム112は、ネットワーキング特徴(例えば、Wi-Fi能力)を組み込み、他の複合現実システムを含む、他のデバイスおよびシステムと通信してもよい。複合現実システム112はさらに、バッテリ(ユーザの腰部の周囲に装着されるように設計されるベルトパック等の補助ユニット内に搭載されてもよい)と、プロセッサと、メモリとを含んでもよい。複合現実システム112のウェアラブル頭部デバイスは、ユーザの環境に対するウェアラブル頭部デバイスの座標セットを出力するように構成される、IMUまたは他の好適なセンサ等の追跡コンポーネントを含んでもよい。いくつかの実施例では、追跡コンポーネントは、入力をプロセッサに提供し、同時位置特定およびマッピング(SLAM)および/またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、複合現実システム112はまた、ハンドヘルドコントローラ300、および/または下記にさらに説明されるように、ウェアラブルベルトパックであり得る、補助ユニット320を含んでもよい。 Exemplary mixed reality system 112 includes a display (which may be an eyepiece display, which may include left and right transmissive displays, and associated components for coupling light from the display to the user's eye) and left and right A speaker (e.g., positioned adjacent to the user's left and right ears, respectively), an inertial measurement unit (IMU) (e.g., mounted on the temple arm of the head device), and a quadrature coil electromagnetic receiver ( left and right cameras (e.g., mounted on the left temple), oriented away from the user (e.g., depth (time-of-flight) cameras), and left and right eye cameras oriented toward the user. (eg, to detect user eye movement). However, mixed reality system 112 may incorporate any suitable display technology and any suitable sensors (eg, optical, infrared, acoustic, LIDAR, EOG, GPS, magnetic). Additionally, mixed reality system 112 may incorporate networking features (eg, Wi-Fi capabilities) to communicate with other devices and systems, including other mixed reality systems. Mixed reality system 112 may further include a battery (which may be mounted in an auxiliary unit such as a beltpack designed to be worn around the user's waist), a processor, and memory. The wearable head device of mixed reality system 112 may include a tracking component, such as an IMU or other suitable sensor, configured to output a coordinate set of the wearable head device relative to the user's environment. In some examples, the tracking component may provide input to the processor to implement simultaneous localization and mapping (SLAM) and/or visual odometry algorithms. In some examples, the mixed reality system 112 may also include a handheld controller 300 and/or an auxiliary unit 320, which may be a wearable beltpack, as further described below.

図2A-2Dは、MRE(MRE150に対応し得る)または他の仮想環境をユーザに提示するために使用され得る、例示的複合現実システム200(複合現実システム112に対応し得る)のコンポーネントを図示する。図2Aは、例示的複合現実システム200内に含まれるウェアラブル頭部デバイス2102の斜視図を図示する。図2Bは、ユーザの頭部2202上に装着されるウェアラブル頭部デバイス2102の上面図を図示する。図2Cは、ウェアラブル頭部デバイス2102の正面図を図示する。図2Dは、ウェアラブル頭部デバイス2102の例示的接眼レンズ2110の縁視図を図示する。図2A-2Cに示されるように、例示的ウェアラブル頭部デバイス2102は、例示的左接眼レンズ(例えば、左透明導波管セット接眼レンズ)2108と、例示的右接眼レンズ(例えば、右透明導波管セット接眼レンズ)2110とを含む。各接眼レンズ2108および2110は、それを通して実環境が可視となる、透過性要素と、実環境に重複するディスプレイ(例えば、画像毎に変調された光を介して)を提示するためのディスプレイ要素とを含むことができる。いくつかの実施例では、そのようなディスプレイ要素は、画像毎に変調された光の流動を制御するための表面回折光学要素を含むことができる。例えば、左接眼レンズ2108は、左内部結合格子セット2112と、左直交瞳拡張(OPE)格子セット2120と、左出射(出力)瞳拡張(EPE)格子セット2122とを含むことができる。同様に、右接眼レンズ2110は、右内部結合格子セット2118と、右OPE格子セット2114と、右EPE格子セット2116とを含むことができる。画像毎に変調された光は、内部結合格子2112および2118、OPE2114および2120、およびEPE2116および2122を介して、ユーザの眼に転送されることができる。各内部結合格子セット2112、2118は、光をその対応するOPE格子セット2120、2114に向かって偏向させるように構成されることができる。各OPE格子セット2120、2114は、光をその関連付けられるEPE2122、2116に向かって下方に漸次的に偏向させ、それによって、形成されている射出瞳を水平に延在させるように設計されることができる。各EPE2122、2116は、その対応するOPE格子セット2120、2114から受信された光の少なくとも一部を、接眼レンズ2108、2110の背後に定義される、ユーザアイボックス位置(図示せず)に外向きに漸次的に再指向し、アイボックスに形成される射出瞳を垂直に延在させるように構成されることができる。代替として、内部結合格子セット2112および2118、OPE格子セット2114および2120、およびEPE格子セット2116および2122の代わりに、接眼レンズ2108および2110は、ユーザの眼への画像毎に変調された光の結合を制御するための格子および/または屈折および反射性特徴の他の配列を含むことができる。 2A-2D illustrate components of an exemplary mixed reality system 200 (which may correspond to mixed reality system 112) that may be used to present an MRE (which may correspond to MRE 150) or other virtual environment to a user. do. FIG. 2A illustrates a perspective view of wearable head device 2102 included within exemplary mixed reality system 200 . FIG. 2B illustrates a top view of wearable head device 2102 worn on user's head 2202 . FIG. 2C illustrates a front view of wearable head device 2102 . FIG. 2D illustrates an edge view of an exemplary eyepiece 2110 of wearable head device 2102 . As shown in FIGS. 2A-2C, the exemplary wearable head device 2102 includes an exemplary left eyepiece (eg, left transparent waveguide set eyepiece) 2108 and an exemplary right eyepiece (eg, right transparent waveguide set eyepiece) 2108 . wave tube set eyepiece) 2110. Each eyepiece 2108 and 2110 includes a transmissive element through which the real environment is visible and a display element for presenting a display (e.g., via image-wise modulated light) that overlaps the real environment. can include In some embodiments, such display elements can include surface diffractive optical elements for controlling the flow of modulated light from image to image. For example, the left eyepiece 2108 can include a left incoupling grating set 2112 , a left orthogonal pupil expansion (OPE) grating set 2120 , and a left exit (output) pupil expansion (EPE) grating set 2122 . Similarly, right eyepiece 2110 may include right incoupling grating set 2118 , right OPE grating set 2114 , and right EPE grating set 2116 . The image-wise modulated light can be transferred to the user's eye via incoupling gratings 2112 and 2118 , OPEs 2114 and 2120 , and EPEs 2116 and 2122 . Each incoupling grating set 2112 , 2118 can be configured to deflect light towards its corresponding OPE grating set 2120 , 2114 . Each OPE grating set 2120, 2114 may be designed to progressively deflect light downward toward its associated EPE 2122, 2116, thereby horizontally extending the exit pupil being formed. can. Each EPE 2122, 2116 directs at least a portion of the light received from its corresponding OPE grating set 2120, 2114 outward to a user eyebox location (not shown) defined behind the eyepieces 2108, 2110. so that the exit pupil formed in the eyebox extends vertically. Alternatively, instead of incoupling grating sets 2112 and 2118, OPE grating sets 2114 and 2120, and EPE grating sets 2116 and 2122, eyepieces 2108 and 2110 are used to couple the image-wise modulated light to the user's eye. Gratings and/or other arrangements of refractive and reflective features may be included to control the .

いくつかの実施例では、ウェアラブル頭部デバイス2102は、左つるのアーム2130と、右つるのアーム2132とを含むことができ、左つるのアーム2130は、左スピーカ2134を含み、右つるのアーム2132は、右スピーカ2136を含む。直交コイル電磁受信機2138は、左こめかみ部品またはウェアラブル頭部ユニット2102内の別の好適な場所に位置することができる。慣性測定ユニット(IMU)2140は、右つるのアーム2132またはウェアラブル頭部デバイス2102内の別の好適な場所に位置することができる。ウェアラブル頭部デバイス2102はまた、左深度(例えば、飛行時間)カメラ2142と、右深度カメラ2144とを含むことができる。深度カメラ2142、2144は、好適には、ともにより広い視野を網羅するように、異なる方向に配向されることができる。 In some examples, the wearable head device 2102 can include a left temple arm 2130 and a right temple arm 2132, the left temple arm 2130 including the left speaker 2134 and the right temple arm 2134. 2132 includes right speaker 2136 . The quadrature coil electromagnetic receiver 2138 may be located in the left temple piece or another suitable location within the wearable head unit 2102 . An inertial measurement unit (IMU) 2140 may be located in the right temple arm 2132 or another suitable location within the wearable head device 2102 . The wearable head device 2102 may also include a left depth (eg, time of flight) camera 2142 and a right depth camera 2144. Depth cameras 2142, 2144 can preferably be oriented in different directions so that together they cover a wider field of view.

図2A-2Dに示される実施例では、画像毎に変調された光の左源2124は、左内部結合格子セット2112を通して、左接眼レンズ2108の中に光学的に結合されることができ、画像毎に変調された光の右源2126は、右内部結合格子セット2118を通して、右接眼レンズ2110の中に光学的に結合されることができる。画像毎に変調された光の源2124、2126は、例えば、光ファイバスキャナ、デジタル光処理(DLP)チップまたはシリコン上液晶(LCoS)変調器等の電子光変調器を含む、プロジェクタ、または側面あたり1つまたはそれを上回るレンズを使用して、内部結合格子セット2112、2118の中に結合される、マイクロ発光ダイオード(μLED)またはマイクロ有機発光ダイオード(μOLED)パネル等の発光型ディスプレイを含むことができる。入力結合格子セット2112、2118は、画像毎に変調された光の源2124、2126からの光を、接眼レンズ2108、2110のための全内部反射(TIR)に関する臨界角を上回る角度に偏向させることができる。OPE格子セット2114、2120は、伝搬する光をTIRによってEPE格子セット2116、2122に向かって下方に漸次的に偏向させる。EPE格子セット2116、2122は、ユーザの眼の瞳孔を含む、ユーザの顔に向かって、光を漸次的に結合する。 2A-2D, a left source of image-wise modulated light 2124 can be optically coupled into a left eyepiece 2108 through a left incoupling grating set 2112 to provide an image A right source of modulated light 2126 can be optically coupled into the right eyepiece 2110 through a right incoupling grating set 2118 . Sources of image-wise modulated light 2124, 2126 include, for example, fiber optic scanners, digital light processing (DLP) chips or electronic light modulators such as liquid crystal on silicon (LCoS) modulators, projectors, or per side. It can include an emissive display such as a micro light emitting diode (μLED) or micro organic light emitting diode (μOLED) panel coupled into an incoupling grid set 2112, 2118 using one or more lenses. can. The input coupling grating set 2112, 2118 deflects the light from the image-wise modulated light sources 2124, 2126 to angles above the critical angle for total internal reflection (TIR) for the eyepieces 2108, 2110. can be done. The OPE grating sets 2114, 2120 progressively deflect propagating light downward toward the EPE grating sets 2116, 2122 by TIR. The EPE grating sets 2116, 2122 progressively couple light towards the user's face, including the pupils of the user's eyes.

いくつかの実施例では、図2Dに示されるように、左接眼レンズ2108および右接眼レンズ2110はそれぞれ、複数の導波管2402を含む。例えば、各接眼レンズ2108、2110は、複数の個々の導波管を含むことができ、それぞれ、個別の色チャネル(例えば、赤色、青色、および緑色)専用である。いくつかの実施例では、各接眼レンズ2108、2110は、複数のセットのそのような導波管を含むことができ、各セットは、異なる波面曲率を放出される光に付与するように構成される。波面曲率は、例えば、ユーザの正面のある距離(例えば、波面曲率の逆数に対応する距離)に位置付けられる仮想オブジェクトを提示するように、ユーザの眼に対して凸面であってもよい。いくつかの実施例では、EPE格子セット2116、2122は、各EPEを横断して出射する光のPoyntingベクトルを改変することによって凸面波面曲率をもたらすために、湾曲格子溝を含むことができる。 In some embodiments, left eyepiece 2108 and right eyepiece 2110 each include multiple waveguides 2402, as shown in FIG. 2D. For example, each eyepiece 2108, 2110 can include multiple individual waveguides, each dedicated to a separate color channel (eg, red, blue, and green). In some embodiments, each eyepiece 2108, 2110 can include multiple sets of such waveguides, each set configured to impart a different wavefront curvature to the emitted light. be. The wavefront curvature may be convex to the user's eye, for example, to present a virtual object positioned at some distance in front of the user (eg, a distance corresponding to the reciprocal of the wavefront curvature). In some embodiments, the EPE grating sets 2116, 2122 can include curved grating grooves to produce convex wavefront curvature by modifying the Poynting vector of light exiting across each EPE.

いくつかの実施例では、表示されるコンテンツが3次元である知覚を作成するために、立体視的に調節される左および右眼画像は、画像毎に光変調器2124、2126および接眼レンズ2108、2110を通して、ユーザに提示されることができる。3次元仮想オブジェクトの提示の知覚される現実性は、仮想オブジェクトが立体視左および右画像によって示される距離に近似する距離に表示されるように、導波管(したがって、対応する波面曲率)を選択することによって向上されることができる。本技法はまた、立体視左および右眼画像によって提供される深度知覚キューと人間の眼の自動遠近調節(例えば、オブジェクト距離依存焦点)との間の差異によって生じ得る、一部のユーザによって被られる乗り物酔いを低減させ得る。 In some embodiments, stereoscopically adjusted left and right eye images are combined with light modulators 2124, 2126 and eyepiece 2108 for each image to create the perception that the displayed content is three-dimensional. , 2110 to the user. The perceived realism of the presentation of a three-dimensional virtual object is to position the waveguide (and thus the corresponding wavefront curvature) such that the virtual object appears at a distance approximating the distance exhibited by the stereoscopic left and right images. Can be enhanced by selection. The technique also suffers from some users, which can be caused by differences between the depth perception cues provided by the stereoscopic left and right eye images and the human eye's automatic accommodation (e.g., object distance dependent focus). can reduce motion sickness.

図2Dは、例示的ウェアラブル頭部デバイス2102の右接眼レンズ2110の上部からの縁視図を図示する。図2Dに示されるように、複数の導波管2402は、3つの導波管の第1のサブセット2404と、3つの導波管の第2のサブセット2406とを含むことができる。導波管の2つのサブセット2404、2406は、異なる波面曲率を出射する光に付与するために異なる格子線曲率を特徴とする、異なるEPE格子によって区別されることができる。導波管のサブセット2404、2406のそれぞれ内において、各導波管は、異なるスペクトルチャネル(例えば、赤色、緑色、および青色スペクトルチャネルのうちの1つ)をユーザの右眼2206に結合するために使用されることができる。(図2Dには図示されないが、左接眼レンズ2108の構造は、右接眼レンズ2110の構造に類似する。) FIG. 2D illustrates an edge view from the top of right eyepiece 2110 of exemplary wearable head device 2102 . As shown in FIG. 2D, the plurality of waveguides 2402 can include a first subset 2404 of three waveguides and a second subset 2406 of three waveguides. The two subsets of waveguides 2404, 2406 can be distinguished by different EPE gratings featuring different grating line curvatures to impart different wavefront curvatures to the emerging light. Within each of the waveguide subsets 2404, 2406, each waveguide is for coupling a different spectral channel (eg, one of the red, green, and blue spectral channels) to the user's right eye 2206. can be used. (Although not shown in FIG. 2D, the structure of left eyepiece 2108 is similar to that of right eyepiece 2110.)

図3Aは、複合現実システム200の例示的ハンドヘルドコントローラコンポーネント300を図示する。いくつかの実施例では、ハンドヘルドコントローラ300は、把持部分346と、上部表面348に沿って配置される、1つまたはそれを上回るボタン350とを含む。いくつかの実施例では、ボタン350は、例えば、カメラまたは他の光学センサ(複合現実システム200の頭部ユニット(例えば、ウェアラブル頭部デバイス2102)内に搭載され得る)と併せて、ハンドヘルドコントローラ300の6自由度(6DOF)運動を追跡するための光学追跡標的として使用するために構成されてもよい。いくつかの実施例では、ハンドヘルドコントローラ300は、ウェアラブル頭部デバイス2102に対する位置または配向等の位置または配向を検出するための追跡コンポーネント(例えば、IMUまたは他の好適なセンサ)を含む。いくつかの実施例では、そのような追跡コンポーネントは、ハンドヘルドコントローラ300のハンドル内に位置付けられてもよく、および/またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ300は、ボタンの押下状態、またはハンドヘルドコントローラ300の位置、配向、および/または運動(例えば、IMUを介して)のうちの1つまたはそれを上回るものに対応する、1つまたはそれを上回る出力信号を提供するように構成されることができる。そのような出力信号は、複合現実システム200のプロセッサへの入力として使用されてもよい。そのような入力は、ハンドヘルドコントローラの位置、配向、および/または移動(さらに言うと、コントローラを保持するユーザの手の位置、配向、および/または移動)に対応し得る。そのような入力はまた、ユーザがボタン350を押下したことに対応し得る。 FIG. 3A illustrates an exemplary handheld controller component 300 of mixed reality system 200 . In some examples, handheld controller 300 includes a gripping portion 346 and one or more buttons 350 disposed along top surface 348 . In some examples, the button 350 is located on the handheld controller 300, for example, in conjunction with a camera or other optical sensor (which may be mounted within the head unit (eg, wearable head device 2102) of the mixed reality system 200). may be configured for use as an optical tracking target for tracking the six degrees of freedom (6DOF) motion of the . In some examples, handheld controller 300 includes a tracking component (eg, an IMU or other suitable sensor) for detecting position or orientation, such as position or orientation relative to wearable head device 2102 . In some examples, such tracking components may be located within the handle of handheld controller 300 and/or may be mechanically coupled to the handheld controller. The handheld controller 300 controls one or more of the button presses, or the position, orientation, and/or movement of the handheld controller 300 (eg, via an IMU). can be configured to provide a higher output signal. Such output signals may be used as inputs to the processor of mixed reality system 200 . Such inputs may correspond to the position, orientation, and/or movement of the handheld controller (and for that matter, the position, orientation, and/or movement of the user's hand holding the controller). Such input may also correspond to a user pressing button 350 .

図3Bは、複合現実システム200の例示的補助ユニット320を図示する。補助ユニット320は、エネルギーを提供し、システム200を動作するためのバッテリを含むことができ、プログラムを実行し、システム200を動作させるためのプロセッサを含むことができる。示されるように、例示的補助ユニット320は、補助ユニット320をユーザのベルトに取り付ける等のためのクリップ2128を含む。他の形状因子も、補助ユニット320のために好適であって、ユニットをユーザのベルトに搭載することを伴わない、形状因子を含むことも明白となるであろう。いくつかの実施例では、補助ユニット320は、例えば、電気ワイヤおよび光ファイバを含み得る、多管式ケーブルを通して、ウェアラブル頭部デバイス2102に結合される。補助ユニット320とウェアラブル頭部デバイス2102との間の無線接続もまた、使用されることができる。 FIG. 3B illustrates an exemplary auxiliary unit 320 of mixed reality system 200 . Auxiliary unit 320 may include a battery to provide energy and operate system 200 and may include a processor to execute programs and operate system 200 . As shown, the exemplary auxiliary unit 320 includes a clip 2128 for attaching the auxiliary unit 320 to a user's belt, or the like. It will also be apparent that other form factors are suitable for auxiliary unit 320, including form factors that do not involve mounting the unit to the user's belt. In some examples, the auxiliary unit 320 is coupled to the wearable head device 2102 through multi-tubular cables, which can include electrical wires and optical fibers, for example. A wireless connection between the auxiliary unit 320 and the wearable head device 2102 can also be used.

いくつかの実施例では、複合現実システム200は、1つまたはそれを上回るマイクロホンを含み、音を検出し、対応する信号を複合現実システムに提供することができる。いくつかの実施例では、マイクロホンは、ウェアラブル頭部デバイス2102に取り付けられる、またはそれと統合されてもよく、ユーザの音声を検出するように構成されてもよい。いくつかの実施例では、マイクロホンは、ハンドヘルドコントローラ300および/または補助ユニット320に取り付けられる、またはそれと統合されてもよい。そのようなマイクロホンは、環境音、周囲雑音、ユーザまたは第三者の音声、または他の音を検出するように構成されてもよい。 In some examples, mixed reality system 200 may include one or more microphones to detect sounds and provide corresponding signals to the mixed reality system. In some examples, a microphone may be attached to or integrated with the wearable head device 2102 and may be configured to detect the user's voice. In some examples, a microphone may be attached to or integrated with handheld controller 300 and/or auxiliary unit 320 . Such microphones may be configured to detect environmental sounds, ambient noise, user or third party speech, or other sounds.

図4は、上記に説明される複合現実システム200(図1に関する複合現実システム112に対応し得る)等の例示的複合現実システムに対応し得る、例示的機能ブロック図を示す。図4に示されるように、例示的ハンドヘルドコントローラ400B(ハンドヘルドコントローラ300(「トーテム」)に対応し得る)は、トーテム/ウェアラブル頭部デバイス6自由度(6DOF)トーテムサブシステム404Aを含み、例示的ウェアラブル頭部デバイス400A(ウェアラブル頭部デバイス2102に対応し得る)は、トーテム/ウェアラブル頭部デバイス6DOFサブシステム404Bを含む。実施例では、6DOFトーテムサブシステム404Aおよび6DOFサブシステム404Bは、協働し、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6つの座標(例えば、3つの平行移動方向におけるオフセットおよび3つの軸に沿った回転)を決定する。6自由度は、ウェアラブル頭部デバイス400Aの座標系に対して表されてもよい。3つの平行移動オフセットは、そのような座標系内におけるX、Y、およびZオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンスとして、回転行列として、四元数として、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス400A、ウェアラブル頭部デバイス400A内に含まれる、1つまたはそれを上回る深度カメラ444(および/または1つまたはそれを上回る非深度カメラ)、および/または1つまたはそれを上回る光学標的(例えば、上記に説明されるようなハンドヘルドコントローラ400Bのボタン350またはハンドヘルドコントローラ400B内に含まれる専用光学標的)は、6DOF追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ400Bは、上記に説明されるようなカメラを含むことができ、ウェアラブル頭部デバイス400Aは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス400Aおよびハンドヘルドコントローラ400Bはそれぞれ、3つの直交して配向されるソレノイドのセットを含み、これは、3つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれ内で受信される3つの区別可能な信号の相対的大きさを測定することによって、ハンドヘルドコントローラ400Bに対するウェアラブル頭部デバイス400Aの6DOFが、決定され得る。加えて、6DOFトーテムサブシステム404Aは、改良された正確度および/またはハンドヘルドコントローラ400Bの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット(IMU)を含むことができる。 FIG. 4 illustrates an exemplary functional block diagram that may correspond to an exemplary mixed reality system, such as mixed reality system 200 (which may correspond to mixed reality system 112 with respect to FIG. 1) described above. As shown in FIG. 4, an exemplary handheld controller 400B (which may correspond to handheld controller 300 (“totem”)) includes a totem/wearable head device 6 degree of freedom (6DOF) totem subsystem 404A and includes an exemplary Wearable head device 400A (which may correspond to wearable head device 2102) includes a totem/wearable head device 6DOF subsystem 404B. In an embodiment, the 6DOF totem subsystem 404A and the 6DOF subsystem 404B cooperate to provide six coordinates of the handheld controller 400B relative to the wearable head device 400A (e.g., offsets in three translational directions and along three axes). rotation). The six degrees of freedom may be expressed relative to the coordinate system of wearable head device 400A. The three translation offsets may be represented as X, Y, and Z offsets, translation matrices, or some other representation within such a coordinate system. The rotational degrees of freedom may be represented as sequences of yaw, pitch, and roll rotations, as rotation matrices, as quaternions, or as some other representation. In some examples, the wearable head device 400A, one or more depth cameras 444 (and/or one or more non-depth cameras) included within the wearable head device 400A, and/or One or more optical targets (eg, button 350 of handheld controller 400B as described above or a dedicated optical target included within handheld controller 400B) can be used for 6DOF tracking. In some examples, handheld controller 400B can include a camera as described above, and wearable head device 400A can include an optical target for optical tracking in conjunction with the camera. In some examples, the wearable head device 400A and the handheld controller 400B each include a set of three orthogonally oriented solenoids for wirelessly transmitting and receiving three distinct signals. used for By measuring the relative magnitudes of the three distinct signals received within each of the coils used to receive, the 6DOF of wearable head device 400A relative to handheld controller 400B can be determined. Additionally, the 6DOF totem subsystem 404A can include an inertial measurement unit (IMU) that is useful for providing improved accuracy and/or more timely information regarding high speed movement of the handheld controller 400B. .

いくつかの実施例では、例えば、座標系108に対するウェアラブル頭部デバイス400Aの移動を補償するために、座標をローカル座標空間(例えば、ウェアラブル頭部デバイス400Aに対して固定される座標空間)から慣性座標空間(例えば、実環境に対して固定される座標空間)に変換することが必要になり得る。例えば、そのような変換は、ウェアラブル頭部デバイス400Aのディスプレイが、ディスプレイ上の固定位置および配向(例えば、ディスプレイの右下角における同一位置)ではなく仮想オブジェクトを実環境に対する期待される位置および配向に提示し(例えば、ウェアラブル頭部デバイスの位置および配向にかかわらず、前方に面した実椅子に着座している仮想人物)、仮想オブジェクトが実環境内に存在する(かつ、例えば、ウェアラブル頭部デバイス400Aが偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない)という錯覚を保存するために必要であり得る。いくつかの実施例では、座標空間間の補償変換が、座標系108に対するウェアラブル頭部デバイス400Aの変換を決定するために、SLAMおよび/またはビジュアルオドメトリプロシージャを使用して、深度カメラ444からの画像を処理することによって決定されることができる。図4に示される実施例では、深度カメラ444は、SLAM/ビジュアルオドメトリブロック406に結合され、画像をブロック406に提供することができる。SLAM/ビジュアルオドメトリブロック406実装は、本画像を処理し、次いで、頭部座標空間と別の座標空間(例えば、慣性座標空間)との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、IMU409から取得される。IMU409からの情報は、SLAM/ビジュアルオドメトリブロック406からの情報と統合され、改良された正確度および/またはユーザの頭部姿勢および位置の高速調節に関する情報をよりタイムリーに提供することができる。 In some embodiments, for example, to compensate for movement of wearable head device 400A relative to coordinate system 108, coordinates are inertially moved from a local coordinate space (eg, a coordinate space fixed relative to wearable head device 400A). It may be necessary to transform to a coordinate space (eg, a coordinate space that is fixed with respect to the real environment). For example, such a transformation may cause the display of wearable head device 400A to move the virtual object to its expected position and orientation relative to the real environment, rather than a fixed position and orientation on the display (e.g., the same position in the lower right corner of the display). (e.g., a virtual person seated in a real chair facing forward, regardless of the position and orientation of the wearable head device), the virtual object being present in the real environment (and, e.g., the wearable head device It may be necessary to preserve the illusion that as 400A translates and rotates, it does not appear unnaturally positioned in the real environment). In some embodiments, a compensating transformation between coordinate spaces uses SLAM and/or visual odometry procedures to determine the transformation of wearable head device 400A with respect to coordinate system 108 from images from depth camera 444. can be determined by processing In the example shown in FIG. 4, depth camera 444 may be coupled to SLAM/visual odometry block 406 and provide images to block 406 . The SLAM/visual odometry block 406 implementation processes this image, and then the user's head, which can be used to identify transformations between the head coordinate space and another coordinate space (eg, the inertial coordinate space). A processor can be included that is configured to determine the position and orientation of the portion. Similarly, in some embodiments, additional sources of information regarding the user's head pose and location are obtained from IMU 409 . Information from IMU 409 can be combined with information from SLAM/visual odometry block 406 to provide improved accuracy and/or more timely information regarding fast adjustment of the user's head pose and position.

いくつかの実施例では、深度カメラ444は、ウェアラブル頭部デバイス400Aのプロセッサ内に実装され得る、手のジェスチャトラッカ411に、3D画像を供給することができる。手のジェスチャトラッカ411は、例えば、深度カメラ444から受信された3D画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。 In some examples, depth camera 444 can provide 3D images to hand gesture tracker 411, which can be implemented within the processor of wearable head device 400A. Hand gesture tracker 411 may, for example, identify a user's hand gestures by matching 3D images received from depth camera 444 to stored patterns representing hand gestures. Other suitable techniques for identifying user hand gestures will also become apparent.

いくつかの実施例では、1つまたはそれを上回るプロセッサ416は、ウェアラブル頭部デバイスの6DOFヘッドギヤサブシステム404B、IMU409、SLAM/ビジュアルオドメトリブロック406、深度カメラ444、および/または手のジェスチャトラッカ411からのデータを受信するように構成されてもよい。プロセッサ416はまた、制御信号を6DOFトーテムシステム404Aに送信し、そこから受信することができる。プロセッサ416は、ハンドヘルドコントローラ400Bがテザリングされない実施例等では、無線で、6DOFトーテムシステム404Aに結合されてもよい。プロセッサ416はさらに、オーディオ/視覚的コンテンツメモリ418、グラフィカル処理ユニット(GPU)420、および/またはデジタル信号プロセッサ(DSP)オーディオ空間化装置422等の付加的コンポーネントと通信してもよい。DSPオーディオ空間化装置422は、頭部関連伝達関数(HRTF)メモリ425に結合されてもよい。GPU420は、画像毎に変調された光の左源424に結合される、左チャネル出力と、画像毎に変調された光の右源426に結合される、右チャネル出力とを含むことができる。GPU420は、例えば、図2A-2Dに関して上記に説明されるように、立体視画像データを画像毎に変調された光の源424、426に出力することができる。DSPオーディオ空間化装置422は、オーディオを左スピーカ412および/または右スピーカ414に出力することができる。DSPオーディオ空間化装置422は、プロセッサ419から、ユーザから仮想音源(例えば、ハンドヘルドコントローラ320を介して、ユーザによって移動され得る)への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、DSPオーディオ空間化装置422は、対応するHRTFを決定することができる(例えば、HRTFにアクセスすることによって、または複数のHRTFを補間することによって)。DSPオーディオ空間化装置422は、次いで、決定されたHRTFを仮想オブジェクトによって生成された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が実環境内の実音である場合に聞こえるであろうもののユーザの期待に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。 In some embodiments, one or more of the processors 416 may receive data from the wearable head device's 6DOF headgear subsystem 404B, the IMU 409, the SLAM/visual odometry block 406, the depth camera 444, and/or the hand gesture tracker 411. may be configured to receive data from Processor 416 can also send control signals to and receive control signals from 6DOF totem system 404A. Processor 416 may be wirelessly coupled to 6DOF totem system 404A, such as in embodiments where handheld controller 400B is not tethered. Processor 416 may also communicate with additional components such as audio/visual content memory 418 , graphical processing unit (GPU) 420 , and/or digital signal processor (DSP) audio spatializer 422 . DSP audio spatializer 422 may be coupled to head related transfer function (HRTF) memory 425 . The GPU 420 may include a left channel output coupled to a left image-modulated light source 424 and a right-channel output coupled to a right image-modulated light source 426 . GPU 420 may output stereoscopic image data to image-wise modulated light sources 424, 426, for example, as described above with respect to FIGS. 2A-2D. DSP audio spatializer 422 may output audio to left speaker 412 and/or right speaker 414 . DSP audio spatializer 422 may receive input from processor 419 indicating a directional vector from the user to the virtual sound source (eg, which may be moved by the user via handheld controller 320). Based on the direction vector, DSP audio spatializer 422 can determine the corresponding HRTF (eg, by accessing the HRTF or by interpolating multiple HRTFs). DSP audio spatializer 422 may then apply the determined HRTF to an audio signal, such as the audio signal corresponding to the virtual sound produced by the virtual object. This is done by incorporating the user's relative position and orientation to the virtual sound within the mixed reality environment, i.e., matching the user's expectations of what the virtual sound would sound like if it were a real sound within a real environment. By presenting sounds, the believability and realism of virtual sounds can be improved.

図4に示されるようないくつかの実施例では、プロセッサ416、GPU420、DSPオーディオ空間化装置422、HRTFメモリ425、およびオーディオ/視覚的コンテンツメモリ418のうちの1つまたはそれを上回るものは、補助ユニット400C(上記に説明される補助ユニット320に対応し得る)内に含まれてもよい。補助ユニット400Cは、バッテリ427を含み、そのコンポーネントを給電し、および/または電力をウェアラブル頭部デバイス400Aまたはハンドヘルドコントローラ400Bに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス400Aのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。 In some embodiments, such as shown in FIG. 4, one or more of processor 416, GPU 420, DSP audio spatializer 422, HRTF memory 425, and audio/visual content memory 418 may: It may be included within auxiliary unit 400C (which may correspond to auxiliary unit 320 described above). Auxiliary unit 400C may include a battery 427 to power its components and/or provide power to wearable head device 400A or handheld controller 400B. Including such components in an auxiliary unit, which can be mounted on the user's waist, can limit the size and weight of the wearable head device 400A, which in turn reduces the user's head and neck. fatigue can be reduced.

図4は、例示的複合現実システムの種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット400Cと関連付けられているような図4に提示される要素は、代わりに、ウェアラブル頭部デバイス400Aまたはハンドヘルドコントローラ400Bと関連付けられ得る。さらに、いくつかの複合現実システムは、ハンドヘルドコントローラ400Bまたは補助ユニット400Cを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるべきである。 Although FIG. 4 presents elements corresponding to various components of an exemplary mixed reality system, various other suitable arrangements of these components will be apparent to those skilled in the art. For example, elements presented in FIG. 4 as associated with auxiliary unit 400C may instead be associated with wearable head device 400A or handheld controller 400B. Additionally, some mixed reality systems may omit the handheld controller 400B or auxiliary unit 400C entirely. Such changes and modifications are to be understood as included within the scope of the disclosed embodiments.

遅延オーディオ追従 delayed audio tracking

MRシステムは、没入型のオーディオ体験を提供するために、感知および/または算出を利用するように良好に位置付けられることができる。特に、MRシステムは、音を空間化し、ユーザをMRE内に没入させるための一意の方法をもたらすことができる。MRシステムは、スピーカ412および414に関して上記に説明されるように、オーディオ信号をユーザに提示するためのスピーカを含むことができる。MRシステムは、オーディオ信号を決定し、仮想環境(例えば、MRE)に基づいて、再生することができる。例えば、オーディオ信号は、仮想環境内の場所(例えば、仮想環境内の音の起点)および仮想環境内のユーザの場所に応じて、ある特性を採用することができる。同様に、オーディオ信号は、仮想環境内において、ある速度で、またはある配向を伴って、進行する、音の効果をシミュレートする、オーディオ特性を採用することができる。これらの特性は、ステレオ音場内の設置を含むことができる。いくつかのオーディオシステム(例えば、ヘッドホン)は、サウンドトラックを1つまたはそれを上回るチャネルに分割し、異なる場所から生じるようにオーディオを提示する。例えば、ヘッドホンは、ユーザの耳毎に1つのチャネルの、2つのチャネルを利用してもよい。サウンドトラックが、画面を横断して移動する仮想オブジェクト(例えば、映画内で画面を横断して飛んでいる飛行機)を伴う場合、付随の音(例えば、エンジン雑音)が、ユーザの左側からユーザの右側に移動するように提示されてもよい。オーディオが、人物が実世界を通して移動する実オブジェクトを知覚する方法をシミュレートするため、空間化オーディオは、仮想体験の没入感を追加する。 MR systems can be well positioned to utilize sensing and/or computation to provide an immersive audio experience. In particular, MR systems can provide unique ways to spatialize sound and immerse users within the MRE. The MR system can include speakers for presenting audio signals to the user, as described above with respect to speakers 412 and 414 . MR systems can determine audio signals and play them back based on a virtual environment (eg, MRE). For example, an audio signal can adopt certain characteristics depending on the location within the virtual environment (eg, the origin of the sound within the virtual environment) and the location of the user within the virtual environment. Similarly, an audio signal can employ audio characteristics that simulate the effect of sound traveling at a certain speed or with a certain orientation within the virtual environment. These characteristics can include placement within a stereo sound field. Some audio systems (eg, headphones) split the soundtrack into one or more channels and present the audio as originating from different locations. For example, headphones may utilize two channels, one channel for each ear of the user. If the soundtrack involves a virtual object moving across the screen (e.g., an airplane flying across the screen in a movie), the accompanying sound (e.g., engine noise) may be heard from the user's left side. It may be suggested to move to the right. Spatialized audio adds immersion to the virtual experience because the audio simulates how a person perceives real objects moving through the real world.

いくつかのオーディオシステムは、没入型の空間化オーディオを提供するその能力における限界に悩まされ得る。例えば、いくつかのヘッドホンシステムは、左および右オーディオチャネルをユーザの左および右耳に別個に提示することによって、音をステレオ音場内に提示し得る。しかし、ユーザの頭部の場所(例えば、位置および/または配向)の知識を伴わないと、音は、ユーザの頭部に関連して静的に固定されているように聞こえ得る。例えば、左チャネルを通してユーザの左耳に提示される、音は、ユーザが、その頭部を方向転換させ、前方、後方、側方等に移動させるかどうかにかかわらず、ユーザの左耳に提示され続け得る。本静的挙動は、音が実環境内で動的に挙動する方法に関するユーザの予期と一致し得ないため、MRシステムにとって望ましくあり得ない。例えば、音源を固定位置に伴う、実環境では、聴取者は、その源によって放出され、聴取者の左および右耳によって聞こえる、音が、ユーザがその音源の位置に対して移動および回転する方法にしたがって、より大きいまたはより小さくなる、または他の動的オーディオ特性(例えば、ドップラー効果)を呈することを予期するであろう。例えば、静的音源が、最初に、ユーザの左側上に位置する場合、その音源によって放出される、音は、ユーザの右耳と比較して、ユーザの左耳において優勢となり得る。しかし、音源が、今度は、ユーザの右側上に位置するように、ユーザが、180度回転する場合、ユーザは、音が、ユーザの右耳において優勢となることを予期するであろう。同様に、ユーザが移動する間、音源は、ユーザに対して場所を変化させるように継続的に現れ得る(例えば、わずかな位置変化は、各耳において検出される音量の、わずかであるが、知覚可能な変化をもたらし得る)。仮想または複合現実環境では、音が、実世界オーディオ体験に基づく、ユーザの予期に従って挙動するとき、ユーザの設置および没入の感知は、向上されることができる。加えて、ユーザは、現実的オーディオキューを利用して、音源を識別し、環境内に設置することができる。 Some audio systems may suffer from limitations in their ability to provide immersive spatialized audio. For example, some headphone systems may present sound within a stereo sound field by separately presenting left and right audio channels to the user's left and right ears. However, without knowledge of the location (eg, position and/or orientation) of the user's head, the sound may sound statically fixed relative to the user's head. For example, sound presented to the user's left ear through the left channel is presented to the user's left ear regardless of whether the user turns his or her head and moves it forward, backward, sideways, etc. can continue to be This static behavior may not be desirable for MR systems because it may not match the user's expectations of how sound behaves dynamically in the real environment. For example, with a sound source at a fixed position, in a real environment a listener is emitted by that source and heard by the listener's left and right ears, the way the user moves and rotates relative to the position of the sound source. would be expected to be larger or smaller, or exhibit other dynamic audio characteristics (eg, Doppler effect). For example, if a static sound source is initially located on the user's left side, the sound emitted by that source may be predominant in the user's left ear compared to the user's right ear. However, if the user rotates 180 degrees so that the sound source is now located on the user's right side, the user would expect the sound to predominate in the user's right ear. Similarly, while the user is moving, the sound source may continually appear to change location relative to the user (e.g., slight positional changes may affect the volume detected at each ear). can result in perceptible changes). In a virtual or mixed reality environment, a user's perception of placement and immersion can be enhanced when sound behaves according to the user's expectations based on real-world audio experiences. In addition, users can utilize realistic audio cues to identify sound sources and place them in the environment.

MRシステム(例えば、MRシステム112、200)は、実世界オーディオ挙動に適合させることによって、空間化オーディオの没入感を向上させ得る。例えば、MRシステムは、MRシステムの1つまたはそれを上回るカメラおよび/または1つまたはそれを上回る慣性測定ユニットセンサを利用して、SLAM算出を実施してもよい。SLAM技法を使用して、MRシステムは、その周囲の3次元マップを構築し、および/または周囲内のMRシステムの場所を識別してもよい。いくつかの実施形態では、MRシステムは、SLAMを利用して、頭部姿勢を推定してもよく、これは、3次元空間内のユーザの頭部の位置についての情報(例えば、場所および/または配向)を含むことができる。いくつかの実施形態では、MRシステムは、1つまたはそれを上回る座標フレームを利用して、「絶対」感知において、オブジェクトおよび/またはMRシステムの場所を識別してもよい(例えば、仮想オブジェクトの場所は、単に、MRシステムまたは画面に対して係止される代わりに、実環境の実場所に結び付けられてもよい)。 MR systems (eg, MR systems 112, 200) may improve the immersion of spatialized audio by adapting to real-world audio behavior. For example, an MR system may utilize one or more cameras and/or one or more inertial measurement unit sensors of the MR system to perform SLAM calculations. Using SLAM techniques, the MR system may build a three-dimensional map of its surroundings and/or identify the location of the MR system within the surroundings. In some embodiments, the MR system may utilize SLAM to estimate head pose, which is information about the position of the user's head in three-dimensional space (e.g., location and/or or orientation). In some embodiments, the MR system may utilize one or more coordinate frames to identify the location of the object and/or the MR system in "absolute" sensing (e.g., the location of the virtual object). Locations may simply be tied to real locations in the real environment instead of being locked to the MR system or screen).

図5は、いくつかの実施形態による、複合現実空間化オーディオの実施例を図示する。いくつかの実施形態では、MRシステムは、仮想オブジェクトが、ユーザに対して固定される代わりに、環境に対して固定されるように、SLAM技法を使用して、1つまたはそれを上回る仮想オブジェクト504aおよび504bをMRE内に設置してもよい。いくつかの実施形態では、仮想オブジェクト504aおよび504bは、音の源であるように構成されることができる。仮想オブジェクト504aおよび/または504bは、ユーザ502に可視であってもよい(例えば、仮想ギターとして)、または仮想オブジェクト504aおよび/または504bは、ユーザに可視ではなくてもよい(例えば、そこから音が放出される、不可視点として)。SLAM技法を使用して、MRシステムは、複数の仮想音源(例えば、仮想オブジェクト504aおよび/または504b)をユーザ502の周囲に設置し、空間化オーディオを提示することができる。ユーザ502が、その頭部を回転させるにつれて、ユーザ502は、仮想オブジェクト504aおよび504bの場所を知覚することが可能であり得る(例えば、仮想オブジェクト504aが、ユーザ502が第1の配向にあるとき、より大きく、ユーザ502が第2の配向にあるとき、より小さいことを観察することによって)。本アプローチは、ユーザ502が、ユーザ502の移動に基づく空間化の動的変化を知覚することを可能にする利点を有することができる。これは、ユーザ502の場所に適合しない、固定された音より没入型のオーディオ体験を作成し得る。 FIG. 5 illustrates an example of mixed reality spatialized audio, according to some embodiments. In some embodiments, the MR system uses SLAM techniques to fix one or more virtual objects such that instead of being fixed to the user, the virtual object is fixed to the environment. 504a and 504b may be located within the MRE. In some embodiments, virtual objects 504a and 504b can be configured to be sources of sound. Virtual objects 504a and/or 504b may be visible to user 502 (eg, as a virtual guitar), or virtual objects 504a and/or 504b may not be visible to the user (eg, sound from there). is emitted, as invisible). Using SLAM techniques, the MR system can place multiple virtual sound sources (eg, virtual objects 504a and/or 504b) around the user 502 to present spatialized audio. As user 502 rotates its head, user 502 may be able to perceive the location of virtual objects 504a and 504b (e.g., virtual object 504a may be visible when user 502 is in a first orientation). , is larger and smaller when user 502 is in the second orientation). This approach can have the advantage of allowing the user 502 to perceive dynamic changes in spatialization based on the user's 502 movements. This may create a more immersive audio experience than fixed sounds that do not match the user's 502 location.

しかしながら、いくつかの実施形態では、図5に示される例示的アプローチは、いくつかの不利点に悩まされ得る。作曲された楽譜等のいくつかの用途では、音設計者は、音が空間化挙動を呈する程度を限定することを所望し得る。さらに、いくつかの状況では、空間化オーディオは、耳障りまたは不快な結果につながり得る。例えば、仮想オブジェクト504bをMRE内の位置に対して固定することは、仮想オブジェクト504bから放出される音が、ユーザ502が仮想オブジェクト504bに接近するときに意図されるものより大きくなり得ることを意味し得る。仮想オブジェクト504bが、チェロの音に対応し、仮想オーケストラの一部である場合、オーケストラ音は、ユーザ502が、仮想オブジェクト504bのあまりに近くに立っている場合、ユーザ502に歪曲されて聞こえ得る。設計された体験から逸脱し得るため、ユーザ(例えば、ユーザ502)が音源(例えば、仮想オブジェクト504b)のあまりに近くに歩いて行くことを可能にすることは、望ましくあり得ない。例えば、仮想チェロの過度に強い音は、仮想バイオリンからの音を弱め得る。 However, in some embodiments, the exemplary approach shown in FIG. 5 may suffer from several disadvantages. In some applications, such as composed musical scores, sound designers may wish to limit the extent to which sounds exhibit spatialization behavior. Moreover, in some situations, spatialized audio can lead to harsh or unpleasant results. For example, fixing the virtual object 504b relative to its position within the MRE means that the sound emitted from the virtual object 504b may be louder than intended when the user 502 approaches the virtual object 504b. can. If virtual object 504b corresponds to the sound of a cello and is part of a virtual orchestra, the orchestral sound may be heard distorted by user 502 if user 502 stands too close to virtual object 504b. It may not be desirable to allow a user (eg, user 502) to walk too close to a sound source (eg, virtual object 504b) as it may deviate from the designed experience. For example, an overly loud sound on a virtual cello can dampen the sound from a virtual violin.

設計された体験からの可能性としての逸脱に加え、ユーザが仮想音源に接近することを可能にすることは、特に、ユーザの場所が音源の場所とほぼ重複する場合、またはユーザの頭部が音源に対して高速で移動または回転する場合等の極限実施例では、ユーザを混乱または当惑させ得る。いくつかの実施形態では、仮想オブジェクト504bは、そこから音が放出される、不可視点であり得る。ユーザ502が、仮想オブジェクト504bに接近する場合、ユーザ502は、音が不可視点からはっきりと放出されるように知覚し得る。これは、例えば、音が、望ましくない注意を仮想オブジェクト504bに引き付ける場合(例えば、仮想オブジェクト504bが、ユーザの注意を誘引することを回避するために不可視であるように構成されている場合)、望ましくあり得ない。いくつかの実施形態では、ユーザのための意図される中心焦点は、映像および/またはナレーション付きストーリーであってもよく、空間化オーディオが、映像および/またはナレーション付きストーリーにおけるユーザの没入感を向上させるために使用されてもよい。例えば、MRシステムは、ユーザが、歩き回り、キャラクタおよび/またはオブジェクトを異なる目線から観察し得る、3次元「映画」をユーザに提示してもよい。そのような用途では、ユーザが、音が放出される複合現実場面内に位置する不可視点を知覚することを当惑させ得る。例えば、戦闘場面では、ユーザが、不可視ギタートラックが再生されている、点に接近することを可能にすることは望ましくあり得ない。音設計者およびストーリー作成者は、意図されるナレーションを保存するために、空間化オーディオ体験の付加的制御を取得することを所望し得る。したがって、没入型空間化オーディオを提供する、付加的方法を開発することが望ましくあり得る。例えば、オーディオ設計者が、(例えば、スクリプトエンジンによって実行される、スクリプトによって制御される)個人ベースで音と関連付けられ得る、カスタムオーディオ挙動を作成することを許可することが望ましくあり得る。ある場合には、デフォルトオーディオ挙動が、カスタムオーディオ挙動によって上書きされない限り、適用されることができる。ある場合には、カスタムオーディオ挙動は、所望のオーディオ体験を生産するために、音の起点を操作することを含むことができる。 In addition to possible deviations from the designed experience, allowing the user to approach the virtual sound source may be particularly useful if the user's location nearly overlaps the source's location, or if the user's head is In extreme cases, such as fast moving or rotating relative to the sound source, it can confuse or confuse the user. In some embodiments, virtual object 504b may be non-visual from which sound is emitted. When user 502 approaches virtual object 504b, user 502 may perceive sound as clearly emanating from an invisible point of view. This may be the case, for example, if the sound attracts unwanted attention to the virtual object 504b (eg, if the virtual object 504b is configured to be invisible to avoid attracting the user's attention). Not desirable. In some embodiments, the intended central focus for the user may be the visual and/or narrated story, and the spatialized audio enhances the user's immersion in the visual and/or narrated story. may be used to allow For example, the MR system may present the user with a three-dimensional "movie" in which the user may walk around and observe characters and/or objects from different perspectives. In such applications, it can be disconcerting for the user to perceive non-viewpoints located within the mixed reality scene from which the sound is emitted. For example, in a battle scene it may not be desirable to allow the user to approach the point where an invisible guitar track is playing. Sound designers and story writers may desire to obtain additional control over the spatialized audio experience in order to preserve the intended narration. Therefore, it may be desirable to develop additional methods of providing immersive spatialized audio. For example, it may be desirable to allow audio designers to create custom audio behaviors that can be associated with sounds on an individual basis (eg, controlled by a script executed by a script engine). In some cases, default audio behaviors can be applied unless overridden by custom audio behaviors. In some cases, custom audio behavior can involve manipulating the origin of sounds to produce a desired audio experience.

図6A-6Cは、いくつかの実施形態による、複合現実空間化オーディオの実施例を図示する。空間化オーディオは、持続視覚的コンテンツと同様に、信憑性のある3次元MRE(例えば、MRE150)体験を作成することができる。ユーザが、実環境(例えば、実環境100)を歩き回るにつれて、ユーザは、実オブジェクトのように挙動する(例えば、持続仮想コンテンツは、ユーザがそれに接近するにつれて、より大きく現れ、ユーザが離れるように移動するにつれて、より小さくなる)、持続仮想コンテンツが見えることを予期し得る。同様に、ユーザは、ユーザが動き回る間、音源が実環境内に存在するかのように、音源が挙動することを予期し得る(例えば、音源は、ユーザがそれに接近するにつれて、より大きく聞こえ得、ユーザが離れるように移動するにつれて、より小さく聞こえ得る)。いくつかの実施形態では、没入型の空間化オーディオは、例えば、「遅延追従」効果を通して、音源をユーザの頭部に対して操作することによって制御されることができる。例えば、1つまたはそれを上回る音源が、ユーザの頭部の周囲に離間され、および/または第1の位置においてそこに結び付けられることができる。第1の位置では、1つまたはそれを上回る音源は、指定される位置に位置してもよく、これは、音源が特定のオーディオ体験を生産するために意図される(例えば、開発者またはオーディオ設計者によって)位置であってもよい。音源の位置は、音源の起点、例えば、そこから音が生じるように現れる、MRE内の座標に対応し得る。音源起点は、ユーザの頭部(または他の聴取者位置)からのオフセット(例えば、ベクトルオフセット)として表され得る。すなわち、音をユーザに提示することは、ユーザの頭部からのオフセットを決定することと、音源起点に到着するために、そのオフセットをユーザの頭部に適用することとを含むことができる。第1の時間におけるユーザの頭部の第1の位置は、例えば、(例えば、ウェアラブル頭部デバイス401Aに関して)上記に説明されるようなウェアラブル頭部デバイスの1つまたはそれを上回るセンサによって決定されることができる。第2の後の時間におけるユーザの頭部の第2の位置が、次いで、決定されることができる。頭部の第1の位置と第2の位置との間の差異は、オーディオ信号を操作するために使用されることができる。例えば、ある場合には、ユーザがその頭部を第2の位置に移動させるとき、1つまたはそれを上回る音源は、音源の位置が、ユーザの頭部の周囲に離間され、および/またはそこに結び付けられ得る、その指定される位置から逸脱し得るように、頭部の移動を「辿る」ように命令されることができる(例えば、ユーザの頭部の周囲に離間され、および/またはそこに結び付けられる、指定される位置は、ユーザの頭部に関連して、移動/変化してもよく、音源は、もはや、ユーザの頭部の周囲に離間され、および/またはそこに結び付けられる、その指定される位置に位置しなくてもよい)。音源の本操作は、例えば音源起点を、第1の位置から、頭部の第1の位置と第2の位置との間の差異未満の量だけ、移動させることによって、実装されることができる。いくつかの実施形態では、指定される位置は、ユーザの頭部位置に対して固定されたままであってもよいが、対応する仮想音源は、ユーザの頭部位置に「弾性的に」結び付けられてもよく、対応する指定される位置の背後を辿ってもよい。いくつかの実施形態では、音源は、ユーザの頭部が第2の位置に到達した後のある時点において、ユーザの頭部の周囲に離間され、および/またはそこに結び付けられる、その指定される位置(例えば、特定のオーディオ体験を生産するように意図される、同一位置)に戻ってもよい。第1の頭部位置と第2の頭部位置との間の差異に基づいて起点を決定するもの等、音源起点の他の操作も、検討され、本開示の範囲内である。より一般的には、カスタムオーディオ動態が、音源の起点をユーザの頭部またはMRE内のある他のオブジェクト(移動するオブジェクトを含む)に対して操作することによって作成されることができる。例えば、音源起点は、ユーザの頭部位置および配向の関数として、または頭部位置または配向の経時的変化または累積の関数(例えば、頭部位置または配向の積分または導関数の関数)として、定義されることができる。そのような関数は、特定の速度で、または特定の方向に進行する、音をシミュレートするように、創造的効果のために使用されることができる。例えば、ユーザの頭部移動の速度が、決定されることができ(例えば、上記に説明されるようなウェアラブル頭部デバイスの1つまたはそれを上回るセンサによって決定される、頭部移動の導関数として)、音が、音起点がその同一速度(または頭部の速度に基づく異なる速度)で進行するかのように、提示されることができる。別の実施例として、ユーザの頭部の配向の変化が、上記に説明されるようなウェアラブル頭部デバイスの1つまたはそれを上回るセンサ等を介して、決定されることができ、音が、音起点がユーザの頭部配向の変化に基づく配向を伴って移動するかのように、提示されることができる。音起点をユーザの頭部位置または配向の関数として表すことはまた、そうでなければ望ましくないオーディオ結果を引き起こすであろう、状況を円滑にハンドリングするように適合されることができる。例えば、音源がユーザの頭部に対して移動する程度を限定する、機能を定義することによって、それらの音源からの極限または望ましくないオーディオ効果が、限定または回避され得る。これは、例えば、ユーザの頭部位置の閾値変化率を確立することによって、実装されることができる。すなわち、変化率が、閾値を超える場合、音源起点の位置の変化が、適宜、限定されることができる(例えば、閾値を超える場合、起点を第1の座標に設定し、閾値を超えない場合、起点を異なる座標に設定することによって)。望ましくないオーディオ効果を回避する別の実施例として、音源起点は、常時、少なくともユーザからの最小距離に留まるように構成されることができる。例えば、音源起点とユーザの頭部との間のオフセットの大きさが、最小閾値を下回る場合、起点は、少なくともユーザの頭部からの最小距離にある、代替位置に再配置されることができる。 6A-6C illustrate examples of mixed reality spatialized audio, according to some embodiments. Spatialized audio, like persistent visual content, can create a believable three-dimensional MRE (eg, MRE150) experience. As the user roams the real environment (e.g., real environment 100), the user behaves like a real object (e.g., persistent virtual content appears larger as the user approaches it and moves away from it). You can expect to see persistent virtual content that gets smaller as you move). Similarly, a user may expect a sound source to behave as if it were in the real environment while the user moves around (e.g., a sound source may sound louder as the user gets closer to it). , may sound softer as the user moves away). In some embodiments, immersive spatialized audio can be controlled by manipulating the sound source relative to the user's head, for example, through a "delayed follow" effect. For example, one or more sound sources may be spaced around the user's head and/or tied thereto at a first location. In a first location, one or more sound sources may be located at a designated location, which the sound sources are intended to produce a particular audio experience (e.g., developer or audio by the designer). The position of the sound source may correspond to the origin of the sound source, eg, the coordinates in the MRE from which the sound appears to originate. The sound source origin may be expressed as an offset (eg, vector offset) from the user's head (or other listener position). That is, presenting a sound to a user can include determining an offset from the user's head and applying the offset to the user's head to arrive at the sound source origin. A first position of the user's head at a first time is determined, for example, by one or more sensors of the wearable head device as described above (eg, with respect to wearable head device 401A). can A second position of the user's head at a second later time can then be determined. The difference between the first position and the second position of the head can be used to manipulate the audio signal. For example, in some cases, when the user moves their head to a second position, the one or more sound sources are spaced around and/or thereabouts of the user's head. can be instructed to "follow" movement of the head so that it can deviate from its specified position (e.g., spaced around the user's head and/or there may move/change relative to the user's head, and the sound source is no longer spaced around and/or tied to the user's head; may not be located at that specified location). This manipulation of the sound source can be implemented, for example, by moving the sound source origin from the first position by an amount less than the difference between the first and second positions of the head. . In some embodiments, the specified position may remain fixed relative to the user's head position, but the corresponding virtual sound source is "elasticly" tied to the user's head position. may be traced behind the corresponding specified location. In some embodiments, the sound source is spaced around and/or tied to the user's head at some point after the user's head reaches the second position, the designated It may return to a location (eg, the same location intended to produce a particular audio experience). Other manipulations of the sound source origin are also contemplated and within the scope of the present disclosure, such as determining the origin based on the difference between a first head position and a second head position. More generally, custom audio dynamics can be created by manipulating the source origin relative to the user's head or some other object in the MRE, including moving objects. For example, the sound source origin is defined as a function of the user's head position and orientation, or as a function of changes in head position or orientation over time or accumulation (e.g., a function of the integral or derivative of head position or orientation). can be Such functions can be used for creative effects, such as simulating sound traveling at a particular speed or in a particular direction. For example, the velocity of the user's head movement can be determined (e.g., the derivative of head movement determined by one or more sensors of the wearable head device as described above). ), the sound can be presented as if the sound origin were traveling at its same speed (or different speeds based on the speed of the head). As another example, changes in the orientation of the user's head can be determined, such as via one or more sensors of the wearable head device as described above, sound, It can be presented as if the sound origin moves with orientation based on changes in the user's head orientation. Representing the sound origin as a function of the user's head position or orientation can also be adapted to smoothly handle situations that would otherwise cause undesirable audio results. For example, by defining a function that limits the extent to which sound sources move relative to the user's head, extreme or undesirable audio effects from those sound sources may be limited or avoided. This can be implemented, for example, by establishing a threshold rate of change of the user's head position. That is, if the rate of change exceeds a threshold, the change in the position of the sound source origin can be appropriately limited (e.g., if the threshold is exceeded, the origin is set to the first coordinate; , by setting the origin to different coordinates). As another example to avoid undesirable audio effects, the sound source origin can be configured to always remain at least a minimum distance from the user. For example, if the magnitude of the offset between the sound source origin and the user's head is below a minimum threshold, the origin can be relocated to an alternate location that is at least the minimum distance from the user's head. .

図6Aに示されるように、いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、中心602の周囲に離間され、および/またはそこに結び付けられてもよい。仮想オブジェクト604aおよび/または604bは、可視(例えば、ユーザに表示される)または不可視(例えば、ユーザに表示されない)であってもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、他の仮想オブジェクトと相互作用しなくてもよい。例えば、仮想オブジェクト604aおよび/または604bは、他の仮想オブジェクトと衝突しなくてもよい。仮想オブジェクト604aおよび/または604bは、他の仮想オブジェクトからの光を反射/吸収/透過しなくてもよく、および/または仮想オブジェクト604aおよび/または604bは、他の仮想オブジェクトからの音を反射/吸収/伝送しなくてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、他の仮想オブジェクトと相互作用してもよい。 As shown in FIG. 6A, in some embodiments, virtual objects 604a and/or 604b may be spaced around center 602 and/or bound thereto. Virtual objects 604a and/or 604b may be visible (eg, displayed to the user) or invisible (eg, not displayed to the user). In some embodiments, virtual objects 604a and/or 604b may not interact with other virtual objects. For example, virtual objects 604a and/or 604b may not collide with other virtual objects. Virtual objects 604a and/or 604b may not reflect/absorb/transmit light from other virtual objects, and/or virtual objects 604a and/or 604b may reflect/reflect sound from other virtual objects. It does not have to be absorbed/transmitted. In some embodiments, virtual objects 604a and/or 604b may interact with other virtual objects.

いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、1つまたはそれを上回る音源と関連付けられてもよい。ある場合には、各仮想オブジェクトは、1つの音源に対応してもよい。例えば、仮想オブジェクト604aおよび/または604bは、仮想的に、音をMRE内のその場所から放出するように構成されてもよい。ある場所から放出されるように知覚され得るように、音源を構成することは、任意の好適な方法を使用して行われることができる。例えば、頭部関連伝達関数(「HRTF」)が、特定の場所から生じる音をシミュレートするために使用されることができる。いくつかの実施形態では、汎用HRTFが、使用されることができる。いくつかの実施形態では、例えば、ユーザの耳の周囲の1つまたはそれを上回るマイクロホン(例えば、MRシステムの1つまたはそれを上回るマイクロホン)が、1人またはそれを上回るユーザ特有のHRTFを決定するために使用されることができる。いくつかの実施形態では、ユーザと仮想音源との間の距離が、好適な方法(例えば、音圧減衰、高周波数減衰、直接および残響音の混合、運動視差等)を使用して、シミュレートされてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、音を点源として放出するように構成されてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、音源の物理的3次元モデルを含んでもよく、音は、音源との相互作用をモデル化することによって生成されてもよい。例えば、仮想オブジェクト604aは、木材本体、弦、調整ペグ等を含む、仮想ギターを含んでもよい。音が、1つまたはそれを上回る弦を弾くことと、アクションが仮想ギターの他のコンポーネントと相互作用する方法とをモデル化することによって、生成されてもよい。 In some embodiments, virtual objects 604a and/or 604b may be associated with one or more sound sources. In some cases, each virtual object may correspond to one sound source. For example, virtual objects 604a and/or 604b may be configured to virtually emit sound from their location within the MRE. Configuring the sound source so that it can be perceived as emanating from a location can be done using any suitable method. For example, head-related transfer functions (“HRTFs”) can be used to simulate sounds emanating from a particular location. In some embodiments, a generic HRTF can be used. In some embodiments, for example, one or more microphones around the user's ear (e.g., one or more microphones in an MR system) determine one or more user-specific HRTFs. can be used to In some embodiments, the distance between the user and the virtual sound source is simulated using suitable methods (e.g., sound pressure attenuation, high frequency attenuation, direct and reverberant sound mixing, motion parallax, etc.) may be In some embodiments, virtual objects 604a and/or 604b may be configured to emit sound as a point source. In some embodiments, virtual objects 604a and/or 604b may include physical three-dimensional models of sound sources, and sounds may be generated by modeling interactions with sound sources. For example, virtual object 604a may include a virtual guitar, including a wood body, strings, tuning pegs, and the like. Sounds may be generated by modeling the plucking of one or more strings and how the action interacts with other components of the virtual guitar.

いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、音を全方向性に放出してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、音を指向性に放出してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、音源を含むように構成されてもよく、各音源は、音楽ステムを含んでもよい。いくつかの実施形態では、音楽ステムは、音楽の音全体の恣意的サブセットであってもよい。例えば、またはオーケストラサウンドトラックは、バイオリンステム、チェロステム、バスステム、トランペットステム、ティンパニステム等を含んでもよい。いくつかの実施形態では、マルチチャネルサウンドトラックのチャネルは、ステムとして表されることができる。例えば、2チャネルサウンドトラックは、左ステムおよび右ステムを含んでもよい。いくつかの実施形態では、ミックスの単一トラックが、ステムとして表されてもよい。いくつかの実施形態では、音楽サウンドトラックは、周波数帯域に従って、ステムに分裂されてもよい。ステムは、音全体の任意の恣意的サブセットを表すことができる。 In some embodiments, virtual objects 604a and/or 604b may emit sound omnidirectionally. In some embodiments, virtual objects 604a and/or 604b may emit sound directionally. In some embodiments, virtual objects 604a and/or 604b may be configured to include sound sources, and each sound source may include a musical stem. In some embodiments, a musical stem may be an arbitrary subset of the overall sound of music. For example, or an orchestral soundtrack may include violin stems, cello stems, bass stems, trumpet stems, tympani stems, and the like. In some embodiments, channels of a multi-channel soundtrack can be represented as stems. For example, a two channel soundtrack may include a left stem and a right stem. In some embodiments, a single track of the mix may be represented as a stem. In some embodiments, a musical soundtrack may be split into stems according to frequency bands. Stems can represent any arbitrary subset of the overall sound.

いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、1つまたはそれを上回るオブジェクト(例えば、中心602および/またはベクトル606)に結び付けられてもよい。例えば、仮想オブジェクト604aは、指定される位置608aに割り当てられてもよい。いくつかの実施形態では、指定される位置608aは、ベクトル606および/または中心602に対する固定点であることができる。いくつかの実施形態では、仮想オブジェクト604bは、指定される位置608bに割り当てられてもよい。いくつかの実施形態では、指定される位置608bは、ベクトル606および/または中心602に対する固定点であることができる。中心602は、点および/または3次元オブジェクトであることができる。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、3次元オブジェクトの点(例えば、3次元オブジェクトの中心点またはその表面上の点)に結び付けられてもよい。いくつかの実施形態では、中心602は、任意の好適な点(例えば、ユーザの頭部の中心)に対応してもよい。ユーザの頭部の中心は、頭部装着型MRシステム(既知の寸法を有し得る)の中心および平均頭部寸法を使用して、または他の好適な方法を使用して、推定されてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、指向性インジケータ(例えば、ベクトル606)に結び付けられてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、指定される位置に設置されることができ、これは、中心602および/またはベクトル606に対するその位置を含み、および/またはそれによって定義されてもよい(例えば、球面座標系を使用して)。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、中心602および/またはベクトル606が位置(例えば、場所および/または配向)を変化させる場合、その指定される位置から逸脱してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、中心602および/またはベクトル606が位置の変化を停止させた後、例えば、中心602および/またはベクトル606が、所定の時間周期(例えば、5秒)にわたって、固定位置/値を有した後、その指定される位置に戻ってもよい。 In some embodiments, virtual objects 604a and/or 604b may be associated with one or more objects (eg, center 602 and/or vector 606). For example, virtual object 604a may be assigned to designated location 608a. In some embodiments, designated location 608a can be a fixed point relative to vector 606 and/or center 602 . In some embodiments, virtual object 604b may be assigned to designated location 608b. In some embodiments, designated location 608b can be a fixed point with respect to vector 606 and/or center 602 . Center 602 can be a point and/or a three-dimensional object. In some embodiments, virtual objects 604a and/or 604b may be attached to points of the three-dimensional object (eg, the center point of the three-dimensional object or points on its surface). In some embodiments, center 602 may correspond to any suitable point (eg, the center of the user's head). The center of the user's head may be estimated using the center of the head-mounted MR system (which may have known dimensions) and average head dimensions, or using other suitable methods. good. In some embodiments, virtual objects 604a and/or 604b may be associated with a directional indicator (eg, vector 606). In some embodiments, virtual object 604a and/or 604b can be placed at a specified location, including and/or defined by its location relative to center 602 and/or vector 606. (eg, using a spherical coordinate system). In some embodiments, virtual objects 604a and/or 604b may deviate from their designated positions when center 602 and/or vector 606 change position (eg, location and/or orientation). . In some embodiments, the virtual objects 604a and/or 604b may continue for a predetermined time period (e.g., , 5 seconds) and then return to its designated position.

図6Bに示されるように、ベクトル606は、方向を変化させてもよい。いくつかの実施形態では、指定される位置608aおよび/または608bは、対応して、移動してもよい。例えば、指定される位置608aおよび/または608bは、図6Aにおけるものと同一の図6Bにおける中心602および/またはベクトル606に対する位置であってもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、指定される位置608aおよび/または608bの移動を辿ってもよい。例えば、ベクトル606が、図6Aにおける第1の位置から図6Bにおける第2の位置に移動する(例えば、ユーザの頭部の回転を反映させるため)につれて、仮想オブジェクト604aおよび/または604bは、図6Aおよび図6Bの両方において、同一位置に留まってもよい(指定される位置608aおよび/または608bが移動する際でも)。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、ベクトル606および/または中心602が移動および/または移動を開始した後、移動を開始してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、ベクトル606および/または中心602が、例えば、所定の時間周期にわたって、移動を停止した後、移動を開始してもよい。図6Cでは、仮想オブジェクト604aおよび/または604bは、ベクトル606および/または中心602に対するその指定される位置に戻ってもよい。例えば、仮想オブジェクト604aおよび/または604bは、図6Aにおけるものと同一の図6Cにおけるベクトル606および/または中心602に対する位置を占有してもよい。 As shown in FIG. 6B, vector 606 may change direction. In some embodiments, designated positions 608a and/or 608b may move correspondingly. For example, designated positions 608a and/or 608b may be the same positions relative to center 602 and/or vector 606 in FIG. 6B as in FIG. 6A. In some embodiments, virtual objects 604a and/or 604b may follow movements of designated positions 608a and/or 608b. For example, as vector 606 moves from a first position in FIG. 6A to a second position in FIG. In both 6A and 6B, it may remain in the same position (even though designated positions 608a and/or 608b move). In some embodiments, virtual objects 604a and/or 604b may begin moving after vector 606 and/or center 602 begin moving and/or moving. In some embodiments, virtual objects 604a and/or 604b may start moving after vector 606 and/or center 602 have stopped moving, eg, for a predetermined period of time. 6C, virtual objects 604a and/or 604b may return to their designated positions relative to vector 606 and/or center 602. In FIG. For example, virtual objects 604a and/or 604b may occupy the same positions relative to vector 606 and/or center 602 in FIG. 6C as in FIG. 6A.

仮想オブジェクト604aおよび/または604bは、ある時間周期にわたって、その指定される位置608aおよび/または608bから逸脱してもよい。いくつかの実施形態では、ベクトル606および/または中心602が、方向を変化させるにつれて、仮想オブジェクト604aおよび/または604bは、それぞれ、指定される位置608aおよび/または608bの移動経路を「トレース」してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、その現在の位置から、それぞれ、指定される位置608aおよび/または608bまで補間された経路まで追従してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、いったん中心602および/またはベクトル606が、加速および/または移動(例えば、線形および/または角加速)を完全に停止すると、その指定される位置に戻ってもよい。例えば、中心602は、定常点のままであってもよく、ベクトル606は、一定速度において、中心602を中心として回転してもよい(例えば、ユーザが、その頭部を回転させるため)。ある時間周期後、仮想オブジェクト604aおよび/または604bは、ベクトル606が一定速度で移動したままであるという事実にもかかわらず、その指定される位置に戻ってもよい。同様に、いくつかの実施形態では、中心602は、一定速度で移動してもよく(およびベクトル606は、定常のままであってもよい、またはまた、一定速度で移動してもよい)、仮想オブジェクト604aおよび/または604bは、初期加速が中止後、その指定される位置に戻ってもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、いったん中心602および/またはベクトル606が移動を停止すると、その指定される位置に戻ってもよい。例えば、ユーザの頭部が、一定速度で回転している場合、仮想オブジェクト604aおよび/または604bは、ユーザがその頭部のスピンを停止するまで、その指定される位置から「遅れ」続けてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、いったん中心602および/またはベクトル606が加速を停止すると、その指定される位置に戻ってもよい。例えば、ユーザの頭部が、回転を開始する、次いで、一定速度で回転し続ける場合、仮想オブジェクト604aおよび/または604bは、最初に、その指定される位置から遅れ、次いで、ユーザの頭部が(例えば、閾値時間周期にわたって)一定速度に到達した後、その指定される位置に到達してもよい。 A virtual object 604a and/or 604b may deviate from its designated position 608a and/or 608b for a period of time. In some embodiments, as vector 606 and/or center 602 change direction, virtual objects 604a and/or 604b "trace" the path of movement of designated positions 608a and/or 608b, respectively. may In some embodiments, virtual objects 604a and/or 604b may follow an interpolated path from their current position to designated positions 608a and/or 608b, respectively. In some embodiments, virtual objects 604a and/or 604b move to their designated positions once center 602 and/or vector 606 have completely stopped acceleration and/or movement (eg, linear and/or angular acceleration). You may return to the position where For example, center 602 may remain a stationary point and vector 606 may rotate about center 602 at constant velocity (eg, because the user rotates his or her head). After some period of time, virtual objects 604a and/or 604b may return to their designated positions despite the fact that vector 606 remains moving at a constant speed. Similarly, in some embodiments, center 602 may move at a constant velocity (and vector 606 may remain stationary or may also move at constant velocity), Virtual objects 604a and/or 604b may return to their designated positions after the initial acceleration ceases. In some embodiments, virtual objects 604a and/or 604b may return to their designated positions once center 602 and/or vector 606 stop moving. For example, if the user's head is rotating at a constant speed, virtual objects 604a and/or 604b may continue to "lagging" from their designated position until the user stops spinning their head. good. In some embodiments, virtual objects 604a and/or 604b may return to their designated positions once center 602 and/or vector 606 stop accelerating. For example, if the user's head begins to rotate and then continues to rotate at a constant speed, virtual objects 604a and/or 604b will first lag from their designated position, then the user's head will After reaching a constant velocity (eg, over a threshold time period), the specified position may be reached.

いくつかの実施形態では、1つまたはそれを上回る音源は、それらがユーザの頭部に「弾性的に」結び付けられるかのように、移動してもよい。例えば、ユーザが、その頭部を第1の位置から第2の位置に回転させるにつれて、1つまたはそれを上回る音源は、ユーザの頭部と同一角速度で回転しなくてもよい。いくつかの実施形態では、1つまたはそれを上回る音源は、ユーザの頭部より低速の角速度で回転を開始し、角速度を加速させ、それらがユーザの頭部に対するその初期位置に接近するにつれて、角速度を減速させてもよい。角速度の変化率は、例えば、音設計者によって事前に設定されたレベルにおいて、上限が定められてもよい。これは、音源が非常に迅速に移動することを可能にすること(上記に説明されるような望ましくないオーディオ効果をもたらし得る)と、音源が全く移動しないように防止すること(空間化オーディオの利益を搬送し得ない)との間の平衡を保つことができる。 In some embodiments, one or more sound sources may move as if they were "elasticly" tied to the user's head. For example, as a user rotates their head from a first position to a second position, one or more sound sources may not rotate at the same angular velocity as the user's head. In some embodiments, the one or more sound sources start rotating at a slower angular velocity than the user's head, accelerate the angular velocity, and as they approach their initial position relative to the user's head, Angular velocity may be reduced. The rate of change of angular velocity may be capped, for example, at a level preset by the sound designer. This is both to allow the sound source to move very quickly (which can lead to undesirable audio effects as explained above) and to prevent the sound source from moving at all (spatialized audio). A balance can be struck between

いくつかの実施形態では、1つまたはそれを上回る空間化音源に遅延追従を実施させることは、いくつかの利点を有することができる。例えば、ユーザが、空間化音源から相対的位置において逸脱することを可能にすることは、ユーザが、音における差異を知覚することを可能にすることができる。ユーザは、空間化音が、ユーザが空間化音から離れるように方向転換するにつれて、若干より静かになることに気づき、MRE内におけるユーザの没入感を向上され得る。いくつかの実施形態では、遅延追従はまた、所望のオーディオ体験を維持することができる。例えば、ユーザは、音源に接近し、音源の非常に近くに留まることによって、オーディオ体験を非意図的に歪曲させないように防止され得る。音源が、環境に対して静的に設置される場合、ユーザは、音源に接近し得、および空間化装置は、望ましくないことに、ユーザの近接度の結果として、他の音源を過度に抑圧するような音源を提示し得る(特に、ユーザと音源との間の距離がゼロに近づくにつれて)。いくつかの実施形態では、遅延追従は、ユーザが、全体的オーディオ効果を損なわせずに、向上された空間化を体験し得るように、ある遅延後、音源をユーザに対する設定位置に移動させてもよい(例えば、各音源が、概して、相互および/またはユーザから所望の距離に維持され得るため)。 In some embodiments, having one or more spatialized sources perform delayed tracking can have several advantages. For example, allowing the user to deviate in relative position from the spatialized sound source can allow the user to perceive differences in sound. The user will notice that the spatialized sound becomes slightly quieter as the user turns away from the spatialized sound, which may enhance the user's sense of immersion within the MRE. In some embodiments, delay tracking can also preserve the desired audio experience. For example, the user may be prevented from unintentionally distorting the audio experience by approaching and staying very close to the sound source. If a sound source is statically placed relative to the environment, the user may be close to the sound source, and the spatialization device may undesirably suppress other sound sources excessively as a result of the user's proximity. (especially as the distance between the user and the sound source approaches zero). In some embodiments, delay tracking moves the sound source to a set position relative to the user after some delay so that the user may experience enhanced spatialization without compromising the overall audio effect. (eg, because each sound source can generally be maintained at a desired distance from each other and/or from the user).

いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、動的指定される位置を有することができる。例えば、指定される位置608aは、中心602およびベクトル606が定常のままである場合でも、移動する(例えば、ユーザの頭部の軌道を辿る、またはユーザの頭部のより近くおよび/またはそこからさらに遠く離れるように移動する)ように構成されてもよい。いくつかの実施形態では、動的指定される位置は、中心および/またはベクトル(例えば、移動する中心および/またはベクトル)に関連して決定されることができ、仮想オブジェクトは、その指定される位置に向かって、遅延追従様式において移動することができる(例えば、指定される位置の移動をトレースする、および/または経路を補間することによって)。 In some embodiments, virtual objects 604a and/or 604b can have dynamically specified positions. For example, the specified position 608a may move (eg, follow the trajectory of the user's head, or be closer to and/or away from the user's head) even though the center 602 and vector 606 remain stationary. further apart). In some embodiments, the dynamically specified position can be determined relative to a center and/or vector (e.g., a moving center and/or vector), and the virtual object Positions can be moved in a delayed-following manner (eg, by tracing movement of specified positions and/or interpolating paths).

いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、ゲームエンジンのためのアセット設計ツール(例えば、Unity)を使用して、その指定される位置に設置されることができる。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、ゲームエンジンオブジェクトを含んでもよく、これは、3次元環境(例えば、ゲームエンジンによってサポートされる、MRE)内に設置されてもよい。いくつかの実施形態では、仮想オブジェクト604aおよび/または604bは、親オブジェクトのコンポーネントであってもよい。いくつかの実施形態では、親オブジェクトは、仮想オブジェクトを指定される位置に設置するための対応する中心および/またはベクトル等のパラメータを含んでもよい。いくつかの実施形態では、親オブジェクトは、仮想オブジェクトがその指定される位置に戻るべき速度および/または仮想オブジェクトその指定される位置に戻るべき状況(例えば、一定速度または無運動)に関するパラメータ等の遅延追従パラメータを含んでもよい。いくつかの実施形態では、親オブジェクトは、仮想オブジェクトがその指定される位置を追跡する速度(例えば、仮想オブジェクトが、一定速度で移動、加速、および/または減速すべきかどうか)に関すパラメータを含んでもよい。いくつかの実施形態では、親オブジェクトは、仮想オブジェクトがその現在の位置からその指定される位置まで辿り得る経路を決定するためのパラメータを含んでもよい(例えば、線形および/または指数関数的補間を使用して)。いくつかの実施形態では、仮想オブジェクト(例えば、仮想オブジェクト604aおよび604b)は、その独自のそのようなパラメータを含んでもよい。 In some embodiments, the virtual objects 604a and/or 604b can be placed at their designated locations using an asset design tool for the game engine (eg, Unity). In some embodiments, virtual objects 604a and/or 604b may include game engine objects, which may be placed within a three-dimensional environment (eg, an MRE supported by a game engine). In some embodiments, virtual objects 604a and/or 604b may be components of parent objects. In some embodiments, the parent object may include parameters such as corresponding centers and/or vectors for placing the virtual object at the specified location. In some embodiments, the parent object may specify parameters such as the speed at which the virtual object should return to its specified position and/or the conditions under which the virtual object should return to its specified position (e.g., constant speed or no motion). A delay tracking parameter may also be included. In some embodiments, the parent object includes parameters regarding the speed at which the virtual object tracks its specified position (eg, whether the virtual object should move, accelerate, and/or decelerate at a constant speed). It's okay. In some embodiments, the parent object may include parameters for determining the path that the virtual object can follow from its current position to its specified position (e.g., using linear and/or exponential interpolation). Use). In some embodiments, a virtual object (eg, virtual objects 604a and 604b) may include such parameters of its own.

いくつかの実施形態では、ゲームエンジンは、仮想オブジェクト604aおよび604bのいくつかまたは全ての性質(例えば、仮想オブジェクト604aおよび604bの現在および/または指定される場所)を維持してもよい。いくつかの実施形態では、仮想オブジェクト604aおよび604bの現在の場所(例えば、親オブジェクトの場所および/または性質を通して、または、直接、仮想オブジェクト604および604bの場所および/または性質)が、空間化および/またはレンダリングエンジンに通過されてもよい。例えば、空間化および/またはレンダリングエンジンは、仮想オブジェクト604aから発出される音および仮想オブジェクト604aの現在の位置を受信してもよい。空間化および/またはレンダリングエンジンは、入力を処理し、音を仮想オブジェクト604aの場所から生じるように知覚するように構成され得る、空間化音を含み得る、出力を生産してもよい。空間化および/またはレンダリングエンジンは、限定ではないが、頭部関連伝達関数および/または距離減衰技法を含む、任意の好適な技法を使用して、空間化音をレンダリングしてもよい。 In some embodiments, the game engine may maintain the properties of some or all of virtual objects 604a and 604b (eg, current and/or designated locations of virtual objects 604a and 604b). In some embodiments, the current locations of virtual objects 604a and 604b (e.g., through the locations and/or properties of parent objects or directly, the locations and/or properties of virtual objects 604 and 604b) are spatialized and /or passed to a rendering engine. For example, the spatialization and/or rendering engine may receive sounds emanating from the virtual object 604a and the current position of the virtual object 604a. A spatialization and/or rendering engine may process the input and produce output, which may include spatialized sound, which may be configured to perceive sound as originating from the location of virtual object 604a. The spatialization and/or rendering engine may use any suitable technique to render the spatialized sound, including but not limited to head-related transfer functions and/or distance attenuation techniques.

いくつかの実施形態では、空間化および/またはレンダリングエンジンは、データ構造を受信し、遅延追従空間化音をレンダリングしてもよい。例えば、遅延追従データ構造は、頭部姿勢に対する位置に関するパラメータおよび/またはメタデータおよび/または遅延追従パラメータとともに、データフォーマットを含んでもよい。いくつかの実施形態では、MRシステム上で起動するアプリケーションは、1つまたはそれを上回る遅延追従データ構造を空間化および/またはレンダリングエンジンに送信し、遅延追従空間化音をレンダリングしてもよい。 In some embodiments, a spatialization and/or rendering engine may receive the data structure and render the delayed-tracking spatialized sound. For example, the delayed tracking data structure may include a data format along with parameters and/or metadata and/or delayed tracking parameters related to position relative to head pose. In some embodiments, an application running on the MR system may send one or more delay-tracking data structures to the spatialization and/or rendering engine to render the delay-tracking spatialized sound.

いくつかの実施形態では、サウンドトラックが、遅延追従データ構造の中に処理されてもよい。例えば、5.1チャネルサウンドトラックが、6つのステムに分裂されてもよく、各ステムは、1つまたはそれを上回る仮想オブジェクト(例えば、仮想オブジェクト604aおよび604b)に割り当てられてもよい。各ステム/仮想オブジェクトは、5.1チャネルサラウンド音のための事前に構成された配向に設置されてもよい(例えば、中心スピーカステムは、ユーザの正面の約20フィートにおいて、ユーザの顔の真正面に設置されてもよい)。いくつかの実施形態では、遅延追従データ構造は、次いで、空間化および/またはレンダリングエンジンによって使用され、遅延追従空間化音をレンダリングしてもよい。 In some embodiments, the soundtrack may be processed into a delay-following data structure. For example, a 5.1 channel soundtrack may be split into six stems, and each stem may be assigned to one or more virtual objects (eg, virtual objects 604a and 604b). Each stem/virtual object may be placed in a pre-configured orientation for 5.1 channel surround sound (e.g., the center speaker stem is positioned directly in front of the user's face at approximately 20 feet in front of the user). may be placed in). In some embodiments, the delay-following data structure may then be used by the spatialization and/or rendering engine to render the delay-following spatialized sound.

いくつかの実施形態では、遅延追従空間化音は、1人を上回るユーザのためにレンダリングされてもよい。例えば、第1のユーザを囲繞するように構成される、仮想オブジェクトのセットは、第2のユーザに知覚可能であってもよい。第2のユーザは、遅延様式において、第1のユーザに続いて、仮想オブジェクト/音源を観察してもよい。いくつかの実施形態では、仮想オブジェクト/音源のセットは、1人を上回るユーザを囲繞するように構成されてもよい。例えば、中心点は、第1のユーザの頭部と第2のユーザの頭部との間の中心点として計算されてもよい。ベクトルは、各ユーザに面した方向を表すベクトル間の平均ベクトルとして計算されてもよい。1つまたはそれを上回る仮想オブジェクト/音源が、動的に計算される中心点および/またはベクトルに対して設置されてもよい。 In some embodiments, the delayed-following spatialized sound may be rendered for more than one user. For example, a set of virtual objects configured to surround a first user may be perceptible to a second user. A second user may observe the virtual object/sound source following the first user in a delayed manner. In some embodiments, a set of virtual objects/sound sources may be configured to surround more than one user. For example, the center point may be calculated as the center point between the first user's head and the second user's head. The vectors may be computed as the mean vector between the vectors representing the directions facing each user. One or more virtual objects/sound sources may be placed relative to dynamically calculated center points and/or vectors.

2つの仮想オブジェクトが、図6A-6Cに示されるが、任意の数の仮想オブジェクトおよび/または音源が、使用されてもよいことが検討される。いくつかの実施形態では、各仮想オブジェクトおよび/または音源は、その独自の別個のパラメータを有してもよい。中心点/オブジェクトおよびベクトルは、位置仮想オブジェクトを位置付けるために使用されるが、任意の適切な座標系(例えば、デカルト、球状等)も、使用されてもよい。 Although two virtual objects are shown in FIGS. 6A-6C, it is contemplated that any number of virtual objects and/or sound sources may be used. In some embodiments, each virtual object and/or sound source may have its own distinct parameters. Center points/objects and vectors are used to position the position virtual object, but any suitable coordinate system (eg, Cartesian, spherical, etc.) may also be used.

システム、方法、およびコンピュータ可読媒体が、開示される。いくつかの実施例によると、システムは、スピーカおよび1つまたはそれを上回るセンサを有する、ウェアラブル頭部デバイスと、1つまたはそれを上回るセンサに基づいて、第1の時間におけるユーザの頭部の第1の位置を決定することと、1つまたはそれを上回るセンサに基づいて、第1の時間より後の第2の時間におけるユーザの頭部の第2の位置を決定することと、第1の位置と第2の位置との間の差異に基づいて、オーディオ信号を決定することと、スピーカを介して、オーディオ信号をユーザに提示することとを含む、方法を実施するように構成される、1つまたはそれを上回るプロセッサとを備え、オーディオ信号を決定することは、仮想環境内のオーディオ信号の起点を決定することを含み、オーディオ信号をユーザに提示することは、決定された起点から生じるかのように、オーディオ信号を提示することを含み、オーディオ信号の起点を決定することは、オフセットをユーザの頭部の位置に適用することを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、ユーザの頭部の位置の変化率に基づいて、オーディオ信号の起点を決定することを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、変化率が閾値を超えることの決定に従って、起点が第1の起点を備えることを決定することと、変化率が閾値を超えないことの決定に従って、起点が第1の起点と異なる第2の起点を備えることを決定することとを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、オフセットの大きさが閾値を下回ることの決定に従って、起点が第1の起点を備えることを決定することと、オフセットの大きさが閾値を下回らないことの決定に従って、起点が第1の起点と異なる第2の起点を備えることを決定することとを含む。いくつかの実施例では、オーディオ信号を決定することはさらに、仮想環境内の速度を決定することを含み、オーディオ信号をユーザに提示することはさらに、起点が決定された速度で運動するかのように、オーディオ信号を提示することを含む。いくつかの実施例では、速度を決定することは、ユーザの頭部の第1の位置とユーザの頭部の第2の位置との間の差異に基づいて、速度を決定することを含む。いくつかの実施例では、オフセットは、ユーザの頭部の第1の位置に基づいて決定される。 Systems, methods, and computer-readable media are disclosed. According to some embodiments, the system includes a wearable head device having a speaker and one or more sensors, and a user's head at a first time based on the one or more sensors. determining a first position; determining a second position of the user's head at a second time after the first time based on one or more sensors; determining an audio signal based on a difference between the position of and a second position; and presenting the audio signal to a user via a speaker. , one or more processors, wherein determining the audio signal includes determining an origin of the audio signal within the virtual environment, and presenting the audio signal to the user comprises: Presenting the audio signal as it occurs, wherein determining the origin of the audio signal includes applying an offset to the position of the user's head. In some examples, determining the origin of the audio signal further includes determining the origin of the audio signal based on a rate of change of the position of the user's head. In some embodiments, determining the origin of the audio signal further comprises determining that the origin comprises the first origin according to determining that the rate of change exceeds the threshold; determining that the origin comprises a second origin that is different from the first origin, according to the determination that there is no origin. In some embodiments, determining the origin of the audio signal further comprises determining that the origin comprises the first origin according to determining that the magnitude of the offset is below a threshold; determining that the origin comprises a second origin that is different from the first origin, according to the determination that is not below the threshold. In some examples, determining the audio signal further includes determining a velocity within the virtual environment, and presenting the audio signal to the user further determines whether the origin moves at the determined velocity. including presenting an audio signal. In some examples, determining the velocity includes determining the velocity based on a difference between a first position of the user's head and a second position of the user's head. In some examples, the offset is determined based on the first position of the user's head.

いくつかの実施例によると、オーディオをウェアラブル頭部デバイスのユーザに提示する方法は、ウェアラブル頭部デバイスの1つまたはそれを上回るセンサに基づいて、第1の時間におけるユーザの頭部の第1の位置を決定することと、1つまたはそれを上回るセンサに基づいて、第1の時間より後の第2の時間におけるユーザの頭部の第2の位置を決定することと、第1の位置と第2の位置との間の差異に基づいて、オーディオ信号を決定することと、ウェアラブル頭部デバイスのスピーカを介して、オーディオ信号をユーザに提示することとを含み、オーディオ信号を決定することは、仮想環境内のオーディオ信号の起点を決定することを含み、オーディオ信号をユーザに提示することは、決定された起点から生じるかのように、オーディオ信号を提示することを含み、オーディオ信号の起点を決定することは、オフセットをユーザの頭部の位置に適用することを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、ユーザの頭部の位置の変化率に基づいて、オーディオ信号の起点を決定することを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、変化率が閾値を超えることの決定に従って、起点が第1の起点を備えることを決定することと、変化率が閾値を超えないことの決定に従って、起点が第1の起点と異なる第2の起点を備えることを決定することとを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、オフセットの大きさが閾値を下回ることの決定に従って、起点が第1の起点を備えることを決定することと、オフセットの大きさが閾値を下回らないことの決定に従って、起点が第1の起点と異なる第2の起点を備えることを決定することとを含む。いくつかの実施例では、オーディオ信号を決定することはさらに、仮想環境内の速度を決定することを含み、オーディオ信号をユーザに提示することはさらに、起点が決定された速度で運動するかのように、オーディオ信号を提示することを含む。いくつかの実施例では、速度を決定することは、ユーザの頭部の第1の位置とユーザの頭部の第2の位置との間の差異に基づいて、速度を決定することを含む。いくつかの実施例では、オフセットは、ユーザの頭部の第1の位置に基づいて決定される。 According to some embodiments, a method of presenting audio to a user of a wearable head device includes: based on one or more sensors of the wearable head device, a first audio signal of the user's head at a first time; determining a second position of the user's head at a second time after the first time based on one or more sensors; determining the audio signal based on the difference between the position and the second location; and presenting the audio signal to the user via a speaker of the wearable head device. includes determining an origin of the audio signal within the virtual environment; presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin; Determining the origin includes applying an offset to the position of the user's head. In some examples, determining the origin of the audio signal further includes determining the origin of the audio signal based on a rate of change of the position of the user's head. In some embodiments, determining the origin of the audio signal further comprises determining that the origin comprises the first origin according to determining that the rate of change exceeds the threshold; determining that the origin comprises a second origin that is different from the first origin, according to the determination that there is no origin. In some embodiments, determining the origin of the audio signal further comprises determining that the origin comprises the first origin according to determining that the magnitude of the offset is below a threshold; determining that the origin comprises a second origin that is different from the first origin, according to the determination that is not below the threshold. In some examples, determining the audio signal further includes determining a velocity within the virtual environment, and presenting the audio signal to the user further determines whether the origin moves at the determined velocity. including presenting an audio signal. In some examples, determining the velocity includes determining the velocity based on a difference between a first position of the user's head and a second position of the user's head. In some examples, the offset is determined based on the first position of the user's head.

いくつかの実施例によると、非一過性コンピュータ可読媒体は、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、オーディオをウェアラブル頭部デバイスのユーザに提示する方法を実施させる、命令を記憶し、本方法は、ウェアラブル頭部デバイスの1つまたはそれを上回るセンサに基づいて、第1の時間におけるユーザの頭部の第1の位置を決定することと、1つまたはそれを上回るセンサに基づいて、第1の時間より後の第2の時間におけるユーザの頭部の第2の位置を決定することと、第1の位置と第2の位置との間の差異に基づいて、オーディオ信号を決定することと、ウェアラブル頭部デバイスのスピーカを介して、オーディオ信号をユーザに提示することとを含み、オーディオ信号を決定することは、仮想環境内のオーディオ信号の起点を決定することを含み、オーディオ信号をユーザに提示することは、決定された起点から生じるかのように、オーディオ信号を提示することを含み、オーディオ信号の起点を決定することは、オフセットをユーザの頭部の位置に適用することを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、ユーザの頭部の位置の変化率に基づいて、オーディオ信号の起点を決定することを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、変化率が閾値を超えることの決定に従って、起点が第1の起点を備えることを決定することと、変化率が閾値を超えないことの決定に従って、起点が第1の起点と異なる第2の起点を備えることを決定することとを含む。いくつかの実施例では、オーディオ信号の起点を決定することはさらに、オフセットの大きさが閾値を下回ることの決定に従って、起点が第1の起点を備えることを決定することと、オフセットの大きさが閾値を下回らないことの決定に従って、起点が第1の起点と異なる第2の起点を備えることを決定することとを含む。いくつかの実施例では、オーディオ信号を決定することはさらに、仮想環境内の速度を決定することを含み、オーディオ信号をユーザに提示することはさらに、起点が決定された速度で運動するかのように、オーディオ信号を提示することを含む。いくつかの実施例では、速度を決定することは、ユーザの頭部の第1の位置とユーザの頭部の第2の位置との間の差異に基づいて、速度を決定することを含む。いくつかの実施例では、オフセットは、ユーザの頭部の第1の位置に基づいて決定される。 According to some embodiments, a non-transitory computer-readable medium presents audio to a user of a wearable head device to the one or more processors when executed by the one or more processors. storing instructions that cause a method to be performed, the method determining a first position of the user's head at a first time based on one or more sensors of the wearable head device; determining a second position of the user's head at a second time after the first time based on one or more sensors; and between the first position and the second position; and presenting the audio signal to the user via a speaker of the wearable head device, wherein determining the audio signal is based on the difference between the audio signal in the virtual environment presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin; determining the origin of the audio signal includes determining the offset to the position of the user's head. In some examples, determining the origin of the audio signal further includes determining the origin of the audio signal based on a rate of change of the position of the user's head. In some embodiments, determining the origin of the audio signal further comprises determining that the origin comprises the first origin according to determining that the rate of change exceeds the threshold; determining that the origin comprises a second origin that is different from the first origin, according to the determination that there is no origin. In some embodiments, determining the origin of the audio signal further comprises determining that the origin comprises the first origin according to determining that the magnitude of the offset is below a threshold; determining that the origin comprises a second origin that is different from the first origin, according to the determination that is not below the threshold. In some examples, determining the audio signal further includes determining a velocity within the virtual environment, and presenting the audio signal to the user further determines whether the origin moves at the determined velocity. including presenting an audio signal. In some examples, determining the velocity includes determining the velocity based on a difference between a first position of the user's head and a second position of the user's head. In some examples, the offset is determined based on the first position of the user's head.

開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、1つまたはそれを上回る実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付の請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるべきである。 Although the disclosed embodiments have been fully described with reference to the accompanying drawings, it should be noted that various changes and modifications will become apparent to those skilled in the art. For example, elements of one or more implementations may be combined, deleted, modified, or supplemented to form further implementations. Such changes and modifications are to be understood as included within the scope of the disclosed embodiments as defined by the appended claims.

Claims (20)

システムであって、
スピーカおよび1つまたはそれを上回るセンサを有するウェアラブル頭部デバイスと、
1つまたはそれを上回るプロセッサであって、
前記1つまたはそれを上回るセンサに基づいて、第1の時間におけるユーザの頭部の第1の位置を決定することと、
前記1つまたはそれを上回るセンサに基づいて、前記第1の時間より後の第2の時間における前記ユーザの頭部の第2の位置を決定することと、
前記第1の位置と前記第2の位置との間の差異に基づいて、オーディオ信号を決定することと、
前記スピーカを介して、前記オーディオ信号を前記ユーザに提示することと
を含む方法を実施するように構成される、1つまたはそれを上回るプロセッサと
を備え、
前記オーディオ信号を決定することは、仮想環境内の前記オーディオ信号の起点を決定することを含み、
前記オーディオ信号を前記ユーザに提示することは、前記決定された起点から生じるかのように、前記オーディオ信号を提示することを含み、
前記オーディオ信号の起点を決定することは、オフセットを前記ユーザの頭部の位置に適用することを含む、システム。
a system,
a wearable head device having a speaker and one or more sensors;
one or more processors,
determining a first position of the user's head at a first time based on the one or more sensors;
determining a second position of the user's head at a second time after the first time based on the one or more sensors;
determining an audio signal based on the difference between the first position and the second position;
presenting the audio signal to the user via the speaker; and one or more processors configured to perform a method comprising:
determining the audio signal includes determining an origin of the audio signal within a virtual environment;
presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin;
The system, wherein determining the origin of the audio signal includes applying an offset to a position of the user's head.
前記オーディオ信号の起点を決定することはさらに、前記ユーザの頭部の位置の変化率に基づいて、前記オーディオ信号の起点を決定することを含む、請求項1に記載のシステム。 2. The system of claim 1, wherein determining the origin of the audio signal further comprises determining the origin of the audio signal based on a rate of change of the user's head position. 前記オーディオ信号の起点を決定することはさらに、
前記変化率が閾値を超えることの決定に従って、前記起点が第1の起点を備えることを決定することと、
前記変化率が前記閾値を超えないことの決定に従って、前記起点が前記第1の起点と異なる第2の起点を備えることを決定することと
を含む、請求項2に記載のシステム。
Determining the origin of the audio signal further comprises:
Determining that the origin comprises a first origin according to determining that the rate of change exceeds a threshold;
3. The system of claim 2, comprising determining that the origin comprises a second origin different from the first origin, following a determination that the rate of change does not exceed the threshold.
前記オーディオ信号の起点を決定することはさらに、
前記オフセットの大きさが閾値を下回ることの決定に従って、前記起点が第1の起点を備えることを決定することと、
前記オフセットの大きさが前記閾値を下回らないことの決定に従って、前記起点が前記第1の起点と異なる第2の起点を備えることを決定することと
を含む、請求項1に記載のシステム。
Determining the origin of the audio signal further comprises:
Determining that the origin comprises a first origin according to determining that the magnitude of the offset is below a threshold;
determining that the origin comprises a second origin that is different from the first origin, following a determination that the magnitude of the offset does not fall below the threshold.
前記オーディオ信号を決定することはさらに、前記仮想環境内の速度を決定することを含み、
前記オーディオ信号を前記ユーザに提示することはさらに、前記起点が前記決定された速度で運動するかのように、前記オーディオ信号を提示することを含む、
請求項1に記載のシステム。
determining the audio signal further includes determining velocity within the virtual environment;
presenting the audio signal to the user further comprises presenting the audio signal as if the starting point were moving at the determined velocity;
The system of claim 1.
前記速度を決定することは、前記ユーザの頭部の第1の位置と前記ユーザの頭部の第2の位置との間の差異に基づいて、前記速度を決定することを含む、請求項5に記載のシステム。 6. Determining the velocity comprises determining the velocity based on a difference between a first position of the user's head and a second position of the user's head. The system described in . 前記オフセットは、前記ユーザの頭部の第1の位置に基づいて決定される、請求項1に記載のシステム。 2. The system of claim 1, wherein the offset is determined based on a first position of the user's head. オーディオをウェアラブル頭部デバイスのユーザに提示する方法であって、
前記ウェアラブル頭部デバイスの1つまたはそれを上回るセンサに基づいて、第1の時間における前記ユーザの頭部の第1の位置を決定することと、
前記1つまたはそれを上回るセンサに基づいて、前記第1の時間より後の第2の時間における前記ユーザの頭部の第2の位置を決定することと、
前記第1の位置と前記第2の位置との間の差異に基づいて、オーディオ信号を決定することと、
前記ウェアラブル頭部デバイスのスピーカを介して、前記オーディオ信号を前記ユーザに提示することと
を含み、
前記オーディオ信号を決定することは、仮想環境内の前記オーディオ信号の起点を決定することを含み、
前記オーディオ信号を前記ユーザに提示することは、前記決定された起点から生じるかのように、前記オーディオ信号を提示することを含み、
前記オーディオ信号の起点を決定することは、オフセットを前記ユーザの頭部の位置に適用することを含む、方法。
A method of presenting audio to a user of a wearable head device, comprising:
determining a first position of the user's head at a first time based on one or more sensors of the wearable head device;
determining a second position of the user's head at a second time after the first time based on the one or more sensors;
determining an audio signal based on the difference between the first position and the second position;
presenting the audio signal to the user via a speaker of the wearable head device;
determining the audio signal includes determining an origin of the audio signal within a virtual environment;
presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin;
A method, wherein determining the origin of the audio signal includes applying an offset to a position of the user's head.
前記オーディオ信号の起点を決定することはさらに、前記ユーザの頭部の位置の変化率に基づいて、前記オーディオ信号の起点を決定することを含む、請求項8に記載の方法。 9. The method of claim 8, wherein determining the origin of the audio signal further comprises determining the origin of the audio signal based on a rate of change of the user's head position. 前記オーディオ信号の起点を決定することはさらに、
前記変化率が閾値を超えることの決定に従って、前記起点が第1の起点を備えることを決定することと、
前記変化率が前記閾値を超えないことの決定に従って、前記起点が前記第1の起点と異なる第2の起点を備えることを決定することと
を含む、請求項9に記載の方法。
Determining the origin of the audio signal further comprises:
Determining that the origin comprises a first origin according to determining that the rate of change exceeds a threshold;
10. The method of claim 9, comprising determining that the origin comprises a second origin different from the first origin, following a determination that the rate of change does not exceed the threshold.
前記オーディオ信号の起点を決定することはさらに、
前記オフセットの大きさが閾値を下回ることの決定に従って、前記起点が第1の起点を備えることを決定することと、
前記オフセットの大きさが前記閾値を下回らないことの決定に従って、前記起点が前記第1の起点と異なる第2の起点を備えることを決定することと
を含む、請求項8に記載の方法。
Determining the origin of the audio signal further comprises:
Determining that the origin comprises a first origin according to determining that the magnitude of the offset is below a threshold;
9. The method of claim 8, comprising determining that the origin comprises a second origin that is different from the first origin, following a determination that the magnitude of the offset does not fall below the threshold.
前記オーディオ信号を決定することはさらに、前記仮想環境内の速度を決定することを含み、
前記オーディオ信号を前記ユーザに提示することはさらに、前記起点が前記決定された速度で運動するかのように、前記オーディオ信号を提示することを含む、
請求項8に記載の方法。
determining the audio signal further includes determining velocity within the virtual environment;
presenting the audio signal to the user further comprises presenting the audio signal as if the starting point were moving at the determined velocity;
9. The method of claim 8.
前記速度を決定することは、前記ユーザの頭部の第1の位置と前記ユーザの頭部の第2の位置との間の差異に基づいて、前記速度を決定することを含む、請求項12に記載の方法。 13. Determining the velocity comprises determining the velocity based on a difference between a first position of the user's head and a second position of the user's head. The method described in . 前記オフセットは、前記ユーザの頭部の第1の位置に基づいて決定される、請求項8に記載の方法。 9. The method of claim 8, wherein the offset is determined based on a first position of the user's head. 非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を記憶しており、前記命令は、1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、オーディオをウェアラブル頭部デバイスのユーザに提示する方法を実施させ、前記方法は、
前記ウェアラブル頭部デバイスの1つまたはそれを上回るセンサに基づいて、第1の時間における前記ユーザの頭部の第1の位置を決定することと、
前記1つまたはそれを上回るセンサに基づいて、前記第1の時間より後の第2の時間における前記ユーザの頭部の第2の位置を決定することと、
前記第1の位置と前記第2の位置との間の差異に基づいて、オーディオ信号を決定することと、
前記ウェアラブル頭部デバイスのスピーカを介して、前記オーディオ信号を前記ユーザに提示することと
を含み、
前記オーディオ信号を決定することは、仮想環境内の前記オーディオ信号の起点を決定することを含み、
前記オーディオ信号を前記ユーザに提示することは、前記決定された起点から生じるかのように、前記オーディオ信号を提示することを含み、
前記オーディオ信号の起点を決定することは、オフセットを前記ユーザの頭部の位置に適用することを含む、
非一過性コンピュータ可読媒体。
A non-transitory computer-readable medium, said non-transitory computer-readable medium storing instructions which, when executed by one or more processors, cause said one or more to implement a method of presenting audio to a user of a wearable head device, the method comprising:
determining a first position of the user's head at a first time based on one or more sensors of the wearable head device;
determining a second position of the user's head at a second time after the first time based on the one or more sensors;
determining an audio signal based on the difference between the first position and the second position;
presenting the audio signal to the user via a speaker of the wearable head device;
determining the audio signal includes determining an origin of the audio signal within a virtual environment;
presenting the audio signal to the user includes presenting the audio signal as if it originated from the determined origin;
determining the origin of the audio signal includes applying an offset to a position of the user's head;
non-transitory computer-readable medium;
前記オーディオ信号の起点を決定することはさらに、前記ユーザの頭部の位置の変化率に基づいて、前記オーディオ信号の起点を決定することを含む、請求項15に記載の非一過性コンピュータ可読媒体。 16. The non-transient computer readable of claim 15, wherein determining the origin of the audio signal further comprises determining the origin of the audio signal based on a rate of change of the user's head position. medium. 前記オーディオ信号の起点を決定することはさらに、
前記変化率が閾値を超えることの決定に従って、前記起点が第1の起点を備えることを決定することと、
前記変化率が前記閾値を超えないことの決定に従って、前記起点が前記第1の起点と異なる第2の起点を備えることを決定することと
を含む、請求項16に記載の非一過性コンピュータ可読媒体。
Determining the origin of the audio signal further comprises:
Determining that the origin comprises a first origin according to determining that the rate of change exceeds a threshold;
determining that the origin comprises a second origin that is different from the first origin, following a determination that the rate of change does not exceed the threshold. readable medium.
前記オーディオ信号の起点を決定することはさらに、
前記オフセットの大きさが閾値を下回ることの決定に従って、前記起点が第1の起点を備えることを決定することと、
前記オフセットの大きさが前記閾値を下回らないことの決定に従って、前記起点が前記第1の起点と異なる第2の起点を備えることを決定することと
を含む、請求項15に記載の非一過性コンピュータ可読媒体。
Determining the origin of the audio signal further comprises:
Determining that the origin comprises a first origin according to determining that the magnitude of the offset is below a threshold;
16. The non-transitory method of claim 15, comprising determining that the origin comprises a second origin different from the first origin, following a determination that the magnitude of the offset does not fall below the threshold. sexual computer readable medium.
前記オーディオ信号を決定することはさらに、前記仮想環境内の速度を決定することを含み、
前記オーディオ信号を前記ユーザに提示することはさらに、前記起点が前記決定された速度で運動するかのように、前記オーディオ信号を提示することを含む、
請求項15に記載の非一過性コンピュータ可読媒体。
determining the audio signal further includes determining velocity within the virtual environment;
presenting the audio signal to the user further comprises presenting the audio signal as if the starting point were moving at the determined velocity;
16. The non-transitory computer-readable medium of claim 15.
前記速度を決定することは、前記ユーザの頭部の第1の位置と前記ユーザの頭部の第2の位置との間の差異に基づいて、前記速度を決定することを含む、請求項19に記載の非一過性コンピュータ可読媒体。 20. Determining the velocity comprises determining the velocity based on a difference between a first position of the user's head and a second position of the user's head. 3. The non-transitory computer-readable medium as described in .
JP2022548902A 2020-02-14 2021-02-12 delayed audio tracking Pending JP2023514571A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062976986P 2020-02-14 2020-02-14
US62/976,986 2020-02-14
PCT/US2021/017971 WO2021163573A1 (en) 2020-02-14 2021-02-12 Delayed audio following

Publications (2)

Publication Number Publication Date
JP2023514571A true JP2023514571A (en) 2023-04-06
JPWO2021163573A5 JPWO2021163573A5 (en) 2024-02-19

Family

ID=77273537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022548902A Pending JP2023514571A (en) 2020-02-14 2021-02-12 delayed audio tracking

Country Status (4)

Country Link
EP (1) EP4104457A4 (en)
JP (1) JP2023514571A (en)
CN (1) CN115398935A (en)
WO (1) WO2021163573A1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101588040B1 (en) * 2009-02-13 2016-01-25 코닌클리케 필립스 엔.브이. Head tracking for mobile applications
US10595147B2 (en) * 2014-12-23 2020-03-17 Ray Latypov Method of providing to user 3D sound in virtual environment
US10123147B2 (en) * 2016-01-27 2018-11-06 Mediatek Inc. Enhanced audio effect realization for virtual reality
EP3264801B1 (en) * 2016-06-30 2019-10-02 Nokia Technologies Oy Providing audio signals in a virtual environment
US10278003B2 (en) * 2016-09-23 2019-04-30 Apple Inc. Coordinated tracking for binaural audio rendering
US10375506B1 (en) 2018-02-28 2019-08-06 Google Llc Spatial audio to enable safe headphone use during exercise and commuting

Also Published As

Publication number Publication date
EP4104457A1 (en) 2022-12-21
EP4104457A4 (en) 2023-07-19
WO2021163573A1 (en) 2021-08-19
CN115398935A (en) 2022-11-25

Similar Documents

Publication Publication Date Title
JP7446420B2 (en) Echo fingerprint estimation
US11736888B2 (en) Dual listener positions for mixed reality
JP2023513747A (en) 3D object annotation
CN111713091A (en) Mixed reality virtual reverberation
JP2023515886A (en) Immersive audio platform
US11477599B2 (en) Delayed audio following
JP2023514572A (en) session manager
JP2023513250A (en) Dynamic co-location of virtual content
US20230396948A1 (en) Delayed audio following
CN114846434A (en) Non-uniform stereoscopic rendering
CN115398936A (en) Multi-application audio rendering
JP2023514571A (en) delayed audio tracking
WO2023064870A1 (en) Voice processing for mixed reality

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20240208