JP7165215B2 - 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム - Google Patents

空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム Download PDF

Info

Publication number
JP7165215B2
JP7165215B2 JP2021000727A JP2021000727A JP7165215B2 JP 7165215 B2 JP7165215 B2 JP 7165215B2 JP 2021000727 A JP2021000727 A JP 2021000727A JP 2021000727 A JP2021000727 A JP 2021000727A JP 7165215 B2 JP7165215 B2 JP 7165215B2
Authority
JP
Japan
Prior art keywords
sources
audio
audio data
listener
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021000727A
Other languages
English (en)
Other versions
JP2021073763A (ja
Inventor
マイケル リンク グレゴリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2021073763A publication Critical patent/JP2021073763A/ja
Application granted granted Critical
Publication of JP7165215B2 publication Critical patent/JP7165215B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Description

本開示は、空間化オーディオシステムを用いた、仮想現実、拡張現実、および/または複合現実システムと、それを使用して、空間化オーディオを含む、仮想現実、拡張現実、および/または複合現実体験を生成するための方法とに関する。
現代のコンピューティングおよびディスプレイ技術は、いわゆる「複合現実」(「MR」)、「仮想現実」(「VR」)、および/または「拡張現実」(「AR」)体験のための複合現実システムの開発を促進している。これは、コンピュータ生成画像をユーザに頭部搭載型ディスプレイを通して提示することによって行われることができる。本画像は、感覚体験を作成し、これは、ユーザをシミュレートされた環境に没入させる。VRシナリオは、典型的には、実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。
ARシステムは、概して、実世界環境をシミュレートされた要素で補完する。例えば、ARシステムは、ユーザに、周囲実世界環境のビューを頭部搭載型ディスプレイを介して提供してもよい。しかしながら、コンピュータ生成画像もまた、ディスプレイ上に提示され、実世界環境を向上させることができる。本コンピュータ生成画像は、実世界環境にコンテキスト的に関連する、要素を含むことができる。そのような要素は、シミュレートされたテキスト、画像、オブジェクト等を含むことができる。MRシステムはまた、シミュレートされたオブジェクトを実世界環境の中に導入するが、これらのオブジェクトは、典型的には、ARシステムを上回る相互作用の程度を特徴とする。シミュレートされた要素は、多くの場合、リアルタイムで相互作用することができる。VR/AR/MRシナリオは、空間化オーディオを提示され、ユーザ体験を改良することができる。
種々の光学システムは、VR/AR/MRシナリオを表示するために、画像を種々の深度に生成する。いくつかのそのような光学システムは、米国特許出願第14/738,877号(弁理士整理番号第ML.20019.00)および2014年11月27日に出願された米国特許出願第14/555,585号(弁理士整理番号第ML.20011.00)(その内容は、参照することによって、本明細書に前述で組み込まれている)に説明される。
現在の空間化オーディオシステムは、3-Dシネマ、3-Dビデオゲーム、仮想現実、拡張現実、および/または複合現実システムにおけるもの等の3-D光学システムと協働し、光学的および音響的にの両方において、仮想オブジェクトをレンダリングすることができる。オブジェクトは、それらが3次元空間内の個別の位置に位置する物理的オブジェクトではないという点において、「仮想」である。代わりに、仮想オブジェクトは、それぞれ、聴衆の眼および/または耳に指向される光ビームおよび/または音波によって刺激されるときのみ、視認者および/または聴取者の脳(例えば、視覚および/または聴覚中枢)内に存在する。残念ながら、現在の空間化オーディオシステムの聴取者位置および配向要件は、定位置からずれた聴取者に対して現実的様式において仮想オブジェクトのオーディオ部分を作成するその能力を限定する。
ホームシアターおよびビデオゲームのためのもの等の現在の空間化オーディオシステムは、「5.1」および「7.1」フォーマットを利用する。5.1空間化オーディオシステムは、左および右正面チャネルと、左および右背面チャネルと、中心チャネルと、サブウーファとを含む。7.1空間化オーディオシステムは、5.1オーディオシステムのチャネルと、意図される聴取者と整合される、左および右チャネルとを含む。前述のチャネルはそれぞれ、別個のスピーカに対応する。シネマオーディオシステムおよびシネマグレードホームシアターシステムは、DOLBY ATMOSを含み、これは、意図される聴取者の上方から送達されるように構成され、それによって、聴取者を音場内に没入させ、聴取者を音で囲繞する、チャネルを追加する。
空間化オーディオシステムにおける改良にもかかわらず、現在の空間化オーディオシステムは、複数の聴取者の個別の場所および配向は言うまでもなく、聴取者の場所および配向を考慮可能ではない。したがって、現在の空間化オーディオシステムは、全ての聴取者が、音場の中心に隣接して位置付けられ、システムの中心チャネルに向いて配向され、最適性能のための聴取者位置および配向要件を有するという仮定で音場を生成する。故に、古典的1対多システムでは、空間化オーディオは、聴取者が偶然にも予期される配向の反対に向く場合、音が後方からであるように現れるように聴取者に送達され得る。そのような不整合音は、感覚および認知不一致につながり、空間化オーディオ体験およびそれとともに提示される任意のVR/AR/MR体験を劣化させ得る。深刻な場合、感覚および認知不一致は、ユーザが、空間化オーディオ体験またはそれとともに提示されるVR/AR/MR体験を回避することにつながり得る、頭痛、吐き気、不快感等の生理学的副作用を生じさせる可能性がある。
類似技術空間では、テーマパークの乗り物(すなわち、DISNEYのSTAR TOURS)に見出されるもの等の複合メディアシステムは、光および動き等の現実のような特殊効果を3-Dフィルムおよび空間化オーディオに追加することができる。3-D複合メディアシステムのユーザは、典型的には、3-D画像のシステム生成を促進する、眼鏡を装着するように要求される。そのような眼鏡は、従来の立体写真式立体視3-Dシステムにおけるように、異なる偏光または色フィルタを伴う、左および右レンズを含有し得る。3-D複合メディアシステムは、立体視眼鏡を装着しているユーザにその左および右眼において若干異なる画像が見えるであろうように、異なる偏光または色を伴う重複画像を投影する。これらの画像における差異は、3-D光学画像を生成するために利用される。しかしながら、そのようなシステムは、法外に高価である。さらに、そのような複合メディアシステムは、現在の空間化オーディオシステムの固有のユーザ位置および配向要件に対処しない。
これらの問題に対処するために、いくつかのVR/AR/MRシステムは、空間化オーディオシステムに動作可能に結合される頭部搭載型スピーカを含み、空間化オーディオは、スピーカとユーザ/聴取者の耳との間の「既知の」位置および配向関係を使用してレンダリングされることができる。そのようなVR/AR/MRシステムの種々の実施例は、米国仮特許出願第62/369,561号(その内容は、参照することによって、本明細書に前述で組み込まれている)に説明される。これらのVR/AR/MRシステムは、上記に説明される聴取者位置問題に対処するが、システムは、依然として、高速ユーザ頭部移動に伴って認知的不協和をもたらし得る、処理時間、遅れ、および待ち時間に関連する限界を有する。
例えば、いくつかのVR/AR/MRシステムは、頭部搭載型スピーカを通して、空間化オーディオをユーザ/聴取者に送達する。故に、仮想音源(例えば、鳥)が、事実上、第1の姿勢におけるユーザ/聴取者の右に位置する(VR/AR/MRシステムによって検出され得る)場合、VR/AR/MRシステムは、ユーザ/聴取者の右から生じるように現れる仮想音源に対応する、生成された音(例えば、さえずり)を送達してもよい。VR/AR/MRシステムは、主に、ユーザ/聴取者の右耳に隣接して搭載される1つ以上のスピーカを通して、音を送達してもよい。ユーザ/聴取者が、その頭部を旋回させ、仮想音源に向く場合、VR/AR/MRシステムは、本第2の姿勢を検出し、ユーザ/聴取者の正面から生じるように現れる仮想音源に対応する、生成された音を送達してもよい。
しかしながら、ユーザ/聴取者が、その頭部を急速に旋回させ、仮想音源に向く場合、VR/AR/MRシステムは、ユーザ/聴取者の姿勢に基づいて仮想音を生成するシステムおよび方法の種々の限界に関連する、遅れまたは待ち時間を体験するであろう。例示的な仮想音生成方法は、とりわけ、(1)姿勢変化を検出するステップと、(2)検出された姿勢変化をプロセッサに通信するステップと、(3)変化された姿勢に基づいて、新しいオーディオデータを生成するステップと、(4)新しいオーディオデータをスピーカに通信するステップと、(5)新しいオーディオデータに基づいて、仮想音を生成するステップとを含む。姿勢変化を検出するステップと、仮想音を生成するステップとの間のこれらのステップは、ユーザ/聴取者がその姿勢を急速に変化させるとき、関連付けられた空間化オーディオとのVR/AR/MR体験における認知的不協和につながり得る、遅れまたは待ち時間をもたらし得る。
VR/AR/MR体験と関連付けられた空間化オーディオは、仮想音(例えば、さえずり)が仮想オブジェクト(例えば、鳥)の画像と異なる場所から発出するように現れ得るため、認知的不協和を例証する。しかしながら、全ての空間化オーディオシステムが、ユーザ/聴取者に対して仮想場所および配向を伴う仮想音源を含むため、全ての空間化オーディオシステム(VR/AR/MRシステムの有無にかかわらず)が、高速姿勢変化に伴って、認知的不協和をもたらし得る。例えば、仮想鳥が、聴取者の右に位置する場合、さえずりは、ユーザの頭部の配向またはその配向が変化する速度にかかわらず、空間内の同一点から発出するように現れるべきである。
一実施形態では、空間化オーディオシステムは、聴取者の頭部姿勢を検出するためのセンサを含む。本システムはまた、第1および第2の段階においてオーディオデータをレンダリングするためのプロセッサを含む。第1の段階は、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングするステップを含む。第2の段階は、聴取者の検出された頭部姿勢に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。第2の複数のソースは、第1の複数のソースより少ないソースから成る。
別の実施形態では、空間化オーディオシステムは、第1の時間における第1の頭部姿勢および第2の時間における聴取者の第2の頭部姿勢を検出するためのセンサであって、第2の時間は、第1の時間の後である、センサを含む。本システムはまた、第1および第2の段階においてオーディオデータをレンダリングするためのプロセッサを含む。第1の段階は、聴取者の検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングするステップを含む。第2の段階は、聴取者の検出された第2の頭部姿勢に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。第2の複数のソースは、第1の複数のソースより少ないソースから成る。
さらに別の実施形態では、空間化オーディオをレンダリングする方法は、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングするステップを含む。本方法はまた、聴取者の頭部姿勢を検出するステップを含む。本方法はさらに、聴取者の検出された頭部姿勢に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。第2の複数のソースは、第1の複数のソースより少ないソースから成る。
さらに別の実施形態では、空間化オーディオをレンダリングする方法は、聴取者の第1の頭部姿勢を検出するステップを含む。本方法はまた、聴取者の検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングするステップを含む。本方法はさらに、聴取者の第2の頭部姿勢を検出するステップを含む。さらに、本方法は、聴取者の検出された第2の頭部姿勢に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。第2の複数のソースは、第1の複数のソースより少ないソースから成る。
さらに別の実施形態では、コンピュータプログラム製品が、非一過性コンピュータ可読媒体内に具現化され、コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに、空間化オーディオをレンダリングするための方法を実行させる、その上に記憶される命令のシーケンスを有する。本方法は、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングするステップを含む。本方法はまた、聴取者の頭部姿勢を検出するステップを含む。本方法はさらに、聴取者の検出された頭部姿勢に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。第2の複数のソースは、第1の複数のソースより少ないソースから成る。
さらに別の実施形態では、コンピュータプログラム製品が、非一過性コンピュータ可読媒体内に具現化され、コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに、空間化オーディオをレンダリングするための方法を実行させる、その上に記憶される命令のシーケンスを有する。本方法は、聴取者の第1の頭部姿勢を検出するステップを含む。本方法はまた、聴取者の検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングするステップを含む。本方法はさらに、聴取者の第2の頭部姿勢を検出するステップを含む。さらに、本方法は、聴取者の検出された第2の頭部姿勢に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。第2の複数のソースは、第1の複数のソースより少ないソースから成る。
1つ以上の実施形態では、センサは、慣性測定ユニットである。第1および/または第2の複数のソースは、仮想音源であってもよい。センサは、第1の段階の後かつ第2の段階の前に、聴取者の頭部姿勢を検出してもよい。センサは、第2の段階の直前に、聴取者の頭部姿勢を検出してもよい。
1つ以上の実施形態では、第3の複数のソースは、第2の複数のソースより少ないソースまたは第2の複数のソースと等しい個数のソースから成る。第1のオーディオデータは、完全オーディオストリームデータセットであってもよい。第2の複数のソースは、8つまたはより少ないソースから成ってもよい。
1つ以上の実施形態では、第1、第2、および/または第3の複数のソースはそれぞれ、異なる位置/配向に対応する。第1の複数のソースは、第1の複数の位置に対応してもよい。第2の複数のソースは、第2の複数の位置に対応してもよく、第2の複数の位置はそれぞれ、第1の複数の位置のそれぞれより聴取者に近くてもよい。第2の複数の位置は、単一平面内に位置しなくてもよい。
1つ以上の実施形態では、本システムはまた、第3の複数のソースに対応する複数のスピーカを含み、第3のオーディオデータに基づいて、音を生産する。第3の複数のソースはそれぞれ、異なる位置に対応してもよく、複数のスピーカはそれぞれ、個別の異なる位置における第3の複数のソースの個別のソースに対応してもよい。
1つ以上の実施形態では、第2の段階は、聴取者の検出された頭部姿勢および第2の複数のソースの個別の位置/配向に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含んでもよい。第2の段階は、聴取者の平行移動より回転に敏感であってもよい。第2の段階は、回転専用オーディオ変換であってもよい。第2の複数のソースはそれぞれ、聴取者の頭部から約6インチ~約12インチに位置してもよい。
1つ以上の実施形態では、センサは、第1の段階の前に、聴取者の第1の頭部姿勢を検出する。センサは、第1の段階の後かつ第2の段階の前に、聴取者の第2の頭部姿勢を検出してもよい。センサは、第2の段階の直前に、聴取者の第2の頭部姿勢を検出してもよい。
1つ以上の実施形態では、第2の段階は、聴取者の検出された第2の頭部姿勢および第2の複数のソースの個別の位置/配向に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。
1つ以上の実施形態では、本方法はまた、第1のオーディオデータをレンダリングした後かつ第2のオーディオデータをレンダリングする前に、聴取者の頭部姿勢を検出するステップを含む。本方法はまた、第2のオーディオデータをレンダリングする直前に、聴取者の頭部姿勢を検出するステップを含んでもよい。本方法はまた、第3のオーディオデータに基づいて、第3の複数のソースに対応する複数のスピーカを通して音を生産するステップを含んでもよい。本方法はまた、聴取者の検出された頭部姿勢および第2の複数のソースの個別の位置/配向に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含んでもよい。
1つ以上の実施形態では、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップは、聴取者の平行移動より回転に敏感である。第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップは、回転専用オーディオ変換であってもよい。
1つ以上の実施形態では、本方法はまた、第1のオーディオデータをレンダリングする前に、聴取者の第1の頭部姿勢を検出するステップを含む。本方法はまた、第1のオーディオデータをレンダリングした後かつ第2のオーディオデータをレンダリングする前に、聴取者の第2の頭部姿勢を検出するステップを含んでもよい。本方法はまた、第2のオーディオデータをレンダリングする直前に、聴取者の第2の頭部姿勢を検出するステップを含んでもよい。
1つ以上の実施形態では、本方法はまた、聴取者の検出された第2の頭部姿勢および第2の複数のソースの個別の位置/配向に基づいて、第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングするステップを含む。
本発明は、例えば、以下を提供する。
(項目1)
空間化オーディオシステムであって
聴取者の頭部姿勢を検出するためのセンサと、
第1および第2の段階においてオーディオデータをレンダリングするためのプロセッサと
を備え、
前記第1の段階は、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることを含み、
前記第2の段階は、前記聴取者の検出された頭部姿勢に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることを含み、
前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成る、
システム。
(項目2)
前記センサは、慣性測定ユニットである、項目1に記載のシステム。
(項目3)
前記第1の複数のソースは、仮想音源である、項目1に記載のシステム。
(項目4)
前記第2の複数のソースは、仮想音源である、項目1に記載のシステム。
(項目5)
前記センサは、前記第1の段階の後かつ前記第2の段階の前に、前記聴取者の頭部姿勢を検出する、項目1に記載のシステム。
(項目6)
前記センサは、前記第2の段階の直前に、前記聴取者の頭部姿勢を検出する、項目5に記載のシステム。
(項目7)
前記第3の複数のソースは、前記第2の複数のソースより少ないソースから成る、項目1に記載のシステム。
(項目8)
前記第3の複数のソースは、前記第2の複数のソースと等しい個数のソースから成る、項目1に記載のシステム。
(項目9)
前記第1のオーディオデータは、完全オーディオストリームデータセットである、項目1に記載のシステム。
(項目10)
前記第2の複数のソースは、8つまたはより少ないソースから成る、項目1に記載のシステム。
(項目11)
前記第1の複数のソースのそれぞれは、異なる位置/配向に対応する、項目1に記載のシステム。
(項目12)
前記第2の複数のソースのそれぞれは、異なる位置/配向に対応する、項目1に記載のシステム。
(項目13)
前記第3の複数のソースのそれぞれは、異なる位置/配向に対応する、項目1に記載のシステム。
(項目14)
前記第1の複数のソースは、第1の複数の位置に対応する、項目1に記載のシステム。
(項目15)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置のそれぞれは、前記第1の複数の位置のそれぞれより前記聴取者に近い、
項目14に記載のシステム。
(項目16)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置は、単一平面内に位置しない、
項目1記載のシステム。
(項目17)
前記第3の複数のソースに対応する複数のスピーカをさらに備え、前記複数のスピーカは、前記第3のオーディオデータに基づいて、音を生産する、項目1に記載のシステム。
(項目18)
前記第3の複数のソースのそれぞれは、異なる位置に対応し、
前記複数のスピーカのそれぞれは、個別の異なる位置における前記第3の複数のソースの個別のソースに対応する、
項目17に記載のシステム。
(項目19)
前記第2の段階は、前記聴取者の検出された頭部姿勢および前記第2の複数のソースの個別の位置/配向に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることを含む、項目1に記載のシステム。
(項目20)
前記第2の段階は、前記聴取者の平行移動より回転に敏感である、項目1に記載のシステム。
(項目21)
前記第2の段階は、回転専用オーディオ変換である、項目1に記載のシステム。
(項目22)
空間化オーディオシステムであって、
第1の時間における第1の頭部姿勢および第2の時間における聴取者の第2の頭部姿勢を検出するためのセンサであって、前記第2の時間は、前記第1の時間の後である、センサと、
第1および第2の段階においてオーディオデータをレンダリングするためのプロセッサと
を備え、
前記第1の段階は、前記聴取者の検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることを含み、
前記第2の段階は、前記聴取者の検出された第2の頭部姿勢に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることを含み、
前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成る、
システム。
(項目23)
前記センサは、慣性測定ユニットである、項目22に記載のシステム。
(項目24)
前記第1の複数のソースは、仮想音源である、項目22に記載のシステム。
(項目25)
前記第2の複数のソースは、仮想音源である、項目22に記載のシステム。
(項目26)
前記センサは、前記第1の段階の前に、前記聴取者の第1の頭部姿勢を検出する、項目22に記載のシステム。
(項目27)
前記センサは、前記第1の段階の後かつ前記第2の段階の前に、前記聴取者の第2の頭部姿勢を検出する、項目22に記載のシステム。
(項目28)
前記センサは、前記第2の段階の直前に、前記聴取者の第2の頭部姿勢を検出する、項目22に記載のシステム。
(項目29)
前記第3の複数のソースは、前記第2の複数のソースより少ないソースから成る、項目22に記載のシステム。
(項目30)
前記第3の複数のソースは、前記第2の複数のソースと等しい個数のソースから成る、項目22に記載のシステム。
(項目31)
前記第1のオーディオデータは、完全オーディオストリームデータセットである、項目22に記載のシステム。
(項目32)
前記第2の複数のソースは、8つまたはより少ないソースから成る、項目22に記載のシステム。
(項目33)
前記第1の複数のソースのそれぞれは、異なる位置/配向に対応する、項目22に記載のシステム。
(項目34)
前記第2の複数のソースのそれぞれは、異なる位置/配向に対応する、項目22に記載のシステム。
(項目35)
前記第3の複数のソースのそれぞれは、異なる位置/配向に対応する、項目22に記載のシステム。
(項目36)
前記第1の複数のソースは、第1の複数の位置に対応する、項目22に記載のシステム。
(項目37)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置のそれぞれは、前記第1の複数の位置のそれぞれより前記聴取者に近い、
項目36に記載のシステム。
(項目38)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置は、単一平面内に位置しない、
項目22に記載のシステム。
(項目39)
前記第3の複数のソースに対応する複数のスピーカをさらに備え、前記複数のスピーカは、前記第3のオーディオデータに基づいて、音を生産する、項目22に記載のシステム。
(項目40)
前記第3の複数のソースのそれぞれは、異なる位置に対応し、
前記複数のスピーカのそれぞれは、個別の異なる位置における前記第3の複数のソースの個別のソースに対応する、
項目39に記載のシステム。
(項目41)
前記第2の段階は、前記聴取者の検出された第2の頭部姿勢および前記第2の複数のソースの個別の位置/配向に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることを含む、項目22に記載のシステム。
(項目42)
前記第2の段階は、前記聴取者の平行移動より回転に敏感である、項目22に記載のシステム。
(項目43)
前記第2の段階は、回転専用オーディオ変換である、項目22に記載のシステム。
(項目44)
空間化オーディオをレンダリングする方法であって、
第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることと、
聴取者の頭部姿勢を検出することと、
前記聴取者の検出された頭部姿勢に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることと
を含み、
前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成る、方法。
(項目45)
前記第1の複数のソースは、仮想音源である、項目44に記載の方法。
(項目46)
前記第2の複数のソースは、仮想音源である、項目44に記載の方法。
(項目47)
前記第1のオーディオデータをレンダリングした後かつ前記第2のオーディオデータをレンダリングする前に、前記聴取者の頭部姿勢を検出することをさらに含む、項目44に記載の方法。
(項目48)
前記第2のオーディオデータをレンダリングする直前に、前記聴取者の頭部姿勢を検出することをさらに含む、項目44に記載の方法。
(項目49)
前記第3の複数のソースは、前記第2の複数のソースより少ないソースから成る、項目44に記載の方法。
(項目50)
前記第3の複数のソースは、前記第2の複数のソースと等しい個数のソースから成る、項目44に記載の方法。
(項目51)
前記第1のオーディオデータは、完全オーディオストリームデータセットである、項目44に記載の方法。
(項目52)
前記第2の複数のソースは、8つまたはより少ないソースから成る、項目44に記載の方法。
(項目53)
前記第1の複数のソースのそれぞれは、異なる位置/配向に対応する、項目44に記載の方法。
(項目54)
前記第2の複数のソースのそれぞれは、異なる位置/配向に対応する、項目44に記載の方法。
(項目55)
前記第3の複数のソースのそれぞれは、異なる位置/配向に対応する、項目44に記載の方法。
(項目56)
前記第1の複数のソースは、第1の複数の位置に対応する、項目44に記載の方法。
(項目57)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置のそれぞれは、前記第1の複数の位置のそれぞれより前記聴取者に近い、
項目56に記載の方法。
(項目58)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置は、単一平面内に位置しない、
項目44に記載の方法。
(項目59)
前記第3のオーディオデータに基づいて、前記第3の複数のソースに対応する複数のスピーカを通して音を生産することをさらに含む、項目44に記載の方法。
(項目60)
前記第3の複数のソースのそれぞれは、異なる位置に対応し、
前記複数のスピーカのそれぞれは、個別の異なる位置における前記第3の複数のソースの個別のソースに対応する、
項目59に記載の方法。
(項目61)
前記聴取者の検出された頭部姿勢および前記第2の複数のソースの個別の位置/配向に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることをさらに含む、項目44に記載の方法。
(項目62)
前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることは、前記聴取者の平行移動より回転に敏感である、項目44に記載の方法。
(項目63)
前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることは、回転専用オーディオ変換である、項目44に記載の方法。
(項目64)
空間化オーディオをレンダリングする方法であって、
聴取者の第1の頭部姿勢を検出することと、
前記聴取者の検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることと、
前記聴取者の第2の頭部姿勢を検出することと、
前記聴取者の検出された第2の頭部姿勢に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることと
を含み、前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成る、方法。
(項目65)
前記第1の複数のソースは、仮想音源である、項目64に記載の方法。
(項目66)
前記第2の複数のソースは、仮想音源である、項目64に記載の方法。
(項目67)
前記第1のオーディオデータをレンダリングする前に、前記聴取者の第1の頭部姿勢を検出することをさらに含む、項目64に記載の方法。
(項目68)
前記第1のオーディオデータをレンダリングした後かつ前記第2のオーディオデータをレンダリングする前に、前記聴取者の第2の頭部姿勢を検出することをさらに含む、項目64に記載の方法。
(項目69)
前記第2のオーディオデータをレンダリングする直前に、前記聴取者の第2の頭部姿勢を検出することをさらに含む、項目64に記載の方法。
(項目70)
前記第3の複数のソースは、前記第2の複数のソースより少ないソースから成る、項目64に記載の方法。
(項目71)
前記第3の複数のソースは、前記第2の複数のソースと等しい個数のソースから成る、項目64に記載の方法。
(項目72)
前記第1のオーディオデータは、完全オーディオストリームデータセットである、項目64に記載の方法。
(項目73)
前記第2の複数のソースは、8つまたはより少ないソースから成る、項目64に記載の方法。
(項目74)
前記第1の複数のソースのそれぞれは、異なる位置/配向に対応する、項目64に記載の方法。
(項目75)
前記第2の複数のソースのそれぞれは、異なる位置/配向に対応する、項目64に記載の方法。
(項目76)
前記第3の複数のソースのそれぞれは、異なる位置/配向に対応する、項目64に記載の方法。
(項目77)
前記第1の複数のソースは、第1の複数の位置に対応する、項目64に記載の方法。
(項目78)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置のそれぞれは、前記第1の複数の位置のそれぞれより前記聴取者に近い、
項目77に記載の方法。
(項目79)
前記第2の複数のソースは、第2の複数の位置に対応し、
前記第2の複数の位置は、単一平面内に位置しない、
項目64に記載の方法。
(項目80)
前記第3のオーディオデータに基づいて、前記第3の複数のソースに対応する複数のスピーカを通して音を生産することをさらに含む、項目64に記載の方法。
(項目81)
前記第3の複数のソースのそれぞれは、異なる位置に対応し、
前記複数のスピーカのそれぞれは、個別の異なる位置における前記第3の複数のソースの個別のソースに対応する、
項目80に記載の方法。
(項目82)
前記聴取者の検出された第2の頭部姿勢および前記第2の複数のソースの個別の位置/配向に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることをさらに含む、項目64に記載の方法。
(項目83)
前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることは、前記聴取者の平行移動より回転に敏感である、項目64に記載の方法。
(項目84)
前記第2の複数のソースに対応する第2のオーディオデータを前記第3の複数のソースに対応する第3のオーディオデータにレンダリングすることは、回転専用オーディオ変換である、項目64に記載の方法。
(項目85)
非一過性コンピュータ可読媒体内に具現化されるコンピュータプログラム製品であって、前記コンピュータ可読媒体は、その上に記憶される命令のシーケンスを有し、前記命令のシーケンスは、プロセッサによって実行されると、前記プロセッサに、空間化オーディオをレンダリングするための方法を実行させ、前記方法は、
第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることと、
聴取者の頭部姿勢を検出することと、
前記聴取者の検出された頭部姿勢に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることと
を含み、前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成る、
コンピュータプログラム製品。
(項目86)
非一過性コンピュータ可読媒体内に具現化されるコンピュータプログラム製品であって、前記コンピュータ可読媒体は、その上に記憶される命令のシーケンスを有し、前記命令のシーケンスは、プロセッサによって実行されると、前記プロセッサに、空間化オーディオをレンダリングするための方法を実行させ、前記方法は、
聴取者の第1の頭部姿勢を検出することと、
前記聴取者の検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることと、
前記聴取者の第2の頭部姿勢を検出することと、
前記聴取者の検出された第2の頭部姿勢に基づいて、前記第2の複数のソースに対応する第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることと
を含み、前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成る、
コンピュータプログラム製品。
(項目87)
前記第2の複数のソースのそれぞれは、前記聴取者の頭部から約6インチ~約12インチに位置する、項目1に記載のシステム。
(項目88)
前記第2の複数のソースのそれぞれは、前記聴取者の頭部から約6インチ~約12インチに位置する、項目22に記載のシステム。
(項目89)
前記第2の複数のソースのそれぞれは、前記聴取者の頭部から約6インチ~約12インチに位置する、項目44に記載の方法。
(項目90)
前記第2の複数のソースのそれぞれは、前記聴取者の頭部から約6インチ~約12インチに位置する、項目64に記載の方法。
図面は、本発明の種々の実施形態の設計および可用性を図示する。図は、正確な縮尺で描かれておらず、類似構造または機能の要素は、図全体を通して同様の参照番号によって表されることに留意されたい。本発明の種々の実施形態の前述および他の利点および目的を得る方法をより深く理解するために、簡単に前述された本発明のより詳細な説明が、付随の図面に図示されるその具体的実施形態を参照することによって与えられるであろう。これらの図面は、本発明の典型的実施形態のみを描写し、その範囲の限定として見なされないことを理解した上で、本発明は、付随の図面の使用を通して付加的具体性および詳細とともに記載および説明されるであろう。
図1は、一実施形態による、ウェアラブルAR/MRユーザデバイスを通した拡張現実/複合現実のユーザのビューを描写する。
図2は、ユーザ/聴取者の頭部上に装着される、一実施形態による、空間化オーディオシステムの上面概略図である。
図3は、図2に描写されるようにユーザ/聴取者の頭部上に装着される、空間化オーディオシステムの背面概略図である。
図4は、図2に描写されるようにユーザ/聴取者の頭部上に装着される、空間化オーディオシステムのより詳細な上面概略図である。
図5-8は、種々の実施形態による、ユーザ/聴取者の頭部上に装着される、空間化オーディオシステムの部分的斜視および部分的概略図である。 図5-8は、種々の実施形態による、ユーザ/聴取者の頭部上に装着される、空間化オーディオシステムの部分的斜視および部分的概略図である。 図5-8は、種々の実施形態による、ユーザ/聴取者の頭部上に装着される、空間化オーディオシステムの部分的斜視および部分的概略図である。 図5-8は、種々の実施形態による、ユーザ/聴取者の頭部上に装着される、空間化オーディオシステムの部分的斜視および部分的概略図である。
図9は、一実施形態による、姿勢に敏感な空間化オーディオシステムの詳細な概略図である。
図10は、実際の物理的オーディオソースによって生成された空間化音場の概略図である。
図11は、一実施形態による、種々の仮想音源および仮想オブジェクトを含む、空間化オーディオ体験の背面概略図である。
図12は、図11に描写される空間化オーディオ体験の側面概略図である。
図13および14は、一実施形態による、姿勢に敏感な空間化オーディオ体験を受けているユーザ/聴取者の上面図である。図13では、ユーザ/聴取者は、正面に向く一方、図14では、ユーザ/聴取者は、左に向く。 図13および14は、一実施形態による、姿勢に敏感な空間化オーディオ体験を受けているユーザ/聴取者の上面図である。図13では、ユーザ/聴取者は、正面に向く一方、図14では、ユーザ/聴取者は、左に向く。
図15および17は、2つの実施形態による、空間化オーディオシステムを利用した遅れフレーム時間ワーピングの姿勢に敏感なオーディオ処理の方法を描写する、フローチャートである。
図16は、一実施形態による、遅れフレーム時間ワーピングオーディオ処理を図式的に描写する。 図15および17は、2つの実施形態による、空間化オーディオシステムを利用した遅れフレーム時間ワーピングの姿勢に敏感なオーディオ処理の方法を描写する、フローチャートである。
本発明の種々の実施形態は、単一実施形態または複数の実施形態における空間化オーディオシステムのためのシステム、方法、および製造品を対象とする。本発明の他の目的、特徴、および利点は、詳細な説明、図、および請求項に説明される。
ここで、種々の実施形態が、当業者が本発明を実践することを可能にするように、本発明の例証的実施例として提供される、図面を参照して詳細に説明されるであろう。留意すべきこととして、以下の図および実施例は、本発明の範囲を限定することを意味するものではない。本発明のある要素が、公知のコンポーネント(または方法またはプロセス)を使用して部分的または完全に実装され得る場合、本発明の理解のために必要なそのような公知のコンポーネント(または方法またはプロセス)のそれらの一部のみが、説明され、そのような公知のコンポーネント(または方法またはプロセス)の他の部分の詳細な説明は、本発明を曖昧にしないように、省略されるであろう。さらに、種々の実施形態は、例証として本明細書に参照されるコンポーネントの現在および将来的公知の均等物を包含する。
空間化オーディオシステムは、AR/MRシステムから独立して実装されてもよいが、以下の多くの実施形態は、例証目的のためだけに、AR/MRシステムに関連して説明される。さらに、本明細書で説明される空間化オーディオシステムはまた、VRシステムと同一の様式で使用されてもよい。
(問題およびソリューションの概要)
2-D/3-Dシネマシステム、2-D/3-Dビデオゲーム、およびVR/AR/MRシステムの一部との併用またはそれを形成するためのもの等の空間化オーディオシステムは、実世界の物理的な3-D空間内の仮想場所とともに、仮想オブジェクトに対応する空間化オーディオをレンダリング、提示、および放出する。本願で使用されるように、オーディオまたは音の「放出」、「生産」、または「提示」は、限定ではないが、ヒトの聴覚系によって音(亜音速低周波数音波を含む)として知覚され得る、音波の形成を生じさせることを含む。これらの仮想場所は、典型的には、座標系(例えば、原点における空間化オーディオシステムと空間化オーディオシステムに対する既知の配向とを伴う、座標系)を使用して、空間化オーディオシステムに「把握」される(すなわち、その中に記録される)。仮想オブジェクトと関連付けられた仮想オーディオソースは、コンテンツ、位置、および配向を有する。仮想オーディオソースの別の特性は、聴取者からの距離の2乗として減少する、音量である。しかしながら、現在の空間化オーディオシステム(例えば、5.1空間化オーディオシステム、7.1空間化オーディオシステム、シネマオーディオシステム、およびさらにいくつかの頭部装着型オーディオシステム)は全て、空間化オーディオシステムが現実的空間化オーディオを生成し得る、聴取者の数および特性を限定する、聴取者位置および配向制限を有する。
本明細書に説明されるいくつかの実施形態による、頭部装着型空間化オーディオシステムは、種々の仮想オブジェクトと関連付けられたオーディオが、個別の仮想オブジェクトに対応する仮想位置から生じるように現れるように、ユーザ/聴取者の姿勢(例えば、位置および配向)を追跡し、空間化オーディオをより正確にレンダリングする。本明細書に説明されるいくつかの実施形態による、システムは、種々の仮想オブジェクトと関連付けられた指向性オーディオが、個別の仮想オブジェクトのために適切な仮想方向に(例えば、仮想キャラクタの頭部の背後からではなく、仮想キャラクタの口から)伝搬するように現れるように、ユーザ/聴取者の頭部姿勢を追跡し、空間化オーディオをより正確にレンダリングする。さらに、本明細書に説明されるいくつかの実施形態による、システムは、種々の仮想オブジェクトと関連付けられたオーディオが、物理的および仮想オブジェクトを適切に反映して現れるように、空間化オーディオのそれらのレンダリングにおいて他の実際の物理的および仮想オブジェクトを含む。
しかしながら、姿勢追跡ベースのオーディオレンダリングを含む、頭部装着型空間化オーディオシステムでさえ、姿勢変化の検出と、それと関連付けられた仮想音の提示との間のシステム遅れおよび待ち時間を被りやすい。本システム遅れおよび待ち時間は、仮想音源の仮想位置と仮想音源に対応する仮想音の実際位置との間の認知的不協和につながり得る。システム遅れおよび待ち時間は、特に、高速姿勢変化(例えば、高速頭部移動)に伴って問題となり、これは、認知的不協和の大きさ/程度を増加させ得る。
本明細書に説明される空間化オーディオシステムは、2段階のオーディオデータレンダリングプロセスを実施する。第1の段階では、システムは、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングする。第1の段階は、頭部姿勢推定を考慮し得る。第2の複数のソースは、第1の複数のソースと比較して、より少ないソースを有し、それによって、オーディオデータを簡略化する。第2の段階では、システムは、第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータ(例えば、システムスピーカ)にレンダリングする。第2の段階は、ユーザ/聴取者の直近の利用可能な頭部姿勢推定を考慮し、第3のオーディオデータをより正確にレンダリングする。第1の段階における前処理は、第3のオーディオデータをレンダリングするために要求されるプロセッササイクルおよび時間を低減させている。したがって、オーディオ処理を2つの段階に分割し、より直近の頭部姿勢を第2の後のかつより単純である段階において考慮することは、頭部姿勢の推定とそれに基づく仮想音の提示との間のシステム遅れおよび待ち時間を低減させる。
(空間化オーディオシステム)
AR/MRシナリオは、多くの場合、実世界オブジェクトに関連して、仮想オブジェクトに対応する画像および音の提示を含む。例えば、図1を参照すると、拡張現実場面100が、描写され、AR/MR技術のユーザには、人物、木、背景の建物、および実世界の物理的コンクリートプラットフォーム104を特徴とする、実世界の物理的公園状設定102が見える。これらのアイテムに加えて、AR/MR技術のユーザはまた、実世界の物理的プラットフォーム104上に立っている仮想ロボット像106およびマルハナバチの擬人化されたように見える、飛んでいる仮想漫画のようなアバタキャラクタ108とが「見える」と知覚するが、これらの仮想オブジェクト106、108は、実世界には存在しない。
真実味がある、または通用する、AR/MR場面100を提示するために、仮想オブジェクト(例えば、ロボット像106およびマルハナバチ108)は、それぞれ、それと関連付けられた同期される空間化オーディオを有してもよい。例えば、ロボット像106と関連付けられた機械的音が、それらがロボット像106に対応する仮想場所から発出するように現れるように生成されてもよい。同様に、マルハナバチ108と関連付けられたブンブン飛ぶ音が、それらがマルハナバチ108に対応する仮想場所から発出するように現れるように生成されてもよい。
空間化オーディオは、位置に加え、配向を有してもよい。例えば、マルハナバチ108と関連付けられた「漫画状」音声が、マルハナバチ108の口110から発出するように現れてもよい。マルハナバチ108は、図1に描写されるシナリオでは、視認者/聴取者に向いているが、マルハナバチ108は、視認者/聴取者が仮想マルハナバチ108の背後に移動した場合等の別のシナリオでは、視認者/聴取者から背くような向きでもよい。その場合、マルハナバチ108の音声は、そのシナリオにおける他のオブジェクト(例えば、ロボット像106)から反射された音としてレンダリングされるであろう。
いくつかの実施形態では、仮想音は、実際の物理的オブジェクトから発出するように現れるように生成されてもよい。例えば、仮想鳥音が、AR/MR場面100内の実際の木から生じるように現れるように生成されてもよい。同様に、仮想発話が、AR/MR場面100内の実際の人々から生じるように現れるように生成されてもよい。AR/MR会議では、仮想発話が、実際の人物の口から発出するように現れるように生成されてもよい。仮想発話は、実際の人物の音声のような音または完全に異なる音声であってもよい。一実施形態では、仮想発話は、聴取者の周囲の複数の音源から同時に発出するように現れてもよい。別の実施形態では、仮想発話は、聴取者の身体内から発出するように現れてもよい。
同様に、VRシナリオもまた、心理音響効果を最小限にしながら、より正確かつあまり邪魔にならない、空間化オーディオ生成および送達から利点を享受し得る。AR/MRシナリオのように、VRシナリオもまた、空間化オーディオの1つ以上の移動する視認者/聴取者ユニットレンダリングを考慮しなければならない。位置、配向、および音量の観点からの空間化オーディオの正確なレンダリングは、VRシナリオの没入感を改良することができる、または少なくともVRシナリオから注意散漫させない。
図2は、聴取者の頭部200の上方からの上方視において、聴取者の頭部200上に装着される、空間化オーディオシステム202を図式的に描写する。図2に示されるように、空間化オーディオシステム202は、フレーム204と、フレーム204に取り付けられる、4つのスピーカ206-1、206-2、206-3、206-4とを含む。スピーカ206-1は、空間化オーディオシステム202が聴取者の頭部200上に装着されると、スピーカ206-1が、聴取者の頭部200の正面Fおよび左Lに来るようにフレーム204に取り付けられる。スピーカ206-2は、空間化オーディオシステム202が聴取者の頭部200上に装着されると、スピーカ206-2が聴取者の頭部200の正面Fおよび右Rに来るようにフレーム204に取り付けられる。スピーカ206-3は、空間化オーディオシステム202が聴取者の頭部200上に装着されると、スピーカ206-3が聴取者の頭部200の背後Bおよび左Lに来るようにフレーム204に取り付けられる。スピーカ206-4は、空間化オーディオシステム202が聴取者の頭部200上に装着されると、スピーカ206-4が聴取者の頭部200の背後Bおよび右Rに来るようにフレーム204に取り付けられる。スピーカ206-1、206-2、206-3、206-4は全て、聴取者の頭部200に向かって向けられる。図2に描写されるスピーカ設置は、空間化オーディオの生成を促進する。
本願で使用されるように、「スピーカ」は、限定ではないが、典型的ヒトの聴覚範囲外の音を含む、音を生成する、任意のデバイスを含む。音は、基本的に、空気の分子の移動であるため、多くの異なるタイプのスピーカが、音を生成するために使用されることができる。図2に描写されるスピーカ206-1、206-2、206-3、206-4のうちの1つ以上のものは、表面を振動させ、音を生成する、従来のダイナミックスピーカまたは振動変換器であることができる。振動変換器を含む、実施形態では、変換器は、限定ではないが、フレーム204および聴取者の頭蓋骨を含む、任意の表面を振動させ、音を生成し得る。スピーカ206-1、206-2、206-3、206-4は、スピーカ206-1、206-2、206-3、206-4が交換および/またはアップグレードされ得るように、フレーム204に除去可能に取り付けられてもよい(例えば、磁気的に)。
図3は、聴取者の頭部200の背後の後方視からの図2に描写される空間化オーディオシステム202を図式的に描写する。図3に示されるように、空間化オーディオシステム202のフレーム204は、空間化オーディオシステム202が聴取者の頭部200上に装着されると、フレーム204の正面が聴取者の頭部200の上方Aに来て、フレーム204の背面が聴取者の頭部200の下方Uに来るように構成されてもよい。空間化オーディオシステム202の4つのスピーカ206-1、206-2、206-3、206-4は、フレーム204に取り付けられるため、空間化オーディオシステム202が聴取者の頭部200上に装着されると、スピーカもまた、聴取者の頭部200の上方Aに(206-1、206-2)、そして下方Uに(206-3、206-4)配置される。図3に描写されるスピーカ設置は、空間化オーディオ、特に、聴取者の頭部200の上方Aおよび下方Uの平面に位置する仮想オーディオソースを含む、空間化オーディオの生成を促進する。
スピーカ206-1、206-2、206-3、206-4は、聴取者の頭部200に向かって向けられると述べられたが、図4に示されるように、聴取者の耳208-L、208-Rに向かって向けられるようにスピーカ206-1、206-2、206-3、206-4を説明することがより正確である。図4は、図2に描写されるものに類似する、上面図である。スピーカ206-1、206-3は、聴取者の左耳208-Lに向かって向けられる。スピーカ206-2、206-4は、聴取者の右耳208-Rに向かって向けられる。スピーカ206-1、206-2、206-3、206-4を聴取者の耳208-L、208-Rに向かって向けることは、空間化オーディオを聴取者のためにレンダリングするために必要とされる音量を最小限にする。これは、ひいては、空間化オーディオシステム202から漏出する(すなわち、意図されない聴取者に向かって指向される)音の量を低減させる。各スピーカ206-1、206-2、206-3、206-4は、音波の主に円錐形ブルームを生成し、空間化オーディオを聴取者の耳208-L、208-Rのうちの1つに向かって集束させ得る。フレーム204はまた、空間化オーディオを聴取者の耳208-L、208-Rに向かって集束させるように構成されてもよい。例えば、フレーム204は、音響導波管を含み、または形成し、空間化オーディオを指向してもよい。
図2-4におけるシステム202は、4つのスピーカ206-1、206-2、206-3、206-4を含むが、他の空間化オーディオシステムは、より少ないまたはより多いスピーカを含んでもよい。一実施形態では、空間化オーディオシステムは、Z軸に沿って(ユーザ/聴取者に対して)少なくとも2つの平面において相互から変位される、6つのスピーカ(および対応する音チャネル)を含み、ユーザ/聴取者の頭部に対して傾斜する音源をより正確かつ精密に結像する。
ここで図5-8を参照すると、いくつかの例示的空間化オーディオシステムコンポーネントオプションが、図示される。図5に示されるように、複数のスピーカ206に結合されるフレーム204を含む、頭部搭載型空間化オーディオシステム202が、聴取者によって、聴取者の頭部200上に装着される。以下は、例示的空間化オーディオシステム202の可能性として考えられるコンポーネントを説明する。説明されるコンポーネントの全てが、空間化オーディオシステム202を実装するために必要なわけではない。
図5-8では図示されないが、別の対のスピーカ206は、聴取者の頭部206の他側上の聴取者の頭部200に隣接して位置付けられ、空間化音を提供する。したがって、本空間化オーディオシステム202は、図2-4に描写されるシステムのように、合計4つのスピーカ206を含む。図5、7、および8に描写される空間化オーディオシステム202内のスピーカ206は、個別のフレーム204に取り付けられるが、空間化オーディオシステム202のスピーカ206の一部または全部は、図6に描写される実施形態に示されるように、ヘルメットまたは帽子212に取り付けられる、またはその中に内蔵されてもよい。
空間化オーディオシステム202の空間化オーディオシステムスピーカ206は、有線導線および/または無線コネクティビティ214等によって、ローカル処理およびデータモジュール216に動作可能に結合され、これは、フレーム204に固定して取り付けられる、図6に描写される実施形態に示されるように、ヘルメットまたは帽子212に固定して取り付けられる/その中に内蔵される、図7の実施形態に示されるように、リュック式構成において聴取者の胴体218に除去可能に取り付けられる、または図8の実施形態に示されるように、ベルト結合式構成において聴取者の腰部220に除去可能に取り付けられる等、種々の構成において搭載されてもよい。
ローカル処理およびデータモジュール216は、1つ以上の電力効率的プロセッサまたはコントローラと、フラッシュメモリ等のデジタルメモリとを備えてもよく、両方とも、データの処理、キャッシュ、および記憶を補助するために利用されてもよい。データは、画像捕捉デバイス(可視および赤外線光カメラ等)、慣性測定ユニット(加速度計およびジャイロスコープを含み得る、「IMU」)、コンパス、マイクロホン、GPSユニット、および/または無線デバイス等、フレーム204に動作可能に結合され得るセンサから捕捉されてもよい。代替として、または加えて、データは、遠隔処理モジュール222および/または遠隔データリポジトリ224を使用して入手および/または処理され、可能性として、そのような処理または読出後、スピーカ206による音の生成を促進/指向してもよい。ローカル処理およびデータモジュール216は、これらの遠隔モジュール222、224が、相互に動作可能に結合され、ローカル処理およびデータモジュール216へのリソースとして利用可能であるように、有線または無線通信リンク226、228等を介して、遠隔処理モジュール222および遠隔データリポジトリ224に動作可能に結合されてもよい。
一実施形態では、遠隔処理モジュール222は、オーディオデータおよび/または情報を分析および処理するように構成される、1つ以上の比較的に強力なプロセッサまたはコントローラを備えてもよい。一実施形態では、遠隔データリポジトリ224は、比較的に大規模デジタルデータ記憶設備を備えてもよく、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。しかしながら、システム遅れおよび待ち時間を最小限にするために、仮想音レンダリング(特に、検出された姿勢情報に基づく)は、ローカル処理およびデータモジュール216に限定されてもよい。一実施形態では、全てのデータは、記憶され、全ての算出は、ローカル処理およびデータモジュール216において実施され、任意の遠隔モジュールからの完全に自律的使用を可能にする。
1つ以上の実施形態では、空間化オーディオシステムは、典型的には、特定の聴取者の頭部のために適合され、スピーカは、聴取者の耳に整合される。これらの構成ステップは、聴取者が、頭痛、吐き気、不快感等の任意の生理学的副作用を生じさせずに、最適空間化オーディオ体験を提供されることを確実にするために使用されてもよい。したがって、1つ以上の実施形態では、聴取者装着型空間化オーディオシステムは、個々の聴取者毎に構成され(物理的およびデジタル的の両方において)、プログラムのセットが、聴取者のために具体的に較正されてもよい。例えば、いくつかの実施形態では、聴取者装着型空間化オーディオシステムは、頭部装着型空間化オーディオシステムのスピーカと聴取者の耳との間の個別の距離と、聴取者の頭部の3-Dマッピングとを検出する、または提供されてもよい。これらの測定は全て、所与の聴取者に適合するようにカスタマイズされた頭部装着型空間化オーディオシステムを提供するために使用されてもよい。他の実施形態では、そのような測定は、空間化オーディオ機能を実施するために必要ではない場合がある。例えば、緩く適合された空間化オーディオシステムは、種々の聴取者によって快適に使用され得るが、可能性として、仮想オーディオソースのあまり正確ではない空間化を伴う。
空間化オーディオシステムを実装するために必要とされないが、ディスプレイ230が、図5-8に示されるように、フレーム204に結合されてもよい(例えば、空間オーディオ体験に加え、光学AR/MR体験のために)。例示的AR/MRディスプレイは、米国特許出願第14/738,877号(弁理士整理番号第ML.20019.00号)および第14/555,585号(弁理士整理番号第ML.20011.00号)(その内容は、参照することによって前述で本明細書に組み込まれている)に説明される。ディスプレイ230を含む、実施形態では、ローカル処理およびデータモジュール216と、遠隔処理モジュール222と、遠隔データリポジトリ224とは、空間オーディオデータに加え、3-Dビデオデータを処理してもよい。
図9は、一実施形態による、有線導線および/または無線コネクティビティ814を介してローカル処理およびデータモジュール816に動作可能に結合される複数のスピーカ806-1、806-2を含む、姿勢に敏感な空間化オーディオシステム802を描写する。姿勢に敏感な空間化オーディオシステム802はまた、有線導線および/または無線コネクティビティ814を介してローカル処理およびデータモジュール816に動作可能に結合される、頭部姿勢センサ832を含む。頭部姿勢センサ832は、聴取者/ユーザの頭部姿勢データを収集するように構成される。頭部姿勢センサ832は、画像捕捉デバイス(可視および赤外線光カメラ等)、慣性測定ユニット(加速度計およびジャイロスコープを含む、IMU)、コンパス、マイクロホン、GPSユニット、または無線デバイスのうちの1つ以上のものを含んでもよい。図9に描写される姿勢に敏感な空間化オーディオシステム802は、2つのみのスピーカ806-1、806-2を含むが、他の実施形態による、空間化オーディオシステムは、より多くのスピーカを含んでもよい。
姿勢に敏感な空間化オーディオシステム802はさらに、頭部姿勢プロセッサ834を含み、少なくとも、頭部姿勢センサ832によって収集される頭部姿勢データに基づいて、姿勢に敏感な空間化オーディオシステム802を装着する聴取者/ユーザの頭部姿勢(例えば、位置および配向)を決定する。本願で使用されるように、「頭部姿勢プロセッサ」は、限定ではないが、コンピュータが頭部姿勢を決定し得る前に、汎用コンピュータに追加されなければならない、コンピュータの1つ以上の別個かつ独立したソフトウェアおよび/またはハードウェアコンポーネント、およびそこに追加されるそのようなコンポーネントを有するコンピュータを含む。
姿勢に敏感な空間化オーディオシステム802はさらに、空間化オーディオプロセッサ836を含み、少なくとも、頭部姿勢プロセッサ834によって決定された頭部姿勢に基づいて、姿勢に敏感な空間化オーディオシステム802を装着する聴取者/ユーザに送達されるべき空間化オーディオのための空間化オーディオデータを生成する。生成された空間化オーディオデータは、空間化音場内の仮想オーディオソース毎に、コンテンツ、位置、配向、および音量データを含んでもよい。本願で使用されるように、「オーディオプロセッサ」は、限定ではないが、コンピュータが空間化オーディオデータを生成し得る前に、汎用コンピュータに追加されなければならない、コンピュータの1つ以上の別個かつ独立したソフトウェアおよび/またはハードウェアコンポーネント、およびそこに追加されるそのようなコンポーネントを有するコンピュータを含む。空間化オーディオプロセッサ836はまた、空間化オーディオデータに基づいて、複数のスピーカ806-1、806-2のためのオーディオ信号を生成し、空間化オーディオを聴取者/ユーザに送達してもよい。図9に図式的に描写される姿勢に敏感な空間化オーディオシステム802は、図5-8に描写される空間化オーディオシステム202に類似する様式において、コンポーネントに分割されてもよい。
図10は、実際の物理的オーディオソース302によって生成されるような空間化音場300を描写する。実際の物理的音源302は、場所および配向を有する。実際の物理的音源302は、多くの部分を有する、音波を生成する。聴取者の頭部200に対する実際の物理的音源302の場所および配向に起因して、音波の第1の部分306は、聴取者の左耳208-Lに指向される。音波の第2の部分306’は、聴取者の頭部200から離れ、空間化音場300内のオブジェクト304に向かって指向される。音波の第2の部分306’は、オブジェクト304から反射し、反射された第3の部分306’’を生成し、これは、聴取者の右耳208-Rに指向される。音波の第1の部分306および第2および第3の部分306’、306’’によって進行される異なる距離のため、これらの部分は、若干異なる時間において、聴取者の左および右耳208-L、208-Rに到着するであろう。さらに、オブジェクト304は、聴取者の右耳208-Rに到達する前に、音波の反射された第3の部分306’’の音を変調させ得る。
オブジェクト304が存在しないときでも、実際の物理的音源302からの音波が、聴取者の両耳208-L、208-Rに聞こえるであろう。音源302が、聴取者の左に配置される場合(図10におけるように)、そこから発せられる音波は、音が、左耳208-Lにおいてより早く、右耳208-Rにおいてより遅く(例えば、800マイクロ秒)現れ得るように、聴取者によって聞こえ得る。実際、ヒトの脳の聴覚中枢は、本遅延を分析し、空間化音源を位置特定する。音はまた、右耳208-Rと比較して、左耳208-Lにおいてより高音であるように現れてもよい。
図10に描写される空間化音場300は、1つのみの実際の物理的音源302と、1つのオブジェクト304とを含む、非常に単純なものである。本単純空間化音場300を再現する空間化オーディオシステム202さえ、音波の種々の反射および変調を考慮しなければならない。その中の音波と相互作用する、1つを上回る音源および/または1つを上回るオブジェクトを伴う空間化音場は、指数関数的により複雑になる。空間化オーディオシステム202は、これらのますます複雑な空間化音場を再現するために、ますます強力でなければならない。図9に描写される空間化オーディオプロセッサ236は、ローカル処理およびデータモジュール216の一部であるが、より強力な空間化オーディオプロセッサ236は、他の実施形態では、ローカル処理およびデータモジュール216における空間および電力を節約するために、遠隔処理モジュール222の一部であってもよい。
(空間化オーディオ体験)
図11は、一実施形態による、ユーザ/聴取者の頭部200の背後の正面に向いた斜方視からの空間化オーディオ体験400を描写する。空間化オーディオ体験400を実装するために、空間化オーディオシステムは、ユーザ/聴取者および複数のスピーカの相対的位置および配向を提供される。例えば、ユーザ/聴取者は、既知の「適合」を伴って、頭部搭載型空間化オーディオシステム(図示せず)を装着し得る。
空間化オーディオ体験400は、第1および第2の仮想オーディオソース402-1、402-2を含む。これらの仮想オーディオソース402-1、402-2は、ユーザに提示される、視覚的情報に対応し得る。例えば、第1の仮想オーディオソース402-1は、AR/MR体験内の仮想キャラクタに対応してもよく、第2の仮想オーディオソース402-2は、AR/MR体験内の仮想ホーンに対応してもよい。仮想キャラクタおよび仮想ホーンは、空間化オーディオ/AR/MRシステムのフレームに結合されるディスプレイ(図11には図示せず、図5-8参照)上でユーザに表示されてもよい。他の実施形態では、仮想オーディオソース402-1、402-2は、任意の視覚的情報に対応しなくてもよい。
図11はまた、第1の仮想オーディオソース402-1(すなわち、仮想キャラクタ)に対応する音波の部分406を描写し、これは、聴取者の左耳208-Lに指向される。図11はさらに、第2の仮想オーディオソース402-2(すなわち、仮想ホーン)に対応する音波の第1の部分406’を描写し、これは、仮想オブジェクト404に指向される。第1の部分406’は、仮想オブジェクト404から反射し、第2の部分406’’を形成し、これは、聴取者の右耳208-Rに指向される。
図12は、側方視から、図11に描写される空間化オーディオ体験400実施形態を描写する。図12は、第1の仮想オーディオソース402-1(すなわち、仮想キャラクタ)が、事実上、聴取者の左耳208-Lの若干下方に位置することを示す。図12はまた、第2の仮想オーディオソース402-2(すなわち、仮想ホーン)が、事実上、聴取者の右耳208-Rの若干上方に位置し、仮想オブジェクト404が、ある仮想高さを聴取者の右耳208-Rと第2の仮想オーディオソース402-2との間に有することを示す。
いくつかの実施形態では、第1および第2の仮想オーディオソース402-1(すなわち、仮想キャラクタ)および402-2(すなわち、仮想ホーン)は、AR/MRディスプレイ204を使用して表示される。AR/MRディスプレイは、第2の仮想オーディオソース402-2の仮想場所が視認者の位置または姿勢から独立して仮想世界内に設定されるように、第2の仮想オーディオソース402-2(および任意の他の仮想オブジェクト)を「世界中心」ビュー内に表示するように構成されることができる。故に、視認者が、その頭部を第2の仮想オーディオソース402-2から離れるように旋回させる場合、もはや仮想オブジェクトが見えないであろう。
第1および第2の仮想オーディオソース402-1、402-2は、実際の物理的場所を有していないが、その仮想場所は、第1および第2の仮想オーディオソース402-1、402-2に対応する個別の空間化オーディオをレンダリングする際に重要である。図11および12に描写される空間化オーディオ体験400は、2つのみの仮想オーディオソース402-1、402-2を含むが、他の空間化オーディオ体験は、より多いまたはより少ない仮想オーディオソースを含んでもよい。例えば、典型的映画場面は、背景音楽、背景雑音、物理的アクションと関連付けられた音、および対話等の多くの仮想オーディオソースを含んでもよい。これらの多くの仮想オーディオソースを正確に再現することは、空間化オーディオ体験の聴取者の享受を増加させる。
空間化オーディオ体験400は、体験400を生成および送達するために使用される、本明細書におけるAR/MRおよび空間化オーディオシステムの実施形態を参照して説明された。他のビデオおよびオーディオシステムが、異なるレベルの正確度および精度ではあるが、空間化オーディオ体験400を送達するように構成され得る。
空間化オーディオ体験が、概して、上記に説明されたが、いくつかの空間化オーディオ体験は、ユーザ/聴取者の姿勢を考慮する。例えば、オーディオレンダリングは、以下に説明されるように、ユーザ/聴取者の検出された姿勢に基づいて修正されてもよい。
(姿勢に敏感な空間化オーディオシステム)
図13は、上方視から、姿勢に敏感な空間化オーディオ体験700をユーザに提示するように構成される、姿勢に敏感な空間化オーディオシステム802を描写する。例えば、姿勢に敏感な空間化オーディオ体験700は、第1および第2の仮想オーディオソース702-1、702-2を含む。第1の仮想オーディオソース702-1は、AR/MR体験内の仮想キャラクタに対応してもよく、第2の仮想オーディオソース702-2は、AR/MR体験内の仮想ホーンに対応してもよい。空間化オーディオ体験700は、「世界中心」体験であって、仮想オーディオソース702-1、702-2は、ユーザの姿勢から独立して、世界内に個別の仮想場所を有する。
ユーザは、フレーム804と、フレーム804に取り付けられる、4つのスピーカ806-1、806-2、806-3、806-4とを含む、空間化オーディオシステム802を装着している。スピーカ806-1は、空間化オーディオシステム802が聴取者の頭部200上に装着されると、スピーカ806-1が、聴取者の頭部200の正面Fおよび左Lに来るように、フレーム804に取り付けられる。スピーカ806-2は、空間化オーディオシステム802が聴取者の頭部200上に装着されると、スピーカ806-2が聴取者の頭部200の正面Fおよび右Rに来るように、フレーム804に取り付けられる。スピーカ806-3は、空間化オーディオシステム802が聴取者の頭部200上に装着されると、スピーカ806-3が聴取者の頭部200の背後Bおよび左Lに来るように、フレーム804に取り付けられる。スピーカ806-4は、空間化オーディオシステム802が聴取者の頭部200上に装着されると、スピーカ806-4が聴取者の頭部200の背後Bおよび右Rに来るように、フレーム804に取り付けられる。スピーカ806-1、806-2、806-3、806-4は全て、聴取者の頭部200に向かって向けられている。
ユーザの頭部200が図13に示される姿勢にある状態では、第1および第2の仮想オーディオソース702-1、702-2からの仮想音は、それぞれ、ユーザの頭部200の正面Fおよび右Rから発出するように現れるはずである。故に、第1の仮想オーディオソース702-1に対応する仮想音は、ユーザの頭部200の正面Fに位置するスピーカ806-1、806-2から放出され得る。同様に、第2の仮想オーディオソース702-2に対応する仮想音は、ユーザの頭部200の右Rに位置するスピーカ806-2、806-4から放出され得る。仮想音がスピーカから放出されるようなオーディオデータのレンダリングは、第1および第2の仮想オーディオソース702-1、702-2の仮想位置と一致する空間化オーディオ体験をもたらす。
図14は、図13に描写される同一の姿勢に敏感な空間化オーディオ体験700をユーザに提示する姿勢に敏感な空間化オーディオシステム802を、図13におけるものと同様に上方視から描写する。しかしながら、図14では、ユーザ/聴取者の頭部200は、その上に装着される空間化オーディオシステム802とともに、左に90°旋回されている。本構成では、空間化オーディオシステム802の基準のフレームは、左に90°旋回されている。したがって、ユーザ/聴取者の頭部200の右側Rは、第1の仮想オーディオソース702-1に向く一方、ユーザ/聴取者の背後200の背面Bは、第2の仮想オーディオソース702-2に向く。
ユーザの頭部200が図14に示される姿勢にある状態では、第1および第2の仮想オーディオソース702-1、702-2からの仮想音は、それぞれ、ユーザの頭部200の右Rおよび背後Bから発出するように現れるはずである。故に、第1の仮想オーディオソース702-1に対応する仮想音は、ユーザの頭部200の右Rに位置するスピーカ806-2、806-4から放出され得る。同様に、第2の仮想オーディオソース702-2に対応する仮想音は、ユーザの頭部200の背後Bに位置するスピーカ806-3、806-4から放出され得る。ユーザ/聴取者の姿勢を考慮しながら、仮想音が適切なスピーカから放出されるように、オーディオデータをレンダリングすることは、第1および第2の仮想オーディオソース702-1、702-2の仮想位置と一致する空間化オーディオ体験をもたらす。そのような姿勢に敏感な空間化オーディオ体験は、世界中心様式で配置される仮想オブジェクトを伴う、真実味のあるまたは意にかなう仮想世界を助長する。
図9に描写される姿勢に敏感な空間化オーディオシステム802に関して前述のように、空間化オーディオシステム802は、ユーザ/聴取者の頭部姿勢へのアクセスを有し、その頭部姿勢を利用して、オーディオデータをレンダリングし、オーディオデータに対応するオーディオを提示する。提示されるオーディオは、仮想オブジェクトおよびユーザ/聴取者の頭部200の位置と一致する。例えば、第2の仮想オーディオソース702-2(仮想ホーン)に対応するもの等、姿勢に敏感な空間化オーディオ体験700内の音は、ユーザ/聴取者が、聴取者の頭部200の右かつ若干上方に位置するようにオーディオソースを知覚するように提示されるべきである(図11および12参照)。このように、空間化オーディオシステム802は、ユーザ/聴取者毎に、空間化オーディオをより正確かつ精密に生産することができる。
図13および14に描写される空間化オーディオシステム802は、4つのスピーカ806-1、806-2、806-3、806-4を含むが、他の空間化オーディオシステムは、より少ないまたはより多いスピーカ806を含んでもよい。スピーカ806の数、タイプ、位置、および配向は、ユーザ/聴取者への空間化オーディオの提示を最適化するために協調されてもよい。例えば、より大きいスピーカ(例えば、サブウーファ)が、低周波数音を提示するために使用されてもよい一方、より小さいスピーカが、高周波数および中間周波数音を提示するために使用されてもよい。
種々の実施形態による、空間化オーディオシステムの種々の側面を説明したので、空間化オーディオシステム(例えば、202、802)を使用して空間化オーディオを提示する(例えば、空間化オーディオ体験において)ための方法が、ここで説明されるであろう。説明される方法は、姿勢に敏感であって、より正確かつ精密な空間化オーディオ体験を生成する。加えて、説明される方法は、遅れフレーム時間ワーピングオーディオ処理を含み、システム遅れ/待ち時間関連アーチファクトの量を低減させる。
(感覚待ち時間およびオーディオ処理)
上記に説明されるように、感覚待ち時間は、ユーザ/聴取者の頭部姿勢に関する空間化オーディオシステムの情報が、姿勢センサが(例えば、頭部姿勢変化をもたらす頭部および/または身体の)運動を捕捉する時間と、オーディオデータが運動に基づいてレンダリングされ、対応する音がユーザ/聴取者に提示される時間との間で変化すると、仮想音源が世界中心様式において仮想世界に「繋げられる」空間化オーディオシステムにおいて、問題(例えば、アーチファクト)を生じさせる。例示的感覚待ち時間アーチファクトは、仮想オブジェクトの仮想場所と異なる仮想場所から発出するように現れる、仮想オブジェクトに対応する仮想音である。ユーザ/聴取者の頭部の回転および傾斜は、回転方向と比較して平行移動方向を迅速に変化させる頭部の限定された能力のため、ユーザ/聴取者の頭部の平行移動より感覚待ち時間問題が大きい。方向変化の速度は、姿勢または運動捕捉と仮想音提示との間の典型的時間が約ミリ秒(「ms」)であるため、感覚待ち時間問題をもたらす変化のタイプを決定する。
ヒトの脳は、音(例えば、ビート)を区別し、回転平面(例えば、図3では、正面、右、背面、左)におけるソースを位置特定することに優れている。したがって、オーディオ「フレーム」は、現実的空間化オーディオ体験をユーザ/聴取者に提示するために、約4~10ms毎に生成/更新されなければならない。比較として、現実的視覚的体験(例えば、動画)を提示するために表示される視覚的「フレーム」は、約8~17ms毎に生成/更新されることができる。
ビデオ処理が、典型的には、形状を1つ以上の平坦投影平面の中にマージするが、オーディオ処理が、明確に異なる位置および配向を伴う複数の音源(例えば、「スピーカ」)を音検出器(例えば、「マイクロホン」)のためにいくつかのチャネルの中にマージするため、オーディオ処理は、ビデオ処理と異なる。オーディオ処理は、音源のマージとして説明されるが、オーディオデータは、「マージ」されたそれらの音源に対応する。
(遅れフレーム時間ワーピングオーディオ処理)
図15は、一実施形態による、感覚待ち時間アーチファクトを最小限にする、姿勢に敏感なオーディオ処理の方法500を描写する。姿勢に敏感なオーディオ処理方法500は、遅れフレーム時間ワーピング技法を利用して、姿勢変化の検出と、検出された姿勢変化に基づく音の生成との間の遅れ/待ち時間を最小限にする。方法500は、例えば、上記に説明される空間化オーディオシステム802を利用して実装されてもよい。要するに、方法500は、オーディオ処理を2つの段階、すなわち、オーディオデータを中間フォーマットに部分的に処理する、第1の段階と、姿勢データを利用して処理を急速に完了する、算出上あまり集約的ではなく/負担とならない第2の段階とに分割する。
ステップ502では、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、第1の複数(例えば、N個)のオーディオソースのための(すなわち、それに対応する)第1のオーディオデータを受信する。ソースオーディオデータは、空間化オーディオシステム802のスピーカ806を介してユーザ/聴取者に送達されることが意図される、音に対応する。ソースオーディオデータは、有線または無線接続を介して、音の生成/送達と実質的に同時に、データベースから受信されてもよい。代替として、ソースオーディオデータは、音の生成/送達に先立って受信され、空間化オーディオシステム802上に記憶されてもよい。
図16は、一実施形態による、遅れフレーム時間ワーピングオーディオ処理方法600を図式的に描写する。第1のオーディオデータに対応する第1の複数のオーディオソース602はそれぞれ、星として描写される。図16に示されるように、第1の複数のオーディオソース602は、6つのオーディオソース602を含む。当然ながら、オーディオソース602の数は、本実施形態では恣意的であって、限定することを意図するものではない。第1の複数のオーディオソース602はそれぞれ、仮想音源に対応してもよい。
ステップ504では、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、第1のオーディオデータを第2の複数(例えば、M個)のオーディオソースのための(すなわち、それに対応する)第2のオーディオデータにレンダリング/処理/変換する。ステップ504は、上記に説明される2段階のオーディオ処理の第1の段階に対応する。第1の段階は、プロセスの「マージフェーズ」としても知られる。第2の複数(例えば、M個)におけるオーディオソースの数は、第1の複数(例えば、N個)におけるオーディオソースの数未満またはそれと等しくてもよい。第2の複数におけるオーディオソースの数の低減は、第2の段階(以下に説明される)におけるオーディオ処理を簡略化する。第2の複数(例えば、M個)におけるオーディオソースの数は、理論的に、第1の複数(例えば、N個)におけるオーディオソースの数を上回ってもよいが、本モデルは、算出上あまり集約的ではない第2の段階をもたらし得ない。ステップ504における2段階のオーディオ処理の第1の段階はまた、空間化オーディオシステム802を現在装着しているユーザ/聴取者の姿勢(例えば、頭部姿勢)推定を考慮してもよい(図17参照)。
図16では、第1のオーディオデータに対応する第2の複数のオーディオソース604はそれぞれ、円形として描写される。第2の複数のオーディオソース604はそれぞれ、2段階のオーディオ処理における中間ノードとして機能する、仮想マイクロホン/スピーカである。これらのオーディオソース604は、ステップ504における第1の段階のオーディオ処理が、第1の複数のオーディオソース602のそれぞれによって生成された仮想音を第2の複数のオーディオソース604のそれぞれの場所に「記録」することによって、第2の複数のオーディオソース604のそれぞれをレンダリングするという点において、仮想マイクロホンである。したがって、第2の複数のオーディオソース604はそれぞれ、第1の複数のオーディオソース602のそれぞれからのオーディオデータを含んでもよい。これは、第1の複数のオーディオソース602のそれぞれを第2の複数のオーディオソース604のそれぞれに接続する破線によって、図16に描写される。これらのオーディオソース604は、第2の段階のオーディオ処理(以下に説明される)において、第2の複数のオーディオソース604がオーディオ処理のための音源として機能するという点において、仮想スピーカである。
これらのオーディオソース/中間ノード604は、ユーザ/聴取者の頭部の周囲の3-D空間内に浮遊するが、必ずしも、それに結び付けられない。特に、第1のオーディオレンダリング段階の開始時、オーディオソース/中間ノード604は、ユーザの頭部姿勢のその時点での最良推定に基づいて、空間内に位置付けられてもよく、それらは、そのオーディオブロックの持続時間にわたってそこに留まり得る。第2のオーディオレンダリング段階では、それらの場所からの音は、ユーザの新しい最良推定姿勢に基づいてレンダリングされてもよい。いくつかの実施形態では、第2の複数のうちのオーディオソース/中間ノード604は、1つを上回る平面内に(すなわち、1つを上回る垂直高さ)配置され、3-D空間内に配置される仮想音源に対応するオーディオデータをより正確にレンダリングする。いくつかの実施形態では、第2の複数のうちのオーディオソース/中間ノード604の数は、8つ未満であって、第2の段階(以下に説明される)の算出複雑性を低減させる。いくつかの実施形態では、第2の複数のうちのオーディオソース/中間ノード604は、聴取者の頭部から約6インチ(15.24cm)~約12インチ(30.48cm)に配置される。いくつかの実施形態では、中間ノード604は、ローカル座標系内に固定され、原点は、ユーザの頭部位置に係止されるが、共通世界座標系に係止される配向は、ユーザの環境の慣性基準フレームに対応する。
ステップ506では、空間化オーディオシステム802(例えば、その頭部姿勢プロセッサ234)は、空間化オーディオシステム802を現在装着しているユーザ/聴取者の最新の姿勢推定(例えば、頭部姿勢)を決定する。最新の姿勢推定を決定することの一部として、空間化オーディオシステム802は、直近の利用可能な姿勢データ(例えば、頭部姿勢センサ232を通した頭部姿勢データ)を収集してもよい。頭部姿勢センサ232は、画像捕捉デバイス(可視および赤外線光カメラ等)、慣性測定ユニット(加速度計およびジャイロスコープを含む)、コンパス、マイクロホン、GPSユニット、および無線デバイスのうちの1つ以上のものを含んでもよい。頭部姿勢センサ232は、画像、加速およびジャイロスコープ情報、コンパス情報、音、GPS情報、および無線伝送のうちの1つ以上のものの形態で頭部姿勢データを収集してもよい。本データは全て、ユーザ/聴取者の頭部姿勢を決定するために使用されてもよい。頭部姿勢プロセッサ234によって実施される計算は、収集される姿勢データ(例えば、頭部姿勢センサ232を通して)のタイプに応じて変動する。
ステップ508では、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、第2のオーディオデータを第3の複数(例えば、K個)のオーディオソースのための(すなわち、それに対応する)第3のオーディオデータにレンダリング/処理/変換する。ステップ508は、上記に説明される2段階のオーディオ処理の第2の段階に対応する。第3の複数(例えば、K個)におけるオーディオソースの数は、第2の複数(例えば、M個)におけるオーディオソースの数未満またはそれと等しくてもよい。第3の複数(例えば、K個)におけるオーディオソースの数は、理論的に、第2の複数(例えば、M個)におけるオーディオソースの数を上回ってもよいが、本モデルは、あまり一般的ではないであろう。
図16では、第3のオーディオデータに対応する第3の複数のオーディオソース606はそれぞれ、三角形として描写される。第3の複数のオーディオソース606は、4つのオーディオソース606を含む。当然ながら、オーディオソース602の数は、本実施形態では、恣意的であって、限定することを意図するものではない。第3の複数のオーディオソース606はそれぞれ、物理的スピーカ806に対応してもよい。第2の段階の間、ステップ508では、オーディオプロセッサ236は、第2の複数のオーディオソース/中間ノード604のそれぞれの正確な仮想空間場所へのアクセスを有する。本情報は、第2の段階のオーディオ処理の算出複雑性およびシステム待ち時間を低減させる。
オーディオデータをレンダリングする目的のために、第3の複数のオーディオソース606はそれぞれ、上記に説明されるように、仮想マイクロホンとして機能する。これらのオーディオソース606は、ステップ508における第2の段階のオーディオ処理が、第2の複数のオーディオソース604のそれぞれによって生成された仮想音を第3の複数のオーディオソース606のそれぞれの場所に「記録」することによって、第3の複数のオーディオソース606のそれぞれをレンダリングするという点において、仮想マイクロホンとして機能する。したがって、第3の複数のオーディオソース606はそれぞれ、第2の複数のオーディオソース604のそれぞれからのオーディオデータを含んでもよい。これは、第2の複数のオーディオソース604のそれぞれを第3の複数のオーディオソース606のそれぞれに接続する点線によって、図16に描写される。上記に説明されるように、これらのオーディオソース606は、仮想音をユーザ/聴取者に提示するための実世界物理的スピーカ806に対応する。
ステップ508における第2の段階のオーディオ処理の間、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、少なくとも部分的に、ステップ506において決定された最新の姿勢推定に基づいて、第2のオーディオデータを第3のオーディオデータにレンダリング/処理/変換する。例えば、ユーザ/聴取者の頭部が、図14および16に示されるように、左に旋回される場合、空間化オーディオシステム802は、第3の複数のオーディオソース606が右に若干回転されるように、第3のオーディオデータをレンダリングするであろう。したがって、ユーザ/聴取者の左の仮想オブジェクトに対応する仮想音は、ユーザ/聴取者の頭部の正面から生じるように現れる。空間化オーディオデータはまた、ヨーに加え、ユーザ/聴取者の頭部のピッチおよびロールを考慮するようにレンダリングされることができる。さらに、空間化オーディオデータは、ユーザ/聴取者の頭部からの仮想音源の仮想距離を考慮するようにレンダリングされることができる。
オーディオ処理のうちのいくつかは、ステップ504における第1の段階のオーディオ処理においてすでに生じているため、ステップ508における第2の段階のオーディオ処理は、第1の段階のオーディオ処理ほど算出上集約的ではない。算出複雑性は、特に、オーディオソースの第1の複数のオーディオソース602(オリジナルの受信されたオーディオデータ)と第2の複数のオーディオソース604(中間ノード)との間のオーディオソースの数の低減に伴って低減される。低減された算出複雑性は、感覚待ち時間およびシステム遅れを低減させる。
いくつかの実施形態では、最小限の姿勢変化が存在するとき、ステップ508における第2の段階のオーディオ処理は、第2の複数のオーディオソース604を最小限にのみ変化させる。他の実施形態では、最小限の姿勢変化が存在するとき、ステップ508における第2の段階のオーディオ処理は、第2の複数のオーディオソース604の数のみを変化させてもよい。
ステップ510では、空間化オーディオシステム802(例えば、スピーカ806-1、806-2、806-3、806-4)は、第3のオーディオデータに基づいて、空間化音を提示する。図2-8、13、および14に示されるもの等のスピーカ806の構成は、3つの軸(例えば、X、Y、およびZ軸)に沿って可変である、音(例えば、空間化オーディオ)の提示を促進する。
図17は、別の実施形態による、感覚待ち時間アーチファクトを最小限にする、姿勢に敏感なオーディオ処理の方法500’を描写する。図17に描写される方法500’におけるステップ502および510は、図15に描写される方法500における対応するステップと同じである。ステップ504’、506’、および508’は、図15に描写される方法500における対応するステップに類似する。図15に描写される方法500におけるように、ステップ502では、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、第1の複数(例えば、N個)のオーディオソースのための(すなわち、それに対応する)第1のオーディオデータを受信する。
図17に描写される方法500’は、ステップ502と504’との間のステップ503を含む。ステップ503では、空間化オーディオシステム802(例えば、その頭部姿勢プロセッサ234)は、空間化オーディオシステム802を現在装着しているユーザ/聴取者の第1の姿勢推定(例えば、頭部姿勢)を決定する。第1の姿勢推定を決定することの一部として、空間化オーディオシステム802は、ステップ503においてシステム802に利用可能な姿勢データ(例えば、頭部姿勢センサ232を通した頭部姿勢データ)を収集してもよい。頭部姿勢センサ232は、画像捕捉デバイス(可視および赤外線光カメラ等)、慣性測定ユニット(加速度計およびジャイロスコープを含む)、コンパス、マイクロホン、GPSユニット、および無線デバイスのうちの1つ以上のものを含んでもよい。頭部姿勢センサ232は、画像、加速およびジャイロスコープ情報、コンパス情報、音、GPS情報、および無線伝送のうちの1つ以上のものの形態で頭部姿勢データを収集してもよい。本データは全て、ユーザ/聴取者の第1の頭部姿勢を決定するために使用されてもよい。頭部姿勢プロセッサ234によって実施される計算は、収集される姿勢データ(例えば、頭部姿勢センサ232を通して)のタイプに応じて変動する。
ステップ504’では、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、図15に描写される方法500におけるステップ504と同様に、第1のオーディオデータを第2の複数(例えば、M個)のオーディオソースのための(すなわち、それに対応する)第2のオーディオデータにレンダリング/処理/変換する。差異は、図17に描写される方法500’では、ステップ504’における2段階のオーディオ処理の第1の段階が、ステップ503からの空間化オーディオシステム802を現在装着しているユーザ/聴取者の第1の姿勢(例えば、頭部姿勢)推定を明示的に考慮することである。ステップ503において利用可能な姿勢推定の考慮は、第1の段階のオーディオ処理/レンダリングの正確度を改良する。
ステップ506’では、空間化オーディオシステム802(例えば、その頭部姿勢プロセッサ234)は、空間化オーディオシステム802を現在装着しているユーザ/聴取者の第2の姿勢推定(例えば、頭部姿勢)を決定する。第2の姿勢推定は、ステップ506’では、最新の姿勢推定である。最新の姿勢推定を決定することの一部として、空間化オーディオシステム802は、直近の利用可能な姿勢データ(例えば、頭部姿勢センサ232を通した頭部姿勢データ)を収集してもよい。ステップ506’は、図15に描写される方法500におけるステップ506に非常に類似する。
ステップ508’では、空間化オーディオシステム802(例えば、そのオーディオプロセッサ236)は、第2のオーディオデータを第3の複数(例えば、K個)のオーディオソースのための(すなわち、それに対応する)第3のオーディオデータにレンダリング/処理/変換する。ステップ508’における第2の段階のオーディオ処理は、ステップ506’において決定された空間化オーディオシステム802を現在装着しているユーザ/聴取者の第2の姿勢(例えば、頭部姿勢)推定を考慮する。ステップ506’において利用可能な第2の姿勢推定の考慮は、第2の段階のオーディオ処理/レンダリングの正確度を改良する。図17に描写される方法500’における第2の姿勢推定は、図15に描写される方法500における最新の頭部姿勢推定に類似する。
ステップ510では、空間化オーディオシステム802(例えば、スピーカ806-1、806-2、806-3、806-4)は、第3のオーディオデータに基づいて、空間化音を提示する。ステップ510は、図15に描写される方法500における対応するステップと同じである。
図15-17に描写され、上記に説明される、2段階のオーディオ処理は、いくつかのわずかなアーチファクトを導入し得る。例示的なわずかなアーチファクトは、第1の複数からのオーディオソース602と第2の複数からのオーディオソース604との間の若干の不整合に起因する、オーディオソースの見掛け場所の若干の不整合である。概念上、第2の複数からの中間ノード604を通した音の通過は、若干の不整合をもたらし得る。さらに、事実上、中間ノード604の「ウェブ」の内側に位置する、音源からの仮想音は、中間ノードまで進行し、次いで、ユーザ/聴取者に戻る距離と比較してより短いオリジナル距離に起因して、若干遅延された到着時間を有し得る。しかしながら、これらのわずかなアーチファクトは、上記に説明される感覚待ち時間からの主要なアーチファクトよりはるかに小さい影響を空間化オーディオ体験に及ぼす。
前述の遅れフレーム時間ワーピングの姿勢に敏感なオーディオ処理は、ユーザ/聴取者の姿勢変化にもかかわらず、仮想空間化オーディオのより知覚的に正確なレンダリングをもたらす。仮想空間化オーディオのレンダリングは、距離および干渉に起因する種々の表面、フェーズ、および角度変動からのオーディオ反射をモデル化する要件に起因して、算出上高価であり得る。オーディオソースをより少ない中間ノード/ソースの中にマージするための第1の段階と、最新の入手された姿勢情報を考慮するための中間ノード/ソースからのオーディオデータの第2の段階最終レンダリングを伴う、2段階のオーディオ処理は、より正確なレンダリングをもたらす。本プロセスは、姿勢情報の入手後のシステム待ち時間を低減させる。
上記に説明される、遅れフレーム時間ワーピングの姿勢に敏感なオーディオ処理方法500、600は、具体的場所を伴う具体的数のオーディオソースを含むが、これらの数および場所は、例示的であって、限定することを意図するものではない。さらに、処理段階の数もまた、例示的であって、限定することを意図するものではない。
本発明の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本発明のより広義に適用可能な側面を例証するために提供される。種々の変更が、説明される本発明に行われてもよく、本発明の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本発明の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられ得る、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本開示と関連付けられた請求項の範囲内であることが意図される。
本発明は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する作用を含んでもよい。そのような提供は、エンドユーザによって実施されてもよい。言い換えると、「提供する」作用は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それをアクティブ化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序およびイベントの列挙された順序で行われてもよい。
本発明の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本発明の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことは、一般または論理的に採用されるような付加的作用の観点から、本開示の方法ベースの側面に関しても当てはまり得る。
加えて、本発明は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されたが、本発明は、発明の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本発明に行われてもよく、均等物(本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず)は、本発明の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本発明内に包含されるものと理解されたい。
また、説明される発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の1つ以上のものと組み合わせて、記載および請求され得ることが検討される。単数形アイテムの言及は、存在する複数の同一アイテムが存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられた請求項で使用されるように、単数形「a」、「an」、「said」、および「the」は、別様に具体的に述べられない限り、複数の言及を含む。言い換えると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項における本主題のアイテムのうちの「少なくとも1つ」を可能にする。さらに、請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。
そのような排他的専門用語を使用しなければ、本開示と関連付けられる請求項における用語「~を備える」は、所与の数の要素が請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に定義される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。
本開示の範疇は、提供される実施例および/または本主題の明細書に限定されるべきではなく、むしろ、本開示と関連付けられた請求項の言語の範囲によってのみ限定されるべきである。
前述の明細書では、本開示は、その具体的実施形態を参照して説明された。しかしながら、種々の修正および変更が、本開示のより広義の精神および範囲から逸脱することなく、そこに行われてもよいことが明白であろう。例えば、前述のプロセスフローは、プロセスアクションの特定の順序を参照して説明される。しかしながら、説明されるプロセスアクションの多くの順序は、本開示の範囲または動作に影響を及ぼすことなく、変更されてもよい。明細書および図面は、故に、限定的意味ではなく、例証と見なされるべきである。

Claims (19)

  1. 空間化オーディオシステムであって、
    聴取者の第1の頭部姿勢および前記聴取者の第2の頭部姿勢を検出するためのセンサと、
    前記聴取者の前記検出された第1の頭部姿勢に基づいて、第1の複数のソースに対応する第1のオーディオデータを第2の複数のソースに対応する第2のオーディオデータにレンダリングすることであって、前記第1の複数のソースのそれぞれは、第1の複数の位置のうちの個別の位置を有し、前記第2の複数のソースのそれぞれは、第2の複数の位置のうちの個別の位置を有する、ことと、
    前記第2のオーディオデータに基づいて、前記聴取者に対して前記第1のオーディオデータに対応する空間化音場を再現することと
    前記聴取者の前記検出された第2の頭部姿勢に基づいて、前記第2のオーディオデータを第3の複数のソースに対応する第3のオーディオデータにレンダリングすることであって、前記第3の複数のソースのそれぞれは、第3の複数の位置のうちの1つを有する、ことと
    を実行するためのプロセッサと
    を備え、
    前記第2の複数のソースは、前記第1の複数のソースより少ないソースから成り、
    前記第1のオーディオデータを前記第2のオーディオデータにレンダリングすることは、前記第2の複数のソースのそれぞれが、前記第2の複数の位置のうちの個別の1つの位置において前記第1の複数のソースによって生成された仮想音を記録することを含み、
    前記第2のオーディオデータを前記第3のオーディオデータにレンダリングすることは、前記第3の複数のソースのそれぞれが、前記第3の複数の位置のうちの個別の1つの位置において前記第2の複数のソースによって生成された仮想音を記録することを含む、システム。
  2. 前記第1の複数のソースは、仮想音源である、請求項1に記載のシステム。
  3. 前記第2の複数のソースは、仮想音源である、請求項1に記載のシステム。
  4. 前記第1のオーディオデータを前記第2のオーディオデータにレンダリングすることは、前記第1のオーディオデータを前記第2のオーディオデータにワーピングすることを含む、請求項1に記載のシステム。
  5. 前記センサは、前記プロセッサが前記第1のオーディオデータを前記第2のオーディオデータにレンダリングする直前に、前記聴取者の前記第1の頭部姿勢を検出する、請求項1に記載のシステム。
  6. 前記第1のオーディオデータは、完全オーディオストリームデータセットである、請求項1に記載のシステム。
  7. 前記第2の複数のソースは、8つまたは8つより少ないソースから成る、請求項1に記載のシステム。
  8. 前記第2の複数の位置のそれぞれは、異なる位置である、請求項1に記載のシステム。
  9. 前記第2の複数の位置のそれぞれは、前記第1の複数の位置のそれぞれより前記聴取者に近い、請求項1に記載のシステム。
  10. 前記第2の複数の位置は、単一平面内に位置しない、請求項1に記載のシステム。
  11. 前記第2の複数のソースに対応する複数のスピーカをさらに備え、前記複数のスピーカは、前記第2のオーディオデータに基づいて音を生産する、請求項1に記載のシステム。
  12. 前記複数のスピーカのそれぞれは、前記第2の複数の位置のうちの個別の1つの位置における前記第2の複数のソースのうちの個別のソースに対応する、請求項11に記載のシステム。
  13. 前記第1のオーディオデータを前記第2のオーディオデータにレンダリングすることは、さらに、前記第1の複数のソースの個別の位置に基づく、請求項1に記載のシステム。
  14. 前記第1のオーディオデータを前記第2のオーディオデータにレンダリングすることは、前記聴取者の平行移動より回転に敏感である、請求項1に記載のシステム。
  15. 前記第1のオーディオデータを前記第2のオーディオデータにレンダリングすることは、回転専用オーディオ変換である、請求項1に記載のシステム。
  16. 前記第2のオーディオデータを前記第3のオーディオデータにレンダリングすることは、前記第2のオーディオデータを前記第3のオーディオデータにワーピングすることを含む、請求項に記載のシステム。
  17. 前記センサは、前記プロセッサが前記第2のオーディオデータを前記第3のオーディオデータにレンダリングする直前に、前記聴取者の前記第2の頭部姿勢を検出する、請求項に記載のシステム。
  18. 前記第3の複数のソースは、前記第2の複数のソースより少ないソースから成る、請求項に記載のシステム。
  19. 前記第3の複数のソースに対応する複数のスピーカをさらに備え、前記複数のスピーカは、前記第3のオーディオデータに基づいて音を生産する、請求項に記載のシステム。
JP2021000727A 2016-09-14 2021-01-06 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム Active JP7165215B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662394617P 2016-09-14 2016-09-14
US62/394,617 2016-09-14

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019513952A Division JP6821795B2 (ja) 2016-09-14 2017-09-13 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム

Publications (2)

Publication Number Publication Date
JP2021073763A JP2021073763A (ja) 2021-05-13
JP7165215B2 true JP7165215B2 (ja) 2022-11-02

Family

ID=61560542

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019513952A Active JP6821795B2 (ja) 2016-09-14 2017-09-13 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム
JP2021000727A Active JP7165215B2 (ja) 2016-09-14 2021-01-06 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019513952A Active JP6821795B2 (ja) 2016-09-14 2017-09-13 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム

Country Status (9)

Country Link
US (2) US10448189B2 (ja)
EP (2) EP3513405B1 (ja)
JP (2) JP6821795B2 (ja)
KR (2) KR102230645B1 (ja)
CN (2) CN114885274B (ja)
AU (2) AU2017327387B2 (ja)
CA (1) CA3034916A1 (ja)
IL (1) IL265214B (ja)
WO (1) WO2018053047A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102230645B1 (ko) * 2016-09-14 2021-03-19 매직 립, 인코포레이티드 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들
US10667072B2 (en) 2018-06-12 2020-05-26 Magic Leap, Inc. Efficient rendering of virtual soundfields
JP2021528001A (ja) * 2018-06-18 2021-10-14 マジック リープ, インコーポレイテッドMagic Leap,Inc. 双方向オーディオ環境のための空間オーディオ
US10484811B1 (en) 2018-09-10 2019-11-19 Verizon Patent And Licensing Inc. Methods and systems for providing a composite audio stream for an extended reality world
EP3967061A1 (en) * 2019-10-22 2022-03-16 Google LLC Spatial audio for wearable devices
US10911885B1 (en) 2020-02-03 2021-02-02 Microsoft Technology Licensing, Llc Augmented reality virtual audio source enhancement
US11089427B1 (en) 2020-03-31 2021-08-10 Snap Inc. Immersive augmented reality experiences using spatial audio
US11381797B2 (en) 2020-07-16 2022-07-05 Apple Inc. Variable audio for audio-visual content
EP4256391A1 (en) 2020-12-07 2023-10-11 Snap Inc. Augmented reality spatial audio experience
US20220319014A1 (en) * 2021-04-05 2022-10-06 Facebook Technologies, Llc Systems and methods for dynamic image processing and segmentation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001359197A (ja) 2000-06-13 2001-12-26 Victor Co Of Japan Ltd 音像定位信号の生成方法、及び音像定位信号生成装置
JP2002505058A (ja) 1997-06-17 2002-02-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 空間形成されたオーディオの再生
JP2014140128A (ja) 2013-01-21 2014-07-31 Fujitsu Ltd 音声処理装置、音声処理方法および音声処理プログラム
JP2014523172A (ja) 2011-06-30 2014-09-08 トムソン ライセンシング 高次Ambisonics表現に含まれるサウンドオブジェクトの相対位置を変更する方法と装置
JP2015133665A (ja) 2014-01-15 2015-07-23 富士通株式会社 音響再生装置および音場補正プログラム

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6487526B1 (en) * 1999-04-14 2002-11-26 Rockwell Collins Vector correlator for speech VOCODER using optical processor
US7340062B2 (en) 2000-03-14 2008-03-04 Revit Lawrence J Sound reproduction method and apparatus for assessing real-world performance of hearing and hearing aids
US8140859B1 (en) * 2000-07-21 2012-03-20 The Directv Group, Inc. Secure storage and replay of media programs using a hard-paired receiver and storage device
FR2814891B1 (fr) 2000-10-04 2003-04-04 Thomson Multimedia Sa Procede de reglages de niveau audio provenant de plusieurs canaux et dispositif de reglage
US7472058B2 (en) * 2004-12-28 2008-12-30 Cyberlink Corp. Automatic audio source detection for capture devices
US7680465B2 (en) * 2006-07-31 2010-03-16 Broadcom Corporation Sound enhancement for audio devices based on user-specific audio processing parameters
US20080196575A1 (en) * 2007-02-16 2008-08-21 Recordare Llc Process for creating and viewing digital sheet music on a media device
US8406439B1 (en) * 2007-04-04 2013-03-26 At&T Intellectual Property I, L.P. Methods and systems for synthetic audio placement
US8620009B2 (en) 2008-06-17 2013-12-31 Microsoft Corporation Virtual sound source positioning
EP2410522B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
US9037468B2 (en) * 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
JP2010273175A (ja) * 2009-05-22 2010-12-02 Panasonic Corp 音声出力装置
US20100328419A1 (en) 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved matching of auditory space to visual space in video viewing applications
US8767968B2 (en) * 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
JP5505395B2 (ja) * 2011-10-28 2014-05-28 ヤマハ株式会社 音響処理装置
WO2013108147A1 (en) 2012-01-17 2013-07-25 Koninklijke Philips N.V. Audio source position estimation
WO2013147791A1 (en) * 2012-03-29 2013-10-03 Intel Corporation Audio control based on orientation
US20150131824A1 (en) * 2012-04-02 2015-05-14 Sonicemotion Ag Method for high quality efficient 3d sound reproduction
GB201211512D0 (en) 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
US9794718B2 (en) * 2012-08-31 2017-10-17 Dolby Laboratories Licensing Corporation Reflected sound rendering for object-based audio
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US20140140417A1 (en) * 2012-11-16 2014-05-22 Gary K. Shaffer System and method for providing alignment of multiple transcoders for adaptive bitrate streaming in a network environment
US9131298B2 (en) * 2012-11-28 2015-09-08 Qualcomm Incorporated Constrained dynamic amplitude panning in collaborative sound systems
US9258647B2 (en) * 2013-02-27 2016-02-09 Hewlett-Packard Development Company, L.P. Obtaining a spatial audio signal based on microphone distances and time delays
TWI673707B (zh) * 2013-07-19 2019-10-01 瑞典商杜比國際公司 將以L<sub>1</sub>個頻道為基礎之輸入聲音訊號產生至L<sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於L<sub>1</sub>個聲音頻道至L<sub>2</sub>個揚聲器頻道
JP6412931B2 (ja) * 2013-10-07 2018-10-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 空間的オーディオ・システムおよび方法
CN107219628B (zh) 2013-11-27 2020-05-01 奇跃公司 虚拟和增强现实系统与方法
US9285872B1 (en) 2013-12-12 2016-03-15 Google Inc. Using head gesture and eye position to wake a head mounted device
US9560445B2 (en) 2014-01-18 2017-01-31 Microsoft Technology Licensing, Llc Enhanced spatial impression for home audio
US9729984B2 (en) 2014-01-18 2017-08-08 Microsoft Technology Licensing, Llc Dynamic calibration of an audio system
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
WO2015161307A1 (en) * 2014-04-18 2015-10-22 Magic Leap, Inc. Systems and methods for augmented and virtual reality
CN104284291B (zh) 2014-08-07 2016-10-05 华南理工大学 5.1通路环绕声的耳机动态虚拟重放方法及其实现装置
CN106134223B (zh) 2014-11-13 2019-04-12 华为技术有限公司 重现双耳信号的音频信号处理设备和方法
US9602947B2 (en) * 2015-01-30 2017-03-21 Gaudi Audio Lab, Inc. Apparatus and a method for processing audio signal to perform binaural rendering
US10979843B2 (en) 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
KR102230645B1 (ko) 2016-09-14 2021-03-19 매직 립, 인코포레이티드 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002505058A (ja) 1997-06-17 2002-02-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 空間形成されたオーディオの再生
JP2001359197A (ja) 2000-06-13 2001-12-26 Victor Co Of Japan Ltd 音像定位信号の生成方法、及び音像定位信号生成装置
JP2014523172A (ja) 2011-06-30 2014-09-08 トムソン ライセンシング 高次Ambisonics表現に含まれるサウンドオブジェクトの相対位置を変更する方法と装置
JP2014140128A (ja) 2013-01-21 2014-07-31 Fujitsu Ltd 音声処理装置、音声処理方法および音声処理プログラム
JP2015133665A (ja) 2014-01-15 2015-07-23 富士通株式会社 音響再生装置および音場補正プログラム

Also Published As

Publication number Publication date
IL265214A (en) 2019-05-30
KR102230645B1 (ko) 2021-03-19
US10448189B2 (en) 2019-10-15
KR102514464B1 (ko) 2023-03-24
EP4254403A3 (en) 2023-11-01
AU2017327387A1 (en) 2019-03-21
EP3513405A1 (en) 2019-07-24
US20200008005A1 (en) 2020-01-02
KR20210031796A (ko) 2021-03-22
CN114885274A (zh) 2022-08-09
AU2022201898A1 (en) 2022-04-07
CN109691141B (zh) 2022-04-29
JP6821795B2 (ja) 2021-01-27
CA3034916A1 (en) 2018-03-22
US20180077513A1 (en) 2018-03-15
KR20190052086A (ko) 2019-05-15
AU2017327387B2 (en) 2021-12-23
US11310618B2 (en) 2022-04-19
JP2021073763A (ja) 2021-05-13
WO2018053047A1 (en) 2018-03-22
JP2019532569A (ja) 2019-11-07
CN114885274B (zh) 2023-05-16
IL265214B (en) 2021-04-29
EP3513405B1 (en) 2023-07-19
EP4254403A2 (en) 2023-10-04
CN109691141A (zh) 2019-04-26
EP3513405A4 (en) 2019-09-18

Similar Documents

Publication Publication Date Title
JP7165215B2 (ja) 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム
JP7270820B2 (ja) 空間化オーディオを用いた複合現実システム
JP7275227B2 (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
KR20190112799A (ko) 가상 현실에서 확장 비디오의 렌더링
WO2023234949A1 (en) Spatial audio processing for speakers on head-mounted displays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221021

R150 Certificate of patent or registration of utility model

Ref document number: 7165215

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150