実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面が、参照される。他の実施例も、使用され得、構造変更が、開示される実施例の範囲から逸脱することなく、行われ得ることを理解されたい。
例示的ウェアラブルシステム
図1は、ユーザの頭部上に装着されるように構成される、例示的ウェアラブル頭部デバイス100を図示する。ウェアラブル頭部デバイス100は、頭部デバイス(例えば、ウェアラブル頭部デバイス100)、ハンドヘルドコントローラ(例えば、下記に説明されるハンドヘルドコントローラ200)、および/または補助ユニット(例えば、下記に説明される補助ユニット300)等の1つ以上のコンポーネントを備える、より広範なウェアラブルシステムの一部であってもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス100は、ディスプレイ110Aおよび110B(左および右透過性ディスプレイと、直交瞳拡大(OPE)格子セット112A/112Bおよび射出瞳拡大(EPE)格子セット114A/114B等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る)等の1つ以上のディスプレイと、スピーカ120Aおよび120B(それぞれ、つるアーム122Aおよび122B上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る)等の左および右音響構造と、赤外線センサ、加速度計、GPSユニット、慣性測定ユニット(IMU)(例えば、IMU126)、音響センサ(例えば、マイクロホン150)等の1つ以上のセンサと、直交コイル電磁受信機(例えば、左つるアーム122Aに搭載されるように示される受信機127)と、ユーザから離れるように配向される、左および右カメラ(例えば、深度(飛行時間)カメラ130Aおよび130B)と、ユーザに向かって配向される、左および右眼カメラ(例えば、ユーザの眼移動を検出するため)(例えば、眼カメラ128および128B)とを備えることができる。しかしながら、ウェアラブル頭部デバイス100は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、ユーザの音声によって発生されるオーディオ信号を検出するように構成される、1つ以上のマイクロホン150を組み込んでもよく、そのようなマイクロホンは、ユーザの口に隣接してウェアラブル頭部デバイス内に位置付けられてもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、他のウェアラブルシステムを含む、他のデバイスおよびシステムと通信するために、ネットワーキング特徴(例えば、Wi−Fi能力)を組み込んでもよい。ウェアラブル頭部デバイス100はさらに、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス(例えば、ボタン、タッチパッド)等のコンポーネントを含んでもよい、または1つ以上のそのようなコンポーネントを備えるハンドヘルドコントローラ(例えば、ハンドヘルドコントローラ200)または補助ユニット(例えば、補助ユニット300)に結合されてもよい。いくつかの実施例では、センサは、ユーザの環境に対する頭部搭載型ユニットの座標のセットを出力するように構成されてもよく、入力をプロセッサに提供し、同時位置特定およびマッピング(SLAM)プロシージャおよび/またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、下記にさらに説明されるように、ハンドヘルドコントローラ200および/または補助ユニット300に結合されてもよい。
図2は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント200を図示する。いくつかの実施例では、ハンドヘルドコントローラ200は、ウェアラブルヘッドデバイス100および/または下記に説明される補助ユニット300と有線または無線通信してもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、ユーザによって保持されるべきハンドル部分220と、上面210に沿って配置される1つ以上のボタン240とを含む。いくつかの実施例では、ハンドヘルドコントローラ200は、光学追跡標的として使用するために構成されてもよく、例えば、ウェアラブル頭部デバイス100のセンサ(例えば、カメラまたは他の光学センサ)は、ハンドヘルドコントローラ200の位置および/または配向を検出するように構成されることができ、これは、転じて、ハンドヘルドコントローラ200を保持するユーザの手の位置および/または配向を示し得る。いくつかの実施例では、ハンドヘルドコントローラ200は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上記に説明されるもの等の1つ以上の入力デバイスを含んでもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、1つ以上のセンサ(例えば、ウェアラブル頭部デバイス100に関して上記に説明されるセンサまたは追跡コンポーネントのうちのいずれか)を含む。いくつかの実施例では、センサは、ウェアラブル頭部デバイス100に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ200の位置または配向を検出することができる。いくつかの実施例では、センサは、ハンドヘルドコントローラ200のハンドル部分220内に位置付けられてもよい、および/またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ200は、例えば、ボタン240の押下状態、またはハンドヘルドコントローラ200の位置、配向、および/または運動(例えば、IMUを介して)に対応する、1つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス100のプロセッサへの、補助ユニット300への、またはウェアラブルシステムの別のコンポーネントへの入力として使用されてもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、音(例えば、ユーザの発話、環境音)を検出し、ある場合には、検出された音に対応する信号をプロセッサ(例えば、ウェアラブル頭部デバイス100のプロセッサ)に提供するために、1つ以上のマイクロホンを含むことができる。
図3は、例示的ウェアラブルシステムの例示的補助ユニット300を図示する。いくつかの実施例では、補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200と有線または無線通信してもよい。補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200(ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および/またはウェアラブル頭部デバイス100またはハンドヘルドコントローラ200の他のコンポーネントを含む)等のウェアラブルシステムの1つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの実施例では、補助ユニット300は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、1つ以上の入力デバイス、および/または上記に説明されるもの等の1つ以上のセンサを含んでもよい。いくつかの実施例では、補助ユニット300は、補助ユニットをユーザに取り付けるためのクリップ310(例えば、ユーザによって装着されるベルト)を含む。ウェアラブルシステムの1つ以上のコンポーネントを格納するために補助ユニット300を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、(例えば、ウェアラブル頭部デバイス100内に格納される場合)ユーザの頭部に搭載される、または(例えば、ハンドヘルドコントローラ200内に格納される場合)ユーザの手によって担持されるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部の上に担持されることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。
図4は、上記に説明される、例示的ウェアラブル頭部デバイス100と、ハンドヘルドコントローラ200と、補助ユニット300とを含み得る等、例示的ウェアラブルシステム400に対応し得る、例示的機能ブロック図を示す。いくつかの実施例では、ウェアラブルシステム400は、仮想現実、拡張現実、または複合現実用途のために使用され得る。図4に示されるように、ウェアラブルシステム400は、ここでは「トーテム」と称される(および上記に説明されるハンドヘルドコントローラ200に対応し得る)例示的ハンドヘルドコントローラ400Bを含むことができ、ハンドヘルドコントローラ400Bは、トーテム/ヘッドギヤ6自由度(6DOF)トーテムサブシステム404Aを含むことができる。ウェアラブルシステム400はまた、(上記に説明されるウェアラブルヘッドギヤデバイス100に対応し得る)例示的ウェアラブル頭部デバイス400Aを含むことができ、ウェアラブル頭部デバイス400Aは、トーテム/ヘッドギヤ6DOFヘッドギヤサブシステム404Bを含む。実施例では、6DOFトーテムサブシステム404Aおよび6DOFヘッドギヤサブシステム404Bは、協働し、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6つの座標(例えば、3つの平行移動方向におけるオフセットおよび3つの軸に沿った回転)を決定する。6自由度は、ウェアラブル頭部デバイス400Aの座標系に対して表されてもよい。3つの平行移動オフセットは、そのような座標系内におけるX、Y、およびZオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンス、ベクトル、回転行列、四元数、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス400A内に含まれる1つ以上の深度カメラ444(および/または1つ以上の非深度カメラ)および/または1つ以上の光学標的(例えば、上記に説明されるようなハンドヘルドコントローラ200のボタン240またはハンドヘルドコントローラ内に含まれる専用光学標的)は、6DOF追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ400Bは、上記に説明されるようなカメラを含むことができ、ヘッドギヤ400Aは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス400Aおよびハンドヘルドコントローラ400Bは、それぞれ、3つの直交して配向されるソレノイドのセットを含み、これは、3つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれの中で受信される3つの区別可能な信号の相対的大きさを測定することによって、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6DOFが、決定されてもよい。いくつかの実施例では、6DOFトーテムサブシステム404Aは、改良された正確度および/またはハンドヘルドコントローラ400Bの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット(IMU)を含むことができる。
拡張現実または複合現実用途を伴ういくつかの実施例では、座標をローカル座標空間(例えば、ウェアラブル頭部デバイス400Aに対して固定される座標空間)から慣性座標空間に、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ウェアラブル頭部デバイス400Aのディスプレイが、ディスプレイ上の固定位置および配向において(例えば、ウェアラブル頭部デバイス400Aのディスプレイにおける同一の位置において)ではなく、仮想オブジェクトを実環境に対する予期される位置および配向において提示する(例えば、ウェアラブル頭部デバイス400Aの位置および配向にかかわらず、前方に向いた実椅子に着座している仮想人物)ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する(かつ、例えば、ウェアラブル頭部デバイス400Aが、偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない)という錯覚を維持することができる。いくつかの実施例では、座標空間の間の補償変換が、慣性または環境座標系に対するウェアラブル頭部デバイス400Aの変換を決定するために、(例えば、同時位置特定およびマッピング(SLAM)および/またはビジュアルオドメトリプロシージャを使用して)深度カメラ444からの画像を処理することによって決定されることができる。図4に示される実施例では、深度カメラ444は、SLAM/ビジュアルオドメトリブロック406に結合されることができ、画像をブロック406に提供することができる。SLAM/ビジュアルオドメトリブロック406実装は、本画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ウェアラブル頭部デバイス400AのIMU409から取得される。IMU409からの情報は、SLAM/ビジュアルオドメトリブロック406からの情報と統合され、改良された正確度および/またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。
いくつかの実施例では、深度カメラ444は、ウェアラブル頭部デバイス400Aのプロセッサ内に実装され得る、手のジェスチャトラッカ411に、3D画像を供給することができる。手のジェスチャトラッカ411は、例えば、深度カメラ444から受信された3D画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。
いくつかの実施例では、1つ以上のプロセッサ416は、ヘッドギヤサブシステム404B、IMU409、SLAM/ビジュアルオドメトリブロック406、深度カメラ444、マイクロホン(図示せず)、および/または手のジェスチャトラッカ411からのデータを受信するように構成されてもよい。プロセッサ416はまた、制御信号を6DOFトーテムシステム404Aに送信し、それから受信することができる。プロセッサ416は、ハンドヘルドコントローラ400Bがテザリングされない実施例等では、無線で、6DOFトーテムシステム404Aに結合されてもよい。プロセッサ416はさらに、視聴覚コンテンツメモリ418、グラフィカル処理ユニット(GPU)420、および/またはデジタル信号プロセッサ(DSP)オーディオ空間化装置422等の付加的コンポーネントと通信してもよい。DSPオーディオ空間化装置422は、頭部関連伝達関数(HRTF)メモリ425に結合されてもよい。GPU420は、画像毎に変調された光の左源424に結合される、左チャネル出力と、画像毎に変調された光の右源426に結合される、右チャネル出力とを含むことができる。GPU420は、立体視画像データを画像毎に変調された光424、426の源に出力することができる。DSPオーディオ空間化装置422は、オーディオを左スピーカ412および/または右スピーカ414に出力することができる。DSPオーディオ空間化装置422は、プロセッサ416から、ユーザから仮想音源(例えば、ハンドヘルドコントローラ400Bを介して、ユーザによって移動され得る)への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、DSPオーディオ空間化装置422は、対応するHRTFを決定することができる(例えば、HRTFにアクセスすることによって、または複数のHRTFを補間することによって)。DSPオーディオ空間化装置422は、次いで、決定されたHRTFを仮想オブジェクトによって発生された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。
図4に示されるもの等のいくつかの実施例では、プロセッサ416、GPU420、DSPオーディオ空間化装置422、HRTFメモリ425、およびオーディオ/視覚的コンテンツメモリ418のうちの1つ以上のものは、補助ユニット400C(上記に説明される補助ユニット300に対応し得る)内に含まれてもよい。補助ユニット400Cは、バッテリ427を含み、そのコンポーネントを給電する、および/または電力をウェアラブル頭部デバイス400Aおよび/またはハンドヘルドコントローラ400Bに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス400Aのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。
図4は、例示的ウェアラブルシステム400の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット400Cと関連付けられているような図4に提示される要素は、代わりに、ウェアラブル頭部デバイス400Aまたはハンドヘルドコントローラ400Bと関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ400Bまたは補助ユニット400Cを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるものである。
複合現実環境
全ての人々のように、複合現実システムのユーザは、実環境、すなわち、ユーザによって知覚可能である、「実世界」の3次元部分およびその内容全ての中に存在している。例えば、ユーザは、その通常の人間感覚、すなわち、視覚、聴覚、触覚、味覚、嗅覚を使用して実環境を知覚し、実環境内でその自身の身体を移動させることによって実環境と相互作用する。実環境内の場所は、座標空間内の座標として説明されることができ、例えば、座標は、緯度、経度、および海面に対する高度、基準点からの3つの直交する次元における距離、または他の好適な値を含むことができる。同様に、ベクトルは、座標空間内の方向および大きさを有する量を説明することができる。
コンピューティングデバイスは、例えば、本デバイスと関連付けられるメモリ内で、仮想環境の表現を維持することができる。本明細書に使用されるように、仮想環境は、3次元空間のコンピュータ表現である。仮想環境は、任意のオブジェクト、アクション、信号、パラメータ、座標、ベクトル、またはその空間と関連付けられる他の特性の表現を含むことができる。いくつかの実施例では、コンピューティングデバイスの回路(例えば、プロセッサ)は、仮想環境の状態を維持および更新することができ、すなわち、プロセッサは、第1の時間に、仮想環境と関連付けられるデータおよび/またはユーザによって提供される入力に基づいて、第2の時間における仮想環境の状態を決定することができる。例えば、仮想環境内のオブジェクトが、ある時間に第1の座標に位置し、あるプログラムされた物理的パラメータ(例えば、質量、摩擦係数)を有し、ユーザから受信された入力が、力が、ある方向ベクトルにおいてオブジェクトに印加されるべきであると示す場合、プロセッサは、運動学の法則を適用し、基本的力学を使用してその時間におけるオブジェクトの場所を決定することができる。プロセッサは、仮想環境についての既知の任意の好適な情報および/または任意の好適な入力を使用し、ある時間における仮想環境の状態を決定することができる。仮想環境の状態を維持および更新する際、プロセッサは、仮想環境内の仮想オブジェクトの作成および削除に関連するソフトウェア、仮想環境内の仮想オブジェクトまたはキャラクタの挙動を定義するためのソフトウェア(例えば、スクリプト)、仮想環境内の信号(例えば、オーディオ信号)の挙動を定義するためのソフトウェア、仮想環境と関連付けられるパラメータを作成および更新するためのソフトウェア、仮想環境内のオーディオ信号を発生させるためのソフトウェア、入力および出力を取り扱うためのソフトウェア、ネットワーク動作を実装するためのソフトウェア、アセットデータ(例えば、経時的に仮想オブジェクトを移動させるためのアニメーションデータ)を適用するためのソフトウェア、または多くの他の可能性を含む、任意の好適なソフトウェアを実行することができる。
ディスプレイまたはスピーカ等の出力デバイスは、仮想環境の任意または全ての側面をユーザに提示することができる。例えば、仮想環境は、ユーザに提示され得る仮想オブジェクト(無生物オブジェクト、人物、動物、光等の表現を含み得る)を含んでもよい。プロセッサは、仮想環境のビュー(例えば、原点座標、視軸、および錐台を伴う「カメラ」に対応する)を決定し、ディスプレイに、そのビューに対応する仮想環境の視認可能な場面をレンダリングすることができる。任意の好適なレンダリング技術が、本目的のために使用されてもよい。いくつかの実施例では、視認可能な場面は、仮想環境内のいくつかの仮想オブジェクトのみを含み、ある他の仮想オブジェクトを除外してもよい。同様に、仮想環境は、1つ以上のオーディオ信号としてユーザに提示され得るオーディオ側面を含んでもよい。例えば、仮想環境内の仮想オブジェクトが、オブジェクトの場所座標から生じる音を発生させてもよい(例えば、仮想キャラクタが、発話する、または効果音を引き起こしてもよい)、または仮想環境は、特定の場所と関連付けられる場合とそうではない場合がある音楽的キューまたは周囲音と関連付けられてもよい。プロセッサが、「聴者」座標に対応するオーディオ信号、例えば、仮想環境内の音の複合物に対応し、聴者座標における聴者に聞こえるであろうオーディオ信号をシミュレートするために混合および処理されるオーディオ信号を決定し、1つ以上のスピーカを介してユーザにオーディオ信号を提示することができる。
仮想環境は、コンピュータ構造としてのみ存在するため、ユーザは、その通常の感覚を使用して仮想環境を直接知覚することができない。代わりに、ユーザは、例えば、ディスプレイ、スピーカ、触覚出力デバイス等によって、ユーザに提示されるような仮想環境を間接的にのみ知覚することができる。同様に、ユーザは、仮想環境に直接触れる、それを操作する、または別様にそれと相互作用することができないが、入力デバイスまたはセンサを介して、仮想環境を更新するためにデバイスまたはセンサデータを使用し得るプロセッサに入力データを提供することができる。例えば、カメラセンサは、ユーザが仮想環境内のオブジェクトを移動させようとしていることを示す光学データを提供することができ、プロセッサは、そのデータを使用し、オブジェクトに仮想環境内でそれに応じて応答させることができる。
反射および反響
仮想環境の空間(例えば、部屋)内の聴者のオーディオ体験の側面は、直接音のその聴者の知覚、部屋の表面に対するその直接音の反射の聴者の知覚、および室内の直接音の反響(「reverb(反響)」)の聴者の知覚を含む。図5は、いくつかの実施形態による、幾何学的部屋表現500を図示する。幾何学的部屋表現500は、直接音(502)、反射(504)、および反響(506)に関する例示的伝搬経路を示す。これらの経路は、オーディオ信号が室内で源から聴者までとり得る経路を表す。図5に示される部屋は、1つ以上の音響性質と関連付けられる任意の好適なタイプの環境であってもよい。例えば、部屋500は、コンサートホールであってもよく、ピアノ奏者を伴うステージおよび聴衆を伴う聴衆席区分を含んでもよい。示されるように、直接音は、源(例えば、ピアノ奏者)において生じ、聴者(例えば、聴衆)に向かって直接進行する音である。反射は、源において生じ、表面(例えば、部屋の壁)から反射し、聴者に進行する音である。反響は、ある時間に相互に近接して到着する多くの反射を含む、消滅信号を含む音である。
図6は、いくつかの実施形態による、室内の源から聴者まで測定される部屋応答の例示的モデル600を図示する。部屋応答のモデルは、直接音源からある距離における聴者の観点からの直接音(610)、直接音の反射(620)、および直接音の反響(630)の振幅を示す。図6に図示されるように、直接音は、概して、反射(直接音と反射との間の時間における差異を示す、図の反射遅延(622)を伴う)の前に聴者に到着し、これは、順に、反響(直接音と反響との間の時間における差異を示す、図の反響遅延(632)を伴う)の前に到着する。反射および反響は、聴者にとって知覚的に異なり得る。反射は、例えば、個々の反射の時間、減衰、スペクトル形状、および到着方向をより良好に制御するために、反響とは別個にモデル化されることができる。反射は、反射モデルを使用してモデル化されてもよく、反響は、反射モデルと異なり得る、反響モデルを使用してモデル化されてもよい。
同一の音源に関する反響性質(例えば、反響消滅)は、同一の音源に関する2つの異なる音響環境(例えば、部屋)の間で異なり得、聴者の仮想環境内の現在の部屋の性質に従って音源を現実的に再現することが、望ましい。すなわち、仮想音源が、複合現実システムにおいて提示されるとき、聴者の実環境の反射および反響性質は、正確に再現されるべきである。L. Savioja、J. Huopaniemi、T. Lokki、およびR. Vaananen「Creating Interactive Virtual Acoustic Environments」J. Audio Eng. Soc. 47(9): 675−705 (1999)は、ビデオゲーム、シミュレーション、またはAR/VRのためのリアルタイム仮想3Dオーディオ再現システムにおいて直接経路、個々の反射、および音響反響を再現するための方法を説明している。Savioja et al.によって開示される方法では、各個々の反射の到着方向、遅延、振幅、およびスペクトル等化は、部屋(例えば、実部屋、仮想部屋、またはそれらのある組み合わせ)の幾何学的および物理的モデルから導出され、これは、複雑なレンダリングシステムを要求し得る。これらの方法は、コンピュータ的に複雑であり、おそらく、コンピューティングリソースが限られ得るモバイルアプリケーションに関して法外に複雑であり得る。
いくつかの部屋音響シミュレーションアルゴリズムでは、反響は、全ての音源をモノ信号にダウンミックスし、モノ信号を反響シミュレーションモジュールに送信することによって実装され得る。ダウンミックスおよび送信のために使用される利得は、例えば、源距離等の動的パラメータおよび、例えば、反響利得等の手動パラメータに依存し得る。
音源指向性または放射パターンは、音源が異なる方向に放出しているエネルギーの量の測度を指し得る。音源指向性は、部屋インパルス応答の全ての部分(例えば、直接、反射、および反響)に対して影響を及ぼす。異なる音源は、異なる指向性を呈し得、例えば、人間の発話は、トランペット演奏と異なる指向性パターンを有し得る。部屋シミュレーションモデルは、音響信号の正確なシミュレーションを生成するとき、音源指向性を考慮し得る。例えば、音源指向性を組み込むモデルは、音源の正面方向(または主要音響軸)に対する音源から聴者への線の方向の関数を含み得る。指向性パターンは、音源の主要音響軸を中心として軸対称である。いくつかの実施形態では、パラメトリック利得モデルが、周波数依存性フィルタを使用して定義されてもよい。いくつかの実施形態では、所与の音源からのオーディオが反響バスの中に送信されるべき量を決定するために、音源の拡散電力のアベレージが、(例えば、音源の音響中心を中心とする球体にわたって積分することによって)算出されてもよい。
双方向オーディオエンジンおよび音設計ツールは、モデル化されるべき音響システムについて仮定を行い得る。例えば、いくつかの双方向オーディオエンジンは、周波数から独立した関数として音源指向性をモデル化し得、これは、2つの潜在的欠点を有し得る。第1に、これは、音源から聴者への直接音伝搬に対する周波数依存性減衰を無視し得る。第2に、これは、反射および反響送信に対する周波数依存性減衰を無視し得る。これらの効果は、心理音響学の観点から重要であり得、それらを再現しないことは、不自然かつ聴者が実音響環境内で体験することに慣れているものと異なるように知覚される部屋シミュレーションにつながり得る。
ある場合には、部屋シミュレーションシステムまたは双方向オーディオエンジンは、音源、聴者、および反射および反響等の音響環境パラメータを完全に分離しない場合がある。代わりに、部屋シミュレーションシステムは、具体的仮想環境のために全体として調整され得、異なる再生シナリオに適合しない場合がある。例えば、シミュレートされる環境内の反響は、ユーザ/聴者が、レンダリングされるコンテンツを聴取しているときに物理的に存在する環境に合致しない場合がある。
拡張または複合現実用途では、コンピュータ発生オーディオオブジェクトは、ユーザ/聴者によって自然に聞かれる物理的環境と配合されるように、音響的に透過性の再生システムを介してレンダリングされ得る。これは、ローカル環境音響に合致するための両耳人工反響処理を要求し得、したがって、合成オーディオオブジェクトは、自然に発生する、またはラウドスピーカにわたって再現される音から判別可能ではない。例えば、環境の幾何学形状を推定することに基づく部屋インパルス応答の測定または計算を伴うアプローチは、実践的障害および複雑性によって、消費者環境において限定され得る。加えて、物理的モデルは、これが、心理音響学の音響原理を考慮しない、またはサウンドデザイナが聴取体験を微調整するために好適なオーディオ場面パラメータ化を提供し得ないため、必ずしも最も人を引き付ける聴取体験を提供し得ない。
標的音響環境のいくつかの具体的物理的性質に合致することは、聴者の環境またはアプリケーション設計者の意図に知覚的に密接に合致するシミュレーションを提供し得ない。実践的オーディオ環境記述インターフェースを用いて特性評価され得る標的音響環境の知覚的に関連するモデルが、所望され得る。
例えば、源、聴者、および部屋性質の寄与を分離するレンダリングモデルが、所望され得る。寄与を分離するレンダリングモデルは、ローカル環境およびエンドユーザの性質に従って、ランタイム時にコンポーネントを適合させる、またはスワップすることを可能にし得る。例えば、聴者は、コンテンツが元々作成された仮想環境と異なる音響特徴を有する物理的部屋内に存在し得る。聴取環境に合致するようにシミュレーションの早期反射および/または反響を修正することは、より説得力のある聴取体験につながり得る。聴取環境に合致することは、所望の効果が、聴者が、シミュレートされるその周囲の音および実周辺環境内に存在する音を判別できないことであり得る、複合現実用途において特に重要であり得る。
実周辺環境の幾何学形状および/または周辺表面の音響性質の詳細な知識を要求することなく説得力のある効果を作成することが、所望され得る。実周辺環境性質の詳細な知識は、利用可能ではない場合がある、またはそれらは、特に、ポータブルデバイス上での推定が複雑であり得る。代わりに、知覚および心理音響学原理に基づくモデルが、音響環境を特性評価するためのはるかに実践的なツールであり得る。
図7は、いくつかの実施形態による、源、聴者、および部屋の性質を区別する、両耳部屋インパルスモデルにおける各区分を特徴付けるいくつかの客観的音響および幾何学的パラメータを含む、表700を図示する。自由音場および拡散音場伝達関数を含む、いくつかの源性質は、コンテンツがレンダリングされるであろう方法および場所から独立し得る一方、位置および配向を含む、他の性質は、再生時に動的に更新される必要があり得る。同様に、自由音場および拡散音場頭部関連伝達関数または拡散音場両耳間コヒーレンス(IACC)を含む、いくつかの聴者性質は、コンテンツがレンダリングされるであろう場所から独立し得る一方、位置および配向を含む、他の性質は、再生時に動的に更新され得る。いくつかの部屋性質、特に、後期反響に寄与する性質は、完全に環境に依存し得る。反響消滅率および部屋立方体積の表現は、空間オーディオレンダリングシステムを聴者の再生環境に適合させるためのものであり得る。
源および聴者の耳は、それぞれ、聴者の頭部関連伝達関数(HRTF)を含む、方向依存性自由音場伝達関数のセットによって特性評価される、放出および受信トランスデューサとしてモデル化されてもよい。
図8は、いくつかの実施形態による、XR環境内等の仮想部屋内で複数の仮想音源をレンダリングするための例示的オーディオ混合システム800を図示する。例えば、オーディオ混合アーキテクチャは、複数の仮想音源810(すなわち、オブジェクト1−N)の部屋音響シミュレーションのためのレンダリングエンジンを含んでもよい。システム800は、反射および反響をレンダリングするモジュール850(例えば、共有反響および反射モジュール)にフィードする部屋送信バス830を備える。本一般的プロセスの側面は、例えば、IA−SIG 3D Audio Rendering Guidelines (Level 2), www.iasig.net (1999)に説明されている。部屋送信バスは、全ての源、例えば、それぞれ、対応するモジュール820によって処理される、音源810からの寄与を組み合わせ、部屋モジュールの入力信号を導出する。部屋送信バスは、モノ部屋送信バスを備えてもよい。主要混合バス840のフォーマットは、例えば、ヘッドホン再生のための両耳レンダラ、アンビソニックデコーダ、および/またはマルチチャネルラウドスピーカシステムを含み得る、最終出力レンダリング方法に合致する2チャネルまたはマルチチャネルフォーマットであってもよい。主要混合バスは、全ての源からの寄与を部屋モジュール出力と組み合わせ、出力レンダリング信号860を導出する。
例示的システム800を参照すると、N個のオブジェクトの各オブジェクトは、仮想音源信号を表してもよく、パンニングアルゴリズムによって等、環境内の見掛け場所を割り当てられてもよい。例えば、各オブジェクトは、仮想聴者の位置を中心とする球体上の角度位置を割り当てられることができる。パンニングアルゴリズムは、主要混合の各チャネルへの各オブジェクトの寄与を計算してもよい。本一般的プロセスは、例えば、J.−M. Jot、V. Larcher、およびJ.−M. Pernaux「A comparative study of 3−D audio encoding and rendering techniques」 Proc. AES 16th International Conference on Spatial Sound Reproduction (1999)に説明されている。各オブジェクトは、パン、利得モジュール820に入力されてもよく、これは、パンニングアルゴリズムを実装し、オブジェクト毎に利得レベルを調節すること等の付加的信号処理を実施することができる。
いくつかの実施形態では、システム800は(例えば、モジュール820を介して)、各仮想音源に、それからレンダリングエンジンがオブジェクト毎に源毎の直接利得および源毎の部屋利得を導出し得る、仮想聴者の位置に対する見掛け距離を割り当ててもよい。直接および部屋利得は、それぞれ、仮想音源によって主要混合バス840および部屋送信バス830に寄与されるオーディオ信号電力に影響を及ぼし得る。最小距離パラメータが、各仮想音源に割り当てられてもよく、直接利得および部屋利得は、距離が、本最小距離を越えて増加するにつれて、異なる速度でロールオフし得る。
いくつかの実施例では、図8のシステム800は、従来的2チャネルフロントステレオラウドスピーカ再生システムを標的とするオーディオ記録および双方向オーディオ用途の生成のために使用されてもよい。しかしながら、シミュレートされた反響および反射の空間的拡散分布を可能にする両耳または没入型3Dオーディオシステムにおいて適用されると、システム800は、仮想音源、特に、聴者から遠いものをレンダリングするときに十分に説得力のある音像定位キューを提供しない場合がある。これは、反射の空間分布の源毎の制御をサポートしながら、仮想音源810の間で共有されるクラスタ化された反射レンダリングモジュールの包含によって対処されることができる。そのようなモジュールが、源毎の早期反射処理アルゴリズム、および仮想音源および聴者位置による早期反射パラメータの動的制御を組み込むことが、望ましい。
いくつかの実施形態では、仮想音源毎の個々の早期反射のコンピュータ的に複雑なレンダリングまたは音響リフレクタ幾何学形状および物理的性質の詳細な記述を伴わずに、位置依存性部屋音響キューを正確に再現し得る空間オーディオ処理モデル/システムおよび方法を有することが、所望され得る。
反射処理モデルは、関連付けられる物理的および幾何学的記述を伴わずに、実または仮想部屋/環境内の聴者および仮想音源の位置を動的に考慮し得る。源毎のクラスタ化された反射パンニングおよび早期反射処理パラメータの制御のための知覚モデルが、効率的に実装されてもよい。
図9は、いくつかの実施形態による、仮想部屋内で複数の仮想音源をレンダリングするためのオーディオ混合システム900を図示する。例えば、システム900は、複数の仮想音源910(例えば、オブジェクト1−N)の部屋音響シミュレーションのためのレンダリングエンジンを含んでもよい。上記に説明されるシステム800と比較して、システム900は、仮想音源毎に反響および反射送信チャネルの別個の制御を含むことができる。各オブジェクトは、個別の源毎の処理モジュール920に入力されてもよく、部屋送信バス930は、部屋処理モジュール950にフィードしてもよい。
図10は、いくつかの実施形態による、源毎の処理モジュール1020を図示する。モジュール1020は、図9および例示的システム900に示されるモジュール920のうちの1つ以上のものに対応することができる。源毎の処理モジュール1020は、全体的システム(例えば、システム900)の個々の源(例えば、源910のうちの1つに対応し得る、1010)に特有の処理を実施することができる。源毎の処理モジュールは、直接処理経路(例えば、1030A)および/または部屋処理経路(例えば、1030B)を含んでもよい。
いくつかの実施形態では、個々の直接および部屋フィルタが、別個に音源毎に適用されてもよい。別個にフィルタを適用することは、各源が聴者に向かって、かつ周辺環境の中に音を放射している方法に対するより精緻化された、かつ正確な制御を可能にし得る。広帯域利得と対照的に、フィルタの使用は、周波数の関数としての所望の音放射パターンに合致することを可能にし得る。これは、放射性質が、音源タイプを横断して変動し得、周波数依存性であり得るため、有益である。音源の主要音響軸と聴者の位置との間の角度は、聴者によって知覚される音圧レベルに影響を及ぼし得る。さらに、源放射特性は、源の拡散電力のアベレージに影響を及ぼし得る。
いくつかの実施形態では、周波数依存性フィルタが、「INDEX SCHEMING FOR FILTER PARAMETERS」と題された、米国特許出願第62/678259号(その内容は、参照することによってその全体として組み込まれる)に開示される二重シェルビングアプローチを使用して実装されてもよい。いくつかの実施形態では、周波数依存性フィルタは、周波数領域において、および/または有限インパルス応答フィルタを使用して適用されてもよい。
実施例に示されるように、直接処理経路は、直接送信フィルタ1040を含んでもよく、直接パンモジュール1044が続く。直接送信フィルタ1040は、音源指向性、距離、および/または配向のうちの1つ以上のもの等の1つ以上の音響効果をモデル化してもよい。直接パンモジュール1044は、環境内の見掛け位置(例えば、XR環境等の仮想環境内の3D場所)に対応するようにオーディオ信号を空間化することができる。直接パンモジュール1044は、振幅および/または強度ベースであってもよく、ラウドスピーカアレイの幾何学形状に依存してもよい。いくつかの実施形態では、直接処理経路は、直接送信フィルタおよび直接パンモジュールとともに、直接送信利得1042を含んでもよい。直接パンモジュール1044は、例示的システム900に関して上記に説明される主要混合バス940に対応し得る、主要混合バス1090に出力することができる。
いくつかの実施形態では、部屋処理経路は、部屋遅延1050と、部屋送信フィルタ1052とを備え、反射経路(例えば、1060A)および反響経路(例えば、1060B)が続く。部屋送信フィルタは、反射および反響経路に進む信号に対する音源指向性の効果をモデル化するために使用されてもよい。反射経路は、反射送信利得1070を備えてもよく、反射パンモジュール1072を介して信号を反射送信バス1074に送信してもよい。反射パンモジュール1072は、これが、オーディオ信号を空間化し得るが、直接信号の代わりに反射に対して動作し得る点において、直接パンモジュール1044に類似し得る。反響経路1060Bは、反響利得1080を備えてもよく、信号を反響送信バス1084に送信してもよい。反射送信バス1074および反響送信バス1084は、例示的システム900に関して上記に説明される部屋送信バス930に対応し得る、部屋送信バス1092にグループ化されてもよい。
図11は、いくつかの実施形態による、上記に説明される反射パンモジュール1072に対応し得る、源毎の反射パンモジュール1100の実施例を図示する。図に示されるように、入力信号が、例えば、J.−M. Jot、V. Larcher、およびJ.−M. Pernaux「A comparative study of 3−D audio encoding and rendering techniques」 Proc. AES 16th International Conference on Spatial Sound Reproduction (1999)に説明されるように、3チャネルアンビソニックBフォーマット信号にエンコードされてもよい。エンコード係数1110は、方程式1−3に従って計算されることができる。
方程式1−3では、kは、
として計算され得、式中、Fは、[0, 2/3]の間の値を伴う空間焦点パラメータであり、Azは、[0, 360]の間の度における角度である。エンコーダは、入力信号を3チャネルアンビソニックBフォーマット信号にエンコードしてもよい。
Azは、頭部相対水平面(例えば、聴者の頭部の「上」ベクトルに垂直であり、聴者の耳を含有する平面)への反射の主な到着方向の投影によって定義される方位角であり得る。空間焦点パラメータFは、聴者に到着する反射信号エネルギーの空間的集中を示し得る。Fが、ゼロであるとき、反射エネルギー到着の空間分布は、聴者の周囲で均一であり得る。Fが、増加するにつれて、空間分布は、方位角Azによって決定される主方向の周囲にますます集中し得る。Fの最大理論値は、1.0であり、全てのエネルギーが、方位角Azによって決定される主方向から到着していることを示し得る。
本発明のある実施形態では、空間焦点パラメータFは、例えば、J.−M. Jot、V. Larcher、およびJ.−M. Pernaux「A comparative study of 3−D audio encoding and rendering techniques」 Proc. AES 16th International Conference on Spatial Sound Reproduction (1999)に説明される、ガーゾンエネルギーベクトルの大きさとして定義されてもよい。
反射パンモジュール1100の出力は、図10および例示的処理モジュール1020に関して上記に説明される反射送信バス1074に対応し得る、反射送信バス1174に提供されることができる。
図12は、いくつかの実施形態による、例示的部屋処理モジュール1200を図示する。部屋処理モジュール1200は、図9および例示的システム900に関して上記に説明される部屋処理モジュール950に対応することができる。図9に示されるように、部屋処理モジュール1200は、反射処理経路1210Aおよび/または反響処理経路1210Bを備えてもよい。
反射処理経路1210Aは、反射送信バス1202(上記に説明される反射送信バス1074に対応し得る)から信号を受信し、主要混合バス1290(上記に説明される主要混合バス940に対応し得る)の中に信号を出力してもよい。反射処理経路1210Aは、反射グローバル利得1220、反射グローバル遅延1222、および/または反射をシミュレート/レンダリングし得る反射モジュール1224を備えてもよい。
反響処理経路1210Bは、反響送信バス1204(上記に説明される反響送信バス1084に対応し得る)から信号を受信し、主要混合バス1290の中に信号を出力してもよい。反響処理経路1210Bは、反響グローバル利得1230、反響グローバル遅延1232、および/または反響モジュール1234を含んでもよい。
図13は、いくつかの実施形態による、例示的反射モジュール1300を図示する。反射モジュールの入力1310は、上記に説明されるもの等の反射パンモジュール1100によって出力され、反射送信バス1174を介して反射モジュール1300に提示されることができる。反射送信バスは、全ての仮想音源(例えば、図9に関して上記に説明される音源910(オブジェクト1−N))からの寄与を組み合わせる3チャネルアンビソニックBフォーマット信号を搬送してもよい。示される実施例では、(W、X、Y)と表される3つのチャネルは、アンビソニックデコーダ1320にフィードされる。実施例によると、アンビソニックデコーダは、6つの出力信号を生成し、これは、それぞれ、6つのモノ入力/出力基本反射モジュール1330(R1−R6)にフィードし、6つの反射出力信号1340(s1−s6)のセットを生成する。(実施例は、6つの信号および反射モジュールを示すが、任意の好適な数が、使用されてもよい。)反射出力信号1340は、上記に説明される主要混合バス940に対応し得る、主要混合バス1350に提示される。
図14は、いくつかの実施形態による、聴者1402によって検出されるような、反射の見掛け到着方向の空間分布1400を図示する。例えば、示される反射は、例えば、図11に関して上記に説明される反射パンパラメータAzおよびFの特定の値を割り当てられる音源に関して、上記に説明される反射モジュール1300によって生成されるものであり得る。
図14に図示されるように、反射パンモジュール1100と組み合わせられる反射モジュール1300の効果は、一連の反射を生成することであり、そのそれぞれは、異なる時間に(例えば、モデル600に図示されるように)、仮想ラウドスピーカ方向1410のそれぞれ(例えば、上記に説明される反射出力信号s1−s6に対応し得る、1411−1416)から到着し得る。アンビソニックデコーダ1320と組み合わせられる1100の反射パンモジュールの効果は、聴者のために、反射が、空間焦点パラメータFの設定によって決定される空間分布(例えば、その主方向の周囲に多かれ少なかれ集中している)を伴う主方向角Azから発出している感覚を生成するために、反射出力信号1340の相対的大きさを調節することである。
いくつかの実施形態では、反射主方向角Azは、源毎に、直接経路の見掛け到着方向と一致し、これは、直接パンモジュール1020によって源毎に制御されることができる。シミュレートされる反射は、聴者によって知覚される仮想音源の方向的位置の知覚を強調し得る。
いくつかの実施形態では、主要混合バス940および直接パンモジュール1020は、音方向の3次元再現を可能にし得る。これらの実施形態では、反射主方向角Azは、反射主角Azが測定される平面上への見掛け方向の投影と一致し得る。
図15は、いくつかの実施形態による、距離(例えば、聴者まで)の関数としての例示的直接利得、反射利得、および反響利得のモデル1500を図示する。モデル1500は、源距離に対する、例えば、図10に示される直接、反射、および反響送信利得の変動の実施例を図示する。図に示されるように、直接音、その反射、およびその反響が、距離に対して有意に異なるフォールオフ曲線を有し得る場合がある。ある場合には、上記に説明されるもの等の源毎の処理は、反響に関してよりも反射に関してより高速の距離ベースのロールオフを実現することを可能にし得る。心理音響学的には、これは、特に、遠い源に関するロバストな指向性知覚および距離知覚を可能にし得る。
図16は、いくつかの実施形態による、直接および反射成分に関する空間焦点対源距離の例示的モデル1600を図示する。本実施例では、直接パンモジュール1020は、その距離にかかわらず、音源の方向における直接経路成分の最大空間的集中を生成するように構成される。一方、反射空間焦点パラメータFは、限界距離(例えば、反射最小距離1610)よりも長い全ての距離に関して、現実的様式で、指向性知覚を増強するために、2/3の例示的値に設定されてもよい。例示的モデル1600によって図示されるように、反射空間焦点パラメータ値は、源が、聴者に接近するにつれて、ゼロに向かって減少する。
図17は、時間の関数としてのオーディオ信号の振幅の例示的モデル1700を示す。上記に説明されるように、反射処理経路(例えば、1210A)は、反射送信バスから信号を受信し、信号を主要混合バス上に出力してもよい。反射処理経路は、上記に説明されるもの等、反射グローバル利得(例えば、1220)、モデル1700に示されるようなパラメータDerを制御するための反射グローバル遅延(例えば、1222)、および/または反射モジュール(例えば、1224)を含んでもよい。
上記に説明されるように、反響処理経路(例えば、1210B)は、反響送信バスから信号を受信し、信号を主要混合バスの中に出力してもよい。反響処理経路1210Bは、モデル1700に示されるようなパラメータLgoを制御するための反響グローバル利得(例えば、1230)、モデル1700に示されるようなパラメータDrevを制御するための反響グローバル遅延(例えば、1232)、および/または反響モジュール(例えば、1234)を含んでもよい。反響処理経路内の処理ブロックは、任意の好適な順序において実装されてもよい。反響モジュールの実施例が、「REVERBERATION GAIN NORMALIZATION」と題された、米国特許出願第62/685235号および「LOW−FREQUENCY INTERCHANNEL COHERENCE CONTROL」と題された、米国特許出願第62/684086号(そのそれぞれの内容は、参照することによってその全体として本明細書に組み込まれる)に説明されている。
図17のモデル1700は、いくつかの実施形態による、反響遅延およびレベルを動的に調節するために、距離および反響遅延を含む源毎のパラメータが考慮され得る方法を図示する。図では、Dtofは、所与のオブジェクトに関する飛行時間に起因する遅延を表し、すなわち、Dtof=ObjDist/cであり、式中、ObjDistは、聴者の頭部の中心からのオブジェクト距離であり、cは、空気中の音速である。Drmは、オブジェクトあたりの部屋遅延を表す。Dobjは、合計のオブジェクトあたりの遅延を表し、すなわち、Dobj=Dtof+Drmである。Derは、グローバル早期反射遅延を表す。Drevは、グローバル反響遅延を表す。Dtotalは、所与のオブジェクトに関する合計遅延を表し、すなわち、Dtotal=Dobj+Dglobalである。
Lrefは、Dtotal=0に関する反響のレベルを表す。Lgoは、グローバル遅延に起因するグローバルレベルオフセットを表し、これは、方程式10に従って算出され得、T60が、反響アルゴリズムの反響時間である。Looは、グローバル遅延に起因するオブジェクトあたりのレベルオフセットを表し、これは、方程式11に従って算出され得る。Ltoは、所与のオブジェクトに関する合計レベルオフセットを表し、(dB値を仮定して)方程式12に従って算出され得る。
いくつかの実施形態では、反響レベルは、オブジェクト位置、反響時間、および他のユーザ制御可能パラメータから独立して較正される。故に、Lrevは、音放出の初期時間における消滅反響の外挿レベルであり得る。Lrevは、「REVERBERATION GAIN NORMALIZATION」と題された、米国特許出願第62/685235号(その内容は、参照することによってその全体として本明細書に組み込まれる)に定義される反響初期電力(RIP)と同一の量であり得る。Lrevは、方程式13に従って算出され得る。
いくつかの実施形態では、T60は、周波数の関数であってもよい。したがって、Lgo、Loo、およびその結果、Ltoは、周波数依存性である。
図18は、音響環境に基づいて空間オーディオ性質を決定するための例示的システム1800を図示する。例示的システム1800は、上記に説明されるもの等の反射および/または反響に関する空間オーディオ性質を決定するために使用されることができる。実施例として、そのような性質は、部屋の体積、周波数の関数としての反響時間、部屋に対する聴者の位置、室内のオブジェクト(例えば、音減衰オブジェクト)の存在、表面材料、または他の好適な性質を含んでもよい。いくつかの実施例では、これらの空間オーディオ性質は、ローカル環境内に自由に位置付けられるマイクロホンおよびラウドスピーカを用いて単一のインパルス応答を捕捉することによってローカルで読み出されてもよい、またはモバイルデバイスマイクロホンによって捕捉される音を連続的に監視および分析することによって適合的に導出されてもよい。音響環境がXRシステム(例えば、上記に説明されるウェアラブル頭部ユニット100、ハンドヘルドコントローラ200、および補助ユニット300のうちの1つ以上のものを含む、拡張現実システム)のセンサを介して感知され得る場合等のいくつかの実施例では、ユーザの場所が、ユーザに(例えば、ディスプレイを介して)提示される環境に対応するオーディオ反射および反響を提示するために使用されることができる。
例示的システム1800では、音響環境感知モジュール1810が、上記に説明されるもの等の音響環境の空間オーディオ性質を識別する。いくつかの実施例では、音響環境感知モジュール1810は、音響環境に対応するデータを捕捉することができる(段階1812)。例えば、段階1812において捕捉されるデータは、1つ以上のマイクロホンからのオーディオデータ、RGBカメラまたは深度カメラ等のカメラからのカメラデータ、LIDARデータ、ソナーデータ、レーダデータ、GPSデータ、または音響環境についての情報を伝え得る他の好適なデータを含み得る。いくつかのインスタンスでは、段階1812において捕捉されるデータは、音響環境に対するユーザの位置または配向等のユーザに関連するデータを含むことができる。段階1812において捕捉されるデータは、上記に説明されるウェアラブル頭部ユニット100等のウェアラブルデバイスの1つ以上のセンサを介して捕捉されることができる。
いくつかの実施形態では、頭部搭載型ディスプレイデバイスが存在するローカル環境が、1つ以上のマイクロホンを含んでもよい。いくつかの実施形態では、1つ以上のマイクロホンが、採用されてもよく、モバイルデバイスに搭載される、または環境に位置付けられる、または両方であってもよい。そのような配列の利益は、部屋の反響についての方向情報を収集すること、または1つ以上のマイクロホン内のいずれか1つのマイクロホンの不良な信号品質を軽減することを含み得る。信号品質は、例えば、閉塞、過負荷、風切り音、トランスデューサ損傷、および同等物に起因して、所与のマイクロホン上で不良であり得る。
モジュール1810の段階1814において、特徴が、段階1812において捕捉されたデータから抽出されることができる。例えば、部屋の寸法が、カメラデータ、LIDARデータ、ソナーデータ等のセンサデータから決定されることができる。段階1814において抽出された特徴は、部屋の1つ以上の音響性質、例えば、周波数依存性反響時間を決定するために使用されることができ、これらの性質は、段階1816において記憶され、現在の音響環境と関連付けられることができる。
いくつかの実施例では、モジュール1810は、音響環境に関する音響性質を記憶し、読み出すために、データベース1840と通信することができる。いくつかの実施形態では、データベースは、デバイスのメモリ上にローカルで記憶されてもよい。いくつかの実施形態では、データベースは、クラウドベースサービスとしてオンラインで記憶されてもよい。データベースは、聴者の場所に基づいて、後の時点での容易なアクセスのために、地理的場所を部屋性質に割り当ててもよい。いくつかの実施形態では、データベースは、聴者の場所を識別する、および/または聴者の環境性質の近い近似値であるデータベース内の反響性質を決定するために、付加的情報を含有してもよい。例えば、部屋性質は、部屋タイプによって分類されてもよく、したがって、パラメータのセットが、絶対地理的場所が、把握され得ない場合であっても、聴者が既知のタイプの部屋(例えば、寝室または居間)内に存在することが識別されるとすぐに、使用されることができる。
データベースの中への反響性質の記憶は、「PERSISTENT WORLD MODEL SUPPORTING AUGMENTED REALITY AND INCLUDING AUDIO COMPONENT」と題された、米国特許出願第62/573448号(その内容は、参照することによってその全体として本明細書に組み込まれる)に関連し得る。
いくつかの実施例では、システム1800は、部屋に関する音響性質を読み出し、それらの性質をオーディオ反射(例えば、ヘッドホンを介して、またはスピーカを介してウェアラブル頭部ユニット100のユーザに提示されるオーディオ反射)に適用するための反射適合モジュール1820を含むことができる。段階1822において、ユーザの現在の音響環境が、決定されることができる。例えば、GPSデータが、GPS座標内のユーザの場所を示すことができ、これは、ひいては、ユーザの現在の音響環境(例えば、それらのGPS座標に位置する部屋)を示すことができる。別の実施例として、光学認識ソフトウェアと組み合わせたカメラデータが、ユーザの現在の環境を識別するために使用されることができる。反射適合モジュール1820は、次いで、決定された環境と関連付けられる音響性質を読み出すために、データベース1840と通信することができ、それらの音響性質は、段階1824において使用され、それに応じてオーディオレンダリングを更新することができる。すなわち、反射に関連する音響性質(例えば、上記に説明されるもの等の指向性パターンまたはフォールオフ曲線)は、提示される反射オーディオ信号が、それらの音響性質を組み込むように、ユーザに提示される反射オーディオ信号に適用されることができる。
同様に、いくつかの実施例では、システム1800は、部屋に関する音響性質を読み出し、それらの性質をオーディオ反響(例えば、ヘッドホンを介して、またはスピーカを介してウェアラブル頭部ユニット100のユーザに提示されるオーディオ反射)に適用するための反射適合モジュール1830を含むことができる。反響に関する着目音響性質は、上記に説明されるもの等の(例えば、図7に関する表700における)反射に関して着目されるものと異なり得る。段階1832において、上記のように、ユーザの現在の音響環境が、決定されることができる。例えば、GPSデータが、GPS座標内のユーザの場所を示すことができ、これは、ひいては、ユーザの現在の音響環境(例えば、それらのGPS座標に位置する部屋)を示すことができる。別の実施例として、光学認識ソフトウェアと組み合わせたカメラデータが、ユーザの現在の環境を識別するために使用されることができる。反響適合モジュール1830は、次いで、決定された環境と関連付けられる音響性質を読み出すために、データベース1840と通信することができ、それらの音響性質は、段階1824において使用され、それに応じてオーディオレンダリングを更新することができる。すなわち、反響に関連する音響性質(例えば、上記に説明されるもの等の反響消滅時間)は、提示される反響オーディオ信号が、それらの音響性質を組み込むように、ユーザに提示される反響オーディオ信号に適用されることができる。
上記に説明されるシステムおよび方法に関して、本システムおよび方法の要素は、適宜、1つ以上のコンピュータプロセッサ(例えば、CPUまたはDSP)によって実装されることができる。本開示は、これらの要素を実装するために使用される、コンピュータプロセッサを含むコンピュータハードウェアの任意の特定の構成に限定されない。ある場合には、複数のコンピュータシステムが、上記に説明されるシステムおよび方法を実装するために採用されることができる。例えば、第1のコンピュータプロセッサ(例えば、マイクロホンに結合されるウェアラブルデバイスのプロセッサ)が、入力マイクロホン信号を受信し、それらの信号の初期処理(例えば、上記に説明されるもの等の信号調整および/またはセグメント化)を実施するために利用されることができる。第2の(おそらく、よりコンピュータ的に強力な)プロセッサが、次いで、それらの信号の発話セグメントと関連付けられる確率値の決定等のよりコンピュータ的に集約的な処理を実施するために利用されることができる。クラウドサーバ等の別のコンピュータデバイスが、発話認識エンジンをホストすることができ、それに入力信号が、最終的に提供される。他の好適な構成も、明白になり、本開示の範囲内である。
開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、1つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付される請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるものである。