JP7479352B2

JP7479352B2 - オーディオ装置及びオーディオ処理の方法

Info

Publication number: JP7479352B2
Application number: JP2021510441A
Authority: JP
Inventors: ブルーインウェルナーパウルスヨセフスデ; ネイサンスヴィラー‐ラバスティ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-08-28
Filing date: 2019-08-20
Publication date: 2024-05-08
Anticipated expiration: 2039-08-20
Also published as: EP4242829A3; EP3844606C0; US20230179919A1; US11582556B2; MX2023005646A; PL3844606T3; US12081955B2; WO2020043539A1; CN112602053A; EP3844606B1; US20210258690A1; EP4242828A2; CN116567485A; JP2023169208A; BR112021003449A2; EP4242827A3; CN112602053B; CN116471520A; CN116471521A; EP4242829A2

Description

本発明は、オーディオ装置及びオーディオ処理の方法に関し、特に、限定はしないが、上記を使用して、拡張／仮想現実アプリケーションをサポートすることに関する。

オーディオビジュアルコンテンツに基づく体験の多様性及び範囲は、そのようなコンテンツを利用し、消費する新しいサービス及びやり方が継続的に開発され、導入されることで、近年、大幅に増加している。特に、より関与する、没入型の体験をユーザに与えるために、多くの空間及び対話型サービス、アプリケーション及び体験が開発されている。

そのようなアプリケーションの例は、仮想現実（ＶＲ）、拡張現実（ＡＲ）、及び複合現実（ＭＲ）アプリケーションであり、それらのアプリケーションは急速に主流になりつつあり、いくつかのソリューションが消費者市場を目的としている。いくつかの規格化団体によって、いくつかの規格も開発中である。そのような規格化活動は、例えば、ストリーミング、ブロードキャスティング、レンダリングなどを含む、ＶＲ／ＡＲ／ＭＲシステムの様々な態様のための規格を活発に開発している。

ＶＲアプリケーションは、ユーザが、異なる世界／環境／シーンにいることに対応するユーザ体験を提供する傾向があり、（複合現実ＭＲを含む）ＡＲアプリケーションは、ユーザが現在の環境にいるが、追加情報或いは仮想オブジェクト又は情報が追加されることに対応するユーザ体験を提供する傾向がある。したがって、ＶＲアプリケーションは、完全没入型の、合成的に生成された世界／シーンを提供する傾向があり、ＡＲアプリケーションは、ユーザが物理的に存在する現実のシーン上にオーバーレイされた部分的合成世界／シーンを提供する傾向がある。しかしながら、それらの用語は、しばしば互換的に使用され、高度の重複を有する。以下では、仮想現実／ＶＲという用語は、仮想現実と拡張現実の両方を示すために使用される。

一例として、ますます普及しているサービスは、ユーザが、レンダリングのパラメータを変更するためにシステムと能動的に及び動的に対話することが可能であり、その結果、これが、ユーザの位置及び向きの移動及び変更に適応することになるようなやり方での、画像及びオーディオの提供である。多くのアプリケーションにおける極めて魅力的な特徴は、例えば観察者（ｖｉｅｗｅｒ）が提示されているシーンにおいて移動し、「見回す」ことを可能にすることなど、観察者の効果的な観察位置（ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ）及び観察方向を変更する能力である。

そのような特徴は、詳細には、仮想現実体験がユーザに提供されることを可能にすることができる。これは、ユーザが、仮想環境において（比較的）自由に動き回り、ユーザの位置と、ユーザが見ている場所とを動的に変更することを可能にする。一般に、そのような仮想現実アプリケーションはシーンの３次元モデルに基づき、モデルは、特定の要求されたビューを提供するために動的に評価される。この手法は、ファーストパーソンシューターのカテゴリーなどにおける、例えば、コンピュータ及びコンソールのためのゲームアプリケーションからよく知られている。

また、特に仮想現実アプリケーションの場合、提示されている画像は３次元画像であることが望ましい。実際、観察者の没入を最適化するために、ユーザが、提示されたシーンを３次元シーンとして体験することが、一般に好ましい。実際、仮想現実体験は、好ましくは、ユーザが、仮想世界に対してユーザ自身の位置、カメラ視点、及び時間的瞬間を選択することを可能にするべきである。

一般に、仮想現実アプリケーションは、シーンの所定のモデル、及び、一般に、仮想世界の人工モデルに基づくことにおいて、本質的に限定される。いくつかのアプリケーションでは、仮想現実体験は、現実世界のキャプチャに基づいて提供される。多くの場合、そのような手法は、現実世界のキャプチャから構築される、現実世界の仮想モデルに基づく傾向がある。仮想現実体験は、次いで、このモデルを評価することによって生成される。

多くの現在の手法は、準最適である傾向があり、しばしば、高い計算又は通信リソース要件を有し、及び／或いは、例えば、品質の低減又は自由の制限を伴う、準最適なユーザ体験を提供する傾向がある。

アプリケーションの一例として、観察者が、キャプチャされた３６０°（パノラマ）又は１８０°ビデオを体験することを可能にする、仮想現実眼鏡が市場に参入している。これらの３６０°ビデオは、しばしば、カメラリグを使用してプリキャプチャされ、個々の画像が一緒にスティッチされて単一の球状マッピングになる。１８０°ビデオ又は３６０°ビデオのための共通ステレオフォーマットは、上／下及び左／右である。非パノラマステレオビデオと同様に、左眼ピクチャと右眼ピクチャとが、例えば単一のＨ．２６４ビデオストリームの一部として圧縮される。

ビジュアルレンダリングに加えて、たいていのＶＲ／ＡＲアプリケーションは、さらに、対応するオーディオ体験を提供する。多くのアプリケーションでは、オーディオは、好ましくは、オーディオ源が、ビジュアルシーンにおける対応するオブジェクトの位置に対応する位置から来るのが知覚される、空間オーディオ体験を提供する。したがって、オーディオシーンとビデオシーンとは、好ましくは、整合して知覚され、両方が完全な空間体験を提供する。

オーディオについて、焦点は、これまでたいてい、バイノーラルオーディオレンダリング技術を使用するヘッドフォン再生にあった。多くのシナリオでは、ヘッドフォン再生は、ユーザにとって、極めて没入型の個人化された体験を可能にする。頭部追跡を使用して、レンダリングは、ユーザの頭部移動に応答して行われ得、これは、没入の感覚を極めて増加させる。

最近、市場と規格議論の両方において、ＶＲ（及びＡＲ）の「ソーシャル」又は「共有」態様、すなわち、他の人々とともに体験を共有する可能性を伴う使用事例が提案され始めている。これらは、異なるロケーションにおける人々であるが、同じロケーション（又は両方の組合せ）にいる人々でもあり得る。例えば、各参加者の投影（オーディオ及びビデオ）がＶＲコンテンツ／シーンにおいて存在する、同じＶＲ体験を、同じ部屋にいる数人の人々が共有する。例えば、複数の人々が参加するゲームでは、各プレーヤが、ゲーム－シーンにおける異なるロケーションを有し、結果として、オーディオシーン及びビデオシーンの異なる投影を有する。

特定の例として、ＭＰＥＧは、６つの自由度をもつ現実的な没入型ＡＲ／ＶＲ体験のための、ビットストリーム及びデコーダを規格化することを試みる。ソーシャルＶＲは、重要な特徴であり、ユーザが、共有環境（ゲーミング、会議呼、オンラインショッピングなど）において対話することを可能にする。ソーシャルＶＲの概念はまた、物理的に、同じロケーションであるが、例えば、ヘッドマウントディスプレイ又は他のＶＲヘッドセットが物理的周囲からの知覚上の遮断を提供する、ロケーションにいるユーザにとって、ＶＲ体験を、よりソーシャルな活動にすることを容易にする。

そのような「ソーシャル」又は「共有」ＡＲ（又はＶＲ）使用事例におけるヘッドフォン再生の欠点は、各ユーザが個々のヘッドフォンを着用する場合、同じロケーション（例えば部屋）にいるユーザが、少なくとも部分的に、音響的に互いから遮断されることであり、これは、体験の「ソーシャル」部分を低下させる（例えば、隣り合わせに立っている人々が自然な会話を有することが困難になるか又はぎこちなくなる）。

これは、オーディオ再生のためにヘッドフォンの代わりにラウドスピーカーを使用することによって対処される。しかしながら、これは、オーディオ再生が、個人ユーザに、それほど自由に適応及びカスタマイズされ得ないという欠点を有する。例えば、それは、頭部移動に、詳細には、各個人ユーザの頭部向きの変更にオーディオ再生を動的に適応させることを困難にする。そのような影響は、没入型体験にとって極めて重大であり、したがって、ラウドスピーカーは、最適化されたユーザ体験を生成するのに準最適である傾向がある。

したがって、特に仮想／拡張／複合現実体験／アプリケーションのためのオーディオ処理のための改善された手法が有利である。特に、動作の改善、フレキシビリティの増加、複雑度の低減、実装の容易さ、オーディオ体験の改善、オーディオシーンとビジュアルシーンとのより整合した知覚、カスタマイゼーションの改善、個人化の改善、仮想現実体験の改善、並びに／或いは性能及び／又は動作の改善を可能にする手法が有利である。

したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの１つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。

本発明の一態様によれば、オーディオシーンを表すデータを受信するための受信機であって、データが、オーディオシーンにおけるオーディオ源に対応するオーディオ要素のセットについてのオーディオデータと、オーディオ要素のセットのうちの第１のオーディオ要素についての少なくとも第１のオーディオレンダリング特性インジケータを含むメタデータとを含む、受信機と、ラウドスピーカーのセットのためのオーディオ信号の第１のセットを生成することによってオーディオ要素をレンダリングするための第１のレンダラと、ヘッドフォンのためのオーディオ信号の第２のセットを生成することによってオーディオ要素をレンダリングするための第２のレンダラと、第１のオーディオレンダリング特性インジケータに応答して、第１のオーディオ要素の少なくとも第１の部分のレンダリングについて第１のレンダラと第２のレンダラとの間で選択するセレクタとを備えるオーディオ装置であって、オーディオレンダリング特性インジケータは、第１のオーディオ要素の第１の部分が、リスナー姿勢依存位置（ｌｉｓｔｅｎｅｒｐｏｓｅｄｅｐｅｎｄｅｎｔｐｏｓｉｔｉｏｎ）に関連するのか、リスナー姿勢非依存位置（ｌｉｓｔｅｎｅｒｐｏｓｅｎｏｎ－ｄｅｐｅｎｄｅｎｔｐｏｓｉｔｉｏｎ）に関連するのかを示す、オーディオ装置が提供される。

本手法は、多くの実施形態において、ユーザ体験の改善を提供し、詳細には、詳細にはソーシャル又は共有体験を含む、（拡張現実と複合現実とを含む）多くの仮想現実アプリケーションのためのユーザ体験の改善を提供する。本手法は、ハイブリッドレンダリングを使用して、性能の改善を提供する。例えば、多くの実施形態では、本手法は、同じ部屋にいるユーザが直接、より容易に話すことを可能にしながら、依然として、オーディオシーンの、対象をしぼった及び個人化されたレンダリングを提供する。

オーディオレンダリング特性インジケータは、第１のオーディオ要素が、（それぞれ、リスナー姿勢依存位置及びリスナー姿勢非依存位置に対応する）頭部向きに固定された空間特性をもつオーディオ源を表現するのか、頭部向きに固定されない空間特性をもつオーディオ源を表現するのかを示す。本手法は、複雑度及びリソース要件を低減する。

いくつかの実施形態では、本オーディオ装置は、オーディオ信号の第１のセットからラウドスピーカーのセットを駆動するための第１のドライバと、オーディオ信号の第２のセットからヘッドフォンを駆動するための第２のドライバとを備える。オーディオ信号の第１のセットは、詳細には、サラウンド信号のセットであり、オーディオ信号の第２のセットは、詳細には、バイノーラルステレオ信号である。

第１のオーディオレンダリング特性インジケータは、第１のオーディオ要素に適用されるべきレンダリングの特性、又は第１のオーディオ要素の特性を示す。

本発明のオプションの特徴によれば、本オーディオ装置は、リスナーの姿勢を示すリスナー姿勢を受信するためのリスナー姿勢受信機をさらに備え、第１のレンダラは、リスナー姿勢に依存せずにオーディオ信号の第１のセットを生成するように構成され、第２のレンダラは、リスナー姿勢に応答してオーディオ信号の第２のセットを生成するように構成される。

本オーディオ装置は、例えばリスナー移動と知覚されるオーディオシーンとの間の、厳密な整合性を可能にする、極めて有利でフレキシブルなユーザ体験を提供する。姿勢は、位置及び／又は向きデータを指し、配置とも呼ばれる。リスナー姿勢は、リスナーについての位置指示、リスナーについての向き指示、又はリスナーについての組み合わせられた位置と向きの指示である。姿勢／配置は、位置及び／又は方向の指示を提供する１つ又は複数の値によって表現される。

本発明のオプションの特徴によれば、本オーディオ装置は、複数のリスナーのためのオーディオ信号を生成するように構成され、第１のレンダラは、複数のリスナーのためのオーディオ信号の共通セットとしてオーディオ信号の第１のセットを生成するように構成され、第２のレンダラは、複数のリスナーのうちの第１のリスナーのためのヘッドフォンのためのオーディオ信号の第２のセットを生成し、複数のリスナーのうちの第２のリスナーのためのヘッドフォンのためのオーディオ信号の第３のセットを生成するように構成される。

本オーディオ装置は、複数のユーザのための有利なサポートを提供する。多くのアプリケーションでは、低い複雑度及びリソース使用量についてサポートの改善が達成されるが、しばしばオーディオステージの一貫した自然な知覚を伴う魅力的なユーザ体験を提供する。

オーディオ信号の第２のセットは、第１のリスナーについての第１のリスナー姿勢に応答して生成され、オーディオ信号の第３のセットは、第２のリスナーについての第２のリスナー姿勢に応答して生成される。オーディオ信号の第１のセットは、リスナー姿勢に依存せずに生成される。

本発明のオプションの特徴によれば、第１の部分は、第１のオーディオ要素の周波数サブレンジである。

これは、多くの実施形態において性能の改善を提供する。

本発明のオプションの特徴によれば、セレクタは、第１のオーディオ要素の第１の部分と、第１のオーディオ要素の第２の部分とについて、第１のレンダラと第２のレンダラとの中から異なるレンダラを選択するように構成される。

これは、多くの実施形態においてユーザ体験の改善を提供する。セレクタは、詳細には、第１のオーディオ要素の異なる周波数レンジについて、異なるレンダラを選択するように構成される。

これは、多くのアプリケーションにおいて効率的な手法を提供する。オーディオレンダリング特性インジケータは、第１のオーディオ要素がダイエジェティック（ｄｉｅｇｅｔｉｃ）であるか否かを示す。

本発明のオプションの特徴によれば、オーディオレンダリング特性インジケータは、第１のオーディオ要素のオーディオフォーマットを示す。

これは、多くの実施形態においてユーザ体験の改善を提供する。オーディオレンダリング特性インジケータは、オーディオオブジェクトフォーマットと、高次アンビソニックスオーディオフォーマットと、オーディオチャネル信号オーディオフォーマットとのグループからの少なくとも１つのオーディオフォーマットを含む、オーディオフォーマットのセットからのオーディオフォーマットを示す。

本発明のオプションの特徴によれば、オーディオレンダリング特性インジケータは、第１のオーディオ要素についてのオーディオ源タイプを示す。

これは、多くの実施形態においてユーザ体験の改善を提供する。オーディオレンダリング特性インジケータは、音声オーディオと、音楽オーディオと、フォアグラウンドオーディオと、バックグラウンドオーディオと、ボイスオーバーオーディオと、ナレーターオーディオとのグループからの少なくとも１つのオーディオ源タイプを含む、オーディオ源タイプのセットからのオーディオ源タイプを示す。

本発明のオプションの特徴によれば、オーディオレンダリング特性インジケータは、第１のオーディオ要素のレンダリングについての案内レンダリング特性を示す。

これは、多くの実施形態において、ユーザ体験及び／又は性能の改善を提供する。

本発明のオプションの特徴によれば、オーディオレンダリング特性インジケータは、第１のオーディオ項目の第１の部分が、ラウドスピーカー上でのレンダリングの対象であるのか、ヘッドフォン上でのレンダリングの対象であるのかを示す。

本発明のオプションの特徴によれば、受信機は、さらに、オーディオシーンに対応する仮想シーンを示すビジュアルデータを受信するように構成され、オーディオレンダリング特性インジケータは、第１のオーディオ要素が、ビジュアルシーンオブジェクトに対応するオーディオ源を表現するかどうかを示す。

いくつかの実施形態では、オーディオレンダリング特性インジケータは、第１のオーディオ要素が、現在のリスナー姿勢について決定されたビューポート内にあるシーンオブジェクトに対応するオーディオ源を表現するかどうかを示す。

本発明のオプションの特徴によれば、本オーディオ装置は、ユーザ入力を受信するためのユーザ入力部をさらに備え、セレクタは、ユーザ入力に応答して、第１のオーディオ要素の少なくとも第１の部分のレンダリングについて第１のレンダラと第２のレンダラとの間で選択するように構成される。

これは、多くの実施形態においてユーザ体験の改善を提供する。

本発明のオプションの特徴によれば、セレクタは、第１のオーディオ要素のオーディオ特性を決定し、オーディオ特性に応答して、第１のオーディオ要素の少なくとも第１の部分のレンダリングについて第１のレンダラと第２のレンダラとの間で選択するように構成される。

本発明の一態様によれば、オーディオシーンを表すデータを受信するステップであって、データが、オーディオシーンにおけるオーディオ源に対応するオーディオ要素のセットについてのオーディオデータと、オーディオ要素のセットのうちの第１のオーディオ要素についての少なくとも第１のオーディオレンダリング特性インジケータを含むメタデータとを含む、受信するステップと、ラウドスピーカーのセットのためのオーディオ信号の第１のセットを生成することによってオーディオ要素をレンダリングするステップと、ヘッドフォンのためのオーディオ信号の第２のセットを生成することによってオーディオ要素をレンダリングするステップと、第１のオーディオレンダリング特性インジケータに応答して、ラウドスピーカーのセットのための、第１のオーディオ要素の少なくとも第１の部分のレンダリングと、ヘッドフォンのための、第１のオーディオ要素の少なくとも第１の部分のレンダリングとの間で選択するステップとを有するオーディオ処理の方法であって、オーディオレンダリング特性インジケータは、第１のオーディオ要素の第１の部分が、リスナー姿勢依存位置に関連するのか、リスナー姿勢非依存位置に関連するのかを示す、オーディオ処理の方法が提供される。

本発明のこれら及び他の態様、特徴及び利点は、以下で説明される（１つ又は複数の）実施形態から明らかになり、それらに関して解明されるであろう。

本発明の実施形態が、図面を参照しながら単に例として説明される。

クライアントサーバベースの仮想現実システムの一例を示す図である。本発明のいくつかの実施形態による、オーディオ装置の要素の一例を示す図である。

ユーザが、仮想世界又は拡張世界において動き回ることを可能にする、（拡張現実と複合現実とを含む）仮想現実体験が、ますます普及しており、そのような需要を満たすためのサービスが開発されている。多くのそのような手法では、ユーザの（又は観察者の）現在の姿勢を反映するために、ビジュアルデータ及びオーディオデータが動的に生成される。

当分野では、配置及び姿勢という用語は、位置及び／又は方向／向きのための一般的な用語として使用される。例えばオブジェクト、カメラ、頭部、又はビューの位置及び方向／向きの組合せが、姿勢又は配置と呼ばれる。したがって、配置又は姿勢指示が、最高６つの値／成分／自由度を含み、各値／成分が、一般に、対応するオブジェクトの位置／ロケーション又は向き／方向の個々の特性を表す。もちろん、多くの状況では、例えば、１つ又は複数の成分が固定であるか又は無関係であると見なされる場合、配置又は姿勢は、より少数の成分によって表現される（例えば、すべてのオブジェクトが同じ高さにあり、水平の向きを有すると見なされる場合、４つの成分がオブジェクトの姿勢の完全な表現を提供する）。以下では、姿勢という用語は、（最大可能自由度に対応する）１～６の値によって表現される位置及び／又は向きを指すために使用される。

多くのＶＲアプリケーションは、姿勢が最大自由度、すなわち、位置及び向きの各々の３自由度を有し、合計６自由度を有することに基づく。したがって、姿勢は、６自由度を表現する６つの値のセット又はベクトルによって表現され、したがって、姿勢ベクトルは、３次元位置及び／又は３次元方向指示を提供する。ただし、他の実施形態では、姿勢がより少数の値によって表現されることが理解されよう。

観察者のための最大自由度を提供することに基づくシステム又はエンティティは、一般に、６自由度（６ＤｏＦ）を有すると呼ばれる。多くのシステム及びエンティティは、向き又は位置のみを提供し、これらは、一般に、３自由度（３ＤｏＦ）を有するとして知られている。

一般に、仮想現実アプリケーションは、左眼と右眼とについて別個のビュー画像の形態の３次元出力を生成する。これらは、次いで、一般に、ＶＲヘッドセットの個々の左眼ディスプレイ及び右眼ディスプレイなど、好適な手段によってユーザに提示される。他の実施形態では、１つ又は複数のビュー画像が、例えば、自動立体視ディスプレイ上に提示されるか、又は、実際、いくつかの実施形態では、（例えば、従来の２次元ディスプレイを使用して）単一の２次元画像のみが生成される。

同様に、所与の観察者／ユーザ／リスナー姿勢について、シーンのオーディオ表現が提供される。オーディオシーンは、一般に、オーディオ源が所望の位置から発生するのが知覚される、空間体験を提供するようにレンダリングされる。オーディオ源はシーンにおいて静的であるので、ユーザ姿勢の変更により、ユーザの姿勢に対するオーディオ源の相対位置の変更が生じる。したがって、オーディオ源の空間知覚は、ユーザに対する新しい位置を反映するように変化するべきである。したがって、オーディオレンダリングは、ユーザ姿勢に応じて適応される。

異なるアプリケーションにおいて異なるやり方で、観察者又はユーザ姿勢入力が決定される。多くの実施形態では、ユーザの物理的移動が直接追跡される。例えば、ユーザエリアを見渡すカメラがユーザの頭部（さらには眼（視線追跡））を検出し、追跡する。多くの実施形態では、ユーザは、外部手段及び／又は内部手段によって追跡され得るＶＲヘッドセットを着用する。例えば、ヘッドセットは、ヘッドセット、したがって、頭部の移動及び回転に関する情報を提供する、加速度計とジャイロスコープとを備える。いくつかの例では、ＶＲヘッドセットは、外部センサーがＶＲヘッドセットの位置を決定することを可能にする、信号を送信するか又は（例えばビジュアル）識別子を備える。

いくつかのシステムでは、観察者姿勢は、手動手段によって、例えば、ユーザが、手動で、ジョイスティック又は同様の手動入力部を制御することによって、提供される。例えば、ユーザは、一方の手で第１のアナログジョイスティックを制御することによって、仮想シーンにおいて仮想観察者を手動で動き回らせ、他方の手で第２のアナログジョイスティックを手動で動かすことによって、仮想観察者が見ている方向を手動で制御する。

いくつかのアプリケーションでは、入力観察者姿勢を生成するために、手動手法と自動手法の組合せが使用される。例えば、ヘッドセットが、頭部の向きを追跡し、シーンにおける観察者の移動／位置が、ジョイスティックを使用するユーザによって制御される。

いくつかのシステムでは、ＶＲアプリケーションは、例えば、リモートＶＲデータ又は処理を使用せず、さらには、リモートＶＲデータ又は処理へのアクセスを有しない、スタンドアロンデバイスによって、観察者にローカルに提供される。例えば、ゲームコンソールなどのデバイスが、シーンデータを記憶するためのストアと、観察者姿勢を受信／生成するための入力部と、シーンデータから、対応する画像を生成するためのプロセッサとを備える。

他のシステムでは、ＶＲアプリケーションは、観察者からリモートで実装及び実施される。例えば、ユーザにローカルなデバイスが移動／姿勢データを検出／受信し、そのデータはリモートデバイスに送信され、リモートデバイスは、そのデータを処理して、観察者姿勢を生成する。リモートデバイスは、次いで、シーンを表すシーンデータに基づいて、観察者姿勢についての好適なビュー画像を生成する。ビュー画像は、次いで、それらのビュー画像が提示される観察者にローカルなデバイスに送信される。例えば、リモートデバイスは、ローカルデバイスによって直接提示されるビデオストリーム（一般にステレオ／３Ｄビデオストリーム）を直接生成する。

同様に、リモートデバイスは、仮想オーディオ環境を反映するオーディオシーンを生成する。これは、多くの実施形態では、仮想オーディオ環境における異なるオーディオ源の相対位置に対応するオーディオ要素を生成することによって行われ、これらは、対応する位置において知覚されるようにレンダリングされる。

例えば、リモートデバイスは、オーディオシーンを表現するオーディオデータを生成し、オーディオシーンにおける異なるオーディオ源に対応する、オーディオ成分／オブジェクト／信号又は他のオーディオ要素を、これらのものの位置を示す位置情報とともに送信する（それらは、例えば、移動するオブジェクトについて動的に変化する）。オーディオ要素は、特定の位置に関連する要素を含むが、より分散した又は拡散したオーディオ源についての要素をも含む。例えば、一般の（局在化されていない）バックグラウンド音、周囲音、拡散反響などを表現する、オーディオ要素が提供される。

次いで、ローカルＶＲデバイスは、例えば、オーディオ成分についてのオーディオ源の相対位置を反映する適切なバイノーラル処理を適用することによって、適切にオーディオ要素をレンダリングする。

ＶＲサービスのオーディオ側について、中央サーバが、いくつかの実施形態において、それに応じて、オーディオシーンを表現するオーディオデータを生成し、詳細には、ローカルクライアント／デバイスによってレンダリングされ得るいくつかのオーディオ要素によって、このオーディオシーンを表現する。

図１は、例えば、例えばインターネットなどのネットワーク１０５を介して、中央サーバ１０１が、いくつかのリモートクライアント１０３と連携する、ＶＲシステムの一例を示す。中央サーバ１０１は、潜在的に多数のリモートクライアント１０３を同時にサポートするように構成される。

そのような手法は、多くのシナリオにおいて、例えば、異なるデバイスについての複雑度及びリソース需要、通信要件などの間のトレードオフの改善を提供する。例えば、観察者姿勢及び対応するシーンデータが、より大きい間隔で送信され、ローカルデバイスは、観察者姿勢及び受信されたシーンデータをローカルに処理して、リアルタイム低ラグ体験を提供する。これは、例えば、低レイテンシ体験を提供しながら、及び、シーンデータが、中央に記憶され、生成され、維持されることを可能にしながら、必要とされる通信帯域幅を大幅に低減する。それは、例えば、ＶＲ体験が複数のリモートデバイスに提供される、アプリケーションに好適である。

図２は、多くのアプリケーション及びシナリオにおいてオーディオレンダリングの改善を提供するオーディオ装置の要素を示す。特に、オーディオ装置は、多くのＶＲアプリケーションのためのレンダリングの改善を提供し、オーディオ装置は、詳細には、図１のＶＲクライアント１０３のためのオーディオ処理及びレンダリングを実施するように構成される。

図２のオーディオ装置は、出力信号のハイブリッドセットを生成することによってオーディオシーンをレンダリングするように構成され、出力信号の第１の（サブ）セットが、ラウドスピーカーのセットによってレンダリングされるように生成され、出力信号の第２の（サブ）セットが、ヘッドフォンによってレンダリングされるように生成される。オーディオ信号の第１のセットは、詳細には、サラウンド音スピーカーセット上でレンダリングするためのサラウンド音信号のセットである。オーディオ信号の第２のセットは、詳細には、一対のヘッドフォン上でレンダリングするためのバイノーラルステレオ信号である。

図２のオーディオ装置は、ヘッドフォン再生とラウドスピーカー再生の組合せを使用してオーディオシーンの提示を行う、ＶＲ／ＡＲのためのハイブリッドオーディオ再生システムの一部である。

そのような手法は、多くの実施形態において、有利な動作を提供する。例えば、多くのシナリオでは、ラウドスピーカー再生とヘッドフォン再生とのいずれかではなくそれらの２つの組合せを使用することは、各個人ユーザにとって極めて没入型であるとともに、同時に、体験の「ソーシャル」又は「共有」態様を妨害しない、ＡＲ（又はＶＲ／ＭＲ）体験を提供する。例えば、それにより、レンダリングされるオーディオが、個人ユーザ及びそのユーザについての現在のコンテキストにカスタマイズされることが可能になる。例えば、それにより、オーディオ源の位置が、ユーザの頭部移動／回転に一致するように正確に適応されることが可能になる。同時に、それにより、オーディオシーンの大幅な部分が、より低い複雑度のオーディオチャネル／サラウンド音処理によってレンダリングされるので、例えばバイノーラル処理のために必要とされる複雑度を低減する。さらに、それにより、例えば、外部音の低減衰を伴うヘッドフォンを使用することに基づくことになり、それにより、例えば、同じ環境／部屋にいるユーザ間の直接的な対話が容易になる。

以下の説明は、システムが、すべてのローカルユーザに共通であるサラウンドラウドスピーカーセットアップ（例えば５．１又は７．１システム）と、個人ユーザのための個々の（開放型又は半開放型）ヘッドフォン（ここで、「個々のヘッドフォン」は、そのヘッドフォンを着用しているユーザのために生成又は適応された信号をレンダリングするヘッドフォンを意味する）との組合せを使用して、オーディオシーンをレンダリングする、実施形態に焦点を当てる。

装置は、詳細には、複数の人々が体験を共有する、ＶＲ／ＡＲ／ＭＲアプリケーションの「ソーシャル」又は「共有」態様の使用事例に関して説明される。これらは、異なるロケーションにあることがあるが、その例についてより興味深いことに、同じロケーション（例えば同じ部屋）にあることもある。特定の使用事例の例は、共有実環境内で「投影された」同じＡＲ体験を共有する、同じ部屋にいる数人の人々である。例えば、カウチに一緒に座っており、リビングルームの壁に仮想的に投影された没入型ムービーを見ているカップルである。彼らは、それにより互いと自分の環境とを見ることが可能になるシースルー眼鏡を着用し、並びに、両方の専用の個人化されたレンダリングを可能にし、並びに、サラウンド音セットアップによって生成されたオーディオを含む環境におけるオーディオを聞くことを可能にする、開放型ヘッドフォンを着用する。

図２の装置は、詳細には、仮想シーンを表すデータを受信するように構成された受信機２０１を含む。データは、シーンのビジュアル記述を提供するデータを含み、シーンのオーディオ記述を提供するデータを含む。したがって、オーディオシーン記述及びビジュアルシーン記述が、受信されたデータによって提供される。

受信機２０１はビジュアルレンダラ２０３に結合され、ビジュアルレンダラ２０３は、続いて、観察者の現在の観察姿勢に対応する画像をレンダリングする。例えば、データは、空間３Ｄ画像データ（例えばシーンの画像及び深度又はモデル記述）を含み、これから、ビジュアルレンダラ２０３は、当業者に知られるように、ステレオ画像（ユーザの左眼及び右眼のための画像）を生成する。画像は、例えば、ＶＲヘッドセットの個々の左眼ディスプレイ及び右眼ディスプレイを介して、ユーザに提示される。

受信されたデータは、シーンを表すオーディオデータを含む。オーディオデータは、詳細には、シーンにおけるオーディオ源に対応するオーディオ要素のセットについてのオーディオデータを含む。いくつかのオーディオ要素は、シーンにおける特定の位置に関連する、シーンにおける局在化されたオーディオ源を表現する（位置は、もちろん、移動するオブジェクトについて動的に変化している）。しばしば、オーディオ要素は、仮想シーンにおける特定のシーンオブジェクトによって生成されたオーディオを表現し、したがって、シーンオブジェクト（例えば、話している人間）の位置に対応する位置におけるオーディオ源を表現する。

他の要素は、例えば拡散した周囲雑音又は背景雑音など、より分散した又は拡散したオーディオ源を表現する。別の例として、いくつかのオーディオ要素は、例えば空間的に明確なオーディオ源からの拡散反響など、局在化されたオーディオ源からのオーディオの空間的に局在化されていない成分を、完全に又は部分的に表現する。

オーディオ要素は、符号化オーディオ信号などの符号化オーディオデータである。オーディオ要素は、異なるタイプの信号及び成分を含む、異なるタイプのオーディオ要素であり、実際、多くの実施形態では、第１の受信機２０１は、オーディオの異なるタイプ／フォーマットを定義するオーディオデータを受信する。例えば、オーディオデータは、オーディオチャネル信号、個々のオーディオオブジェクト、高次アンビソニックス（ＨＯＡ）などによって表現される、オーディオを含む。

オーディオは、例えば、レンダリングされるべきである所与のオーディオ成分についての符号化オーディオとして表現される。オーディオデータは、オーディオ成分の源の位置を示す位置データをさらに含む。位置データは、例えば、シーンにおけるオーディオ源の位置を定義する絶対位置データを含む。

オーディオ装置は、２つのレンダラ２０５、２０７をさらに備える。

第１のレンダラ２０５は、ラウドスピーカーのセット上でオーディオ要素をレンダリングするように構成される。詳細には、第１のレンダラ２０５は、ラウドスピーカーのセットのためのオーディオ信号の第１のセットを生成し、ここで、オーディオ信号の第１のセットは、例えばサラウンド音ラウドスピーカーセットアップのためのサラウンド音信号のセットである。

したがって、第１のレンダラ２０５は、特定の空間ラウドスピーカー構成によってレンダリングされることが意図されるオーディオ信号のセットを生成する。第１のレンダラ２０５は、サラウンド音構成の各ラウドスピーカーのための、したがって、サラウンド音構成におけるスピーカー位置に対応する特定のロケーションからレンダリングするための、信号を生成する。

第１のレンダラ２０５は、複合効果が、所与のオーディオ要素が所望の位置からレンダリングされているという印象につながるように、そのオーディオ要素がレンダリングされるように、オーディオ信号を生成するように構成される。一般に、受信されたデータは、少なくともいくつかのオーディオ要素について、特定の位置指示を含み、第１のレンダラ２０５は、オーディオ要素を、示された位置から発生するのが知覚されるように、レンダリングする。他のオーディオ要素は、例えば分散及び拡散され、そのようにレンダリングされる。

ラウドスピーカーを使用する、詳細には、サラウンド音システムにおける、空間オーディオのレンダリングのための多くのアルゴリズム及び手法が当業者に知られ、本発明を損なうことなしに任意の好適な手法が使用されることが理解されよう。

例えば、第１のレンダラ２０５は、中央スピーカーと、左フロントスピーカーと、右フロントスピーカーと、左サラウンドスピーカーと、右サラウンドスピーカーとをもつ、サラウンド音構成における５つのラウドスピーカーのためのオーディオ信号を生成する。第１のレンダラ２０５は、各ラウドスピーカーのためのオーディオ信号を含むオーディオ信号のセットを生成する。次いで、それらの信号は、増幅されて、個々のラウドスピーカーのための駆動信号を生成する。

いくつかの実施形態では、ラウドスピーカーを使用してレンダリングされているオーディオ要素が、例えばステレオダウンミックスとして受信され、第１のレンダラ２０５は、いくつかの場合には直接レンダリングされる、サラウンド信号を生成するためのアップミキシングを実施する。そのような手法は、例えば、ユーザ姿勢に直接関係しない拡散音を表現するオーディオ要素にとって有用である。例えば、一般の拡散周囲オーディオを表現するオーディオ要素が、ステレオダウンミックスとして提供され、ステレオダウンミックスは、直接アップミックスされて、適切なサラウンド音オーディオチャネルを提供する。得られたアップミックスされた信号の各々は、他のオーディオ要素から生成された対応するスピーカーのための信号と組み合わせられて、出力信号のセットを生成する。

ラウドスピーカーセットアップを介してレンダリングされるいくつかのオーディオ要素は、例えば、オーディオオブジェクトの形態で提供される。そのようなオーディオオブジェクトは、特定のオーディオを表すオーディオデータと、オーディオ源の位置を表す関連する位置データとによって表現される。位置データと（サラウンド音スピーカーセットアップのための実際の位置なのか、公称位置なのかにかかわらず）ラウドスピーカーの位置とに基づいて、第１のレンダラ２０５は、異なるサラウンド音チャネルにオーディオ信号をマッピングする行列又はベクトルについての係数を決定する。

いくつかの実施形態では、第１のレンダラ２０５は、さらに、音響環境データに基づいて、生成されたオーディオ信号を適応させるように構成される。例えば、現在の環境が高反射性環境（例えば、高度の反射を伴う浴室又は同様の音響環境）であることを示すデータが提供された場合、第１のレンダラ２０５は、環境（第１の反射など）についての室内伝達関数に対応するインパルス応答を有するフィルタを生成し、適用する。フィルタは、いくつかの実施形態では、個々のサラウンドチャネルのための生成されたオーディオ信号の各々に適用されるか、又は、いくつかの実施形態では、異なるオーディオチャネルにアップミキシングする前のオーディオ要素に適用される。

いくつかの実施形態では、第１のレンダラ２０５は、代替又は追加として、反響を追加するように構成され、反響は、詳細には、オーディオ要素とともに受信された環境データに基づく。例えば、第１のレンダラ２０５は、音響環境データに応じて設定されるパラメータをもつ（例えば、データによって示される反響サスティーン（保持）をもつ）Ｊｏｔ反響器など、合成反響器を適用する。反響器は、一般に、サラウンドチャネルへのアップミキシング又はマッピングより前に、オーディオ要素に適用される。第２のレンダラ２０７は、ヘッドフォンのためのオーディオ信号の第２のセットを生成するように構成される。オーディオ信号の第２のセットは、詳細には、バイノーラルステレオ信号である。

多くの実施形態では、第２のレンダラ２０７によるオーディオレンダリングは、ヘッドフォンを着用しているユーザのための所望の空間効果を提供するために、好適なバイノーラル伝達関数を使用するバイノーラルレンダリングプロセスである。例えば、第２のレンダラ２０７は、バイノーラル処理を使用して、特定の位置から来るのが知覚されるべきオーディオ成分を生成するように構成される。

バイノーラル処理は、リスナーの耳のための個々の信号を使用する音源の仮想測位による空間体験を提供するために使用されることが知られている。適切なバイノーラルレンダリング処理では、リスナーが任意の所望の方向からの音を知覚するために鼓膜において必要とされる信号が計算され得、信号は、所望の効果を提供するようにレンダリングされ得る。これらの信号は、次いで、ヘッドフォン又は（間隔が密なスピーカー上でのレンダリングに好適な）クロストーク消去方法のいずれかを使用して、鼓膜において再作成される。バイノーラルレンダリングは、リスナーの耳のための信号を生成し、それにより、人間聴覚系に、所望の位置から音が来ていると思い込ませるための手法であると見なされ得る。

バイノーラルレンダリングは、頭部、耳、及び、肩などの反射面の音響特性により人によって変動する、バイノーラル伝達関数に基づく。例えば、様々なロケーションにおける複数の源をシミュレートするバイノーラル録音を作成するために、バイノーラルフィルタが使用され得る。これは、例えば音源の位置に対応する頭部インパルス応答（ＨＲＩＲ）のペアとともに各音源を畳み込むことによって、実現され得る。

バイノーラル伝達関数を決定するためのよく知られている方法は、バイノーラル録音である。それは、専用マイクロフォン構成を使用し、ヘッドフォンを使用するリプレイの対象である、音を録音する方法である。録音は、対象者の耳道にマイクロフォンを配置すること、又は、内蔵マイクロフォンをもつダミー頭部、耳介（外耳）を含む胸像を使用することのいずれかによって、行われる。耳介を含むそのようなダミー頭部の使用は、録音を聴いている人が録音中に存在した場合とまったく同様の空間印象を提供する。

例えば、人間の耳の中に又は人間の耳の近くに配置されたマイクロフォンへの、２Ｄ又は３Ｄ空間における特定のロケーションにおける音源からの応答を測定することによって、適切なバイノーラルフィルタが決定され得る。そのような測定に基づいて、ユーザの耳までの音響伝達関数を反映するバイノーラルフィルタが生成され得る。バイノーラルフィルタは、様々なロケーションにおける複数の源をシミュレートするバイノーラル録音を作成するために使用され得る。これは、例えば音源の所望の位置についての測定されたインパルス応答のペアとともに各音源を畳み込むことによって、実現され得る。音源がリスナーの周囲で動き回っているという錯覚を作成するために、一般に、十分な空間解像度、例えば１０度をもつ、多数のバイノーラルフィルタが必要とされる。

頭部バイノーラル伝達関数は、例えば、頭部インパルス応答（ＨＲＩＲ）として、或いは、等価的に、頭部伝達関数（ＨＲＴＦ）又はバイノーラル室内インパルス応答（ＢＲＩＲ）又はバイノーラル室内伝達関数（ＢＲＴＦ）として、表現される。所与の位置からリスナーの耳（又は鼓膜）までの（例えば、推定又は仮定される）伝達関数が、例えば、周波数領域において与えられ、その場合、それは、一般に、ＨＲＴＦ又はＢＲＴＦと呼ばれるか、或いは、時間領域において与えられ、その場合、それは、一般に、ＨＲＩＲ又はＢＲＩＲと呼ばれる。いくつかのシナリオでは、頭部バイノーラル伝達関数は、音響環境の、詳細には、測定が行われる部屋の態様又は特性を含むように決定されるが、他の例では、ユーザ特質のみが考慮される。第１のタイプの関数の例は、ＢＲＩＲ及びＢＲＴＦである。

したがって、第２のレンダラ２０７は、一般に多数の異なる位置についてのバイノーラル伝達関数をもつストアを備え、各バイノーラル伝達関数は、オーディオ信号が、その位置から発生するのが知覚されるために、どのように処理／フィルタ処理されるべきであるかの情報を提供する。音ステージにおける適切な位置にあるいくつかのオーディオ源をもつオーディオシーンを生成するために、複数のオーディオ信号／源にバイノーラル処理を個々に適用し、結果を組み合わせることが使用される。

第２のレンダラ２０７は、ユーザの頭部に対する所与の位置から発生するのが知覚されるべきである所与のオーディオ要素について、所望の位置に最も厳密に一致する記憶されたバイノーラル伝達関数を選択し、取り出す（又は、ある場合には、複数の近いバイノーラル伝達関数間で補間することによって、これを生成する）。第２のレンダラ２０７は、次いで、オーディオ要素のオーディオ信号に、選択されたバイノーラル伝達関数を適用し、それにより、左耳のためのオーディオ信号と右耳のためのオーディオ信号とを生成する。

左耳の信号及び右耳の信号の形態の生成された出力ステレオ信号は、その場合、ヘッドフォンレンダリングに好適であり、増幅されて、ユーザのヘッドセットに供給される駆動信号を生成する。次いで、ユーザは、オーディオ要素が所望の位置から発生するのを知覚することになる。

オーディオ要素はまた、いくつかの実施形態では、例えば音響環境効果を追加するように処理されることが理解されよう。例えば、第１のレンダラ２０５について説明されたように、オーディオ要素は、反響又は、例えば無相関化／拡散を追加するように処理される。多くの実施形態では、この処理は、直接オーディオ要素信号に対してではなく、生成されたバイノーラル信号に対して実施される。

したがって、第２のレンダラ２０７は、ヘッドフォンを着用しているユーザが、所与のオーディオ要素が所望の位置から受信されるのを知覚するように、そのオーディオ要素がレンダリングされるように、オーディオ信号を生成するように構成される。一般に、第２のレンダラ２０７は、オーディオ要素を、オーディオデータに含まれる位置データにおいて示された位置から発生するのが知覚されるように、レンダリングする。他のオーディオ要素は、例えば、場合によっては分散及び拡散され、そのようにレンダリングされる。

したがって、装置は、中央サーバ１０１からのオーディオシーンを表すオーディオデータを含むデータを受信するクライアント１０３の一部である。多くのアプリケーションでは、中央サーバ１０１は、オーディオオブジェクト、オーディオチャネル、オーディオ成分、ＨＯＡ、オーディオ信号などの形態の、いくつかのオーディオ要素を提供する。多くの状況では、オーディオ要素のうちのいくつかは、特定の位置を有する単一のオーディオ源に対応する。他のオーディオ要素は、より拡散したオーディオ源、あまり明確でないオーディオ源、及びより分散したオーディオ源に対応する。

ヘッドフォンを使用する空間オーディオのレンダリング、詳細には、バイノーラルレンダリングのための多くのアルゴリズム及び手法が当業者に知られ、本発明を損なうことなしに任意の好適な手法が使用されることが理解されよう。

図２の装置は、次いで、クライアント１０３において使用されて、受信されたオーディオデータを処理して、所望のオーディオシーンをレンダリングする。詳細には、その装置は、（適切なときに）所望の位置データに基づいて各オーディオ要素を処理し、次いで、結果を組み合わせる。

したがって、図２の装置は、シーンを表現するオーディオを生成するための２つの異なるレンダリング技法を使用する。それらの異なるレンダリング技法は異なる特性を有し、図２の装置は、どのオーディオ要素が第１のレンダラ２０５によってレンダリングされるか、及び、どのオーディオ要素が第２のレンダラ２０７によってレンダリングされるかを選択するように構成された、セレクタ２０９を備える。詳細には、所与の第１のオーディオ要素について、セレクタ２１１は、どのレンダラ２０５、２０７がレンダリングのために使用されるべきであるかを選択する。したがって、セレクタ２０９は、第１のオーディオ要素を受信し、それを、選択に応じて、第１レンダラ２０５又は第２のレンダラ２０７に供給する。

システムでは、受信機２０１は、オーディオデータ（及び場合によってはビジュアルデータ）に加えて、オーディオ要素のうちの少なくとも１つについての、及び、しばしば、オーディオ要素の大部分又は実際そのすべてについての、オーディオレンダリング特性インジケータを含むメタデータを受信するように構成される。詳細には、第１のオーディオ要素について少なくとも第１のオーディオレンダリング特性インジケータが含まれる。

セレクタ２０９は、受信されたメタデータ及びオーディオレンダリング特性インジケータに応じて、どのレンダラを使用すべきかを選択するように構成される。詳細には、セレクタ２０９は、第１のオーディオレンダリング特性インジケータを考慮し、第１のオーディオ要素が、第１のレンダラ２０５によってレンダリングされるべきであるのか、第２のレンダラ２０７によってレンダリングされるべきであるのか、すなわち、第１のオーディオ要素が、ラウドスピーカーを使用してレンダリングされるべきであるのか、ヘッドフォンを使用してレンダリングされるべきであるのかを判断するように構成される。

低複雑度の例として、データは、各オーディオ要素について、符号化オーディオデータ、並びに、位置指示（一般に、オーディオ要素に対応するオーディオ源の位置）と、オーディオ要素についてのオーディオレンダリング特性インジケータとを含むメタデータを含み、ここで、特定の例におけるオーディオレンダリング特性インジケータは、単に、オーディオ要素が、第１のレンダラ２０５によってレンダリングされるべきであるのか、第２のレンダラ２０７によってレンダリングされるべきであるのかのバイナリ指示である。セレクタ２０９は、次いで、このバイナリ指示を評価し、示されたレンダラ２０５、２０７を選択する。レンダラ２０５、２０７は、次いで、（１つ又は複数の）オーディオ要素が、位置インジケータによって示される位置から来るのが知覚されるように、それぞれ、ラウドスピーカー及びヘッドフォンのための適切な出力信号を生成する。次いで、その指示が、オーディオ要素が第１のレンダラ２０５を使用してレンダリングされるべきであるというものである、各オーディオ要素からの寄与が組み合わせられて、ラウドスピーカーのためのオーディオ信号の第１のセットを生成し、次いで、その指示が、オーディオ要素が第２のレンダラ２０７を使用してレンダリングされるべきであるというものである、各オーディオ要素からの寄与が組み合わせられて、ヘッドフォンのためのオーディオ信号の第２のセットを生成する。

このようにして、図２のオーディオ装置は、ラウドスピーカーとヘッドフォンの両方を含むハイブリッドオーディオレンダリングシステム上でオーディオシーンをレンダリングする。さらに、ヘッドフォン及びラウドスピーカーにわたるオーディオ要素の分散は、リモートで制御／案内され得る。例えば、ＶＲ体験のプロバイダも、オーディオ要素がどのようにレンダリングされるべきかを制御し、判断する。プロバイダは、一般に、各オーディオ要素についてのオーディオ源の特定の性質の追加情報を有するので、これにより、クライアントにおいて利用可能でない追加情報及び知識に基づいて、制御されるべき各オーディオ要素をどのようにレンダリングすべきかの選択が可能になる。本手法は、多くの状況においてレンダリングの改善を提供し、多くのシナリオにおいてユーザ体験の改善を提供する。本手法は、例えば、例えば同じ部屋にいる人々が互いにより自然に話すことを可能にしながら、オーディオシーンの正確な及び自然なレンダリングを提供する。

したがって、多くの実施形態では、オーディオレンダリング特性インジケータは、受信されたオーディオデータがどのようにレンダリングされるべきであるかに関して、クライアント及びオーディオ装置に案内を提供する。オーディオレンダリング特性インジケータは、第１のオーディオ要素のレンダリングについての案内レンダリング特性を示す。案内レンダリング特性は、多くの実施形態では、ローカルレンダラによって使用されることが推奨される、好ましい、提案された、又は公称レンダリング特性である。したがって、案内レンダリング特性は、クライアントによって、レンダリングのレンダリングパラメータを設定するために使用され得る制御データである。

いくつかの実施形態では、案内レンダリング特性は、オーディオ要素をレンダリングするときに使用されなければならない必須のレンダリング特性として意図されるが、他の実施形態では、案内レンダリング特性は、クライアントによって使用されることも使用されないこともある提案された特性である。したがって、多くの実施形態では、オーディオ装置は、そのレンダリングを、案内レンダリング特性に一致するように適応させるべきかどうかを選定するか、又は、異なる値を採用することを選定する。しかしながら、本手法は、オーディオ装置がリモートサーバ／プロバイダの案内の下でその動作を適応させることを可能にする、手法を提供する。これは、多くの実施形態において、リモートサーバ／プロバイダが追加情報を有するので、性能の改善を達成する。それは、例えば、集中型手動最適化又は分析が潜在的にレンダリングを改善することを可能にしながら、依然として、クライアントがレンダリングにおける自由及びフレキシビリティを保持することをも可能にする。

上述の特定の例では、オーディオレンダリング特性インジケータは、第１のオーディオ項目がラウドスピーカー上でのレンダリングの対象であるのか、第１のオーディオ項目がヘッドフォン上でのレンダリングの対象であるのかを示す。セレクタ２０９は、第１のオーディオ要素について、第１のオーディオ要素についての第１のレンダリングインジケータが、第１のオーディオ要素がラウドスピーカーによるレンダリングの対象であることを示す場合、レンダリングのために第１のレンダラ２０５を選択し、第１のレンダリングインジケータが、第１のオーディオ要素がヘッドフォンによるレンダリングの対象であることを示す場合、第１のオーディオ要素のレンダリングのために第２のレンダラ２０７を選択するように構成される。セレクタ２０９は、次いで、第１のオーディオ要素を、レンダリングのために選択されたレンダラ２０５、２０７に提供する。

したがって、多くの実施形態では、オーディオレンダリング特性インジケータは、第１のオーディオ要素に適用されるべきレンダリングの特性を示し、詳細には、オーディオ要素についてのレンダリングインジケータは、オーディオ要素が、ラウドスピーカーによるレンダリングの対象であるのか、ヘッドフォンによるレンダリングの対象であるのかを示す。

いくつかの実施形態では、それに応じて、ハイブリッド再生システムが使用される場合、オーディオ要素が、ラウドスピーカー上でレンダリングされるべきであるのか、ヘッドフォン上でレンダリングされるべきであるのかは、コンテンツストリームにおけるメタデータによって明示的にシグナリングされる。これは、コンテンツ製作者によって行われる明示的芸術的選定であり、したがって、レンダリングのための制御／案内の改善を提供する。

図２の装置では、オーディオレンダリングは、（ビジュアルレンダリングと同様に）観察者姿勢に依存する。詳細には、装置は、リスナーの姿勢を示すリスナー姿勢を受信するように構成されたリスナー姿勢受信機２１１を備える。リスナー姿勢は、詳細には、例えば、ユーザ／リスナーによって着用されるＶＲヘッドセットの追跡によって決定される、ヘッドセット姿勢によって表現される。リスナー姿勢を生成し、推定し、受信し、提供するための任意の好適な方法が、本発明を損なうことなしに使用されることが理解されよう。

リスナー姿勢受信機２１１は、ビジュアルレンダラ２０３に接続され、特定の姿勢に対応するビジュアル出力を生成するために使用される。さらに、リスナー姿勢受信機２１１は、第２のレンダラ２０７に結合され、ヘッドフォンのためのオーディオ要素のレンダリングにおいて使用される。したがって、第２のレンダラ２０７は、リスナー姿勢に応答してオーディオ信号の第２のセットを生成するように構成される。

第２のレンダラ２０７は、詳細には、オーディオ要素が、リスナーの現在の向き及び位置に対する適切な位置において発生するのが知覚されるようにレンダリングされるように、バイノーラルレンダリングを実施する。例えば、第１のオーディオ要素について、第２のレンダラ２０７は、最初に、データストリームにおいて第１のオーディオ要素について受信された位置指示によって示された、シーン空間における位置を決定する。次いで、ユーザに対する第１のオーディオ要素の相対位置が、現在のリスナー姿勢とシーン空間における対応する姿勢とを分析することによって決定される。第２のレンダラ２０７は、次いで、この相対位置に対応するＨＲＴＦを取り出し、取り出されたＨＲＴＦを使用して第１のオーディオ信号をフィルタ処理して、第１のオーディオ要素についてのバイノーラルステレオ信号成分を生成する。次いで、それらの成分は、他のオーディオ要素から生成された対応する成分に追加されて、出力バイノーラルステレオ信号を生成する。

空間位置におけるオーディオ源に対応するヘッドフォン信号（及び、詳細には、バイノーラル信号）を生成するための多くの異なる手法が知られており、任意のそのような好適な手法又はアルゴリズムが第２のレンダラ２０７によって使用されることが理解されよう。

第２のレンダラ２０７とは対照的に、第１のレンダラ２０５によるレンダリング（すなわち、ラウドスピーカーのためのレンダリング）は、リスナー姿勢に依存せず、したがって、第１のレンダラ２０５は、図２の例では、リスナー姿勢に依存せずにオーディオ信号の第１のセットを生成するように構成される。

第１のレンダラ２０５は、詳細には、第１のレンダラ２０５によってレンダリングされるべきオーディオ要素についての位置指示を考慮し、これを、ラウドスピーカーのレンダリング空間における位置にマッピングする。第１のレンダラ２０５は、次いで、決定された位置に対応するオーディオ要素の空間知覚を提供するために、ラウドスピーカーのための信号を生成する。

空間位置におけるオーディオ源に対応するラウドスピーカー信号（及び、詳細には、サラウンド音信号）を生成するための多くの異なる手法が知られており、任意のそのような好適な手法又はアルゴリズムが第１のレンダラ２０５によって使用されることが理解されよう。

したがって、本例では、ヘッドフォン信号は、リスナーの頭部の移動及び回転を反映するために連続的に生成され、それにより、連続する及び一貫したユーザ体験を提供する。同時に、ラウドスピーカーを使用するレンダリングは、リスナーの頭部の移動及び回転に対して不変であり、さらにこれも、一貫した手法を提供する。本手法は、異なるレンダリング手法が、非静的リスナーに関するオーディオシーンの一貫した表現を提供する、手法を提供する。

前の例は、装置が単一のユーザのためのオーディオシーンの表現を生成する状況に焦点を当てた。しかしながら、多くの実施形態では、装置は、特に、同じ部屋に位置する２人又はそれ以上のユーザのためのなど、複数のユーザのためのオーディオシーンの表現を生成する。

そのような場合、第１のレンダラ２０５は、複数のユーザのためのオーディオ信号の共通セットを生成するように構成され、第２のレンダラ２０７は、各ユーザのための個々のヘッドフォン信号を生成するように構成される。

したがって、第１のレンダラ２０５によってレンダリングされるように選択されるオーディオ要素について、出力信号の単一のセットのみがすべてのユーザのために生成され、例えば、単一のラウドスピーカー信号のみが構成における各ラウドスピーカーのために生成され、これらは、一般に、ユーザ固有の特性に依存しない。詳細には、ラウドスピーカーによってレンダリングするために生成されるオーディオ信号の第１のセットが、リスナー姿勢を考慮せずに生成される。オーディオシーンの同じレンダリングはすべてのユーザのために生成される。

しかしながら、第２のレンダラ２０７によってレンダリングされるオーディオ要素について、オーディオ信号の異なるセットが各ユーザのために生成される。詳細には、バイノーラルステレオ信号が各ユーザのために生成される。これらの個々の信号は、個々のリスナーについての特性又は特定の特質を反映するように生成され、詳細には、個々のリスナーのリスナー姿勢を反映するように生成される。したがって、ユーザの現在の位置及び向きを反映するバイノーラル信号が生成される。

したがって、装置は、特に、マルチユーザシナリオの極めて効率的なサポートを提供する。複数のリスナーをサポートするための必要とされるオーディオ処理が、大幅に低減される。例えば、バイノーラル処理は、一般に、比較的複雑で、リソースを消耗するものであり、バイノーラル処理を使用して生成される必要があるオーディオ信号の数が、大幅に低減され、それにより、多くの実施形態における複雑度及び計算負担を低減する。

したがって、装置が、同じ部屋にいる２人のユーザをサポートする一例では、第１のレンダラ２０５は、ラウドスピーカーを使用してレンダリングするためのオーディオ信号の共通の第１のセットを生成するように構成され、第２のレンダラ２０７は、第１のリスナーのためのヘッドフォンのためのオーディオ信号の第２のセットを生成し、第２のリスナーのためのヘッドフォンのためのオーディオ信号の第３のセットを生成するように構成される。オーディオ信号の第１のセットは、第１のリスナー及び第２のリスナーのリスナー姿勢に依存せずに生成され、オーディオ信号の第２のセットは、第１のリスナーのリスナー姿勢に応答して生成され、オーディオ信号の第３のセットは、第２のリスナーのリスナー姿勢に応答して生成される。

受信されたデータストリームにおいて提供されるオーディオレンダリング特性インジケータが、異なる実施形態では、異なるデータを表現する。

オーディオレンダリング特性インジケータは、第１のオーディオ要素の第１の部分が、リスナー姿勢依存位置に関連するのか、リスナー姿勢非依存位置に関連するのかを示す。オーディオレンダリング特性インジケータは、詳細には、第１のオーディオ要素がダイエジェティックであるか否かを示す。

特定の例として、いくつかの実施形態では、セレクタ２０９は、オーディオ要素についてのオーディオレンダリング特性インジケータが、ＭＰＥＧ専門用語によれば、そのオーディオ要素が「頭部向きに固定される」ことを示すのか、「頭部向きに固定されない」ことを示すのかに基づいて、第１のレンダラ２０５及び第２のレンダラ２０７にわたってオーディオ要素を分散するように構成される。

オーディオレンダリング特性インジケータによって「頭部に固定される」ことが示されたオーディオ要素は、ユーザの頭部に対する固定ロケーションを有することが意図されるオーディオ要素である。そのようなオーディオ要素は、第２のレンダラ２０７を使用してレンダリングされ、リスナー姿勢に依存せずにレンダリングされる。したがって、そのようなオーディオ要素のレンダリングは、ユーザの頭部向き（の変更）を考慮に入れず、言い換えれば、そのようなオーディオ要素は、ユーザが自身の頭部の向きを変えせたときに相対位置が変化しないオーディオ要素（例えば、周囲雑音などの非空間オーディオ、又は、例えば、相対位置を変更することなしにユーザに追従することが意図される音楽）である。

オーディオレンダリング特性インジケータによって「頭部に固定されない」ことが示されたオーディオ要素は、（仮想又は現実の）環境における固定ロケーションを有することが意図され、したがって、それらのレンダリングがユーザの頭部向き（の変更）に動的に適応される、オーディオ要素である。多くの実施形態では、これは、そのようなオーディオ要素が、現在のリスナー姿勢に基づいて適応されるバイノーラルヘッドフォン信号としてレンダリングされるとき、より現実的である。例えば、サラウンド音ラウドスピーカーセットアップによってレンダリングされるオーディオ源の位置の知覚が、ユーザ位置及び向きに依存し、したがって、そのようなラウドスピーカーセットアップによる、「頭部に固定されない」ことが示されたオーディオ要素のレンダリングにより、ユーザが自身の頭部を動かすときに移動するのが知覚されるオーディオ源が生じる。

したがって、いくつかの実施形態では、「頭部向きに固定されない」要素は、ユーザのヘッドフォン上でレンダリングされ、それらの位置は、各個人ユーザの追跡される頭部向きに従ってそのユーザのために適応される。一方、「頭部向きに固定される」要素は、ラウドスピーカー上でレンダリングされ、ユーザの頭部移動に適応されない。

そのような実施形態の利点は、現在大部分がラウドスピーカーを介して存在する（及びヘッドフォンを介して存在するのではない）「頭部向きに固定される」要素が、主として、すべての要素がヘッドフォンを介してレンダリングされるときに体験される遮音の役目を果たすことである。ここでの推論は、「頭部向きに固定される」音（大部分は、音楽、及び、例えば、群衆、風、雨、雷などのような雰囲気音）が、しばしば連続的であり、本質的に、空間的に遍在し、ユーザの物理的周囲からそのユーザを遮断する音の「ブランケット（ｂｌａｎｋｅｔ）」を生じることである。一方、「頭部向きに固定されない」要素は、しばしば、空間及び時間においてより局在化され、まばらであり、したがって、ユーザの物理的音響周囲をほとんど「マスキング」しない。

いくつかの実際的実装形態では、ラウドスピーカー上でレンダリングされる「頭部向きに固定される」音のユーザ知覚は、ヘッドフォン上で再生されるときにそれらが一般にどのように知覚されるかと比較して、やや異なる。しかしながら、これは、通常、ラウドスピーカーによってレンダリングされる「頭部向きに固定される」音が、一般に、空間局在化に関して無指向性であるか又は重要でないので、問題でない。

どのオーディオ要素が「頭部向きに固定されず」、どれが「頭部向きに固定される」かは、オーディオコンテンツストリームにおけるメタデータによって明示的にシグナリングされる。

ＡＲ（及びＶＲ）オーディオ再生のコンテキストでは、「ダイエジェティック（ｄｉｅｇｅｔｉｃ）」という用語は、通常、オーディオ要素が「頭部向きに固定される」べきであるか否かを表すためにも使用される。「ダイエジェティック」は、ユーザが自身の頭部を動かしたときに同じ仮想位置にとどまるべきである要素を表す（ユーザの頭部に対するレンダリングされる位置が修正されなければならないことを意味する）。「非ダイエジェティック（Ｎｏｎ－ｄｉｅｇｅｔｉｃ）」は、これが重要でないか、又は、要素の位置がユーザの頭部移動を考慮しないことが一層好ましい、要素を表す（要素が、ユーザの頭部とともに移動することになるか、又はユーザの頭部に「アタッチ」されることを意味する）。

いくつかの実施形態では、オーディオ要素についてのオーディオレンダリング特性インジケータが、オーディオ要素のオーディオフォーマットを示す。セレクタ２０９は、オーディオ要素のオーディオフォーマットに基づいて、オーディオ要素をレンダリングするために第１のレンダラ２０５が使用されるのか、第２のレンダラ２０７が使用されるのかを選択するように構成される。オーディオレンダリング特性インジケータは、例えば、オーディオ要素が、オーディオオブジェクトフォーマットと、高次アンビソニックスオーディオフォーマットと、オーディオチャネル信号オーディオフォーマットとのグループからのオーディオフォーマッであることを示す。

いくつかの実施形態では、セレクタ２０９は、オーディオ要素のフォーマットに基づいて、ヘッドフォンによってレンダリングされるべきである要素と、ラウドスピーカーによってレンダリングされるべきである要素との間の区別を行うように構成される。

例えば、しばしば、音楽及び雰囲気音のようなバックグラウンド音を送信するために使用されるチャネルベースの要素又は高次アンビソニックス（ＨＯＡ）要素が、ラウドスピーカー上でレンダリングされ、一般に、（しばしば、明確な位置をもつオーディオ源を表現する）シーンの主なオーディオ要素を送信するために使用されるオブジェクト要素が、個々に各ユーザのためにヘッドフォン上でレンダリングされる。これはまた、ユーザが、自身の頭部向きを変更することだけでなく、（コンテンツ製作者が、オブジェクトが対話型であることを意図した場合）個々のオーディオオブジェクトと対話することをも可能にする。

この実施形態は、どのレンダラが使用されるべきであるかを直接定義するオーディオレンダリング特性インジケータを提供することに対する、代替又は追加と見なされる。例えば、オーディオ要素が「頭部向きに固定されない」／「頭部向きに固定される」要素であるかどうかの、明示的シグナリングが含まれない状況では、セレクタ２０９は、オーディオフォーマットを評価して、どのレンダラ２０５、２０７が使用されるべきであるのかを決定する。

手法と異なるオーディオレンダリング特性インジケータとが組み合わせられ、例えば、チャネル要素、ＨＯＡ要素、及び、「頭部向きに固定される」として明示的にシグナリングされる要素が、ラウドスピーカー上でレンダリングされ、オブジェクト及び「頭部向きに固定されない」要素が、ヘッドフォン上でレンダリングされる。

いくつかの実施形態では、オーディオレンダリング特性インジケータは、第１のオーディオ要素についてのオーディオ源タイプを示す。例えば、オーディオレンダリング特性インジケータは、オーディオ要素が、例えば、音声オーディオと、音楽オーディオと、フォアグラウンドオーディオと、バックグラウンドオーディオと、ボイスオーバーオーディオと、ナレーターオーディオとのうちの１つ又は複数を含むセットからのオーディオ源タイプであるかどうかを示す。

いくつかの実施形態では、ラウドスピーカー及びヘッドフォンにわたるオーディオ要素の分散は、オーディオ要素についての源タイプのコンテンツストリームにおける指示、例えば「音声」、「音楽」、「フォアグラウンド」、又は「バックグラウンド音」のようなメタデータに基づく。この例では、「音声」源がヘッドフォン上でレンダリングされ得、「音楽」源及び「バックグラウンド」源がラウドスピーカー上でレンダリングされ得る。特殊な場合は、「ボイスオーバー」又は「ナレーター」であるとしてマークされる音声であり得、その音声は、（空間における特定のロケーションを有することが意図されないが、むしろ、「遍在する」ことが意図されるので）ラウドスピーカー上でレンダリングされることが最良であろう。

いくつかの実施形態では、受信機２０１は、前に説明されたように、オーディオシーンに対応する仮想シーンを示すビジュアルデータをも受信する。このデータは、ビジュアルレンダラ２０３に供給されて、好適なレンダリング技法を使用して、例えば、現在のユーザ姿勢に対応するステレオ画像を生成して、レンダリングされる。

いくつかの実施形態では、オーディオ要素についてのオーディオレンダリング特性インジケータは、第１のオーディオ要素が、ビジュアルシーンオブジェクトに対応するオーディオ源を表現するかどうかを示す。ビジュアルシーンオブジェクトは、ビジュアルデータがビジュアル表現を含む、オブジェクトである。

ビジュアルデータがビューポートのためのビジュアルデータを提供する一例では、オーディオレンダリング特性インジケータは、オーディオ要素がビューポート内のオブジェクトにリンクされるかどうかを示す。

オーディオレンダリング特性インジケータが、オーディオ要素に対応するオブジェクトがシーンにおいて可視であることを示す場合、セレクタ２０９は、それを、ヘッドフォンを使用してレンダリングすることを決め、他の場合、セレクタ２０９は、ラウドスピーカーを使用してオーディオ要素をレンダリングする。いくつかの実施形態では、オーディオレンダリング特性インジケータは、オブジェクトが可視であるかどうかを直接示す。ただし、他の実施形態では、オーディオレンダリング特性インジケータは、オーディオ要素が可視のシーンオブジェクトに対応するかどうかの間接的指示を提供する。

例えば、オーディオレンダリング特性インジケータは、受信されたビジュアルデータによって表現されるシーンオブジェクトの指示を含む。次いで、セレクタ２０９は、続いて、オーディオ要素にリンクされたオブジェクトが現在のリスナー姿勢にとって可視であるかどうかを評価する。可視である場合、セレクタ２０９は、そのオブジェクトを、ヘッドフォンを使用してレンダリングし、他の場合、そのオブジェクトはラウドスピーカーによってレンダリングされる。

いくつかの実施形態では、ラウドスピーカー及びヘッドフォンにわたるオーディオ要素の分散は、オーディオ要素が、受信されたコンテンツストリームにおけるビジュアル要素／オブジェクトにリンクされるかどうかの、そのコンテンツストリームにおける指示に基づく。インジケータが、オーディオ要素が、受信されたコンテンツストリームにおけるビジュアル要素／オブジェクトにリンクされることを示した場合、オーディオ要素はヘッドフォン上でレンダリングされる。インジケータが、オーディオ要素が、受信されたコンテンツストリームにおけるビジュアル要素／オブジェクトにリンクされないことを示した場合、オーディオ要素はラウドスピーカー上でレンダリングされる。

前の例では、セレクタ２０９は、受信されたデータのみに基づいて適切なレンダラ２０５、２０７を選択するように構成された。しかしながら、多くの実施形態では、さらなる考慮事項、及び、詳細には、他のデータが考慮されることが理解されよう。

多くの実施形態では、装置は、ユーザ入力を受信することができるユーザ入力機能を含む。セレクタ２０９は、そのような実施形態では、さらに、ユーザ入力に基づいて、第１のレンダラ２０５と第２のレンダラ２０７との間で選択するように構成される。ユーザ入力は、例えば、例えば特定のオーディオ要素がラウドスピーカーではなくヘッドフォンを介してレンダリングされるべきであるという明示的指示など、好ましいレンダリングの直接指示である。他の実施形態では、ユーザ入力はより間接的であり、例えば、選択基準を修正するか、又はレンダラ２０５、２０７のうちの１つのほうへ選択をバイアスする。例えば、ユーザ入力は、より多くのオーディオ要素がヘッドフォンによってレンダリングされることが望まれることを示し、セレクタ２０９は、判断基準を変更して、これを達成する。

したがって、いくつかの実施形態では、ユーザは、ラウドスピーカー及びヘッドフォンにわたる要素の分散に直接影響を及ぼすことが可能である。一例は、ユーザに、ヘッドフォン又はラウドスピーカー上での再生について個々の要素を手動で指定する可能性を与えることである。

ユーザによる分散制御の別の例は、ユーザに、ユーザが選択することができる２つ又は数個のモード、例えば「個人の体験」モード及び「共有体験」モードを提供することである。ユーザが「共有体験」モードを選択した場合、どのオーディオ要素が、それぞれ、ラウドスピーカー及びヘッドフォン上でレンダリングされるべきであるかを決定することについて、上記で説明された実施形態のうちのいずれかが任意の組合せで使用される。

いくつかの実施形態では、セレクタ２０９は、それ自体、（１つ又は複数の）オーディオ要素を分析し、この分析に基づいて、どのレンダラ２０５、２０７を使用すべきかを決定するように構成される。例えば、所与のオーディオ要素について、オーディオレンダリング特性インジケータが受信されない場合、セレクタ２０９は、続いて、（１つ又は複数の）オーディオ要素を分析して、例えば、シーンにおけるオーディオ要素の数、オーディオ要素ごとのチャネルの数、オーディオ要素の位置、オーディオ要素の（１人又は複数の）リスナーまでの（又は各ラウドスピーカーまでの）距離、又はオーディオ要素の移動など、オーディオ特性を決定する。セレクタ２０９は、次いで、続いて、このオーディオ特性に基づいて又はこれらのうちの複数に基づいて、どのレンダラ２０５、２０７を使用すべきかを判断する。

これ以降、構成Ｘと呼ばれる特定の例示的な構成では、セレクタ２０９は、オーディオシーンの最も正確な空間表現を作り出すために、各オーディオ要素についてレンダラを選択する。例えば、物理的ラウドスピーカーのうちの１つの位置に相対的に近い仮想位置としてのオーディオ要素の場合、そのオーディオ要素は、その特定のラウドスピーカー上でレンダリングされる。逆に、オーディオ要素が、ラウドスピーカーによってカバーされないエリアに入る場合、そのオーディオ要素はヘッドフォンを通してレンダリングされる。また、オーディオ要素が（リスナーの視点から）ラウドスピーカーと同じ方向を有することが、同じやり方で、単一のリスナーについて使用され、また、複数のリスナーがすべてスピーカーと位置合わせされるという条件はあるが、複数のリスナーについても、使用され得る。しかしながら、これは、一般に、ユーザが時間とともに位置を変更するので、実際的でない。この特定の構成Ｘでは、（バイノーラル）ヘッドフォンレンダラ２０７の角度精度が、この判断をするためにセレクタ２０９によって考慮に入れられる。

したがって、いくつかの実施形態では、適切なレンダラ２０５、２０７の選択は、さらに、オーディオ信号の分析に基づく。例えば、（特にマルチチャネル信号の場合の）オーディオオブジェクト／オーディオ源の距離（又は速度）、又は反響時間などの特性を決定するために、オーディオ信号の音響特性の推定器が使用され得る。音声／音楽分類器、音楽ジャンル分類器、又はオーディオイベント分類器など、オーディオ信号分類器も使用され得る。所与の信号を記録するために、どのタイプのマイクロフォン（ＨＯＡ、小型マイクロフォン（Ｌａｖａｌｉｅｒｍｉｃ）、全指向性、ＸＹ．．．）が使用されたかを決定するために、特定のタイプの分類器も使用され得る。どのオーディオシステム（ヘッドフォン又はラウドスピーカー）がオーディオ要素全体をレンダリングするのにより好適であるかを判断するために、オーディオ信号の周波数分散の分析も使用される。

前の例では、セレクタ２０９は、オーディオ要素ごとに、第１のレンダラ２０５又は第２のレンダラ２０７のいずれかを選択するように構成された。しかしながら、これは、必要でないか又は必須でないことが理解されよう。例えば、いくつかの実施形態では、セレクタ２０９は、オーディオ要素のグループについて、どのレンダラ２０５、２０７を使用すべきかを選択するように構成される。

また、いくつかの実施形態では、セレクタ２０９は、単一のオーディオ要素の異なる部分について別個にレンダラ２０５、２０７間で選択するように構成される。例えば、いくつかのオーディオ要素について、ある部分が第１のレンダラ２０５によってレンダリングされ、別の部分が第２のレンダラ２０７によってレンダリングされる。

オーディオ要素は、個々の実施形態の要件及び選好に応じて、異なるやり方で異なる部分に分割されることが理解されよう。例えば、いくつかの実施形態では、オーディオ要素は、異なる部分の組合せ又は集合として受信され、セレクタ２０９は、各部分について個々にレンダラ２０７を選択する。例えば、オーディオ要素は、（例えば直接オーディオに対応する）明確な位置をもつオーディオ源を表現する第１の成分と、（例えば反響する音に対応する）より拡散し、分散した音を表現する第２の成分とによって、特定のオーディオ源を表現する。セレクタ２０９は、そのようなシナリオでは、ヘッドフォンを使用して第１の成分をレンダリングし、ラウドスピーカーを使用して第２の成分をレンダリングするように構成される。

他の実施形態では、セレクタ２０９は、レンダリングするためにオーディオ要素を異なる部分に分割するように構成される。例えば、受信されたオーディオ要素がオーディオ信号に対応し、オーディオ信号は、異なる部分に分割されるために分析され、次いで、異なる部分は別個にレンダリングされる。

詳細には、多くの実施形態では、オーディオ要素の異なる部分は異なる周波数レンジに対応する。例えば、セレクタ２０９は、特定の周波数レンジに対応する所与の第１の部分について、どのレンダラ２０５、２０７を使用すべきかを選択するように構成される。セレクタ２０９は、続いて、異なる周波数レンジについて同じことを行い、したがって、第１の周波数レンジ及び第２の周波数レンジについて、異なるレンダラ２０５、２０７が使用されることにつながる。

いくつかの実施形態では、オーディオ要素の異なる部分について異なるオーディオレンダリング特性インジケータが提供され、セレクタ２０９は、所与の部分について、これをどのようにレンダリングすべきかを判断するときに特定のオーディオレンダリング特性インジケータを考慮する。他の実施形態では、オーディオ要素全体についてオーディオレンダリング特性インジケータが提供されるが、異なる部分について異なる判断基準が使用される。例えば、中間周波数レンジから高周波数レンジについては、ヘッドフォンとラウドスピーカーとの間の選択は、オーディオ要素についての受信されたオーディオレンダリング特性インジケータに応じて行われるが、極めて低い周波数レンジについては、第１のレンダラ２０５が、（低周波数が有意な空間キューをほとんど提供しない傾向があることを反映して）オーディオレンダリング特性インジケータが何を示すかに依存せずに、ラウドスピーカー上で信号をレンダリングするために使用される。

例えば、信号は、低域フィルタ処理と高域フィルタ処理とを使用して低周波数部分と高周波数部分とに分離され、ここで、オーディオレンダリング特性インジケータに応じて、低周波数部分はラウドスピーカーに送られ、高周波部分はヘッドフォンに送られる。いくつかのそのような実施形態では、高度オーディオ源分離が使用される（例えば、レンダラ間で各時間周波数点を分割する）。

各時間周波数点におけるエネルギーを保存するフィルタ処理の使用により、物理的ハイブリッドレンダリングシステムが、フィルタ処理によって生成される考えられるエラーを減衰させることが可能になる。

説明された手法は、前に説明されたように、オーディオシーンの知覚される正確な空間レンダリングを可能にしながら、同じロケーションにいるユーザが直接対話することを可能／容易にすることを含む、いくつかの有利な効果を提供する。

本手法は、多くのシナリオにおいて、潜在的に低減された量のバイノーラル処理が必要とされることにより、複雑度及びリソース使用量を低減する。しばしば達成され得る別の利点は、例えば埋込みレンダラについての増幅器電力及び／又は処理負荷に関して、ヘッドフォン再生システムによって使用されるエネルギーの低減であり、これは、つながれていないヘッドフォン（例えばバッテリー駆動ヘッドフォン）の場合、重要であり得る。

ＶＲアプリケーションのためのハイブリッドオーディオ再生システムの別の興味深い特性は、そのシステムが安全の改善を提供する傾向があることである。実際、密閉型ヘッドフォンを着用することに反して、参加者は、参加者の周囲の実環境の潜在的危険から完全に切り離されることはない。これは、多くの実際的状況において重要なファクタである。

説明されたものなどのハイブリッドシステムのまた別の利点は、オーディオコンテンツの一部が共通ラウドスピーカーセット上でレンダリングされることであり、共通ラウドスピーカーセットは、ユーザの、体験の共有の感覚を向上させる傾向がある。本手法は、ユーザ体験の改善を提供する傾向がある。

上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。例えば、別個のプロセッサ又はコントローラによって実施されるものとして示された機能は、同じプロセッサ又はコントローラによって実施される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、１つ又は複数のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。

本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、「備える、含む、有する」という用語は、他の要素又はステップが存在することを除外するものではない。

さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、例えば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び／又は有利でないことを暗示するものではない。また、請求項の１つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実施されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実施される。さらに、単数形の言及は、複数を除外しない。したがって、「第１の」、「第２の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims

受信機回路と、第１のレンダラ回路と、第２のレンダラ回路と、セレクタ回路とを備えるオーディオ装置であって、
前記受信機回路は、データを受信し、
前記データは、オーディオシーンを表し、
前記データは、オーディオデータ及びメタデータを含み、
前記オーディオデータは、前記オーディオシーンにおけるオーディオ源に対応するオーディオ要素のセットについてのものであり、
前記メタデータは、少なくとも第１のオーディオレンダリング特性インジケータを含み、
前記第１のオーディオレンダリング特性インジケータは、前記オーディオ要素のセットのうちの第１のオーディオ要素についてのものであり、
前記第１のレンダラ回路は、ラウドスピーカーのセットのためのオーディオ信号の第１のセットを生成することによってオーディオ要素をレンダリングし、
前記第２のレンダラ回路は、ヘッドフォンのためのオーディオ信号の第２のセットを生成することによってオーディオ要素をレンダリングし、
前記セレクタ回路は、前記第１のオーディオ要素の少なくとも第１の部分のレンダリングが、前記第１のオーディオレンダリング特性インジケータに応答するように、前記第１のレンダラ回路と前記第２のレンダラ回路との間で選択し、
前記第１のオーディオレンダリング特性インジケータは、前記第１のオーディオ要素の前記第１の部分が、リスナー姿勢依存位置に関連するのか、リスナー姿勢非依存位置に関連するのかを示す、
オーディオ装置。
前記オーディオ装置が、リスナー姿勢受信機回路をさらに備え、
前記リスナー姿勢受信機回路が、リスナーの姿勢を示すリスナー姿勢を受信し、
前記第１のレンダラ回路が、前記リスナー姿勢に依存せずにオーディオ信号の前記第１のセットを生成し、
前記第２のレンダラ回路が、前記リスナー姿勢に応答してオーディオ信号の前記第２のセットを生成する、請求項１に記載のオーディオ装置。
前記オーディオ装置が、複数のリスナーのためのオーディオ信号を生成し、
前記第１のレンダラ回路が、前記複数のリスナーのためのオーディオ信号の共通セットとしてオーディオ信号の前記第１のセットを生成し、
前記第２のレンダラ回路が、前記複数のリスナーのうちの第１のリスナーのためのヘッドフォンのためのオーディオ信号の前記第２のセットを生成し、
前記第２のレンダラ回路が、前記複数のリスナーのうちの第２のリスナーのためのヘッドフォンのためのオーディオ信号の第３のセットを生成する、請求項１に記載のオーディオ装置。
前記第１の部分が、前記第１のオーディオ要素の周波数サブレンジである、請求項１に記載のオーディオ装置。
前記セレクタ回路が、前記第１のオーディオ要素の前記第１の部分と、前記第１のオーディオ要素の第２の部分とについて、前記第１のレンダラ回路と前記第２のレンダラ回路とから異なるレンダラを選択する、請求項１に記載のオーディオ装置。
前記第１のオーディオレンダリング特性インジケータが、前記第１のオーディオ要素のオーディオフォーマットを示す、請求項１に記載のオーディオ装置。
前記第１のオーディオレンダリング特性インジケータが、前記第１のオーディオ要素のレンダリングについての案内レンダリング特性を示す、請求項１に記載のオーディオ装置。
前記第１のオーディオレンダリング特性インジケータは、前記第１のオーディオ要素の第１の部分が、ラウドスピーカー上でのレンダリングの対象であるのか、ヘッドフォン上でのレンダリングの対象であるのかを示す、請求項７に記載のオーディオ装置。
前記受信機回路が、ビジュアルデータを受信し、
前記ビジュアルデータが、前記オーディオシーンに対応する仮想シーンを示し、
前記第１のオーディオレンダリング特性インジケータは、前記第１のオーディオ要素が、ビジュアルシーンオブジェクトに対応するオーディオ源を表現するかどうかを示す、請求項１に記載のオーディオ装置。
前記オーディオ装置が、ユーザ入力部回路をさらに備え、
前記ユーザ入力部回路が、ユーザ入力を受信し、
前記セレクタ回路が、前記ユーザ入力に応答して、前記第１のオーディオ要素の少なくとも前記第１の部分のレンダリングについて前記第１のレンダラ回路と前記第２のレンダラ回路との間で選択する、請求項１に記載のオーディオ装置。
前記セレクタ回路が、前記第１のオーディオ要素のオーディオ特性を決定し、
前記セレクタ回路が、前記オーディオ特性に応答して、前記第１のオーディオ要素の少なくとも前記第１の部分のレンダリングについて前記第１のレンダラ回路と前記第２のレンダラ回路との間で選択する、請求項１に記載のオーディオ装置。
オーディオシーンを表すデータを受信するステップであって、
前記データが、オーディオ要素のセットについてのオーディオデータを含み、
前記オーディオ要素のセットが、前記オーディオシーンにおけるオーディオ源及びメタデータに対応し、
前記メタデータが、少なくとも第１のオーディオレンダリング特性インジケータを含み、
前記第１のオーディオレンダリング特性インジケータが、前記オーディオ要素のセットのうちの第１のオーディオ要素についてのものである、受信するステップと、
ラウドスピーカーのセットのためのオーディオ信号の第１のセットを生成することによってオーディオ要素をレンダリングするステップと、
ヘッドフォンのためのオーディオ信号の第２のセットを生成することによってオーディオ要素をレンダリングするステップと、
前記第１のオーディオレンダリング特性インジケータに応答して、前記ラウドスピーカーのセットのための、前記第１のオーディオ要素の少なくとも第１の部分のレンダリングと、前記ヘッドフォンのための、前記第１のオーディオ要素の少なくとも前記第１の部分のレンダリングとの間で選択するステップと
を有するオーディオ処理の方法であって、
前記第１のオーディオレンダリング特性インジケータは、前記第１のオーディオ要素の前記第１の部分が、リスナー姿勢依存位置に関連するのか、リスナー姿勢非依存位置に関連するのかを示す、
オーディオ処理の方法。
非一時的媒体に記憶されたコンピュータプログラムであって、前記コンピュータプログラムは、プロセッサ上で実行されるときに、請求項１２に記載の方法を実行する、コンピュータプログラム。
リスナーの姿勢を示すリスナー姿勢を受信するステップと、
前記リスナー姿勢に依存せずにオーディオ信号の前記第１のセットを生成するステップと、
前記リスナー姿勢に応答してオーディオ信号の前記第２のセットを生成するステップと
をさらに有する、請求項１２に記載の方法。
複数のリスナーのためのオーディオ信号を生成するステップと、
前記複数のリスナーのためのオーディオ信号の共通セットとしてオーディオ信号の前記第１のセットを生成するステップと、
前記複数のリスナーのうちの第１のリスナーのためのヘッドフォンのためのオーディオ信号の前記第２のセットを生成するステップと、
前記複数のリスナーのうちの第２のリスナーのためのヘッドフォンのためのオーディオ信号の第３のセットを生成するステップと
をさらに有する、請求項１２に記載の方法。
前記第１の部分が、前記第１のオーディオ要素の周波数サブレンジである、請求項１２に記載の方法。
前記第１のオーディオ要素の前記第１の部分と、前記第１のオーディオ要素の第２の部分とについて、異なるレンダリングを選択するステップをさらに有する、請求項１２に記載の方法。
前記第１のオーディオレンダリング特性インジケータが、前記第１のオーディオ要素のオーディオフォーマットを示す、請求項１２に記載の方法。
前記第１のオーディオレンダリング特性インジケータは、前記第１のオーディオ要素の第１の部分が、ラウドスピーカー上でのレンダリングの対象であるのか、ヘッドフォン上でのレンダリングの対象であるのかを示す、請求項１２に記載の方法。
出力信号のハイブリッドセットを生成することによって前記オーディオシーンをレンダリングするステップを有し、前記出力信号のハイブリッドセットが、少なくとも前記出力信号の第１のセット及び前記出力信号の第２のセットを含み、第１の前記出力信号が、前記ラウドスピーカーのセットによってレンダリングされるように生成され、前記出力信号の前記第２のセットが、前記ヘッドフォンによってレンダリングされるように生成され、前記出力信号の前記第１のセットが、前記ラウドスピーカーのセットによって再生するためのサラウンド音信号のセットであり、前記オーディオ信号の前記第２のセットが、前記ヘッドフォンによる再生のためのバイノーラルステレオ信号を形成し、前記出力信号の前記第１のセットが、前記オーディオ源の第１のセットに応答して生成され、前記出力信号の前記第２のセットが、前記オーディオ源の第２のセットに応答して生成され、前記オーディオ源の前記第１のセットが、リスナーの姿勢に依存しない特性を有し、前記オーディオ源の前記第２のセットが、リスナーの姿勢に依存する特性を有する、請求項１２に記載の方法。