JP7453248B2

JP7453248B2 - オーディオ装置およびその処理の方法

Info

Publication number: JP7453248B2
Application number: JP2021556235A
Authority: JP
Inventors: ジェロエンジェラルドゥスヘンリクスコッペンス
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-03-19
Filing date: 2020-03-16
Publication date: 2024-03-19
Anticipated expiration: 2040-03-16
Also published as: WO2020187807A1; EP3712788A1; US20240214763A1; CN113614685B; US20220174447A1; EP3942400A1; BR112021018473A2; CN113614685A; JP2022525902A; US11889286B2

Description

本発明は、オーディオ装置およびその処理の方法、特に、拡張／仮想現実アプリケーションのためのオーディオ処理に関するが、これに限定されない。

オーディオビジュアルコンテンツに基づく体感の多様性と範囲は、そのようなコンテンツを継続的に開発および導入する新しいサービスとその利用および消費の手法により、近年大幅に増大している。特に、多くの空間的でインタラクティブなサービス、アプリケーション、および体感が開発されており、ユーザに、より複雑な没入型の体感を提供できるようになっている。

そのようなアプリケーションの例としては、仮想現実（ＶＲ）、拡張現実（ＡＲ）、および複合現実（ＭＲ）アプリケーションがあり、これらは急速に主流になりつつあり、多くのソリューションが消費者市場に向けられている。多くの規格化団体によって、いくつかの規格化も進められている。そのような規格化活動は、たとえば、ストリーミング、ブロードキャスト、レンダリングなどを含むＶＲ／ＡＲ／ＭＲシステムのさまざまな態様の規格化を積極的に進めている。

ＶＲアプリケーションは、異なる世界／環境／シーンにいるユーザに対応するユーザ体感を提供する傾向がある一方、ＡＲ（複合現実ＭＲを含む）アプリケーションは、現在の環境にあるユーザに対応するユーザ体感を提供する傾向があるが、さらなる情報、または、仮想的なオブジェクトまたは情報が追加されている。したがって、ＶＲアプリケーションは、完全に没入型の合成的に生成された世界／シーンを提供する傾向があるが、ＡＲアプリケーションは、ユーザが物理的に存在する実際のシーンにオーバレイされる部分的な合成世界／シーンを提供する傾向がある。しかしながら、これらの用語はしばしば置換可能に使用され、重複率が高い。以下では、仮想現実／ＶＲという用語は、仮想現実と拡張現実との両方を表すために使用される。

例として、ますます人気が高まっているサービスは、ユーザがシステムと積極的かつ動的にインタラクトしてレンダリングのパラメータを変更し、ユーザの位置および向きにおける動きや変化に適応できるようにする手法で画像とオーディオとを提供することである。多くのアプリケーションにおいて非常に魅力的な特徴は、たとえば、視覚者が、提示されているシーン内を移動して「見回す」ことをできるようにするなど、視覚者の有効な視覚位置および視覚方向を変える機能である。

そのような特徴により、特に、仮想現実体感をユーザに提供できるようになる。これにより、ユーザは、仮想環境内を（比較的）自由に動き回り、自分の位置と、見ている場所とを動的に変えることができる。通常、そのような仮想現実アプリケーションは、シーンの３次元モデルに基づいており、モデルが、動的に評価され、特定の要求されたビューを提供する。このアプローチは、たとえば、１人で行うシューティングゲームのカテゴリなど、コンピュータやコンソール向けのゲームアプリケーションからよく知られている。

また、特に仮想現実アプリケーションでは、提示される画像は、三次元画像であることが望ましい。実際、視覚者の没入感を最適化するために、通常、ユーザは、提示されたシーンを三次元シーンとして体感することが好ましい。実際、仮想現実体感では、ユーザが自分の位置、カメラの視点、および仮想世界に対する瞬間を選択できることが望ましいはずである。

視覚的なレンダリングに加えて、ほとんどのＶＲ／ＡＲアプリケーションは、対応するオーディオ体感をさらに提供する。多くのアプリケーションでは、オーディオは、好ましくは、オーディオソースが、ビジュアルシーン内の対応するオブジェクトの位置に対応する位置から到着するように知覚される空間オーディオ体感を提供する。したがって、オーディオシーンとビデオシーンは、一貫性があり、両方とも完全な空間的な体感を提供するものとして認識されることが好ましい。

たとえば、多くの没入型体感は、バイノーラルオーディオレンダリング技術を使用したヘッドフォン再生によって生成される仮想オーディオシーンによって提供される。多くのシナリオでは、そのようなヘッドフォン再生は、ユーザの頭の動きに反応してレンダリングできるように、ヘッドトラッキングに基づく場合があり、これにより、没入感が大幅に向上する。

しかしながら、没入感が高く、パーソナライズされた自然な体感をユーザに提供するには、オーディオシーンのレンダリングが可能な限り現実的であることが重要であり、多くのＶＲ体感など、オーディオビジュアル体感を組み合わせた場合、オーディオ体感がビジュアル体感と厳密に一致していること、すなわち、レンダリングされたオーディオシーンとビデオシーンとが厳密に一致していることが重要である。

多くのアプリケーションでは、シーンを表現するオーディオビジュアルデータは、１つの、多くの場合は、中央のデバイスによって生成され、受信したオーディオビジュアルデータを処理して特定のユーザにローカルレンダリングを提供する個々のリモートエンティティに配信される。通常、これは、たとえば、シーン内のユーザの現在の動き、位置、および向き、または他のローカライズされたパラメータに適応し得る。したがって、多くのアプリケーションでは、受信したオーディオデータに基づいてオーディオシーンのローカルレンダリングと合成が実行される。

そのようなアプリケーションをサポートするために、オーディオ表現及びデータのために多くのアプローチと、オーディオ規格化とが進められてきた。そのようなアプローチおよび規格では、さまざまなオーディオ構成要素が、空間情報とともに個々に表現され得る。オーディオシーンにおいて、オーディオ構成要素とソースを表現するためのさまざまなアプローチが、さまざまな規格およびアプローチにおいて使用され得る。

たとえば、開発中のＭＰＥＧ－Ｉパート４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＩｍｍｅｒｓｉｖｅＡｕｄｉｏＣｏｄｉｎｇ）規格では、オーディオソースが送信され、ユーザが６つの自由度（６ＤｏＦ）のオーディオシーンをレンダリングするために使用される。これらの音ソースは、オブジェクト、チャネル、および高次アンビソニックス（ＨＯＡ）になる。

オーディオオブジェクトは、音ソースの表現であるため、通常は音ソースの位置に関連付けられる。対照的に、オーディオチャネルはスピーカ信号の表現である。通常、２つ以上のオーディオチャネルは互いに関連付けられ、固定位置においてレンダリングされる。それらは通常、１つまたは複数の音ソースをともに表現し、振幅パニングが２つ以上のオーディオチャネルの位置の間に知覚される局在化を引き起こすように、音ソースは２つ以上のオーディオチャネルによって表現される。ＨＯＡの場合、オーディオ表現はマイクロフォンの原理に基づいており、各ＨＯＡ信号は、特定の指向特性を有する（仮想的な）マイクロフォンを表現する。指向特性は、球面調和関数に基づいているため、ＨＯＡ表現のさまざまな信号を組み合わせて、特定の方向から受信した音波に対応するオーディオ信号を得ることができる。したがって、オーディオオブジェクトとオーディオチャネルがオーディオ放射を表現する場合、ＨＯＡは、空間の特定のポイントにおいて受信されるオーディオを表現する。

オーディオオブジェクトの場合、広がりの概念を使用して、音ソースの（３Ｄ）サイズを示す。通常、オブジェクトは、ポイントソースとしてレンダリングされる単一の信号として表現され、たとえば、それを単一のＨＲＴＦペアと畳み込み、バイノーラル処理を実行する。広がりパラメータ／特徴により、レンダリングは、ユーザに知覚される幅および高さを導入できる。

ＨＯＡは、ほとんどのビットストリームにおける音響音および拡散音を含む可能性があるが、ドライ音ソース成分を含む場合もある。また、チャネルはドライソースであるか、あるいは音響を含むこともできる（ドライ音ソース／信号は、処理されていないものを指す場合がある。すなわち、時間間隔は、生の未処理の元の音に対応する場合があり、たとえば、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ａｕｄｉｏ＿ｓｉｇｎａｌ＿ｐｒｏｃｅｓｓｉｎｇを参照）。オブジェクトソースと一部のチャネルの場合、ＭＰＥＧ－Ｉデコーダは、ユーザの位置に応じて音響をシミュレートするための音響モデルを含む必要がある。

しかしながら、そのようなアプローチは、多くのアプリケーションのために、多くのシナリオにおいて、効率的な性能を提供する可能性があるが、すべての状況およびシナリオにおいて最適であるとは限らない。一部のアプリケーションでは、最適ではない品質を体感する場合があり、オーディオシーンが、完全に自然にまたは現実的ではないと認識される場合がある。状況によっては、オーディオは、提供されたビデオシーンに完全に対応していない場合や、対応する自然環境で知覚されるものに完全に対応していない場合がある。

したがって、オーディオ処理、特に仮想／拡張／複合現実体感／アプリケーション、アプリケーションのために改善されたアプローチが有利である。特に、操作性の改善、柔軟性の向上、複雑さの軽減、実施の容易化、オーディオ体感の向上、オーディオおよびビジュアルシーンのより一貫した知覚、カスタマイズ性の向上、パーソナライズ化の向上を可能にするアプローチと、改善された仮想現実体感と、改善されたオーディオ品質と、および／または、改善された性能および／または操作が有利となるであろう。

したがって、本発明は、好ましくは、上記の欠点の１つまたは複数を、単独でまたは任意の組合せで軽減、低減、または排除することを目指す。

本発明の態様によれば、オーディオシーンのためのデータを備える信号を受信するための受信機であって、データは、オーディオシーンにおける少なくとも第１のオーディオソースのための入力オーディオソースデータと、少なくとも１つの音響オブジェクトのための音響オブジェクトデータとを備え、音響オブジェクトデータは、音響オブジェクトのための音響カップリングデータおよび空間特性データを備える、受信機と、第１のオーディオソースからのオーディオのカップリングから音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースのためのオブジェクトオーディオソースデータを生成するための生成器であって、音響カップリングデータ、空間特性データ、および入力オーディオソースデータに応答してオブジェクトオーディオソースデータを生成するように構成される、生成器と、オーディオシーンをレンダリングするためのレンダラとを備え、レンダリングすることは、オブジェクトオーディオソースデータをレンダリングすることを含む、オーディオ装置が提供される。

本発明は、多くの実施形態において、改善されたオーディオレンダリングを提供することができ、特に、オーディオシーンの、改善された表現およびレンダリングを提供することができる。多くのシナリオでは、シーンのより現実的な表現が実現され、改善された、および／または、より自然なユーザ体感が実現され得る。多くの実施形態において、効果的な処理が達成され得る。このアプローチは、他の多くのオーディオ処理およびレンダリングアプローチと互換性があり、ユーザに提示されるオーディオに追加の補完的な寄与を提供し得る。

カップリングは、オーディオエネルギの、振動／機械的エネルギへの変換、および／または、振動／機械的エネルギのオーディオエネルギへの変換を反映し得、音響オブジェクトのための音響カップリングデータは、音響オブジェクトの、オーディオエネルギの振動／機械的エネルギへの変換、および／または、振動／機械的エネルギのオーディオエネルギへの変換の特性を示す場合がある。音響カップリングデータは、音響オブジェクトの材料および／または構成および／または組成を示すデータを含む、音響オブジェクトの機械的特性を示すデータを含み得る。

入力オーディオソースデータは、特に、第１のオーディオソースのオーディオ信号データおよび空間特性データを備え得る。オブジェクトオーディオソースデータは、オブジェクトオーディオソースのためのオーディオ信号データおよび空間特性データを備え得る。オーディオソースのための空間データは、オーディオソースの位置および／または広がりを示し得る。

生成器は、オーディオ構成要素の空間特性データによって示される空間拡張および／または位置に対応する空間拡張および／または位置を有するオーディオソースに対応するオブジェクトオーディオソースデータを生成するように構成される。生成器は、特に第１のオーディオソースの入力オーディオ信号を、音響カップリングデータに依存する伝達関数とフィルタリングすることによってなど、音響カップリングデータ（および入力オーディオ信号データ）から決定されるレベル／周波数応答に対応するオブジェクトオーディオソースデータを生成するように構成される。

本発明の任意選択の特徴によれば、生成器は、空間特性データに応答して決定される空間的広がりを有するオブジェクトオーディオソースを表現するために、オブジェクトオーディオソースデータを生成するように構成される。

これにより、オーディオシーンのレンダリングが改善され、オーディオシーンのより現実的な知覚になることがよくある。特に、生成器は、空間特性データによって示されるように、音響オブジェクトの広がりと同じ空間的広がりを有するオブジェクトオーディオソースを表現するために、オブジェクトオーディオソースデータを生成し得る。

本発明の任意選択の特徴によれば、生成器は、音響カップリングデータに応答して、オブジェクトオーディオソースデータのオーディオためのオーディオレベルおよび周波数応答のうちの少なくとも１つを決定するように構成される。

これにより、オーディオシーンのレンダリングが改善され、オーディオシーンのより現実的な知覚になることがよくある。

本発明の任意選択の特徴によれば、音響カップリングデータは、音響オブジェクトのカップリング係数の第１のセットを備え、カップリング係数のセットは、音響オブジェクトのためのカップリング伝達関数を示す。

これは、カップリング効果の特に効率的で有利な表現を提供し得る。カップリング係数のセットは、カップリング伝達関数に対応するフィルタを記載し得る。いくつかの実施形態では、カップリング係数のセットは、単一の係数のみを備え得る。

本発明の任意選択の特徴によれば、カップリング伝達関数は、音響オブジェクトの振動から、音響オブジェクトから発せられるオーディオへの伝達関数である。

これは、多くの実施形態において、カップリング効果の特に有利で柔軟な表現を提供し得る。これは、高度な柔軟性を提供し、さまざまな効果の表現およびレンダリングを可能とし得る。

本発明の任意選択の特徴によれば、生成器は、オーディオオブジェクトの振動およびカップリング伝達関数から、音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースデータを生成するように構成される。

これは、多くの実施形態において、カップリング効果の特に有利で柔軟な表現を提供し得る。

本発明の任意選択の特徴によれば、生成器は、音響オブジェクトの物理モデルに応答して振動を判定するように構成される。

これにより、レンダリングされるオーディオシーンが改善され、多くの場合、より現実的になる。

本発明の任意選択の特徴によれば、生成器は、音響オブジェクトに加えられる時間変化する力に応答して振動を判定するように構成される。

これにより、レンダリングされるオーディオシーンが改善され、多くの場合、より現実的になる。多くの実施形態では、たとえば、機械的な動きの結果として生成されるオーディオなど、追加の効果およびオーディオをレンダリングできる場合がある。

本発明の任意選択の特徴によれば、カップリング伝達関数は、音響オブジェクトに入射するオーディオから、音響オブジェクトの振動へのものである。

本発明の任意選択の特徴によれば、生成器は、空間特性データによって示されるような音響オブジェクトの位置に対応する空間位置を有するオブジェクトオーディオソースを表現するために、オブジェクトオーディオソースデータを生成するように構成される。

これにより、オーディオシーンのレンダリングが改善され、オーディオシーンのより現実的な知覚になることがよくある。特に、生成器は、空間特性データによって示されるように、音響オブジェクトの位置と同じ空間位置を有するオブジェクトオーディオソースを表現するために、オブジェクトオーディオソースデータを生成し得る。

本発明の任意選択の特徴によれば、生成器は、空間特性データによって示される第１のオーディオソースの位置および音響オブジェクトの位置に応答して、オブジェクトオーディオソースデータを生成するように構成される。

これは、多くの実施形態において、オーディオシーンの改善されたレンダリングを提供し得る。

本発明の任意選択の特徴によれば、生成器は、空間特性データによって示されるリスニング位置および音響オブジェクトの位置に応答して、オブジェクトオーディオソースデータを生成するように構成される。

本発明の任意選択の特徴によれば、信号は、第２のオーディオソースのための入力オーディオソースデータを備え、生成器は、第１のオーディオソースおよび第２のオーディオソースからのオーディオの結合カップリングから、音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースデータを生成するように構成される。

多くの実施形態では、第１のオーディオソースおよび第２のオーディオソースからのオーディオの結合カップリングから音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースデータの生成は、第１のオーディオソースのための音響カップリングデータ、空間特性データ、および入力オーディオソースデータに応答して生成されるオーディオデータと、第２のオーディオソースのための音響カップリングデータ、空間特性データ、およびオーディオ信号データに応答して生成されるオーディオデータとの重ね合わせによるものであり得る。

本発明の態様によれば、オーディオシーンのためのデータを生成するためのデータ生成器であって、データは、オーディオシーンにおける少なくとも第１のオーディオソースのための入力オーディオソースデータと、少なくとも１つの音響オブジェクトのための音響オブジェクトデータとを備え、音響オブジェクトデータは、音響オブジェクトのための音響カップリングデータおよび空間特性データを備える、データ生成器と、オーディオシーンのためのデータを備えるデータ信号を生成するための信号生成器と、データ信号を送信するための送信機とを備える、オーディオ装置が提供される。

本発明の態様によれば、オーディオを処理する方法が提供され、この方法は、オーディオシーンのためのデータを備える信号を受信することであって、データは、オーディオシーンにおける少なくとも第１のオーディオソースのための入力オーディオソースデータと、少なくとも１つの音響オブジェクトのための音響オブジェクトデータとを備え、音響オブジェクトデータは、音響オブジェクトのための音響カップリングデータおよび空間特性データを備える、受信することと、第１のオーディオソースからのオーディオのカップリングから音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースのためのオブジェクトオーディオソースデータを生成することであって、生成器は、音響カップリングデータ、空間特性データ、および入力オーディオソースデータに応答してオブジェクトオーディオソースデータを生成するように構成される、生成することと、オーディオシーンをレンダリングすることとを有し、レンダリングすることは、オブジェクトオーディオソースデータをレンダリングすることを含む。

本発明の態様によれば、生成およびオーディオデータ信号の方法が提供され、この方法は、オーディオシーンのためのデータを生成することと、データは、オーディオシーンにおける少なくとも第１のオーディオソースのための入力オーディオソースデータと、少なくとも１つの音響オブジェクトのための音響オブジェクトデータとを備え、音響オブジェクトデータは、音響オブジェクトのための音響カップリングデータおよび空間特性データを備える、生成することと、オーディオシーンのためのデータを備えるオーディオデータ信号を生成することと、オーディオデータ信号を送信することとを有する。

本発明のこれらおよび他の態様、特徴および利点は、以下に記載される実施形態から明らかであり、参照して解明されるであろう。

本発明の実施形態は、例としてのみ、図面を参照して記載される。

図１は、クライアントサーバベースの仮想現実システムの例を示す図である。図２は、本発明のいくつかの実施形態によるオーディオ装置の要素の例を示す図である。図３は、本発明のいくつかの実施形態によるオーディオ装置の要素の例を示す図である。図４は、オーディオシーンにおけるオーディオ伝播の例を示す図である。図５は、音響オブジェクトのオーディオ効果の例を示す図である。図６は、本発明のいくつかの実施形態によるオーディオ装置の要素の例を示す図である。図７は、音響オブジェクトのオーディオ効果間の関係を示す図である。図８は、本発明のいくつかの実施形態による、音響オブジェクトの空間的広がりをレンダリングする例を示す図である。

ユーザが仮想世界または拡張世界を移動可能とする（拡張現実および複合現実を含む）仮想現実体感はますます人気が高まっており、そのような要求を満たすためのサービスが開発されている。そのような多くのアプローチでは、視覚的およびオーディオデータは、ユーザ（または視覚者）の現在の姿勢を反映するように動的に生成され得る。

この分野では、配置と姿勢という用語は、位置および／または方向／向きの一般的な用語として使用される（たとえば、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｐｏｓｅ＿（ｃｏｍｐｕｔｅｒ＿ｖｉｓｉｏｎ）を参照）。たとえば、物理的なオブジェクト、カメラ、ヘッド、またはビューからなる位置と方向／向きの組合せは、姿勢または配置と呼ばれる場合がある。したがって、配置または姿勢の指標は、最大６つの値／構成要素／自由度を備え得、各値／構成要素は、典型的には、対応する物理的オブジェクトの位置／場所または向き／方向の個々の特性を記載する。もちろん、多くの状況で、配置または姿勢は、たとえば、１つまたは複数の構成要素が固定または無関係であると見なされる場合、より少ない構成要素で表現され得る（たとえば、すべての物理的オブジェクトが同じ高さで水平な向きを有していると見なされる場合、４つの構成要素が、物理的オブジェクトの姿勢の完全な表現を提供する場合がある）。以下では、姿勢という用語は、（可能な最大自由度に対応する）１から６の値で表現できる位置および／または向きを指すために使用される。

多くのＶＲアプリケーションは、最大の自由度、すなわち、位置と向きの各々に３つの自由度、合計６つの自由度を有する姿勢に基づいている。したがって、姿勢は、６つの自由度を表現する６つの値のセットまたはベクトルによって表現され得、したがって、姿勢ベクトルは、３次元位置および／または３次元方向の指標を提供することができる。しかしながら、他の実施形態では、姿勢は、より少ない値によって表現され得ることが理解されよう。

視覚者に最大の自由度を提供することに基づくシステムまたはエンティティは、通常、６つの自由度（６ＤｏＦ）を有すると呼ばれる。多くのシステムおよびエンティティは、向きまたは位置のみを提供し、これらは通常、３つの自由度（３ＤｏＦ）を有するものとして知られている。

６つの自由度で、ユーザは、３次元デカルト座標系の３次元すべてにおいて移動できる。または、リスナに関しては、左右、前後、および上下方向である。残りの３つの自由度は、デカルト座標系の３軸（たとえば、航空機の操縦で知られているヨー、ピッチ、ロール、たとえばｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ａｉｒｃｒａｆｔ＿ｐｒｉｎｃｉｐａｌ＿ａｘｅｓを参照）の方向に沿った回転である。

通常、仮想現実アプリケーションは、左目および右目のために別々のビュー画像の形式で３次元出力を生成する。次に、これらは、ＶＲヘッドセットの、通常は個々の左目および右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、１つまたは複数のビュー画像は、たとえば、裸眼立体視ディスプレイ上に提示されるか、または実際にいくつかの実施形態では、（たとえば、従来の二次元ディスプレイを使用して）単一の二次元画像のみが生成され得る。

同様に、所与の視覚者／ユーザ／リスナの姿勢のために、シーンのオーディオ表現を提供することができる。オーディオシーンは通常、オーディオソースが目的の位置から発生していると認識される空間的な体感を提供するためにレンダリングされる。多くの実施形態では、オーディオシーンは、シーン空間内を移動する可能性のあるオーディオソースによって動的に変化し得る。また、ユーザの姿勢が変化すると、通常、ユーザの姿勢に対するオーディオソースの相対位置が変化する。したがって、オーディオソースの空間的な知覚は、ユーザに対する新しい位置を反映するように変化する必要がある。したがって、オーディオレンダリングは、ユーザの姿勢に応じて適合され得る。

視覚者またはユーザの姿勢入力は、さまざまなアプリケーションにおいてさまざまな手法で決定され得る。多くの実施形態では、ユーザの物理的な動きを直接追跡することができる。たとえば、ユーザ領域を見渡すカメラは、ユーザの頭を検出して追跡する（または目さえも（アイトラッキングする））ことができる。多くの実施形態では、ユーザは、外部および／または内部手段によって追跡できるＶＲヘッドセットを装着し得る。たとえば、ヘッドセットは、ヘッドセット、したがって頭の動きおよび回転に関する情報を提供する加速度計およびジャイロスコープを備え得る。いくつかの例では、ＶＲヘッドセットは、信号を送信するか、または外部センサがＶＲヘッドセットの位置を決定することを可能にする（たとえば、視覚的な）識別子を備え得る。

いくつかのシステムでは、視覚者の姿勢は、たとえば、ユーザがジョイスティックまたは同様の手動入力を手動で制御することによって、手動の手段によって提供され得る。たとえば、ユーザは、一方の手で第１のアナログジョイスティックを制御することによって、仮想シーン内で仮想的な視覚者を手動で動かし、他方の手で第２のアナログジョイスティックを手動で動かすことによって、仮想的な視覚者が見ている方向を手動で制御することができる。

いくつかのアプリケーションでは、手動と自動とのアプローチの組合せを使用して、入力視覚者姿勢を生成できる。たとえば、ヘッドセットは頭の向きを追跡し、シーン内の視覚者の動き／位置は、ジョイスティックを使用してユーザによって制御され得る。

多くのシステムでは、シーンを記載するデータが、中央のソースから個々のユーザのローカルデバイスに送信される。たとえば、いくつかの異なるビュー位置からのシーンのビューを表現する視覚データは、中央サーバからローカルクライアントに送信され得る。次に、この視覚データに基づいて、ローカルデバイスにおけるローカルレンダラが、視覚者の現在位置の特定のビューを合成し得る。したがって、（現在の視覚者の姿勢とは無関係に）いくつかのキャプチャまたはアンカ位置からのシーン表現を、シーンの表現としてローカルデバイスに送信することができ、ローカルデバイスは、これを処理して、現在の視覚者の姿勢のビューを動的に生成することができる。

同様に、リモートデバイス／サーバは、仮想オーディオ環境を反映するオーディオシーンを生成し得る。これは、多くの実施形態において、仮想オーディオ環境における異なるオーディオソースの相対位置に対応するオーディオ要素を生成することによって行われ得、これらは、対応する位置において知覚されるようにレンダリングされる。

たとえば、リモートデバイスは、オーディオシーンを表現するオーディオデータを生成し、オーディオ構成要素／オブジェクト／信号、またはオーディオシーンにおける異なるオーディオソースに対応する他のオーディオ要素を、（たとえば、物理的オブジェクトを移動するために動的に変化し得る）これらの位置を示す位置情報とともに送信し得る。オーディオ要素は、特定の位置に関連付けられた要素を含み得るが、より分散されたまたは拡散されたオーディオソースのための要素を含み得る。たとえば、一般的な（ローカライズされていない）背景音、周囲音、拡散残響などを表現するオーディオ要素が提供され得る。

オーディオデータは、多くの実施形態において、シーンの音響特性を記述するメタデータも含み得る。このメタデータは、音響オクルージョンまたは反射を引き起こす（オーディオ以外の）要素の情報を含み得る。

次に、ローカルＶＲデバイスは、たとえば、オーディオ構成要素のオーディオソースの相対位置を反映する適切なバイノーラル処理を適用することによって、オーディオ要素を適切にレンダリングし得る。音響メタデータを使用して、ユーザに到達するオーディオに対するシーンのさらなる効果をモデル化することができる。これらは、オーディオ要素のオーディオ信号に直接影響を与える場合もあれば、残響などの追加のオーディオ要素を導入する場合もある。

したがって、ＶＲサービスのオーディオ側の場合、中央サーバは、いくつかの実施形態では、オーディオシーンを表現するオーディオデータを生成することができ、特に、ローカルクライアント／デバイスによってレンダリングできるいくつかのオーディオ要素によってこのオーディオシーンを表現し得る。オーディオ要素は、特に、オーディオオブジェクト、オーディオチャネル、高次アンビソニックスのうちの１つまたは複数を含み得る。

図１は、中央サーバ１０１が、たとえば、インターネットのようなネットワーク１０５を介して、いくつかのリモートクライアント１０３と連絡を取るそのようなＶＲシステムの例を示している。中央サーバ１０１は、潜在的に多数のリモートクライアント１０３を同時にサポートするように構成され得る。

そのようなアプローチは、多くのシナリオにおいて、たとえば、異なるデバイスの複雑さとリソース要求、通信要件などの間の改善されたトレードオフを提供し得る。

図２は、以後、オーディオレンダラ２００とも呼ばれ、多くのアプリケーションおよびシナリオにおいて、改善されたオーディオレンダリングを提供し得るオーディオ装置の要素を示している。特に、オーディオ装置は、多くのＶＲアプリケーションに対して改善されたレンダリングを提供することができ、オーディオ装置は、図１のリモートクライアント１０３に対してオーディオ処理およびレンダリングを実行するように特に構成され得る。

図３は、以後、オーディオ信号生成器３００とも呼ばれ、多くのアプリケーションおよびシナリオにおいて、改善されたオーディオデータ信号を生成し得るオーディオ装置の要素を示している。特に、オーディオ装置は、多くのＶＲアプリケーションのための改善されたオーディオビジュアルデータストリームの一部として、改善されたオーディオデータ信号を提供することができ、オーディオ信号生成器３００は、図１のＶＲサーバ１０１のためのオーディオ処理およびレンダリングを実行するように特に構成され得る。

オーディオ信号生成器３００は、オーディオシーンの表現を提供するデータを生成するように構成されたオーディオデータ生成器３０１を備える。データは、シーン内のいくつかのオーディオソースのデータを含み得、データは、ソースによって生成されたオーディオ（信号）を記載するオーディオデータ、ならびに典型的にはシーンの空間特性の記載を提供する空間情報を備える。そのような空間データは、典型的には、シーン内のオーディオソースの位置を示すデータ、および／または、オーディオソースの空間分布／広がりの記載を含み得る。空間分布は、たとえば、データソースが拡散して空間的に分散しているか否か（たとえば、周囲ノイズまたは背景ノイズ）、または明確に画定されたポイントソースであるか否かを反映し得る。所与のオーディオソースのための空間データは、たとえば、オーディオソースのサイズを示し得る。オーディオシーンにおける所与のオーディオソースのオーディオソースデータは、オーディオソースのためのオーディオ信号データおよび空間特性データを特に備え得る。

オーディオソースによって生成されたオーディオは、通常、エンコードされたオーディオ信号として提供される。オーディオソースは通常、オーディオオブジェクト、チャネル、またはＨＯＡとして表現され得る。

オーディオソースは、特に、ポイントソースとしてレンダリングされることを意図された、関連付けられた位置メタデータを備えた単一のオーディオ信号であり得る。それに加えて、空間的広がり（サイズ）がメタデータの一部である場合があり、音ソースを、特定のサイズでレンダリングする必要があることを示す。（周波数に依存する）指向性パターンなどのさらなるメタデータは、音ソース定義の一部であり得る。

この例では、オーディオシーンを特徴付けるデータは、オーディオソースに限定されず、１つまたは複数の音響オブジェクトの記述も含むことができる。音響オブジェクトは、音響環境に影響を与える可能性のあるシーン内のオブジェクトであり得、特に、少なくとも１つのオーディオソースから、オーディオシーンにおける少なくとも１つのポイントにおいて受信されるオーディオに影響を及ぼし得るオブジェクトであり得る。したがって、音響オブジェクトは、オーディオソースからのオーディオの伝播に影響を与える可能性のあるシーンにおける任意のオブジェクトであり得る。音響オブジェクトは、通常、パッシブ音響オブジェクトである場合がある（後で記載されるように、通常、入射オーディオまたは機械的衝撃に応答してオーディオを生成する場合がある）。音響オブジェクトは、空気とは異なる音響特性を有するオブジェクトであり得る。

したがって、オーディオシーンのために生成されるデータは、オーディオを生成するオーディオソースのみならず、オーディオに影響を与える可能性のある音響オブジェクトを含む。場合によっては、オブジェクトオーディオソースは、特定の音響オブジェクトに関連付けられ得る。

図３を参照して示すように、オーディオデータ生成器３０１は、オーディオデータ生成器３０１によって生成されたオーディオシーンのためのデータを備えるデータ信号を生成するように構成された信号生成器３０３に結合される。典型的には、信号生成器３０３は、オーディオシーンを特徴付けるデータと、ビジュアルシーンを特徴付ける対応するビデオデータとの両方を含むオーディオビジュアルデータストリームを生成する。したがって、データストリームは、オーディオビジュアルシーンを特徴付ける。信号生成器３０３は、任意の適切な符号化アルゴリズムおよびフォーマットを使用して、ビデオおよびオーディオデータを符号化するように構成され得る。

生成された符号化されたオーディオビジュアルデータストリームは、任意の適切な通信チャネルを介してデータ信号を送信するように構成された送信機３０５に供給され得る。図１～図３の特定の例では、送信機３０５は、ネットワーク１０５を介してクライアントデバイス１０１にデータ信号を送信することを可能にする適切なネットワークインターフェースを備え得る。

図２を参照して示すように、オーディオレンダラ２００は、オーディオ信号生成器３００からデータ信号を受信する受信機２０１を備える。したがって、受信機２０１は、データが、１つ、典型的にはより多くのオーディオソースのための入力オーディオソースデータ、ならびに１つ、典型的にはより多くの音響オブジェクトのための音響オブジェクトデータを含むオーディオシーンを表現するデータを受信する。

入力オーディオソースデータは、生成されたオーディオの時間および／または周波数特性を具体的に記載することができ、（時間とともに変化する）単一のオーディオ信号を特に表現し得る。通常、データは、オーディオソースの空間データも含む。受信データにおいて表現される所与の入力オーディオソースのための入力オーディオソースデータは、所与の入力オーディオソースのためのオーディオ信号データおよび空間特性データを特に備え得る。

受信機２０１は、オーディオデータを特徴付けるデータが供給されるレンダラ２０３に結合される。レンダラ２０３は、たとえば、個々のオーディオソースを個々にレンダリングし、結果として得られる信号を組み合わせることによって、オーディオシーンをレンダリングし得る。レンダリングは、オーディオソースのために受信された空間情報と、当業者に知られているようにオーディオが生成されるリスニング位置とに基づく、空間処理を含み得る。たとえば、ヘッドフォン出力の場合、バイノーラル処理を使用して、適切な空間位置からリスナに到達するように知覚されるオーディオソースを備えたヘッドフォン信号を生成することができる。スピーカ出力の場合、スピーカレンダリングアルゴリズム（たとえば、ＶＢＡＰ）を適用して、オーディオ要素からスピーカ信号を生成することができる。

レンダラ２０３はさらに、音響オブジェクトの特性を反映するようにオーディオソースを処理するように構成され得る。たとえば、オーディオソースのための信号レベルは、オーディオソースと、リスニング位置との間の音響オブジェクトに起因する減衰に対応するように低減され得る。

レンダラ２０３は、特に、オーディオ信号をスピーカ（ヘッドフォンを含む）フィード／駆動信号に変換する処理要素であり得る。たとえば、ヘッドフォンを装着している場合、この信号は、ＨＲＴＦまたはＢＲＩＲを使用してレンダリングされるが、スピーカ消費のために、音ソースとリスナの（仮想的）位置に対するスピーカの相対位置に応じて、信号がスピーカにマッピングされる。

レンダラ２０３は、所与のアプリケーションのスピーカに直接供給される信号を生成することに限定されないが、生成された信号は、おそらく、さらに処理され得ることが理解されるであろう。たとえば、信号は、ラウドネスレベリング、ダイナミックレンジ圧縮（ＤＲＣ）、（真の）ピーク制限、または他の処理ステップの対象となり得る。さらに、ラウドスピーカフィードへのレンダリングの後に、バイノーラルレンダリングを介したヘッドフォンスピーカフィードへのレンダリングが続く場合がある。

オーディオレンダラ２００は、シーンに追加のオーディオソースを導入するように構成された生成器２０５をさらに備える。生成器２０５は、少なくとも第１のオーディオソースからのオーディオのカップリングから、音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースのためのオブジェクトオーディオソースデータを特に生成し得る。

システムでは、データ信号は、少なくとも１つの音響オブジェクトのための音響オブジェクトデータを含み、音響オブジェクトデータは、特に、第１の音響オブジェクトのための音響カップリングデータと空間特性データとの両方を含む。音響オブジェクトは、ボックスベース、球ベース、またはポリゴンベースの空間記述を提供する空間メタデータによって表現され得る。それはたとえば、リスナに面しているときの要素の有効な幅と高さの寸法を示す２つのサイズ値で表現され得る。

そのようなデータに基づいて、生成器２０５は、以降、オブジェクトオーディオソースと呼ばれ、他のオーディオ（すなわち、入力オーディオソースからのオーディオ）を用いて、このカップリングによって音響オブジェクトから生成された音を反映する、新しいオーディオソースを生成する。この追加のオーディオソースは、シーンのレンダリングに含められ得る。特に、オブジェクトオーディオソースデータは、受信信号においてオーディオソースがどのように表現されるかに対応するオーディオ信号データおよび空間データによって、追加のオブジェクトオーディオソースを表現し得る。特に、オブジェクトオーディオソースは、生成されたオーディオを記載するオーディオ信号データ、および生成されたオーディオの位置および／または広がりを記載する空間データによって表現され得る。

音響モデルは、環境内の音の進行をモデル化するために、特に、オブジェクトが環境内のオーディオにどのように影響するかをモデル化するために使用できる。通常、モデル化された音波は、さまざまな固体材料と相互作用する。典型的な音響モデルには、到来する音波の反射、吸収、および（オブジェクトを通過する）透過を含む。レンダラ２０３は、オーディオソースをレンダリングし、それらが環境によってどのように影響を受けるかを評価するときに、そのような効果を考慮し得る。

特にオクルージョンの場合、モデルは、オクルージョンシーンオブジェクトがどこにあるか、およびそれらの音響特性が何であるかを考慮し得る。したがって、受信されたデータは、音響オブジェクトを記載するデータを特に含むことができ、通常、ほとんどの場合、視覚的にも表現されるオブジェクトの（簡略化された）形状を記載することができる。

オクルージョンは、絶対的なものと見なすことができ、オクルージョンオブジェクトは、音を通過させないが、多くのオブジェクトでは、オクルージョンは完全ではなく、一部のオーディオは通過できる。これは、図４および図５に例示されるように、ユーザが依然として直接経路の一部を受け取ることができるように、通常、材料を通過するエネルギの（周波数に依存する）一部を示す透過係数を提供することによって表現することができる。

ほとんどの場合、ユーザはまた、反射と残響によって音ソースのエネルギの一部を受け取る。これは、オクルージョン要素が、空気中のすべての（比較的短い）経路を遮断する場合には当てはまらない可能性がある。

材料が異なれば、オクルージョン特性も異なる。壁はカーテンよりも強く塞ぐため、透過係数はカーテンよりも壁の方が低くなる。また、周波数特性が異なる場合があり、通常、レンガの壁は、非常に低い周波数しか通過させない。記載されている２つの極端なものの間の特性を有する異なるオクルージョン材料が存在する可能性がある。

したがって、レンダラ２０３は、音響オブジェクトを介して、または反射および／または残響を介して、異なる経路を反映するオーディオソースを生成しようとするレンダリングを実行することができる。

図６は、異なる効果を別々にレンダリングすることによって、入力オーディオソース信号がどのようにレンダリングされ得るかを示す要素の例を示す。この例は、たとえば、オーディオオブジェクトなどのドライ音ソース信号に適用することができる。

特に、第１の経路６０１は、環境内の残響を反映するようにオーディオソースを処理することができる。たとえば、オーディオソース信号は、適切な残響フィルタまたはモデルを使用してフィルタリングし得る。第２の経路６０３は、たとえば、個々の反射のタイミングおよびレベルに対応する係数を有するフィルタで、オーディオソース信号をフィルタリングすることによって、早期の反射を反映するようにオーディオソースを処理し得る。第３の経路６０５は、たとえば、直接伝搬経路に依存するオーディオソース信号に減衰を適用することによって、直接経路を表現するためにオーディオソース信号を処理する。タイミング、減衰、および周波数応答が、経路ごとに異なる可能性があるだけでなく、空間効果も異なる可能性があることが理解されよう。特に、残響の場合、オーディオは、空間的な明確さのない拡散と見なされ得、直接経路は、オーディオソースの方向から到着すると見なされ得、反射は、オーディオ環境の特有の特性に応じて、異なる方向から到着すると見なされ得、通常、直接経路よりも空間的に画定されていないと見なされ得る。直接信号は、オーディオソース位置から直接到着するようにレンダリングすることができ、空間的な広がりは比較的少ない可能性がある。

音響オブジェクトによる直接経路減衰は、多くの場合、オーディオソースからの信号を減衰させる透過係数を適用することによってモデル化できる。しかしながら、発明者は、多くのシナリオにおいて、これは、オーディオソースの完全なまたは理想的な表現、およびこれが音響オブジェクトによってどのように影響されるかを提供しない可能性があることに気付いた。

たとえば、このアプローチは、壁ではなく、カーテンの現実的なモデルである可能性がある。これは、壁の強力なローパス透過挙動に起因する可能性があるが、薄い石膏ボードの壁や木製のドアなど、これらの両極端の間にある他の材料の場合、高周波成分が多くなり、一般に減衰が少なくなる。これらのケースが透過係数でモデル化されている場合、局在化が可能となるが、実際にはそうではない。

記載されたシステムでは、オーディオソースによって生成されたオーディオに対する音響オブジェクトの影響は、音響オブジェクトのための音響カップリングデータおよび空間特性データを備える音響オブジェクトデータによってさらに表現される。これは、この経路が、シーンに新しいオーディオソースを導入することによって、オーディオソース生成器２０５を含む第４の経路６０７において処理され得る。

カップリングは、オブジェクトのオーディオと振動／（発振）運動がどのように相互作用し、互いに変換されるかを表現する音響効果である。実施形態において、入射するオーディオは、オブジェクトの振動を引き起こす可能性があり、それによって、オーディオエネルギ（の一部）が、オブジェクトの機械的エネルギに変換される可能性がある。また、オブジェクトの振動／（発振）運動は、オーディオを生成し、それによって、振動／機械的エネルギをオーディオエネルギに変換する場合がある。実際、カップリング効果は、多くの実施形態において、音響オブジェクトへの入射オーディオが、音響オブジェクトを振動で振動させ、次にオーディオを生成するオーディオ効果を提供し得る。

音ソースは、エネルギを放射し、ほとんどの環境やシーンでは、そのエネルギの一部は、リスナの耳に到達する前に、１つまたは複数の音響オブジェクトに衝突する。音響オブジェクトは、通常、材料特性が空気とは異なる空間領域である可能性がある（そして、通常、実世界シーンにおける物理的オブジェクト、または仮想シーンのための物理的オブジェクトを表現する仮想オブジェクトに対応する場合がある）。これらの要素の境界上で、音響インピーダンスは、上記のように、およびたとえば、図５に例示されるように、いくつかの音響効果を生じさせる。そのような音響効果は、通常、反射、透過、回折（散乱）、および吸収であり得る。

たとえば、多孔質または可撓性の材料は、エネルギを吸収および反射する可能性があるが、エネルギの一部を、その背後の空気に通過させる。そうしなければ、カーテンの後ろで起こっていることを聞くことはできない。

吸収される音／エネルギは、さまざまな変換効果によって引き起こされ得る。一部のオーディオは放散され、材料内で効率的に熱エネルギに変換され得る。しかしながら、オーディオエネルギの一部は、材料の動きに変換される可能性があり、したがって、対応するオブジェクト／表面の振動に変換される可能性がある。しかしながら、熱エネルギへの変換の第１の効果は、対応するオーディオエネルギがオーディオ領域／環境から除去されることを実際に意味するが、第２の効果は、さらなるオーディオ効果を引き起こす可能性がある。

特に、音響オブジェクトの振動は、空気が音響オブジェクトによって移動され、したがって、音響オブジェクトの遠側／閉塞側を含む音の生成をもたらす可能性がある。したがって、オーディオを振動運動に変換した後、この振動運動を音に変換することができる。さらに、たとえば、空間的広がりおよび周波数範囲を含むこの音の特徴は、音響オブジェクトの特性に実質的に依存する可能性があり、直線透過から生じる音とは実質的に異なる可能性がある。たとえば、隣接する部屋間の音の伝播では、壁、ドア、または他のオブジェクトの全体が振動している可能性があり、比較的小さな音ソースではない広い領域が音を生成しているため、局在化がより困難になる。

図７は、起こり得る異なる効果間の関係の例を示す。オーディオエネルギと振動／機械的エネルギとの変換効果は、カップリングとして知られており、建物のさまざまな部分の間の遮音性を向上させるために、主に建物の建設設計において考慮される。所与の音響オブジェクトに対して異なる音響効果が生じる度合いは、音響オブジェクトの構造および材料または材料の組合せを含む音響オブジェクトの特定の特性に依存する。

図１から図３のシステムでは、データ信号は、音響オブジェクトのための音響カップリングデータおよび空間特性データを含む１つまたは複数の音響オブジェクトのための音響オブジェクトデータを含むように生成される。音響カップリングデータは、オーディオエネルギの振動エネルギへの変換、および／または、振動エネルギのオーディオエネルギへの変換の特性の指標を備える。多くの状況において、音響カップリングデータは、代替的または追加的に、音響オブジェクトの振動性能、特に振動効果が音響オブジェクト内でどのように伝播し、分散されるのかについての指標を含み得る。

さらに、データは、オーディオレンダラ２００によって、オーディオシーンにおいて新しいオーディオソースを生成するために使用される。したがって、受信データによって記載される入力オーディオソースに加えて、オーディオレンダラ２００のオーディオソース生成器２０５は、少なくとも第１の入力オーディオソースからのオーディオのカップリングからの音響オブジェクトによって、オーディオシーンで発せられるオーディオを表現するオブジェクトオーディオソースのためのオブジェクトオーディオソースデータを生成するように構成される。オブジェクトオーディオソースデータは、特に、生成されるオーディオを記載するオーディオ信号データ、および発せられたオーディオの空間特性を示す空間データを含み得る。特に、空間データは、生成された音の位置および広がり（空間分布）を表現し得る。

オーディオソース生成器２０５は、受信された音響カップリングデータ、音響オブジェクトについて受信された空間特性データ、ならびに特定のオーディオソース、および少なくとも第１のオーディオソースのオーディオ信号データに基づいて、オブジェクトオーディオソースデータを生成する。

複雑さの低い例として、音響カップリングデータは、カップリングを介して生成されるオーディオ信号エネルギの量を示すカップリング係数を備え得るので、したがって、カップリング係数は、第１のオーディオソースからのオーディオエネルギを、振動エネルギに変換する場合、および、この振動エネルギを、オーディオエネルギに変換する場合の変換損失を示し得る。したがって、たとえば、単にカップリング係数によって第１のオーディオソース信号をスケーリングするだけで、このエネルギに対応するエネルギ／レベルで新しいソースを生成することができる。このオーディオソースのための空間データは、音響オブジェクトの位置および／または空間的広がりに基づいて決定される新しいソースの位置および／または広がりを反映するように生成され得る。生成された新しいオーディオソースの位置および／または空間的広がり／分布は、直線透過から生じるものとは異なり、音響オブジェクトの空間特性（および、通常は機械的特性）に依存する。特に、多くの実施形態では、新しいオーディオソースは、音響オブジェクトの位置に対応する位置を有し、音響オブジェクトのサイズに対応する空間的広がりを有するように生成され得る。たとえば、音響オブジェクトが壁に対応する場合、新しいソースは、壁全体、すなわち、生成された新しいオブジェクトのオーディオソースの広がりから発生するように生成され得る。

生成されたオブジェクトオーディオソースは、他のオーディオソースと同じ手法でレンダリングされ得る。オブジェクトオーディオソースデータは、決定された特性、特に、決定された位置および広がりで知覚されるようにオブジェクトオーディオソースをレンダリングできるレンダラ２０３に供給され得る。オーディオソースを、知覚された位置および広がりを有するようにレンダリングするための多くの異なるアルゴリズムが知られており、任意の適切なそのようなアプローチおよびアルゴリズムが使用され得ることが理解されよう。

特に、オーディオソースサイズを作成するにはさまざまな手法がある。これは通常、音ソース信号のバージョンを、たとえば、信号のエネルギの４分の１である、リスニング位置からの音響オブジェクトの知覚空間領域の四隅におけるように、複数の位置でレンダリングすることによって実現される。いくつかの実施形態は、リスナによって知覚されるように、音響オブジェクトの空間領域の四隅よりも多い（または少ない）位置、および／または異なる位置に、オブジェクト信号のバージョンをレンダリングすることができる。

具体例として、図８は、壁または障壁が、リスニング位置からどのように見えるかを示している。そのような壁から得られるオーディオは、単一のポイントからではなく、壁の表面全体から発生していると見なすことができる。そのような知覚は、たとえば、図８におけるＸによって示されるように、中央および各隅に、サブオーディオソースを生成することによって生成され得る。これらのサブオーディオソースのおのおのは、壁に対応する音響オブジェクトに対して決定されたオーディオを発するようにレンダリングされ得る。特定の例では、各サブオーディオソースのレベルは、たとえば、オーディオソースに対して決定された合計レベルの５分の１であり得る。さらに、いくつかの空間的な拡張または拡散効果（たとえば、いくつかの追加の残響または非相関フィルタ（通常は、ランダムな位相応答を有するオールパスフィルタ））が、レンダリングされたオーディオに適用され得る。したがって、組み合わされた効果は、音響オブジェクト／壁８０１全体のサイズを有する単一のオーディオソースの知覚に至り得る。

より高度な実施形態では、音ソース信号のエネルギは、音ソース信号のバージョン全体に不均一に分散され、受信された音ソースが音響オブジェクトに最も近い場所に応じて、音響オブジェクトの特定の領域に重点を置く。

したがって、オーディオレンダラ２００は、音響オブジェクトのサイズおよび位置にしたがって、空間的広がりを有する１つまたは複数の新しい音ソースを導入し得る。新しい音ソースは、別の音ソースによって生成されたオーディオエネルギが、音響オブジェクトの振動に変わることによって、音を生成する音響オブジェクトを表現する。

多くの実施形態では、複数のオーディオソースからのオーディオが、考慮され得る。実際、２つのオーディオソースからの音響オブジェクトからのオーディオ入射が考慮され得る。たとえば、２つの異なるオーディオソースから音響オブジェクトに入射するオーディオは、たとえば、重ね合わせ、またはレイトレーシング、または他の任意のアルゴリズムによって、最初に決定され得る。組み合されたオーディオは、単一のソースからのオーディオであるかのように処理され得る。すなわち、たとえば、振動に変換され、振動挙動がモデル化され、結果として生じるオーディオがそこから生成され得る。

他の実施形態では、個々のオーディオソースを個々に処理することができ、結果として得られる出力オーディオを組み合わせることができる。したがって、いくつかの実施形態では、オーディオソース生成器２０５は、第１のオーディオソースと第２のオーディオソースとからのオーディオの結合されたカップリングから、音響オブジェクトによってオーディオシーンにおいて発せられるオーディオを表現するオブジェクトオーディオソースデータを生成し得る。

オーディオソース生成器２０５は、特に、第１のオーディオソースのための音響カップリングデータ、空間特性データ、およびオーディオ信号データに応答して生成されたオーディオ（信号）データと、第２のオーディオソースのための音響カップリングデータ、空間特性データ、およびオーディオ信号データに応答して生成されたオーディオ（信号）データとの重ね合わせによってこれを行う。

多くの実施形態では、そのような組み合わされたオブジェクトオーディオソースデータは、オーディオソース信号の１つまたは複数のフィルタリングされた重ね合わせとして生成されるオーディオソース信号データによって生成され得、フィルタリングは、少なくとも、典型的には、音響オブジェクトの周波数依存のカップリング係数によって決定される。

記載されたシステムでは、音響オブジェクトに関連付けられたカップリングメタデータが、オーディオシーンを表現するデータ信号に含まれる。多くの実施形態では、音響カップリングデータは、振動エネルギへのおよび／または振動エネルギからのカップリングのレベルおよび／または周波数応答を表現し得る。多くの実施形態では、カップリングメタデータは、カップリングのための伝達関数の形態を採り得る。伝達関数は、たとえば、ＦＩＲまたはＩＩＲフィルタのフィルタ伝達関数を表す１つまたは複数の係数など、１つまたは複数のカップリング係数によって表現され得る。最も単純な実施形態では、伝達関数は、周波数に依存しないスケーリングであり得、音響カップリングデータは、たとえば、入射オーディオエネルギから、カップリングプロセスによって生成されたオーディオエネルギへの信号エネルギの減衰を示す単一のカップリング係数のみを備え得る。

したがって、いくつかの実施形態では、所与の音響オブジェクトのための音響カップリングデータは、オーディオ信号生成器３００から受信したオーディオソース信号からオブジェクトオーディオソース信号をどのように導出すべきかを示す単一の係数を備え得る。たとえば、

ここで、ｓ_ｇ，ａは、音響オブジェクトａのために生成されたオブジェクトオーディオソース信号、Ｄ_ｒは、受信したオーディオソース信号のセット、ｃ_ａは、音響オブジェクトａのカップリング係数、ｓ_ｒ，ｉは、受信した音ソース信号ｉ、ｎは、時間インデクス（たとえば、時間サンプル）である。この例では、複数のオーディオソースからのカップリングの効果は、個々の寄与の重ね合わせによって考慮される。

カップリング係数は、広帯域カップリング係数に対応する場合がある。すなわち、周波数応答は、オーディオ帯域全体でフラットであり、レベルの変化のみが考慮される。しかしながら、ほとんどの場合、周波数依存の係数を使用することが有益であり、たとえば、カップリング係数は、低周波数において大幅に高くなる可能性がある。別の例は、周波数依存の係数が、音響オブジェクト、または音響オブジェクトの表面成分における共振を反映するのに特に適している可能性があることである。

周波数依存のカップリング係数は、たとえば、ＦＩＲ（ｂ_ｉ）またはＩＩＲ（ｂ_ｉ，ａ_ｊ）フィルタの係数によって、フィルタとして提供され得る。

生成されたオブジェクトオーディオソース信号への寄与は、受信されたオーディオソース信号を、フィルタ係数でフィルタリングすることによって取得され得る。たとえば、周波数領域では、

であるか、または、時間領域におけるＦＩＲでは、

であり、ここで、＊は、畳込みを表す。

あるいは、周波数依存のカップリング係数を、特定の周波数帯域に提供することができ、そのような各パラメータ帯域は、周波数スペクトルの一部で定義される。パラメータ帯域は、ＦＦＴ値域、ＭＤＣＴ値域、またはサブ帯域インデクスで定義できる。

そのようなアプローチでは、ほとんどの実施形態において、オブジェクトオーディオソース信号は、各パラメータ帯域のスカラカップリング係数に、対応するパラメータ帯域におけるすべてのＦＦＴ値域またはサブ帯域信号を乗じることによって生成され得る。たとえば、

であり、ここで、ｂは、ＳＴＦＴ値域（またはサブ帯域インデクス）を示し、Ｂ（ｂ）は、ＳＴＦＴ値域（またはサブ帯域インデクス）ｂが与えられた場合のパラメータ帯域インデクスを返す関数である。

カップリング係数の値は通常０から１の間であり、ここで、０は、音響オブジェクトを介したカップリングによってエネルギが伝達されない状況を表現し、値１は、完全な入射オーディオ信号がオブジェクトオーディオソース信号に変換されることを示す。

生成されたオブジェクトオーディオソースデータはまた、典型的には、生成されたオブジェクトオーディオソースの空間位置および／または広がりを表現し得る空間データを含み得る。このデータは、通常、音響オブジェクトの空間データ、すなわち、特に音響オブジェクトの位置および／または広がりを反映し得る。しかしながら、いくつかの実施形態およびシナリオでは、元のオーディオソースの位置および／または広がりに依存する場合もある。

多くの実施形態では、オブジェクトオーディオソースは、音響オブジェクトの空間的広がりから決定される空間的広がりを有するように生成され、特に、それは、音響オブジェクトと同じであると判定され得る。たとえば、壁の場合、対応するオブジェクトオーディオソースのオーディオは、壁全体から放射されていると見なすことができる。

いくつかの実施形態では、生成されたオブジェクトオーディオソースの広がりは、音響オブジェクトの広がりよりも小さい、音響オブジェクトの表面の広がりによって決定され得る。これは、この表面が、音響オブジェクトの他の表面よりも、音響オブジェクトにおけるカップリングまたは振動に応答して、オーディオを生成する傾向があるためであり得る。

同様に、多くの実施形態では、オブジェクトオーディオソースは、音響オブジェクトの空間位置から決定される空間位置を有するように生成され、特に、音響オブジェクトと同じであると判定され得る。たとえば、家具の場合、対応するオブジェクトオーディオソースのオーディオは、元のオーディオソースの位置からではなく、家具の位置から放射されていると見なすことができる。

いくつかの特定の例として、音響オブジェクトは、その中心位置

と、中心位置の周りの広がり

とによって表現できる。ベクトル

における３つの値は、音響オブジェクトのボックスまたは楕円体近似の３つの空間的寸法を示す場合がある。寸法

は、座標軸に対して直接的に寸法を示すことも、寸法における後続するヨー、ピッチ、およびロール回転角を示す回転データ

と組み合わせて示すこともできる。

あるいは、位置ベクトル

は、音響オブジェクトの広がり、特に、形状が画定される開始位置を示す。たとえば、ポリゴンを使用して、おのおのがポリゴンのエッジを画定する少なくとも３つの座標ペアＥ_ｉ，ｊ＝｛（ｅ_{ｘ１，ｉ，ｊ}，ｅ_{ｙ１，ｉ，ｊ}，ｅ_{ｚ１，ｉ，ｊ}），（ｅ_{ｘ２，ｉ，ｊ}，ｅ_{ｙ２，ｉ，ｊ}，ｅ_{ｚ２，ｉ，ｊ}）｝で構成されるポリゴンＱ_ｉを設定することにより、音響オブジェクトの形状を画定できる。座標ペアは、絶対座標で、または位置ベクトルに関して表現され得る。

生成されたオブジェクトオーディオソースの空間特性は、たとえば、中心位置

と、

および

で表される空間的広がり、またはあるいは、ポリゴン記述Ｑ_ｉのような音響要素の空間的広がりから直接引き継ぐことができる。音響オブジェクトがポリゴンによって記載される他の実施形態では、寸法は、ポリゴン定義から導出され、ベクトル

などの異なる表現に変換され得、ここで、

である。

カップリングデータが各ポリゴンに与えられるいくつかの実施形態では、生成されたオーディオソースの空間的広がりは、０より大きいオーディオ伝達への振動を記載するカップリング係数を有するポリゴンによってのみ決定され得る。

いくつかの実施形態では、生成されたオブジェクトオーディオソースの空間特性は、音響オブジェクトの空間特性にのみ依存し得る。しかしながら、他の実施形態では、空間特性はまた、音響オブジェクトに対するオーディオソースの位置、および／または、オーディオがレンダリングされるリスニング位置に依存し得る。

このいくつかの例は、オーディオソースに最も近い音響オブジェクトの部分によって、またはカップリングされたオーディオを生成するのに最も効率的なオーディオソースに面する表面（たとえば、ポリゴン）によって決定される位置を含み得る。より具体的には、振動からオーディオへの伝達を記載するカップリング係数が最も高いポリゴンである。あるいは、位置は、オーディオカップリング係数に対するそれぞれの振動によって重み付けされたポリゴン位置の加重平均によって決定され得る。

ここでのポリゴンの位置は、たとえば、

のように、平均的な位置で考慮することができる。

生成されたオーディオソースの空間特性は、リスニング位置に依存し得る。生成されたオブジェクトオーディオソースの位置は、リスニング位置に最も近い音響オブジェクトのポイントとして選択することができる。生成されたオブジェクトオーディオソースの空間的広がりは、絶対的なオブジェクトサイズに関してではなく、２次元的に知覚された広がり、すなわち、リスニング位置に面する音響オブジェクトの幅と高さに関して表現され得る。同様に、この知覚された空間的広がりは、２つの角度で表現され得、リスニング位置の観点から、音響オブジェクトの相対的な高さおよび幅を示す。

あるいは、位置および空間的広がりは、リスニング位置に最も直接的に面している表面積によって決定され得る。たとえば、法線ベクトル

が、ポリゴンの平均位置と、リスニング位置との間の線によって決定されるベクトル

と最も一致するポリゴンｋの平均位置および広がりであり、

ここで、×は、２つのベクトルの外積である。

他の実施形態では、生成されたオブジェクトオーディオソースの空間特性は、元のオーディオソース位置とリスニング位置との両方に依存する。たとえば、位置は、元のオーディオソースとリスニング位置との間の直接線が、リスニング位置に最も近い音響オブジェクトと交差する点によって決定され得る。次に、生成されたオブジェクトオーディオソースの空間的広がりが、その位置に関して画定され得る。

以前の説明は、生成されるカップリングオーディオ信号を、音響オブジェクトに入射するオーディオに関連付ける、すなわち、オーディオが振動に変換されてからオーディオに戻る効果を反映するカップリング伝達関数が考慮されるシナリオに焦点を当ててきた。

しかしながら、他の実施形態では、音響オブジェクトの振動運動へのオーディオの変換を指すカップリング伝達関数が提供され得る。代替的または追加的に、音響オブジェクトの振動運動のオーディオへの変換を指すカップリング伝達関数が提供され得る。

多くの実施形態では、オーディオから振動へのカップリングを反映する入力カップリング伝達関数と、振動からオーディオへのカップリングを反映する出力カップリング伝達関数との両方を提供することができる。したがって、２つの部分からなるカップリングメタデータを提供することができ、一方の部分は、到来するオーディオ信号から振動信号への変換を記載し、第２の部分は、振動信号からオーディオ信号への変換を記載する。そのような場合、全体的なカップリング効果／伝達関数は、たとえば、
ｃ_ａ＝ｃ_{ａ，ａ２ｖ}＊ｃ_{ａ，ｖ２ａ}
のように、入力伝達関数と出力伝達関数の組合せとして決定でき、ここで、＊は、（時間領域）畳込みを示し、ｃ_{ａ，ａ２ｖ}およびｃ_{ａ，ｖ２ａ}は、それぞれ入力カップリング伝達関数および出力カップリング伝達関数を表現する時間領域フィルタである。

個々の部分伝達関数を提供するアプローチは、多くの利点を提供し得る。オーディオソース生成器２０５は、音響オブジェクトの振動を判定し、次に、これから、オブジェクトオーディオソースから発せられるオーディオを決定するように構成され得る。これにより、より複雑で詳細な検討が可能になり得る。

たとえば、多くの実施形態では、オーディオソース生成器２０５は、音響オブジェクトの物理モデルを考慮するように構成され得る。物理モデルは、音響オブジェクトの機械的性能および／または動作のモデルであり得る。たとえば、音響オブジェクトの構造と構成、およびこれが振動にどのように反応するかをモデル化できる。たとえば、モデルは、振動が音響オブジェクト内でどのように分布および伝播するかをモデル化するように構成され得る。

モデルは、たとえば、振動がシステム内でどのように機械的に減衰されるかを含む、音響オブジェクトにおける振動を判定するために評価され得る。次に、出力カップリング伝達関数を使用して、判定された振動から発せられるオーディオを決定することにより、結果として生じるオーディオを生成することができる。別の例として、モデルは、共振動作を反映でき、たとえば、振動のソースが終了した後でさえも振動が続く可能性があるリンギング効果をモデル化できる。

このアプローチは、特に、振動の空間分布と、その結果として発せられるオーディオの空間分布とを決定するために使用され得る。たとえば、特定の振動は、音響オブジェクトの１つの小さな領域において、たとえば、音響オブジェクトの小さな領域に焦点を合わせた指向性の高いオーディオソース（または、たとえば、音響オブジェクトの一部に非常に近いオーディオソース）によって誘発され得る。次に、音響オブジェクト全体の振動効果は、物理モデルを評価することによって決定することができる。音響オブジェクトはより小さな部分に分割され得、各部分について平均振動が決定され得、対応するオーディオ信号は、この振動に出力カップリング伝達関数を適用することによって決定され得る。このようにして、カップリングによって生成されたオーディオを反映する空間的に分散されたオーディオソースを生成することができる。

この例では、オーディオが生成させる振動は、オーディオが、音響オブジェクトに到達した結果である。しかしながら、他の実施形態では、振動は、他のソースから生じ得る。特に、多くのシナリオでは、振動は、音響オブジェクトに加えられる時間変動する力に起因する振動であり得る。

実際、物理的相互作用（たとえば、ノッキングなど）も、カップリング効果を介して音響オブジェクトを音ソースに変える可能性がある。たとえば、壁は、ドリル自体ではないノイズの大部分を発生させるため、壁のドリルは聞こえる。同様に、物理的に接続されたシーンオブジェクト間でもカップリングが発生する（たとえば、建物全体でドリルが聞こえるようになる）。

これは、カップリング係数が、到来するエネルギのどの部分が振動エネルギに変換されるかを示す係数と、振動エネルギとオーディオ信号との間の関係を記載する係数に分割されることによってモデル化され得る。

音響オブジェクトのこの振動モデリングは、（物理的に）接続された音響オブジェクト間の振動の伝達を記載する追加の係数に基づく場合があり、したがって、このアプローチは、異なる音響オブジェクト間の機械的相互作用を評価するためにも使用できる。

したがって、カップリング係数は、（音響オブジェクトに到達する音波を記載するオーディオ信号を、音響オブジェクトによって放射されるオーディオ信号に直接変換するという意味で）入力オーディオから出力オーディオへの伝達を表現できるが、２つの構成要素に分割され、一方の係数成分が、到来する音波のオーディオ信号を、音響オブジェクトにおける振動信号に変換し、他方の係数成分が、それらの振動信号を、音響オブジェクトによって放射されるオーディオ信号に変換する。

これは、音響オブジェクトが互いに接触し、それによって、音響オブジェクトを捕捉する要素から、音波に直接曝されていない別の音響オブジェクトに振動信号を伝達できる、より高度な実施形態において有用であり得る。たとえば、ある部屋で大音量の音システムが音楽を再生している場合、２つの部屋の間の壁を通過して、隣の部屋で音楽が聞こえる場合がある。しかしながら、振動は通常、建物構造の他の部分に伝達され、壁、天井、および床が、音楽のある部屋に直接隣接していなくても、他の部屋のリスナにも音楽の低音が聞こえる。

別の例は、（仮想的な）ポータブルスピーカまたは電話が、モデル化されたシーンにおいてオーディオを再生していることである。スピーカまたは電話がテーブル表面に接触するとすぐに、デバイスとテーブル表面との間のカップリングがはるかに強くなる。これは、音ソース（ラウドスピーカ）から、ケーシングへのカップリングが高いためである。しかしながら、ケーシング自体の振動はほとんど聞こえないが、これらの振動は、接触によって非常に効果的にテーブル表面に伝達される。テーブル表面は、その後、その振動をより大きな放射音に変換するサウンドボードとして機能する。

したがって、この中間ステップを使用すると、オーディオ環境のより現実的なシミュレーションのために、音響オブジェクト間の振動信号の伝達をモデル化できる。

データ信号で提供される正確なデータ、および使用される特定の構文は、異なる実施形態では異なる場合がある。

たとえば、パラメータ帯域データの場合、パラメータ帯域定義は、事前定義されているか、または送信で示され得る。ビットストリームフィールドは、いくつかの事前定義されたバンディング定義の１つを示し得るか、または、パラメータ帯域定義は、周波数、ＦＦＴ値域、またはサブ帯域インデクスの観点から、帯域境界または帯域幅としてビットストリームで明示的に伝送される。

帯域周波数係数とフィルタ係数との両方をサポートするビットストリーム構文の例を次に示す。

あるいは、音響オブジェクトメタデータ、より具体的には、カップリング係数メタデータ、および任意選択でバンディング情報を、テキストベースのファイルで記載することができる。たとえば、ＸＭＬファイルまたはＪＳＯＮ形式として。

例として、音響要素３は、中心位置

、向きｏｒｉＹａｗ＝０、ｏｒｉＰｉｔｃｈ＝０、ｏｒｉＲｏｌｌ＝０、および寸法

によって画定され得る。ビットストリームフィールドｐａｒＢｎａｄｓの対応する値は１であり、ｂａｎｄＤｅｆＩｄｘは０であり得、これは、以下の表に示されているバンディング定義を参照することができる。

ｃｏｕｐｌｉｎｇＣｏｅｆｆの７つの値は、次の表に示す通りである。

逆量子化された値には、以下の表からの逆量子化ベクトルが使用される。

Ｓ_ｒ，０を、唯一のアクティブなオーディオソース信号のＳＴＦＴ表現とし、リスニング位置が

である間、位置

における無指向性オーディオソースを表現する。生成されたオーディオオブジェクトソースの信号は、

によって、パラメータ帯域ｂにおけるすべてのＳＴＦＴ値域ｋについて計算される。

生成されたオーディオオブジェクトソースに関連付けられた空間データは、音響オブジェクトから得られる中心位置

および寸法

である。上記の例では、元のオーディオソースと、音響オブジェクトとの間の距離による減衰、および、生成されたオーディオオブジェクトソースと、リスニング位置との間の距離による減衰は無視される。実際には、信号のエネルギは、波面のますます広い領域に分散し、音ソースからの距離ｒに対して、通常

に比例する減衰係数を引き起こす。そのような減衰ゲインは、音ソースの位置および寸法、音響オブジェクト、およびリスニング位置に基づいて計算できる。

最後に、レンダラでは、生成された信号は、たとえば、左右の時間領域フィルタにＦＦＴを適用することによって、周波数領域ＨＲＴＦ（Ｈ_ＬＥＦＴ［ｋ］，Ｈ_{ＲＩＧＨＴ}［ｋ］）でレンダリングされる。
Ｙ_ＬＥＦＴ［ｎ，ｋ］＝Ｓ_ｇ，３［ｎ，ｋ］・Ｈ_ＬＥＦＴ［ｋ］
Ｙ_{ＲＩＧＨＴ}［ｎ，ｋ］＝Ｓ_ｇ，３［ｎ，ｋ］・Ｈ_{ＲＩＧＨＴ}［ｋ］

ここで、Ｙ_ＬＥＦＴおよびＹ_{ＲＩＧＨＴ}は、左右のヘッドフォンスピーカの複雑なＳＴＦＴ領域信号である。

このアプローチにより、多くのシナリオにおいて、性能が向上し、レンダリングと表現とが向上し得る。性能の向上は、たとえば、多くの場合、次の特定のシナリオで達成され得る。
－第１のオーディオソースは、音響オブジェクトによって直接経路においてリスナに遮られるが、空気中に有意な間接経路があり、それを介して、第１のオーディオソースのエネルギのかなりの部分がまだリスナに到達する。
〇この場合、音響オブジェクトは、追加のオーディオソースになり、送信されたオーディオおよび反射とともに、オーディオ環境のより現実的なレンダリングを作成する。
〇例は、リスナの視点から背後にソースが配置された部屋の仕切りである。
－第１のオーディオソースは、リスナへの１つまたは複数の音響オブジェクトによって完全に遮られており、空中からリスナへの有意な経路はない。
〇この場合、音響オブジェクトは、追加のオーディオソースになり、１つまたは複数のオーディオソースを置き換えることが多いので、オーディオ環境のより現実的なレンダリングの作成と、計算の複雑さの低減との両方を行う。
〇例は、壁と閉じたドアで区切られた２つの隣接する部屋があるシナリオである。
－第１のオーディオソースは、音響オブジェクトと直接接触している。
〇この場合、カップリング係数は、音波とのカップリングとは異なり、オーディオソースの振動は、音響オブジェクトによってより直接的に引き継がれるため、ラウドネスの増幅を引き起こす可能性がある。
〇例は、オーディオを再生する電話のようなスピーカがテーブルに配置され、テーブルがサウンドボードとして機能するシナリオである。
－第１のオーディオソースは、音響オブジェクトによってリスナに遮られないが、音響オブジェクトにカップリングエネルギを導入する。
〇この場合、音響オブジェクトは、第１のオーディオソースの知覚された広がりを生成する追加のオーディオソースになる。

明確化のための上記の記載は、異なる機能回路、ユニット、およびプロセッサを参照して本発明の実施形態を記載していることが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット、またはプロセッサ間での機能の任意の適切な分担が使用され得ることは明らかであろう。たとえば、別々のプロセッサまたはコントローラによって実行されるように示されている機能は、同じプロセッサまたはコントローラによって実行され得る。したがって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的構造または体系を示すものではなく、記載された機能を提供するための適切な手段への言及としてのみ理解されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、１つまたは複数のデータプロセッサおよび／またはデジタル信号プロセッサ上で実行するコンピュータソフトウェアとして少なくとも部分的に実施され得る。本発明の実施形態の要素および構成要素は、任意の適切な手法で物理的、機能的、および論理的に実施され得る。実際、機能は、単一のユニット、複数のユニット、または他の機能ユニットの一部として実施され得る。したがって、本発明は、単一のユニットで実施することができ、または異なるユニット、回路、およびプロセッサ間で物理的および機能的に分散され得る。

本発明は、いくつかの実施形態に関連して説明されてきたが、本明細書に記載の特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、付随する特許請求の範囲によってのみ限定される。それに加えて、特徴は特定の実施形態に関連して記載されているように見え得るが、当業者は、記載された実施形態の様々な特徴が、本発明にしたがって組み合わされ得ることを認識するであろう。請求項において、備えるという用語は、他の要素またはステップの存在を排除しない。

さらに、個々にリストされているが、複数の手段、要素、回路、または方法のステップは、たとえば、単一の回路、ユニット、またはプロセッサによって実施され得る。それに加えて、個々の特徴は、異なる請求項に含まれ得るが、これらはおそらく、有利に組み合わせることができ、異なる請求項に含まれることは、特徴の組合せが、実現可能および／または有利ではないことを意味しない。また、請求項の１つのカテゴリに特徴が含まれていることは、このカテゴリに限定されることを意味せず、その特徴が、必要に応じて他の請求項のカテゴリにも同様に適用可能であることを示す。さらに、請求項における特徴の順序は、特徴が機能しなければならない特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、ステップがこの順序で実行されなければならないことを意味しない。むしろ、これらのステップは、任意の適切な順序で実行することができる。それに加えて、単数の参照は、複数を除外しない。したがって、「第１」、「第２」などへの言及は、複数を排除するものではない。請求項における参照記号は、単に明確な例として提供されており、いずれにせよ、請求項の範囲を限定するものとして解釈されないものとする。

Claims

受信機回路と、生成器回路と、レンダラ回路とを含む、オーディオ装置であって、
前記受信機回路は、信号を受信し、
前記信号は、オーディオシーンのためのデータを備え、
前記データは、入力オーディオソースデータと、音響オブジェクトデータとを備え、
前記入力オーディオソースデータは、少なくとも１つのオーディオソースのためであり、
前記音響オブジェクトデータは、少なくとも１つの音響オブジェクトのためであり、
前記音響オブジェクトデータは、音響カップリングデータおよび空間特性データを備え、
前記音響カップリングデータは、オーディオエネルギの振動／機械的エネルギへの変換、および／または、振動／機械的エネルギのオーディオエネルギへの変換の特性を示し、
前記生成器回路は、オブジェクトオーディオソースのためのオブジェクトオーディオソースデータを生成し、
前記オブジェクトオーディオソースデータは、前記音響オブジェクトによって前記オーディオシーンにおいて発せられるオーディオを表現し、
前記オーディオシーンにおいて発せられる前記オーディオは、前記少なくとも１つのオーディオソースからカップリングされ、
前記生成器回路は、前記音響カップリングデータ、前記空間特性データ、および前記入力オーディオソースデータに応答して前記オブジェクトオーディオソースデータを生成し、
前記レンダラ回路は、前記オーディオシーンをレンダリングし、前記レンダリングすることは、前記オブジェクトオーディオソースデータをレンダリングすることを含む、オーディオ装置。
前記生成器回路は、前記オブジェクトオーディオソースが前記空間特性データに応答して決定される空間的広がりを有するように前記オブジェクトオーディオソースを表現するために、前記オブジェクトオーディオソースデータを生成する、請求項１に記載のオーディオ装置。
前記生成器回路は、前記音響カップリングデータに応答して、前記オブジェクトオーディオソースデータのオーディオのためのオーディオレベルおよび周波数応答のうちの少なくとも１つを決定する、請求項１に記載のオーディオ装置。
前記音響カップリングデータは、前記音響オブジェクトのためのカップリング係数の第１のセットを備え、
前記カップリング係数のセットは、前記音響オブジェクトのためのカップリング伝達関数を示す、請求項１に記載のオーディオ装置。
前記カップリング伝達関数は、前記音響オブジェクトの振動から、前記音響オブジェクトから発せられるオーディオへの伝達関数である、請求項４に記載のオーディオ装置。
前記オブジェクトオーディオソースデータは、オーディオオブジェクトの振動および前記カップリング伝達関数から、前記音響オブジェクトによって前記オーディオシーンにおいて発せられるオーディオを表現する、請求項５に記載のオーディオ装置。
前記生成器回路は、前記音響オブジェクトの物理モデルに応答して前記振動を判定する、請求項６に記載のオーディオ装置。
前記生成器回路は、時間変化する力に応答して前記振動を判定し、前記時間変化する力は、前記音響オブジェクトに加えられる、請求項６に記載のオーディオ装置。
前記カップリング伝達関数は、前記音響オブジェクトに入射するオーディオから、前記音響オブジェクトの振動への伝達関数である、請求項４に記載のオーディオ装置。
前記生成器回路は、前記空間特性データによって示されるような前記音響オブジェクトの位置に対応する空間位置を有する前記オブジェクトオーディオソースを表現するために、前記オブジェクトオーディオソースデータを生成する、請求項１に記載のオーディオ装置。
前記生成器回路は、前記空間特性データによって示される前記少なくとも１つのオーディオソースの位置および前記音響オブジェクトの位置に応答して、前記オブジェクトオーディオソースデータを生成する、請求項１に記載のオーディオ装置。
前記オブジェクトオーディオソースデータは、前記空間特性データによって示されるリスニング位置および前記音響オブジェクトの位置に応答して生成される、請求項１に記載のオーディオ装置。
前記信号は、第２のオーディオソースのための入力オーディオソースデータを備え、
前記オブジェクトオーディオソースデータは、前記少なくとも１つのオーディオソースと前記第２のオーディオソースとからのオーディオの結合カップリングから、前記音響オブジェクトによって前記オーディオシーンにおいて発せられるオーディオを表現する、請求項１に記載のオーディオ装置。
データ生成器回路と、信号生成器回路と、送信機回路とを備える、オーディオ装置であって、
前記データ生成器回路は、オーディオシーンのためのデータを生成し、
前記データは、入力オーディオソースデータと、音響オブジェクトデータとを備え、
前記入力オーディオソースデータは、少なくとも１つのオーディオソースのためであり、
前記音響オブジェクトデータは、少なくとも１つの音響オブジェクトのためであり、
前記音響オブジェクトデータは、音響カップリングデータおよび空間特性データを備え、
前記音響カップリングデータは、オーディオエネルギの振動／機械的エネルギへの変換、および／または、振動／機械的エネルギのオーディオエネルギへの変換の特性を示し、
前記データ生成器回路は、データ信号を生成し、
前記データ信号は、前記オーディオシーンのための前記データを備え、
前記データ生成器回路は、前記データ信号を送信する、オーディオ装置。
オーディオを処理する方法であって、前記方法は、
信号を受信するステップと、オブジェクトオーディオソースのためのオブジェクトオーディオソースデータを生成するステップと、オーディオシーンをレンダリングするステップと
を有し、
前記信号は、オーディオシーンのためのデータを備え、
前記データは、入力オーディオソースデータと、音響オブジェクトデータとを備え、
前記入力オーディオソースデータは、少なくとも１つのオーディオソースのためであり、
前記音響オブジェクトデータは、前記オーディオシーンにおける少なくとも１つの音響オブジェクトのためであり、
前記音響オブジェクトデータは、音響カップリングデータおよび空間特性データを備え、
前記音響カップリングデータは、オーディオエネルギの振動／機械的エネルギへの変換、および／または、振動／機械的エネルギのオーディオエネルギへの変換の特性を示し、
前記オブジェクトオーディオソースデータは、前記音響オブジェクトによって前記オーディオシーンにおいて発せられるオーディオを表現し、
前記オーディオシーンにおいて発せられる前記オーディオは、前記少なくとも１つのオーディオソースからカップリングされ、
生成器回路は、前記音響カップリングデータ、前記空間特性データ、および前記入力オーディオソースデータに応答して、前記オブジェクトオーディオソースデータを生成し、
前記レンダリングするステップは、前記オブジェクトオーディオソースデータをレンダリングするステップを含む、方法。
オーディオデータ信号を生成する方法であって、前記方法は、
オーディオシーンのためのデータを生成するステップであって、
前記データは、入力オーディオソースデータと、音響オブジェクトデータとを備え、
前記入力オーディオソースデータは、少なくとも１つのオーディオソースのためであり、
前記音響オブジェクトデータは、少なくとも１つの音響オブジェクトのためであり、
前記音響オブジェクトデータは、音響カップリングデータおよび空間特性データを備え、
前記音響カップリングデータは、オーディオエネルギの振動／機械的エネルギへの変換、および／または、振動／機械的エネルギのオーディオエネルギへの変換の特性を示す、データを生成するステップと、
前記オーディオデータ信号を生成するステップであって、前記オーディオデータ信号は、前記オーディオシーンのための前記データを備える、オーディオデータ信号を生成するステップと、
前記オーディオデータ信号を送信するステップとを有する、方法。
コンピュータプログラムがプロセッサにおいて実行された場合、請求項１５に記載の方法を実行する、非一時的媒体に記憶されたコンピュータプログラム。
コンピュータプログラムがプロセッサにおいて実行された場合、請求項１６に記載の方法を実行する、非一時的媒体に記憶されたコンピュータプログラム。
前記生成器回路は、前記音響カップリングデータに応答して、前記オブジェクトオーディオソースデータのオーディオのためのオーディオレベルおよび周波数応答のうちの少なくとも１つを決定する、請求項２に記載のオーディオ装置。
前記生成器回路は、時間変化する力に応答して前記振動を判定し、前記時間変化する力は、前記音響オブジェクトに加えられる、請求項７に記載のオーディオ装置。