JP2022551535A

JP2022551535A - オーディオ符号化のための装置及び方法

Info

Publication number: JP2022551535A
Application number: JP2022521735A
Authority: JP
Inventors: パウルスヘンリクスアントニウスディレン; ボンフランシスカスマリヌスヨセフスデ; イェルーンジェラルドゥスヘンリクスコッペンス
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-10-14
Filing date: 2020-10-08
Publication date: 2022-12-09
Also published as: KR20220084113A; EP4046385A1; EP3809709A1; US20220383885A1; WO2021074007A1; MX2022004393A; BR112022006905A2; CN114600188A

Abstract

オーディオ符号化装置は、オーディオシーンを表すオーディオアイテムを受け取るオーディオ受信機２０１を有し、メタデータ受信機２０３は、オーディオアイテムのレンダリングに対する提示制約を記述する、オーディオアイテムのための入力提示メタデータを受け取る。提示制約は、オーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する。オーディオエンコーダ２０５が、複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するのであるが、この符号化は、入力提示メタデータに応答して適合されている。メタデータ回路２０７は、入力提示メタデータから、出力提示メタデータを生成する。出力提示メタデータは、符号化されたオーディオアイテムのためのデータであって、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する。出力２０９が、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成する。

Description

本発明は、オーディオ符号化のための装置及び方法に関し、特に、ただし排他的にではないが、仮想現実アプリケーションなどの動的アプリケーションのためのオーディオ符号化のための装置及び方法に関する。

オーディオ及びビデオアプリケーションの多様性及び範囲は、近年において、オーディオ、イメージ及びビデオを利用し消費する新たなサービス及び様態が連続的に開発され導入されていることに伴い、大幅に増加している。

例えば、ますます人気が出ているサービスの１つは、レンダリングのパラメータを変更するため、視聴者が、能動的かつ動的にシステムと対話することが可能であるように、オーディオ及びイメージを提供することである。多くのアプリケーションにおいて非常にアピールする特徴として、有効な視／聴位置を変更することができる能力がある。そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にする。

傾向としては、シーンのレンダリング側の適合を許容する柔軟性の増加を提供する方向に向かっている。オーディオシーンのレンダリングのためにレンダリング側の柔軟性の増加を提供する目的で、いくつかのオーディオ符号化及び分散アプローチが提案されてきており、それらにおいては、オーディオシーンが、異なるオーディオアイテムの合成によって表される。例えば、オーディオアイテムが、特定のスピーカなど、別個の音源を表す場合がある。いくつかのアプローチでは、すべてのオーディオアイテムが同一のタイプであるが、複数の異なるオーディオタイプが同時に用いられサポートされることを可能にするシステムの開発が増加している。例えば、いくつかのオーディオアイテムはオーディオチャネルであり得るが、他のものは別個のオーディオオブジェクトであり得るし、さらに他のものは、アンビソニックオーディオアイテムなど、シーンベースの場合もあり得る。多くのシステムにおいて、メタデータが、オーディオアイテムを表すオーディオデータと共に、提供される。そのようなメタデータは、例えば、あるオーディオアイテムのオーディオ源のために、シーンにおける公称位置を示す。

そのようなアプローチは、クライアント／レンダリング側での高い程度でのカスタマイズと適合とを可能にする。例えば、オーディオシーンを、そのオーディオシーンにおけるリスナの仮想位置の変更に局所的に適合させることが可能であるし、又は、個別的なリスナの特定の好みに適合させることも可能である。

特定の例として、３ＧＰＰ（登録商標）コンソーシアムが、現在、いわゆるイマーシブボイスアンドオーディオサービシズ（ＩＶＡＳ）コーデックを開発している。このコーデックは、チャネル、オブジェクト又はシーン（特に、アンビソニックス）ベースの設定など、様々な設定で、オーディオコンテンツをコード化することが可能である。コード化の目的は、最小のデータ量を用いて、オーディオ情報を運ぶことである。

ＩＶＡＳコーデックは、さらに、様々なオーディオストリームを受信端における再生に適する形式に変換するレンダラを有することになる。例えば、オーディオを、既知のラウドスピーカの設定にマップすることが可能であるし、又は、オーディオを、ヘッドフォン経由での再生のためのバイノーラル形式にレンダリングすることも可能である。

３ＧＰＰ（登録商標）のＩＶＡＳコーデックスコープでは、潜在的な使用の場合を収集するための作業が進行中である。これらのためには、コーデックはレンダリングを変調する対話可能性を提供すべきであると考えられる。例えば、ヘッドフォンオーディオは、頭部位置及び変換と独立にレンダリングされなければならず、これは、ヘッドフォンオーディオが頭部の移動に対して補償されなければならないことを意味する。別の例として、ユーザは、仮想会議への参加者のオーディオを運ぶオブジェクトを（再度）位置決めするなど、オーディオアイテムを空間的に位置決めするように付勢される。

レンダラは、３ＧＰＰ（登録商標）のＩＶＡＳコーデックの作業アイテムの一部であると考えられ、ＩＶＡＳコーデックに内在するものと考えられる。しかし、コーデックがパススルーモードも含むことが、提案されてきている。このモードは、オーディオアイテムが、エンコーダ入力において入力されたのと同じ設定で（すなわち、１：１の対応するチャネル、オブジェクト及びシーンベースのオーディオアイテムとして）デコーダ出力において表されることを可能にする。外部レンダラは、専用の外部レンダリングインターフェースを経由して、これらのアイテムへのアクセスを有し、内部ＩＶＡＳレンダラへの代替的なレンダリングを実現する。

そのようなアプローチは、追加的な柔軟性を提供し、受信端におけるカスタマイズ及び適合のための範囲を増加させる。しかし、このアプローチには、短所が付随することもあり得る。例えば、柔軟性とオーディオ品質及び複雑性との間には、トレードオフが存在する。自由度を制約することによりコンテンツプロバイダがクライアント側におけるレンダリングに関するいくらかの制御を保持することを許容することは、一般的に有用である。これは、レンダリングを助け、より現実的なレンダリングされたオーディオシーンを結果的に生じさせるだけではなく、ユーザに提供される経験に対するある程度の制御をコンテンツプロバイダが保持することも許容する。例えば、それは、レンダラが、非現実的でありコンテンツとコンテンツプロバイダに対して悪影響を及ぼす可能性があるオーディオシーンを生成することを防止する。

符号化されたオーディオアイテムが、オーディオアイテムをレンダリングするのをレンダラがどのように許容されるかを制約するメタデータによって補充されることは可能であると想定される。これは、多くの状況において、異なる要件の間でのトレードオフを改善することを可能にする。しかし、それは、すべての状況において必ずしも最適ではない可能性があり、例えば、データレートの上昇を要求する場合があり得るし、結果的に、柔軟性及び／又はレンダリングされたオーディオシーンのための品質を低下させることもあり得る。

よって、改善されたアプローチが望まれている。特に、操作性の改善、柔軟性の改善、実装の容易化、操作性の容易化、コスト削減、複雑性の低下、データレートの低下、知覚されるオーディオ品質の向上、レンダリング制御の改善、トレードオフの改善、及び／又はパフォーマンスの向上を可能にするアプローチであれば、有利であり得る。

したがって、本発明は、上述された短所の中の１つ又は複数を、単独で又はいずれかの組合せで、好ましくは、軽減し、緩和し、又は消去することを目指す。

本発明のある態様によると、オーディオ符号化装置が提供されるのであるが、このオーディオ符号化装置は、オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機と、複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機であって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約であって、複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、メタデータ受信機と、入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するためのオーディオエンコーダと、入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路であって、出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、メタデータ回路と、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路とを有する。

本発明は、多くのシナリオにおいて、改善された及び／又はより柔軟な符号化を提供する。このアプローチによると、多くの実施形態において、ビットレート比率に改善された品質を提供する符号化されたオーディオデータストリームが生成されることが可能になる。符号化されたオーディオデータストリームは、ソース／復号化側からのレンダリングのいくらかの制御も可能にしながら、レンダリングのいくらかの柔軟性を可能にするように生成される。

オーディオアイテムのための提示メタデータは、例えば、レンダリング位置、利得レベル、信号レベル、空間分布、又は残響特性を制約することを含め、オーディオアイテムのレンダリングのための空間パラメータと音量パラメータとの少なくとも一方を制約する。

オーディオエンコーダは、入力提示メタデータに基づき、そして特にオーディオアイテムのための入力提示メタデータに基づき、オーディオアイテムの符号化を適合させるように構成される。この適合は、オーディオアイテムの復号化のためのビット／データ（レート）の圧縮を、適合させる。オーディオアイテムを符号化することの結果として生じるビットレートは、入力提示メタデータに基づいて、適合される。

入力提示メタデータは、受け取られた複数のオーディオアイテムに対する提示／レンダリングの制約を記述する。符号化されたオーディオデータは、複数の符号化されたオーディオアイテムのためのオーディオデータを有する。複数の符号化されたオーディオアイテムは、受け取られた複数のオーディオアイテムの符号化によって、生成される。出力提示メタデータは、複数の符号化されたオーディオアイテムのレンダリングに対する提示／レンダリングの制約を記述している。

提示制約は、レンダリングの制約であり得るし、オーディオアイテムのためのレンダリングパラメータを制約する。レンダリングパラメータは、レンダリングプロセス及び／又はレンダリングされた信号の特性のパラメータである。

出力提示メタデータは、具体的には、符号化されたオーディオアイテムをレンダリングするときに提示／レンダリングの１つ又は複数の適合可能／可変である態様／特性／パラメータを適合させ得る／適合可能な範囲を制約する、オーディオエンコーダによって生成される符号化されたオーディオアイテムと関連する／リンクする／そのために提供される任意のデータである。

出力提示メタデータと、特に、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約する符号化されたオーディオアイテムのためのデータとは、複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約に応答して、メタデータ回路によって、生成される。

オーディオエンコーダは、（複数のオーディオアイテムを符号化することによって）複数の符号化されたオーディオアイテムを含むように、符号化されたオーディオデータを生成する。

本発明のオプションである特徴によると、オーディオエンコーダは、複数のオーディオアイテムの中の少なくとも第１のオーディオアイテムと第２のオーディオアイテムとを、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナを有しており、オーディオエンコーダは、合成されたオーディオ符号化データを、合成されたオーディオアイテムを符号化することにより、第１及び第２のオーディオアイテムのために生成し、合成されたオーディオ符号化データを符号化されたオーディオデータに含ませるように、構成される。

これは、多くの実施形態において、特に効率的な符号化及び／又は柔軟性を提供する。それは、特に、多くの実施形態において、知覚的な劣化が縮小されている効率的なビットレートの圧縮を提供する。

本発明のオプションである特徴によると、コンバイナは、第１のオーディオアイテムと第２のオーディオアイテムとのための入力提示メタデータに応答して、複数のオーディオアイテムから第１のオーディオアイテムと第２のオーディオアイテムとを選択するように構成される。

これは、多くの実施形態において、特に効率的な符号化及び／又は柔軟性を提供する。

本発明のオプションである特徴によると、コンバイナは、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、第１のオーディオアイテムと第２のオーディオアイテムとを選択するように構成される。

これは、多くの実施形態において、特に効率的な符号化及び／又は柔軟性を提供する。類似性基準は、提示メタデータによって制約されるレンダリングパラメータに対するレンダリング制約が類似性基準を満たすという要件を有する。

本発明のオプションである特徴によると、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとは、利得制約と位置制約との少なくとも一方を有する。

これは、多くの実施形態において、特に効率的な操作性を提供する。

本発明のオプションである特徴によると、オーディオエンコーダは、さらに、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとに応答して、合成された提示メタデータを合成されたオーディオアイテムのために生成し、合成された提示メタデータを出力提示メタデータに含めるように構成される。

これは、多くの実施形態において、改善された操作性を提供し、特に、多くの実施形態において、エンコーダが、合成されたオーディオアイテムと符号化された入力オーディオアイテムとを、同じ様態で、個々のオーディオアイテムが合成されたオーディオアイテムであるかそうでないかに関してまったく知ることなく、処理することを可能にする。

本発明のオプションである特徴によると、オーディオエンコーダは、合成されたオーディオアイテムのための提示パラメータに対する制約であって、第１のオーディオアイテムのための入力提示メタデータによって示された第１のオーディオアイテムに対する制約と第２のオーディオアイテムのための入力提示メタデータによって示された第２のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成するように構成される。

これは、多くのシナリオ及びアプリケーションにおいて、パフォーマンスの向上を提供する。

本発明のオプションである特徴によると、オーディオエンコーダは、第２のオーディオアイテムのための入力提示メタデータに応答して、第１のオーディオアイテムの圧縮を適合させるように構成される。

このアプローチは、典型的には、オーディオアイテムの圧縮と符号化との向上を可能にする。圧縮はビットレートの低下であり、圧縮の増加は、結果的に、符号化されたオーディオアイテムのデータレートの低下を生じさせる。圧縮は、ビットレートの低下／圧縮である。オーディオ符号化は、１つ又は複数の入力オーディオアイテムを表す符号化されたオーディオアイテムが、１つ又は複数の入力オーディオアイテムよりも少ないビットによって表されるようなものであり得る。

本発明のオプションである特徴によると、オーディオエンコーダは、第２のオーディオアイテムのための入力提示メタデータに応答して第２のオーディオアイテムから第１のオーディオアイテムへのマスキング効果を推定し、マスキング効果に応答して第１のオーディオアイテムの圧縮を適合させるように構成される。

これは、多くの実施形態において、特に効率的な操作性とパフォーマンスの向上とを提供する。

本発明のオプションである特徴によると、オーディオエンコーダは、第２のオーディアイテムのための入力提示メタデータによって示される第２のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、第２のオーディオアイテムから第１のオーディオアイテムへのマスキング効果を推定するように構成される。

本発明のオプションである特徴によると、オーディオエンコーダは、さらに、第１のオーディオアイテムのための入力提示メタデータに応答して、第１のオーディオアイテムの圧縮を適合させるように構成される。

これは、多くの実施形態において、特に有利な操作性及び／又はパフォーマンスを提供する。

本発明のオプションである特徴によると、入力提示メタデータは、少なくともいくつかのオーディオアイテムのための優先順位データを有しており、オーディオエンコーダは、入力提示メタデータにおける第１のオーディオアイテムのための優先順位の指示に応答して、第１のオーディオアイテムのための圧縮を適合させるように構成される。

本発明のオプションである特徴によると、オーディオエンコーダは、入力提示メタデータに応答して符号化がどのように適合されるかを示す符号化適合データを生成し、符号化適合データを符号化されたオーディオデータのストリームに含めるように構成される。

これは、多くの実施形態において、特に有利な操作性及び／又はパフォーマンスを提供する。それは、特に、デコーダによる改善された適合が符号化プロセスと一致することを可能にする。

本発明のある態様によると、オーディオを符号化する方法が提供され、この方法は、オーディオシーンを表す複数のオーディオアイテムを受け取るステップと、複数のオーディオアイテムのための入力提示メタデータを受け取るステップであって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約であって、複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、受け取るステップと、入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するステップと、入力提示メタデータから出力提示メタデータを生成するステップであって、出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、生成するステップと、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するステップとを有する。

本発明のこれらの及びそれ以外の態様、特徴及び利点は、本明細書において以下で説明される実施形態を参照することから明らかになり、明確となる。

本発明の実施形態は、以下の図面を参照して、単なる例示により、説明される。

本発明のいくつかの実施形態によるオーディオ分散システムの要素の例の図解である。本発明のいくつかの実施形態によるオーディオ符号化装置の要素の例の図解である。本発明のいくつかの実施形態によるオーディオ復号化装置の要素の例の図解である。

以下の説明は、３ＧＰＰ（登録商標）没入型ボイスアンドオーディオサービシズ（ＩＶＡＳ）コーデックと互換であるオーディオ符号化及び復号システムに焦点を当てているが、説明されている原理及び概念は、多くの他のアプリケーション及び実施形態においても用いることが可能であることが理解されるだろう。

図１は、オーディオ符号化システムのある例を、図解している。このシステムでは、オーディオソース１０１が、オーディオデータを、オーディオエンコーダユニット１０３に提供する。オーディオデータは、オーディオシーンのオーディオを表す複数のオーディオアイテムのためのオーディオデータを有する。オーディオアイテムは、具体的には下記のものを含む異なるタイプとして、提供される。

チャネルベースのオーディオアイテム：このようなオーディオアイテムの場合、１Ｄ（モノラル）、２Ｄ又は３Ｄの空間オーディオコンテンツは、典型的には、リスナに対して所定の位置にあるラウドスピーカを介して提示されることが意図されている離散信号として、表される。広く知られているラウドスピーカの設定としては、例えば、２チャネルステレオ（「２．０」としても知られている）、又は、リスナを包囲する５チャネルプラス低周波効果チャネル（「５．１」とも称される）がある。また、バイノーラルオーディオも、リスナのそれぞれの耳に（通常はヘッドフォンを介して）直接に提示されることが意図された２つのオーディオ信号チャネルから構成される、チャネルベースのオーディオであると考えられる。

オブジェクトベースのオーディオアイテム：このようなオーディオアイテムの場合、個々のオーディオ信号は、典型的には、別個のサウンドソースを表すのに用いられる。これらのサウンドソースは、多くの場合に、例えば電話会議における参加者など、実際のオブジェクト又は人間と関係する。信号は、典型的にはモノであるが、他の表現も用いられる。オブジェクトベースのオーディオ信号は、多くの場合、オブジェクトオーディオの範囲（空間的広がり）、指向性又は散漫性など、さらなる特性を記述するメタデータに伴われている。

シーンベースのオーディオアイテム：このようなオーディオアイテムの場合、元の２Ｄ又は３Ｄの空間的オーディオシーンは、典型的には、ある球面調和関数と関係を有するいくつかのオーディオ信号として表される。これらのシーンベースのオーディオ信号を合成することにより、提示可能なオーディオ信号は、例えば、オーディオ再生設定における実際のラウドスピーカの位置など、任意の２Ｄ又は３Ｄ位置において構築可能である。シーンベースのオーディオの例示的な実施に、アンビソニックスがある。シーンベースのオーディオは、ライブに捕捉されたサウンドシーンと特定のラウドスピーカのレイアウトとは独立である人工的に作成されたサウンドシーンとの両方の全体的な記述を生じさせるための「高次アンビソニックス」（ＨＯＡ）と称される音場技術を用いる。

オーディオデータに加え、オーディオソースは、オーディオアイテムのための提示メタデータを提供する。提示メタデータは、オーディオシーンのレンダリングに対する提示制約を記述しており、よって、複数のオーディオアイテムに対する提示／レンダリング制約を提供する。

提示メタデータは、オーディオアイテムのレンダリングがレンダラによってどのように実行されるのかにおける制約を記述する。提示メタデータは、１つ又は複数のレンダリングパラメータ／特性に対する制約を定義している。パラメータ／特性は、具体的には、オーディオアイテムのレンダリングの知覚的特性に影響を与えるものである。この制約は、シーンにおけるオーディオアイテムの空間的知覚及び／又は（相対的な）信号レベルに影響する制約である。提示メタデータは、特に、１つ又は複数のオーディオアイテムのための空間的な及び／又は利得／信号レベルのパラメータを制約する。このメタデータは、例えば、各オーディオアイテムのための位置及び／又は利得に対する制約である。

このメタデータは、例えば、１つ又は複数のオーディオアイテムの１つ又は複数のパラメータのための、ある範囲又はある組の許容可能な値を記述する。オーディオアイテムのレンダリングは、制約の範囲内で自由に行われるのであって、すなわち、レンダリングは、制約されたパラメータが、指示された許容可能な値のいずれかを有するようなものであり得るが、しかし、制約されたパラメータがこの値を有しないようなものであってはならない。

例を挙げると、提示メタデータは、オーディオアイテムの中の１つ又は複数に対し、ある領域及び／又は（相対的な）利得範囲を記述する。よって、オーディオアイテムは、その領域の内部にある知覚される位置で及び／又はその利得の範囲内の利得でレンダリングされなければならない。

提示メタデータは、したがって、局所的なレンダリングを適合させカスタマイズするいくらかの柔軟性を依然として許容しながら、レンダリングを制約する。

提示メタデータによって提供されるパラメータ又は特性のレンダリング制約の例には、下記が含まれる。

１つ又は複数のオーディオアイテムに対する位置の制約。これは、例えば、オーディオアイテムがそこからレンダリングされなければならないオーディオシーンにおける空間的領域又はボリュームを定義する。

１つ又は複数のオーディオアイテムに対する反響の制約。これは、例えば、最小又は最大の反響時間を定義する。この制約は、例えば、オーディオアイテムが所望の程度の散漫性でレンダリングされることを保証する。例えば、最小量の反響でレンダリングされるためには、一般的な周辺背景サウンドを表すオーディオアイテムが要求されるが、他方で、反響の与えられた閾値未満でレンダリングされるためには、メインスピーカを表すオーディオアイテムが要求される。

利得の制約。オーディオアイテムのレンダリングは、レンダリングプロセスの特定の好みに従い、より大音量で又はより静かになるように、レンダラによって適合させられる。例えば、周辺背景サウンドに対するスピーカのための利得は、いくつかの場合には、リスナの好みに基づいて、上昇又は低下させ得る。しかし、利得の制約は、利得がどのくらい修正可能であるかどうかを制約することにより、例えば、スピーカが周囲の雑音に勝って常に聞こえるようにすることを保証する。

ラウドネスの制約。オーディオアイテムのレンダリングは、レンダリングプロセスの特定の好みに従って、レンダラにより、より大音量で又はより静かになるように適合させることが可能である。例えば、電話会議の参加者のための利得は、いくつかの場合には、リスナの好みに基づいて、上昇又は低下させることが可能である。しかし、ラウドネスの制約は、ある参加者の知覚されるラウドネスをどれだけ修正することができるのかを制約し、例えば、それにより、他の話者又は背景雑音が存在しても会議の議長が常に十分なラウドネスを有することを保証する。

ダイナミックレンジの制約。オーディオアイテムのダイナミックレンジは、レンダラによってその大きさを適合させることが可能であり、例えば、リスナの位置に背景雑音が存在する場合に、より低いレベルの期間の間であってもオーディオが可聴に留まるように、低下させることができる。例えば、バイオリンのサウンドは、低いレベルでは、自動的により大きなラウドネスを有するようにされる。しかし、ダイナミックレンジ制御の制約は、ダイナミックレンジをどのくらい低下させることが可能であるかを制約し、したがって、例えば、バイオリンの通常のダイナミクスの十分に自然な知覚を保証する。

複数のオーディオアイテムのレンダリングのための提示制約を記述する提示メタデータは、具体的には、（提示メタデータが提供される）オーディオアイテムをレンダリングするときに適合させることが可能な、レンダリングパラメータ又は特性に対する制約を提供するデータである。レンダリングパラメータ又は特性は、レンダリング動作のパラメータ／特性である、並びに／或いは、生成されレンダリング／提示された信号及び／若しくはオーディオのパラメータ又は特性である。

入力提示メタデータは、具体的には、入力オーディオアイテムをレンダリングするときに提示／レンダリングの１つ又は複数の適合可能／可変な態様／特性／パラメータを適合させることが可能な範囲を制約する、オーディオエンコーダ２０５のための入力オーディオアイテムと関連する／入力オーディオアイテムにリンクされている／入力オーディオアイテムに提供されるいずれかのデータである。

オーディオエンコーダユニット１０３は、オーディオシーンのための符号化されたオーディオデータを含む符号化されたオーディオデータストリームを生成するように構成されている。符号化されたオーディオデータは、オーディオアイテムを符号化することによって、生成される（すなわち、受信されたオーディオデータは、オーディオアイテムを表す）。それに加えて、オーディオエンコーダユニット１０３は、符号化されたオーディオアイテムのための出力提示メタデータを生成して、このメタデータを符号化されたオーディオデータストリームに含ませる。出力提示メタデータは、符号化されたオーディオアイテムに対するレンダリング制約を記述する。

出力提示メタデータは、具体的には、符号化されたオーディオアイテムをレンダリングするときに提示／レンダリングの１つ又は複数の適合可能／可変な態様／特性／パラメータを適合させることが可能な範囲を制約する、オーディオエンコーダ２０５によって生成される符号化されたオーディオアイテムと関連する／入力オーディオアイテムにリンクされている／入力オーディオアイテムに提供されるいずれかのデータである。

出力提示メタデータと、特に、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約する符号化されたオーディオアイテムのためのデータとは、複数の（入力）オーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する（入力）提示制約に応答して、メタデータ回路によって生成される。

オーディオエンコーダユニット１０３は、符号化されたオーディオデータストリームが与えられる送信機１０５に結合されている。送信機１０５は、この例では、符号化されたオーディオデータストリームを、符号化されたオーディオデータストリームに基づいてオーディオシーンをレンダリングする１つ又は複数のクライアントに送信／分散するように、構成されている。

この例では、符号化されたオーディオデータストリームは、具体的にはインターネットである又はインターネットを含むネットワーク１０７を経由して、分散される。送信機１０５は、潜在的に多数のクライアントを同時にサポートするように構成されており、オーディオデータは、一般的に複数のクライアントに分散される。

この特定の例では、符号化されたオーディオデータストリームは、１つ又は複数のレンダリングデバイス１０９に送信される。レンダリングデバイス１０９は、符号化されたオーディオデータストリームをネットワーク１０７から受け取る受信機１１１を含む。

送信機１０５と受信機１１１とは、いずれかの適切な形式で、いずれかの適切な通信プロトコル、標準、技術及び機能を用いて通信する、と理解される。この例では、送信機１０５と受信機１１１とは、適したネットワークインターフェース機能を有するのであるが、他の実施形態では、送信機１０５／受信機１１１は、例えば、無線通信機能、光ファイバ通信機能などを含むと理解される。

受信機１１１は、受信された符号化されたオーディオデータストリームが与えられるデコーダ１１３に結合されている。デコーダ１１３は、オーディオアイテムを再現するために、符号化されたオーディオデータストリームを復号するように構成されている。デコーダ１１３は、さらに、符号化されたオーディオデータストリームから、提示メタデータを復号する。

デコーダ１１３は、オーディオアイテムのための復号されたオーディオデータと提示メタデータとを与えられるレンダラ１１５に結合されている。レンダラ１１５は、受け取られた提示メタデータに基づいてオーディオアイテムをレンダリングすることにより、オーディオシーンをレンダリングする。レンダラ１１５によるレンダリングは、用いられている特定の再生システムに向けられている。例えば、５．１サラウンドサウンドシステムの場合には、個々のチャネルのためのオーディオ信号が生成されるのであるが、その理由は、ヘッドフォンシステムのバイノーラル信号が例えばＨＲＴＦフィルタなどを用いて生成されるからである。多くの異なる可能性があるオーディオレンダリングアルゴリズム及び技術が知られており、本発明を損なうことなくいずれかの適切なアプローチが用いられ得る、ということが理解されるだろう。

レンダラ１１５は、特に、リスナによって知覚されると、合成された再生がオーディオシーンの知覚を提供するように、再生のための出力オーディオ信号を生成する。レンダラは、典型的には、異なるオーディオアイテムを、個々のオーディオアイテムのための特定の特徴に応じて、別々に異なるように処理し、その次に、それぞれの出力チャネルのために、結果的に生じる信号成分を合成する。例えば、オーディオオブジェクトオーディオアイテムの場合には、信号成分は、オーディオオブジェクトに対応するオーディオソースのためのオーディオシーンにおける所望の位置に応じて、それぞれの出力チャネルのために、生成される。オーディオチャネルオーディオアイテムは、例えば、対応する出力再生チャネルのための信号成分の生成によって、又は、例えば、再生チャネルの中の１つに厳密にマッピングされない場合には複数の再生チャネルによって（例えば、適当であれば、パニング若しくはアップミキシング技術を用いて）、レンダリングされる。

いくつかの典型的には異なるタイプのオーディオアイテムによるオーディオシーンの表現によると、レンダラ１１５に、シーンのレンダリングにおける高度な柔軟性及び適合可能性が許容されることになる。これは、例えば、レンダリングされたオーディオシーンを適合させカスタマイズするために、レンダラによって用いられる。例えば、異なるオーディオオブジェクトの相対的な利得及び／又は位置を適合させることが可能、オーディオアイテムの周波数コンテンツの修正が可能、オーディオアイテムのダイナミックレンジの制御が可能、残響特性の変更が可能、などである。よって、レンダラ１１５が出力を生成するのであるが、その場合、オーディオシーンは、現在のアプリケーション／レンダリングのための特定の好みに適合され、これには、用いられている特定の再生システムへの、及び／又はリスナの個人的好みへの適合が含まれる。このアプローチによると、また、例えば、レンダリングされたオーディオシーンを、オーディオシーンにおける仮想的な聴取位置の変更に効率的に局所的に適合させることが可能になる。例えば、仮想現実アプリケーションをサポートするために、レンダラ１１５は、ユーザ位置データ入力を動的かつ連続的に受け取り、オーディオシーンにおけるユーザの示された仮想的な位置の変化に応答して、レンダリングを適合させる。

レンダラ１１５は、受け取られた提示メタデータに基づいてオーディオアイテムをレンダリングするように、構成されている。特に、提示メタデータは、符号化された／復号されたオーディオアイテムのレンダリングの可変な態様／特性／パラメータに対する制約を示し、レンダラ１１５は、レンダリングの際には、これらの制約に従う。

レンダラ１１５／レンダリングデバイス１０９からの出力オーディオ信号は、受け取られた符号化されたオーディオデータストリームからデコーダ１１３によって生成された復号されたオーディオアイテムにレンダリング動作を適用することの結果として生じる。レンダリング動作は、外部的に又は局所的に適合させることが可能でありレンダリングされた出力オーディオ（の態様）に知覚的に影響を与えるいくつかのパラメータを有する。レンダリングに対する提示制約を記述する提示メタデータは、具体的には、レンダリングの際にレンダリングパラメータを適合させることが可能な集合（すなわち、連続的に適合可能なパラメータの場合には、値の範囲であり、又は、列挙するパラメータの場合には、離散的な値の組）を制限するデータである。

図２は、オーディオエンコーダユニット１０３の要素の例を、より詳細に示している。この例では、オーディオエンコーダユニット１０３は、シーンを記述する入力オーディオデータを受け取るオーディオ受信機２０１を有する。現在の例では、オーディオシーンは、３つの異なるタイプのオーディオデータによって、すなわち、チャネルベースのオーディオアイテムＣと、オブジェクトベースのオーディオアイテムＯと、シーンベースのオーディオアイテムＳとによって、表されている。オーディオアイテムは、いずれかの適切な形式のオーディオデータによって提供される。オーディオデータは、例えば、オーディオアイテムを、生のＷＡＶファイルとして、又は、いずれかの適切なフォーマットに従って符号化されたオーディオとして、提供する。典型的には、入力オーディオアイテムは、オーディオ品質とデータレートとが高い。

オーディオエンコーダユニット１０３は、さらに、入力オーディオアイテムのための提示メタデータを受け取るように構成されているメタデータ受信機２０３を有する。上述したように、提示メタデータは、オーディオアイテムのレンダリングに対する制約を提供する。

オーディオ受信機２０１とメタデータ受信機２０３とは、受け取られたオーディオアイテムを符号化することによってオーディオシーンのための符号化されたオーディオデータを生成するように構成されているオーディオエンコーダ２０５に結合されている。この例のオーディオエンコーダ２０５は、特に、符号化されたオーディオアイテムを、すなわち、符号化されたオーディオデータによって表されるオーディオアイテムを生成する。入力オーディオアイテムに対し、出力／符号化されたオーディオアイテムも、やはり異なるタイプのオーディオアイテムであり、特定の例では、具体的には、チャネルベースのオーディオアイテムＣ’と、オブジェクトベースのオーディオアイテムＯ’と、シーンベースのオーディオアイテムＳ’とである。

符号化されたオーディオアイテムの中の１つ、いくつか又は全部が、入力オーディオアイテムを独立に符号化することによって生成され、すなわち、符号化されたオーディオアイテムは、符号化された入力オーディオアイテムである。しかし、いくつかのシナリオでは、符号化されたオーディオアイテムのうちの１つ又は複数が、複数の入力オーディオアイテムを表すように生成されるか、又は、入力オーディオアイテムが、複数の符号化されたオーディオアイテムとして／複数の符号化されたオーディオアイテムによって、表される。

多くの符号化アルゴリズム及び技術が知られていること、そして、いずれかの適切なアルゴリズム、標準及びアプローチが用いられるということが理解されるだろう。また、異なるオーディオアイテムには異なるアルゴリズム及び技術が用いられるということも理解されるだろう。例えば、音楽に対応するオーディオアイテムは、ＡＡＡ符号化アプローチを用いて符号化され、音声に対応するオーディオアイテムは、ＣＥＬＰ符号化アプローチを用いて符号化されるなどである。符号化されたフォーマットで既に受け取られているオーディオアイテムについては、オーディオエンコーダ２０５による符号化は、異なる符号化フォーマットへのトランスコーディングであるか、又は、例えば、単純に、（例えば、量子化及び／又はクリッピングレベルを修正することによる）データレートの変換である。典型的には、符号化はビットレートの圧縮を含んでおり、符号化されたオーディオアイテムは、入力オーディオアイテムよりも少ないビットによって表される。

オーディオエンコーダユニット１０３は、さらに、符号化されたオーディオアイテムのための出力提示メタデータを生成するように構成されているメタデータ回路２０７を有する。提示メタデータ回路２０７は、この出力提示メタデータを、受け取られた入力提示メタデータから生成するように構成されている。実際には、多くのオーディオアイテムの場合に、出力提示メタデータは、入力提示メタデータと同一である。１つ又は複数のオーディオアイテムに対して、出力提示メタデータは、後でより詳細に説明するように、修正される。

オーディオエンコーダ２０５とメタデータ回路２０７とは、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するように構成されている出力回路２０９に、結合されている。出力回路２０９は、具体的には、符号化されたオーディオデータと出力メタデータとの両方を含む符号化されたオーディオデータストリームを生成するビットストリームパッカである。符号化されたオーディオデータストリームは、標準化されたフォーマットに従って生成されることにより、一連の受信機によって解釈されることが可能になる。

こうして、出力回路２０９は、ビットレートが縮小された／符号化されたオーディオアイテムと出力提示メタデータとを受け入れ、これらを例えば５Ｇネットワークなどの適切な通信チャネル上を運ばれることが可能なビットストリームに合成するビットストリームパッカとして、動作する。

図３は、オーディオエンコーダユニット１０３からの符号化されたオーディオデータストリームを受け取って処理するレンダリングデバイス１０９の要素の特定の例を図解している。レンダリングデバイス１０９は、オーディオエンコーダユニット１０３から符号化されたオーディオデータストリームを受け取り受け取られたデータストリームから異なるデータを分離して取り出すビットストリームアンパッカという形態の受信機１１１を有する。特に、受信機１１１は、符号化されたオーディオアイテムのための個々のオーディオデータを分離して取り出し、これらをデコーダ１１３に与える。

デコーダ１１３は、特に、チャネル、オブジェクト及びシーンベースのオーディオアイテムの典型的には符号化されていない表現を生成するために、受け取られた符号化されたオーディオアイテムを復号するように構成されている。

多くのオーディオアイテムについて、デコーダ１１３は、オーディオエンコーダ２０５によって実行された符号化を反転させる。他のオーディオアイテムについては、この復号は、例えば、」符号化動作を単に部分的に反転させるだけである。例えば、オーディオエンコーダ２０５がオーディオアイテムを単一の合成されたオーディオアイテムに合成した場合には、デコーダ１１３は、合成されたオーディオアイテムだけを復号し、個々のオーディオアイテムを完全に生成することはない。個々の実施形態の特定の好みと要件とに応じて、いずれかの適切な復号アルゴリズム及び技術が用いられるということが理解されるだろう。

復号されたオーディオアイテムは、上述したように例えばバイノーラル信号又はサラウンドサウンド信号としてオーディオアイテムをレンダリングすることによってオーディオシーンをレンダリングするように構成されているレンダラ１１５に、与えられる。

レンダリングデバイス１０９は、さらに、受信機１１１からの提示メタデータを与えられるメタデータコントローラ／回路３０１を有する。この例では、メタデータコントローラ３０１は、また、例えば個別的なユーザの好み又は用いられている再生システムの特性など、局所的な好み又は要件を反映する局所的な提示メタデータを受け取る。

よって、受け取られたビットストリームからアンパックされたオーディオ提示メタデータに加えて、レンダリングデバイス１０９は、また、例えば１つ又は複数の入力インターフェースを介して提供される局所的なオーディオ提示メタデータも、受け取る。
このデータは、下記のような、エンコーダ側では利用可能でないオーディオが提示されているコンテキストに関する情報を提供する。
－所望の提示（ラウドスピーカ）設定
－ユーザの好み（例えば、仮想会議における参加者のオーディオのオーディオレベル及び向きなど）
－例えば部屋の反響など、局所的な音響特性
これにより、レンダラが、どの環境効果と特性を下記のようなオーディオアイテムに適用すべきかを決定することが可能になる。
－（例えば、オーディオアイテムのための利得を選択するときに考慮すべき）局所的なオーディオ信号
－リスナの位置、及び
－リスナの頭部の向き

メタデータコントローラ３０１は、受け取られたメタデータと局所的なメタデータとを相互に合併し、提示メタデータの制約に従ってオーディオアイテムをレンダリングするように処理を進行させるレンダラ１１５に、それを提供する。

レンダラ１１５は、デコーダ１１３によって生成されたオーディオアイテムＣ”とＯ”とＳ”とを、所望の提示設定（例えば、バイノーラル又はサラウンドサウンド）の提示可能なオーディオに合成する。

レンダラ１１５は、特にメタデータコントローラ３０１から受け取られたメタデータと、受け取られた提示メタデータの制約によって制約されているすなわちエンコーダ側から制約されているレンダリングされたオーディオとに従って、オーディオ提示を生成する。これは、クライアント側におけるいくらかの柔軟性を依然として許容しながら、オーディオレンダリングと提示されたオーディオシーンに対する、ソース側／コンテンツプロバイダの制御を提供する。これは、例えば、コンテンツの著者がエンドユーザなどに対するある限定された制御を提供するように設計されている没入型アプリケーションの制御を保持するサービス又はアプリケーションを提供するのに用いられ得る。

より詳細には、メタデータコントローラ３０１は、例えばオーディオアイテムの抑制など、受け取られたメタデータを、したがって局所的なメタデータを処理する。メタデータコントローラ３０１は、例えば回転又は上昇の範囲など局所的なメタデータを、したがって受け取られたメタデータを制約する。

いくつかの実施形態では、レンダラ１１５は、レンダリングデバイス１０９とは異なるデバイス又は機能エンティティである。例えば、想定される３ＧＰＰ（登録商標）のＩＶＡＳコーデックなどの標準は、デコーダ１１３の動作を規定するが、レンダラ１１５がプロプライエタリでありより自由に適合可能であることを許容する。いくつかの実施形態では、メタデータコントローラ３０１は、異なるデバイス又は機能エンティティの一部である。

そのような実施形態では、したがて、外部レンダラが、復号されたＯ”、Ｃ”、Ｓ”と受け取られた提示メタデータとを処理し解釈することを要求される。外部レンダラによるレンダリング動作は、依然として、提示メタデータによって提供される制約に従わなければならない。

提示メタデータは、よって、クライアントにおけるレンダリング動作を制御するためにソース側／コンテンツプロバイダによって用いられるデータである。レンダリングは、提示メタデータに従って、適合される／制限されなければならない。

しかし、クライアント側のレンダラ１１５によるレンダリングを制御するのに用いられている提示メタデータに追加して、オーディオエンコーダユニット１０３のオーディオエンコーダ２０５もまた、入力提示メタデータに応答して符号化を適合させるように構成されている。入力提示メタデータは、オーディオエンコーダ２０５に与えられ、これが、１つ又は複数のオーディオアイテムの符号化を、（典型的には、その１つ又は複数のオーディオアイテムのための）提示メタデータに基づいて、修正する。オーディオエンコーダ２０５は、よって、オーディオアイテムと共に受け取られた提示メタデータに応答する、適合可能なエンコーダである。

オーディオエンコーダ２０５は、具体的には、オーディオアイテムの符号化を実行するように構成されている符号化回路２１１と、提示メタデータに基づいて符号化回路２１１による符号化を適合させるように構成されている符号化アダプタ２１３とを有する。

符号化アダプタ２１３は、与えられたオーディオアイテムのための符号化のパラメータを、そのオーディオアイテムのための提示メタデータに基づいて設定するように構成されている。例えば、それは、符号化のためのビットレートの配分／ターゲット、量子化レベル、マスキング閾値、周波数レンジなどを、例えば、提示メタデータによってそのオーディオアイテムに対して許容可能であるように示された利得範囲又は位置範囲に基づいて、設定するように構成されている。

多くの実施形態において、符号化回路２１１は、受け取られた入力オーディオアイテムと比較して縮小されたビット数を用いてオーディオアイテムを符号化するように構成されているビットレートコンプレッサである。この符号化は、したがって、ビットレート圧縮であり、それによって、生成される符号化されたオーディオデータストリームを分散させることが、より効率的でより容易になる。そのような実施形態では、符号化アダプタ２１３は、（適切な最適化基準／アルゴリズムに従って、レンダリングされたオーディオの品質を最適化するように）提示メタデータに基づいて、符号化回路２１１のビットレート縮小を適合させる。

符号化アダプタ２１３は、例えば、提示メタデータを解析して様々な入力オーディオアイテムのビットレート縮小をどのようにして最良に実行するのかに関する決定を下すコーディング解析プロセスを実行する。符号化アダプタ２１３によって実行される動作と適合との例は、下記を含む。
－ビットレート縮小のために順守すべき符号化回路２１１のための（最小の）マスキングレベルを告知することである。符号化アダプタ２１３は、どのオーディオアイテムがどのレベルでどの向きに、共に提示されるのかに関する情報を有する。これにより、符号化によってその時点で用いられているマスキングレベルを用いて、個々のオーディオアイテムのためのマスキングレベルを適合させることが可能になる。
－例えば、オーディオオブジェクトをチャネル又はシーンベースのオーディオに移動するなど、オーディオアイテムを変換することである。
－ダウンミキシングのためのオーディオアイテムを選択すること（関連するアップミックスパラメータを用いて）であるが、この場合、パラメータによるダウンミックスコーディングのアーチファクトが一緒に提示される様々なオーディオアイテムによって十分にマスキングされることを保証しながら、ダウンミックスは、デコーダ側での没入型オーディオを再構築するためにアップミックスされる。さらなる精緻化のため、符号化アダプタ２１３は、
－最大のパフォーマンス／最小のアーチファクトのために、ダウンミキシング／アップミキシングの利得を最適化することと、
－最適の時間／周波数特性を有するアップミキシングパラメータを選ぶこととが可能である。
－オーディオアイテムを、レンダラ１１５によって単一のオーディオアイテムとしてレンダリングされる合成されたオーディオアイテムに、不可逆的に合成することである。これは、すべてのオーディオ情報がレンダリング側において個別に利用可能とする内在的な必要性は存在しないことを、利用している。例えば、いくつかの入力オーディオアイテムの別々の適合が許容されない（例えば、それらが、同じ位置でレンダリングされることが要求されている）場合には、オーディオアイテムが個別的に利用可能であることは必要ない。例えば、類似の向き及び利得適合制約を有する複数の入力オーディオオブジェクトは、１つのシーンベースのオーディオアイテムに合成可能であり、その場合、レンダリングの間、そのシーンのために、利得と向きとを全体として適合させることが依然として可能であるが、以前のオブジェクトが、シーンにおける相対的なオーディオレベルと相対的な位置とを修正している。
－オーディオアイテムのための提示メタデータに応じて、異なるビットレート予算を、異なるオーディオアイテムに配分することである。例えば、それぞれが表しているマスキングされていない情報の量に基づいて、ビットレートがオーディオアイテムに配分される。

符号化回路２１１は、次に、符号化アダプタ２１３によって生成されたコーディング制御データに従い、オーディオアイテムのコーディングを用いる。例えば、符号化回路２１１が、いくつかのチャネル、オブジェクト及びシーンベースのオーディオアイテムの、ビットレートの低下バージョン（例えば、量子化、パラメトライズされたものなど）を生成する。さらに、例えば、異なる複数のオーディオアイテムの符号化の一部としての合成又は変換に起因して、符号化されたオーディオアイテムの少なくともいくつかは、入力オーディオアイテムとは異なるオーディオ情報を表す場合があり、すなわち、入力オーディオアイテムと符号化されたオーディオアイテムとの間に直接的な対応が存在しない場合があり得る。

いくつかの実施形態では、オーディオエンコーダ２０５は、特に、複数の入力オーディオアイテムを１つ又は複数の合成されたオーディオアイテムに合成するように構成されたコンバイナ２１５を有する。コンバイナ２１５は、特に、第１及び第２の入力オーディオアイテムを、単一の合成されたオーディオアイテムに合成する。合成されたオーディオアイテムは、次に、合成され符号化されたオーディオアイテムを生成するように符号化され、この合成され符号化されたオーディオアイテムは、符号化されたオーディオデータストリームに含められ、典型的には、第１及び第２のオーディオアイテムを置き換える。こうして、第１及び第２のオーディオアイテムを個別的に符号化するよりも、コンバイナ２１５が、それらを単一の合成されたオーディオアイテムに合成し、次に、この合成されたオーディオアイテムは、符号化されたオーディオデータストリームに含められるが、他方では、第１及び第２のオーディオアイテムそれぞれに対しては、個別的な符号化されたオーディオアイテムが含まれることはない。

オーディオアイテムの合成は、受け取られた提示メタデータに応答して、実行される。多くの実施形態において、合成のために選択されるオーディオアイテムは、提示メタデータに基づいて、選択される。例えば、符号化アダプタ２１３は、オーディオアイテムに対する制約が類似性基準を満たすという要件を含む基準に応答して、合成のためのオーディオアイテムを選択する。

例えば、合成されるオーディオアイテムに対しては、提示メタデータによって示されたオーディオアイテムに対する制約が矛盾するものであってはならないということが要求されるのであって、すなわち、両方の制約を満たすことが可能でなければならない。よって、提示メタデータによって示される制約が矛盾していないということ、例えば、合成される両方の（又は、全部の）オーディオアイテムに対するレンダリング制約が満たされることを可能にする少なくとも１つのレンダリングパラメータが存在するように、制約が少なくとも重複を有することが要求され得る。符号化アダプタ２１３は、共通のレンダリングパラメータに対する両立し得ない制約を提示メタデータが記述しないということを、要求する。

例えば、提示メタデータは、オーディオシーンにおけるオーディオアイテムの位置に対する複数の制約を記述する場合がある。そのような場合には、これらの位置制約が重複していること、そして、いくつかの共通の許容される位置が存在することが、要求される。

合成するオーディオアイテムの選択は、それらのオーディオアイテムに対する提示メタデータに基づく。よって、合成するための第１及び第２のオーディオアイテムの選択は、それらの第１及び第２のオーディオアイテムに対する提示メタデータに基づく。例えば、上述したように、第１及び第２のオーディオアイテムに対する提示メタデータが対立する制約を定義していないことが要求される。

いくつかの実施形態では、第１及び第２のオーディオアイテムが、例えば、同じパラメータに対する制約であって例えば最も類似する制約を有するオーディオアイテムとして選択される。例えば、実質的に同じ位置制約を有するオーディオアイテムが、選択される。

具体的には、２つのオーディオアイテムに対する類似性尺度（similarity measure）が、許容可能な位置の間の重複を反映するように、決定される。例えば、類似性尺度は、２つのオーディオアイテムに対して、重複する許容可能な位置の領域のボリュームと個々の許容可能な位置のボリュームの和との比率として、生成される。

他の例としては、位置適合制約に対する類似性基準を満たす複数のオーディオオブジェクトは、それぞれの位置レンジ又は空間ボリュームが重複しない場合でさえ、シーンベースのオーディオアイテムに合成することが可能であり、オーディオソースは、そのシーンベースのオーディオアイテムにおいて、相互に対する固定された相対的な向きを、その上から有することになる（すなわち、別々に適合可能ではない）が、それらの向きは、依然として、全体として適合させることは可能である。

他の例として、類似性尺度は、２つのオーディオアイテムに対する重複する利得レンジのサイズを反映するように生成される。共通の許容可能な利得レンジが大きければ大きいほど、類似性は高くなる。

符号化アダプタ２１３は、オーディオアイテムの異なるペアに対するそのような類似性尺度を評価して、例えば、与えられた閾値よりも類似性尺度が高いペアを選択することができる。これらのオーディオアイテムは、次に、単一の合成されたオーディオアイテムに合成される。

多くの実施形態において、符号化アダプタ２１３は、さらに、合成されたオーディオアイテムのための合成された提示メタデータを入力提示メタデータから生成するように構成されている。この提示メタデータは、次に、ビットストリームパッカ２０９に与えられ、ビットストリームパッカ２０９は、それを、出力される符号化されたオーディオデータストリームに含める。

メタデータ回路２０７は、特に、合成された提示メタデータを生成するが、この合成された提示メタデータは、合成されたオーディオアイテムにリンクされており、合成された提示メタデータに対するレンダリング制約を提供する。生成された合成されたオーディオアイテムは、関連する合成された提示メタデータを伴うのであるが、次に、任意の他のオーディオアイテムとして処理されるが、実際には、クライアント／デコーダ／レンダラは、合成されたオーディオアイテムが実はオーディオエンコーダ２０５による入力オーディオアイテムの合成によって生成されることに気が付いてさえいない。むしろ、合成されたオーディオアイテム及び関連する提示メタデータは、クライアント側に対しては、入力オーディオアイテム及び関連する提示メタデータと区別不可能であり、任意の他のオーディオアイテムとしてレンダリングされる。

多くの実施形態において、合成された提示メタデータは、例えば、合成されたオーディオアイテムのための提示パラメータに対する制約を反映するように、生成される。この制約は、これらのオーディオアイテムに対する入力提示メタデータにより示されるように、合成されつつあるオーディオアイテムに対する個々の制約を満たすように、決定される。具体的には、第１及び第２のオーディオアイテムに対する合成されたオーディオアイテムへの制約は、第１のオーディオアイテムのための入力提示メタデータによって示される第１のオーディオアイテムに対する制約と、第２のオーディオアイテムのための入力提示メタデータによって示される第２のオーディオアイテムに対する制約との両方を満たす制約として、決定される。よって、合成された提示メタデータは、合成された制約が満たされるならば個々のオーディオアイテムに対する個々の制約が満たされることを保証する１つ又は複数の制約を提供するように、生成される。

例えば、第１のオーディオアイテムがオーディオオブジェクトである場合は、入力提示メタデータは、それが、例えば－６ｄＢから０ｄＢというレンジの相対的利得で、例えば（［０，１００］，［－４０，６０］，［０．５，１．５］）という（方位角，仰角，半径）の座標体積内部の位置において、レンダリングされなければならないことを示す。第２のオーディオアイテムがオーディオオブジェクトである場合は、入力提示メタデータは、それが、例えば－３ｄＢから３ｄＢというレンジの相対的利得で、例えば（［－１００，８０］，［－２０，７０］，［０．２，１．０］）という（方位角，仰角，半径）の座標体積内部の位置において、レンダリングされなければならないことを示す。この場合に、合成された提示メタデータは、オーディオオブジェクトである合成されたオーディオアイテムが例えば－３ｄＢから０ｄＢというレンジの相対的利得で、例えば（［０，８０］，［－２０，６０］，［－０．５，１．０］）という（方位角，仰角，半径）の座標体積内部の位置において、レンダリングされなければならないことを示すように、生成される。これにより、合成されたオーディオアイテムが、第１のオーディオアイテムと第２のオーディオアイテムとの両方に対して受け入れ可能であるようにレンダリングされることが確実になる。

いくつかの実施形態では、オーディオエンコーダ２０５は、あるオーディオアイテムの圧縮を、それとは別のオーディオアイテムに対する提示メタデータに基づいて、適合させるように構成されている。

複雑性の低い例として、あるオーディオアイテムの圧縮が、それとは別のオーディオアイテムに対する近接性及び利得／レベルに依存することがあり得る。例えば、現在のオーディオアイテムに対する提示メタデータが位置レンジ及びレベルレンジを示す場合には、これは、第２のオーディオアイテムに対する位置レンジ及びレベルレンジと比較される。第２のオーディオアイテムが第１のオーディオアイテムに近接して位置決めされるように制約され、第１のオーディオアイテムよりも大幅に高いレベルでレンダリングされるように制約されている場合には、第１のオーディオアイテムは、リスナによって、ほんの僅かにだけしか知覚されない可能性がある。したがって、第１のオーディオアイテムの符号化は、他のオーディオアイテムが存在しない場合よりも、より高い圧縮／ビットレートの低下を伴うことになる。具体的には、第１のオーディオアイテムの符号化のためのビットレートの配分は、１つ又は複数の他のオーディオアイテムへの距離とそのレベルとに左右される。

いくつかの実施形態では、符号化アダプタ２１３は、第２のオーディオアイテムから第１のオーディオアイテムへのマスキング効果を推定するように構成されている。マスキング効果は、第２のオーディオアイテムのレンダリングから第１のオーディオアイテムにもたらされるマスキングの程度を示すマスキング尺度によって、表される。マスキング尺度は、よって、第２のオーディオアイテムが存在する場合における第１のオーディオアイテムの知覚的重要性を示す。

マスキング尺度は、具体的には、提示メタデータによって示される制約に従って第２のオーディオアイテムがレンダリングされるときに、第１のオーディオアイテムから受け取られた音声レベルに対する第２のオーディオアイテムから受け取られた音声レベルを示すものとして、生成される。

例えば、その最高利得における第２のオーディオアイテムに対するその最低利得における第１のオーディオアイテムのマスキング効果は、第２のオーディオアイテムのマスキングレベルを推定するために取得され、逆もまた同様である。

他の例として、第１のオーディオアイテムと第２のオーディオアイテムとの間の最も離れた（又は、例えば、平均の）距離が決定され、それらの間での減衰が推定される。すると、減衰に対する補償の後での相対的なレベル差に基づいて、マスキング効果が推定され得る。

他の例として、システムが公称の聴取位置を用いる場合には、第１及び第２それぞれのオーディオアイテムからの聴取位置における信号レベルは、相対的な利得レベル又は信号レベルと、サウンドソースの位置からの減衰の差異とに基づいて、決定される。オーディオアイテムの位置は、例えばマスキング効果が最小化されるように、許容可能な位置から選択される（第１のオーディオアイテムに対する最も近接した許容可能な位置、第２のオーディオアイテムに対する最も離れた位置）。

このように、符号化アダプタ２１３は、第２のオーディオアイテムから第１のオーディオアイテムへのマスキング効果を、第２のオーディオアイテムに対する入力提示メタデータによって示される第２のオーディオアイテムに対する利得／レベル制約と位置制約とに基づいて、そして多くの場合に、第１のオーディオアイテムに対する入力提示メタデータによって示される第１のオーディオアイテムに対する利得／レベル制約と位置制約とにも基づいて、推定する。

いくつかの実施形態では、符号化アダプタ２１３は、第２のオーディオアイテムに対する提示メタデータに基づいて、第１のオーディオアイテムのためのマスキング閾値を直接に決定し、符号化回路２１１は、それに続き、決定されたマスキング閾値を用いて、第１のオーディオアイテムを符号化する。

いくつかの実施形態では、オーディオエンコーダ２０５による符号化の適合は、それ以外の機能がそれに従って適合されることのない、内部プロセスである。例えば、複数のオーディオアイテムから単一の合成されたオーディオアイテムへの不可逆的な合成は、合成されたオーディオアイテムが符号化されたオーディオデータストリームに含まれることがなく、合成されたオーディオアイテムがどのようにして作成されるのかに関する指示もなく、すなわち、合成されたオーディオアイテムのいずれか特定の処理を実行するレンダリングデバイスなしで、実行される。

しかし、多くの実施形態では、オーディオエンコーダ２０５は、符号化が入力提示メタデータに応答してどのように適合されるのかを示す符号化適合データを生成する。次に、この符号化適合データは、符号化されたオーディオデータストリームに含められる。したがって、このアプローチでは、レンダリングデバイス１０９は、符号化の適合に関する情報を有しており、それに従って復号及び／又はレンダリングを適合させるように構成される。

例えば、オーディオエンコーダ２０５は、音響環境データの中のどのオーディオアイテムが実際に合成されたオーディオアイテムであるのかを示すデータを生成する。それが、さらに、合成のいくつかのパラメータを示し、これらが実際に、多くの実施形態において、レンダリングデバイス１０９が、合成された元のオーディオアイテムの表現を生成することを可能にする。実際に、いくつかの実施形態では、合成されたオーディオアイテムが、入力オーディオアイテムのダウンミックスとして生成され、オーディオエンコーダ２０５が、パラメータによるアップミックスデータを生成して、これを符号化されたオーディオデータストリームに含めることにより、レンダリングデバイスが合理的なアップミキシングを実行することを可能にする。

他の例として、復号は、それ自体、適合されることはないが、リスナ／エンドユーザとの対話に、その情報が用いられる。例えば、それらの適合制約が近接していると考えられる複数のオーディオオブジェクトは、エンコーダによって、単一のシーンベースのオーディオアイテムに合成され得るが、他方では、「仮想オブジェクト」としてのそれらの存在が、符号化適合データの中でデコーダに告知される。次に、ユーザが、この情報を与えられることになり、仮想オブジェクトのキャリヤとしてシーンベースのオーディオアイテムについて告知されている／知っているというよりもむしろ、「仮想サウンドソース」を（それらはシーンベースのオーディオアイテムとして合成されているために、全体としてだけであるが）手動で制御するようにとのオファーを受ける。

いくつかの実施形態では、提示メタデータは、１つ又は複数のオーディオアイテムのための優先順位データを有しており、オーディオエンコーダ２０５は、第１のオーディオアイテムに対する優先順位の指示に応答して、第１のオーディオアイテムのための圧縮を適合させるように構成されている。

優先順位の指示は、オーディオシーンにおけるオーディオアイテムの知覚的意義又は重要性を示すレンダリングの優先順位の指示である。例えば、それは、メインスピーカを表すオーディオアイテムが、例えば、背景における鳥の鳴き声を表すオーディオアイテムよりも、さらに意義深いことを示すのに用いられる。

レンダラ１１５は、優先順位の指示に基づいて、レンダリングを適合させる。例えば、聴力が劣るリスナのために、レンダラ１１５は、優先順位が低い背景雑音に対して優先順位が高い主たる会話のための利得を上昇させることにより、発話を、より理解可能にできる。

さらに、オーディオエンコーダ２０５は、優先順位を下げるために、圧縮を増大させることができる。例えば、オーディオアイテムを合成するために、優先順位のレベルを与えられたレベルよりも低くしなければならないことが要求される場合があり得る。他の例としては、オーディオエンコーダ２０５が、優先順位のレベルが与えられたレベルよりも低いすべてのオーディオアイテムを合成する場合もある。

いくつかの実施形態では、各オーディオアイテムに対するビット配分が、優先順位のレベルに依存する。例えば、異なるオーディオアイテムへのビット配分が、優先順位を含む複数のパラメータを考慮するアルゴリズム又は公式に基づく場合があり得る。与えられたオーディオアイテムに対するビット配分が、優先順位の上昇に伴い単調増加することもあり得る。

上述の説明では、明瞭であるために、異なる機能回路、ユニット及びプロセッサに言及して、本発明の実施形態について説明してきたということが理解されるだろう。しかし、異なる機能回路、ユニット又はプロセッサの間における機能のいずれかの適切な分散が、本発明を損なうことなく用いられることが、明らかであろう。例えば、別々のプロセッサ又はコントローラによって実行されるものとして例示された機能が、同一のプロセッサ又はコントローラによって実行される場合もある。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的若しくは物理的な構造又は編成を示すのではなく、単に、説明された機能を提供するための適切な手段への言及として、見なされるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含むいずれかの適切な形態で、実装される。本発明は、オプションとして、少なくとも部分的には、１つ若しくは複数のデータプロセッサ及び／又はデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして、実装される。本発明の一実施形態の要素とコンポーネントとは、物理的、機能的及び論理的に、いずれかの適切な様態として、実装される。実際に、機能は、単一のユニットとして、複数のユニットとして又は他の機能ユニットの一部として、実装される。したがって、本発明は、単一のユニットで実装される場合があるし、又は、異なるユニット、回路及びプロセッサの間で、物理的及び機能的に分散される場合もある。

一般に、オーディオ符号化装置、オーディオを符号化する方法、及びその方法を実装するコンピュータプログラム製品の例が、下記の実施形態によって示される。

１．オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機（２０１）と、
複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機（２０３）であって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約を記述する、メタデータ受信機と、
入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するためのオーディオエンコーダ（２０５）と、
入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路（２０７）と、
符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路（２０９）と、
を有する、オーディオ符号化装置。

２．オーディオエンコーダ（２０５）が、複数のオーディオアイテムの中の少なくとも第１のオーディオアイテムと第２のオーディオアイテムとを、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナ（２１５）を有しており、オーディオエンコーダ（２０５）が、合成されたオーディオ符号化データを、合成されたオーディオアイテムを符号化することにより、第１及び第２のオーディオアイテムのために生成し、合成されたオーディオ符号化データを符号化されたオーディオデータに含ませるように構成されている、上記１に記載のオーディオ符号化装置。

３．コンバイナ（２１５）が、第１のオーディオアイテムと第２のオーディオアイテムとのための入力提示メタデータに応答して、複数のオーディオアイテムから第１のオーディオアイテムと第２のオーディオアイテムとを選択するように構成されている、上記２に記載のオーディオ符号化装置。

４．コンバイナ（２１５）が、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、第１のオーディオアイテムと第２のオーディオアイテムとを選択するように構成されている、上記２又は３に記載のオーディオ符号化装置。

５．第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとが、利得制約と位置制約との少なくとも一方を有する、上記２から４のいずれかに記載のオーディオ符号化装置。

６．オーディオエンコーダ（２０５）が、さらに、第１のオーディオアイテムのための入力提示メタデータと第２のオーディオアイテムのための入力提示メタデータとに応答して、合成された提示メタデータを合成されたオーディオアイテムのために生成し、合成された提示メタデータを出力提示メタデータに含めるように構成されている、上記２から５のいずれかに記載のオーディオ復号化装置。

７．オーディオエンコーダ（２０５）が、合成されたオーディオアイテムのための提示パラメータに対する制約であって、第１のオーディオアイテムのための入力提示メタデータによって示された第１のオーディオアイテムに対する制約と第２のオーディオアイテムのための入力提示メタデータによって示された第２のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成するように構成されている、上記６に記載のオーディオ符号化装置。

８．オーディオエンコーダ（２０５）が、第２のオーディオアイテムのための入力提示メタデータに応答して、第１のオーディオアイテムの圧縮を適合させるように構成されている、上記１から７のいずれかに記載のオーディオ符号化装置。

９．オーディオエンコーダ（２０５）が、第２のオーディオアイテムのための入力提示メタデータに応答して第２のオーディオアイテムから第１のオーディオアイテムへのマスキング効果を推定し、マスキング効果に応答して第１のオーディオアイテムの圧縮を適合させるように構成されている、上記８に記載のオーディオ符号化装置。

１０．オーディオエンコーダ（２０５）が、第２のオーディオアイテムのための入力提示メタデータによって示される第２のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、第２のオーディオアイテムから第１のオーディオアイテムへのマスキング効果を推定するように構成されている、上記９に記載のオーディオ符号化装置。

１１．オーディオエンコーダ（２０５）が、さらに、第１のオーディオアイテムのための入力提示メタデータに応答して、第１のオーディオアイテムの圧縮を適合させるように構成されている、上記８から１０のいずれかに記載のオーディオ符号化装置。

１２．入力提示メタデータが、少なくともいくつかのオーディオアイテムのための優先順位データを有しており、オーディオエンコーダが、入力提示メタデータにおける第１のオーディオアイテムのための優先順位の指示に応答して、第１のオーディオアイテムのための圧縮を適合させるように構成されている、上記１から１１のいずれかに記載のオーディオ符号化装置。

１３．オーディオエンコーダ（２０５）が、入力提示メタデータに応答して符号化がどのように適合されるかを示す符号化適合データを生成し、符号化適合データを符号化されたオーディオデータのストリームに含めるように構成されている、上記１から１２のいずれかに記載のオーディオ符号化装置。

１４．オーディオシーンを表す複数のオーディオアイテムを受け取るステップと、
複数のオーディオアイテムのための入力提示メタデータを受け取るステップであって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約を記述する、受け取るステップと、
入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するステップと、
入力提示メタデータから出力提示メタデータを生成するステップと、
符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するステップと、
を有するオーディオを符号化する方法。

１５．コンピュータプログラムコード手段を有するコンピュータプログラム製品であって、コンピュータプログラムコード手段が、プログラムがコンピュータ上で動作させられるときに上記１４に記載の方法のすべてのステップを実行するように適合されている、コンピュータプログラム製品。

より具体的には、本発明は、添付の特許請求の範囲によって定義される。

以上では、いくつかの実施形態との関係で本発明が説明されてきたが、本発明が本明細書に記載されている特定の形態に限定されることは、意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ、限定される。さらに、ある特徴が特定の実施形態との関係で説明されているように見えるかもしれないが、当業者であれば、説明された実施形態の様々な特徴は本発明に従って組み合わされる、ということを認識するであろう。特許請求の範囲では、「有する」という用語が、他の要素又はステップの存在を排除することはない。

さらに、個別に列挙されているとしても、複数の手段、要素、回路又は方法のステップが、例えば単一の回路、ユニット又はプロセッサによって実装される場合もある。その上に、個別の特徴が異なる請求項に含まれていることもあるが、それらは、場合によっては、有利に組み合わされるのであって、異なる請求項に含まれていても、そのことが、特徴の組合せは実現可能ではない及び/又は有利ではない、ということを意味しない。また、ある特徴を１つのカテゴリの請求項に含めることは、そのカテゴリへの限定を意味せず、むしろ、その特徴が必要に応じて他の請求項カテゴリにも等しく適用可能であることを示している。さらに、請求項における特徴の順序は、それらの特徴が機能しなければならないどのような特定の順序も意味しておらず、特に、方法の請求項における個々のステップの順序は、それらのステップがこの順序で実行されなければならないことを意味しない。むしろ、それらのステップは、いずれかの適切な順序で実行される。その上で、単数への言及が、複数を除外することはない。したがって、単数形の表現、「第１の」、「第２の」などへの言及が、複数を排除することはない。請求項における参照符号は、単に明確化のための例として提供されているにすぎず、いかなる様態でも請求項の範囲を限定するものとして解釈されてはならない。

Claims

オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機と、
前記複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機であって、前記入力提示メタデータが、前記複数のオーディオアイテムのレンダリングに対する提示制約であって、前記複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、メタデータ受信機と、
前記入力提示メタデータに応答して前記複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータを前記オーディオシーンのために生成するためのオーディオエンコーダと、
前記入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路であって、前記出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、前記符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、メタデータ回路と、
前記符号化されたオーディオデータと前記出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路と、
を有する、オーディオ符号化装置。
前記オーディオエンコーダが、前記複数のオーディオアイテムの中の少なくとも第１のオーディオアイテムと第２のオーディオアイテムとを、前記第１のオーディオアイテムのための入力提示メタデータと前記第２のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナを有しており、前記オーディオエンコーダが、合成されたオーディオ符号化データを、前記合成されたオーディオアイテムを符号化することにより、前記第１及び第２のオーディオアイテムのために生成して、前記合成されたオーディオ符号化データを前記符号化されたオーディオデータに含ませる、請求項１に記載のオーディオ符号化装置。
前記コンバイナが、前記第１のオーディオアイテムと前記第２のオーディオアイテムとのための前記入力提示メタデータに応答して、前記複数のオーディオアイテムから前記第１のオーディオアイテムと前記第２のオーディオアイテムとを選択する、請求項２に記載のオーディオ符号化装置。
前記コンバイナが、前記第１のオーディオアイテムのための入力提示メタデータと前記第２のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、前記第１のオーディオアイテムと前記第２のオーディオアイテムとを選択する、請求項２又は３に記載のオーディオ符号化装置。
前記第１のオーディオアイテムのための前記入力提示メタデータと前記第２のオーディオアイテムのための前記入力提示メタデータとが、利得制約と位置制約との少なくとも一方を有する、請求項２から４のいずれか一項に記載のオーディオ符号化装置。
前記オーディオエンコーダが、さらに、前記第１のオーディオアイテムのための前記入力提示メタデータと前記第２のオーディオアイテムのための前記入力提示メタデータとに応答して、合成された提示メタデータを前記合成されたオーディオアイテムのために生成し、前記合成された提示メタデータを前記出力提示メタデータに含める、請求項２から５のいずれか一項に記載のオーディオ復号化装置。
前記オーディオエンコーダが、前記合成されたオーディオアイテムのための提示パラメータに対する制約であって、前記第１のオーディオアイテムのための入力提示メタデータによって示された前記第１のオーディオアイテムに対する制約と前記第２のオーディオアイテムのための入力提示メタデータによって示された前記第２のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成する、請求項６に記載のオーディオ符号化装置。
前記オーディオエンコーダが、第２のオーディオアイテムのための入力提示メタデータに応答して、第１のオーディオアイテムの圧縮を適合させる、請求項１から７のいずれか一項に記載のオーディオ符号化装置。
前記オーディオエンコーダが、前記第２のオーディオアイテムのための入力提示メタデータに応答して前記第２のオーディオアイテムから前記第１のオーディオアイテムへのマスキング効果を推定し、前記マスキング効果に応答して前記第１のオーディオアイテムの前記圧縮を適合させる、請求項８に記載のオーディオ符号化装置。
前記オーディオエンコーダが、前記第２のオーディオアイテムのための前記入力提示メタデータによって示される前記第２のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、前記第２のオーディオアイテムから前記第１のオーディオアイテムへの前記マスキング効果を推定する、請求項９に記載のオーディオ符号化装置。
前記オーディオエンコーダが、さらに、前記第１のオーディオアイテムのための入力提示メタデータに応答して、前記第１のオーディオアイテムの前記圧縮を適合させる、請求項８から１０のいずれか一項に記載のオーディオ符号化装置。
前記入力提示メタデータが、少なくともいくつかのオーディオアイテムのための優先順位データを有しており、前記オーディオエンコーダが、前記入力提示メタデータにおける前記第１のオーディオアイテムのための優先順位の指示に応答して、第１のオーディオアイテムのための圧縮を適合させる、請求項１から１１のいずれか一項に記載のオーディオ符号化装置。
前記オーディオエンコーダが、前記入力提示メタデータに応答して前記符号化がどのように適合されるかを示す符号化適合データを生成し、前記符号化適合データを前記符号化されたオーディオデータのストリームに含める、請求項１から１２のいずれか一項に記載のオーディオ符号化装置。
オーディオシーンを表す複数のオーディオアイテムを受け取るステップと、
前記複数のオーディオアイテムのための入力提示メタデータを受け取るステップであって、前記入力提示メタデータが、前記複数のオーディオアイテムのレンダリングに対する提示制約であって、前記複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、受け取るステップと、
前記入力提示メタデータに応答して前記複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータを前記オーディオシーンのために生成するステップと、
前記入力提示メタデータから出力提示メタデータを生成するステップであって、前記出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、前記符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、生成するステップと、
前記符号化されたオーディオデータと前記出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するステップと、
を有する、オーディオを符号化する方法。
コンピュータプログラムコード手段を有するコンピュータプログラムであって、前記コンピュータプログラムコード手段が、前記プログラムがコンピュータ上で動作させられるときに請求項１４に記載の方法のすべての前記ステップを実行するように適合されている、コンピュータプログラム。