JP2022521694A

JP2022521694A - オーディオオブジェクトクラスタリングのための適応型音量正規化

Info

Publication number: JP2022521694A
Application number: JP2021547121A
Authority: JP
Inventors: チェン，リエンウー; ルゥ，リエ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-02-13
Filing date: 2020-02-12
Publication date: 2022-04-12
Also published as: CN113366865B; WO2020167966A1; US11930347B2; EP3925236A1; US20220159395A1; CN113366865A

Abstract

複数のオーディオ要素を含むオーディオコンテンツを処理する方法であって、前記方法は、前記複数のオーディオ要素をオーディオ要素の複数のクラスタにクラスタリングするステップと、前記複数のクラスタの中のクラスタについて、前記クラスタの中のオーディオ要素毎に、前記オーディオ要素が前記クラスタに貢献するエネルギ指標を決定するステップと、前記クラスタの中の少なくとも１つのオーディオ要素について、前記クラスタの中の前記オーディオ要素の前記エネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップと、前記クラスタの中の前記少なくとも１つのオーディオ要素に前記補償利得を適用するステップと、を含む方法。

Description

［関連出願］
本願は、米国仮出願番号第６２/８１４,７１８号、２０１９年３月６日出願、及び欧州特許出願番号第１９１６１８８９.１号、２０１９年３月１１日出願、及びPCT/CN２０１９/０７４９１５、２０１９年２月１３日出願の優先権の利益を主張する。これらの出願は、参照によりそれらの全体がここに組み込まれる。
［技術分野］
本開示は、複数のオーディオ要素を含むオーディオコンテンツを処理する方法及び機器に関し、特に、そのようなオーディオコンテンツの適応型音量正規化に関する。

新しい消費者Dolby（登録商標）Atmos（登録商標）シネマシステムは、オーディオベッド（チャネル）及びオーディオオブジェクトを含む新しいオーディオフォーマットを導入している。オーディオベッド（Audio bed）は、所定の固定されたスピーカ位置において再生されることを意味するオーディオチャネルを表す。一方で、オーディオオブジェクト（audio object）は、定められた時間期間の間に存在し、各オブジェクトの位置、速度、及びサイズを記述する空間情報も（例えば、メタデータの部分として）有してよい、個別オーディオ要素を表す。送信中に、ベッド及びオブジェクトは、別個に送信され、知られている物理的位置にある可変数のスピーカを用いて芸術的意図を再生成する空間再生システムにより使用されることができる。幾つかのサウンドトラックでは、最大で７、９、又は１１個のベッドチャネルが存在し得る。更に、オーサリングシステムの能力に基づき、空間的多様性及び没入型オーディオ経験を生成するためにレンダリング中に結合される数十又は数百もの個別オーディオオブジェクトが存在し得る。

このようなオブジェクトに基づくコンテンツの中に存在する膨大な数のオーディオ信号は、このようなコンテンツのコーディング及び分配にとって新たな課題を提示する。幾つかの分配及び送信システムでは、僅かな又は全くオーディオ圧縮を伴わずに、全部のオーディオベッド及びオブジェクトを送信するために十分な利用可能帯域幅がある場合がある。しかしながら、Blu－ray（登録商標）ディスク、ブロードキャスト（ケーブル、衛星、及び地上波）、モバイル（３Ｇ及び４Ｇ）、及びオーバザトップ（over the top (OTT)、又はインターネット）分配のような幾つかの場合には、全部のベッド及びオブジェクトをデジタル方式で送信するための利用可能帯域幅に有意な制限がある場合がある。オーディオコーディング方法（損失又は無損失）が所要の帯域幅を低減するためにオーディオに適用され得るが、オーディオコーディングは、特にモバイル３Ｇ及び４Ｇネットワークのような非常に限られたネットワークを介してオーディオを送信するために必要な帯域幅を削減するのに十分ではないことがある。

この問題を解決するために、入力オブジェクト及びベッドの数は、クラスタリングにより、より少数の出力オブジェクト／ベッドセットに削減できる。一般に、オーディオクラスタリング処理は、２つの主な段階：（１）クラスタ位置を決定するステップと、（２）オブジェクトを出力クラスタにレンダリングする利得を決定するステップと、を含み、空間マスクの仮定に基づき、全体の空間的歪みを最小化すること、又は全体の空間的知覚を保存することを目的としている。

クラスタリングは、通常、オブジェクト／ベッドが相当数のクラスタ（例えば、１１）にクラスタリングされるとき、良好に動作し得る。しかしながら、これは、「カスケードオーディオオブジェクトクラスタリング」の使用例には通常当てはまらない。この使用例は、図１に概略的に示される。オブジェクトの基づくオーディオコンテンツ１１０（例えば、Atmosプリントマスタ）は、第１クラスタリング段階１２０で、第１の数（例えば、１１）の（中間又は初期）クラスタにクラスタリングされる。次に、取得されたクラスタは、第２クラスタリング段階１３０で、より少数の（最終又は出力）クラスタ（例えば、５）に更にクラスタリングされる。この使用例では、処理段階１４０で最終クラスタ（例えば、５）が所与のスピーカレイアウト（例えば、５．１．２）にレンダリングされるとき、初期クラスタ（例えば、１１）を同じスピーカレイアウトに直接レンダリングするのに比べて、音量ブーストが見られる。この音量ブーストは、明らかに望ましくない。

同様の（あまり目立たない）音量ブーストは、オブジェクト／ベッドがクラスタ数（例えば、５）に直接クラスタリングされ、次にスピーカレイアウトにレンダリングされる使用例で生じ得る。この使用例は、図２に概略的に示される。オブジェクトに基づくオーディオコンテンツ２１０は、クラスタリング段階２２０でクラスタ数（例えば、５）にクラスタリングされ、次に処理段階２３０でスピーカレイアウトにレンダリングされる。

従って、複数のオーディオ要素を含むオーディオコンテンツの改良された処理が必要である。オーディオコンテンツのクラスタ化バージョンをスピーカレイアウトにレンダリングするときに音量ブーストを回避する、複数のオーディオ要素を含むオーディオコンテンツの改良された処理が特に必要である。一般に、このようなオーディオコンテンツの音量の改良された制御の必要がある。

本発明は、それぞれ独立請求項の特徴を有する、複数のオーディオ要素を含むオーディオコンテンツを処理する方法、及び対応する機器を提供する。

本開示の態様は、複数のオーディオ要素を含むオーディオコンテンツを処理する方法に関する。オーディオ要素は、ローカライズされたオーディオ要素であってよく、例えば、オーディオオブジェクト、オーディオベッド（ベッドチャネル）、及び／又はオーディオオブジェクトの（中間）クラスタを含んでよい。方法は、複数のオーディオ要素を、オーディオ要素の複数のクラスタ（例えば、最終クラスタ又は出力クラスタ）にクラスタリングするステップを含んでよい。クラスタの各々は、空間的に近いオーディオ要素を含んでよい。クラスタの数は、オーディオ要素の数より少なくてよい。処理は、各クラスタに適用されてよい。従って、方法は、複数のクラスタの中のクラスタについて、
該クラスタ内のオーディオ要素毎に、該オーディオ要素が該クラスタに貢献するエネルギ指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、
該クラスタ内の少なくとも１つのオーディオ要素について、該クラスタ内の該オーディオ要素のエネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタ内の少なくとも１つのオーディオ要素に補償利得を適用するステップを更に含んでよい。少なくとも１つのオーディオ要素に補償利得を適用するステップは、クラスタの部分としてスピーカのセット（レイアウト）にレンダリングされるときの少なくとも１つのオーディオオブジェクトと、スピーカのセットに直接レンダリングされるときの少なくとも１つのオーディオオブジェクトとの間の音量の差を低減してよい。方法は、オーディオ要素の複数のクラスタをスピーカレイアウトにレンダリングするステップを更に含んでよい。

提案される方法において補償利得を決定するステップは、音量ブーストを大幅に軽減できる。つまり、クラスタを目標スピーカレイアウトにレンダリングすることに起因する、各々の知覚可能なオーディオオブジェクト又はベッドチャネルの音量は、オーディオオブジェクト又はベッドチャネルが目標スピーカレイアウトに直接レンダリングされた場合に生じ得るそれぞれの音量にかなり近くなり得る。

幾つかの実施形態では、オーディオ要素がクラスタcに貢献するエネルギの指標は、次式により与えられてよく：

ここで、E_oはオーディオ要素のエネルギであり、g_ocはオーディオ要素oについての要素－クラスタ利得である（例えば、該利得により、このオーディオ要素はクラスタにレンダリングされる）。

幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、
クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中のオーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得を決定するステップを更に含んでよい。

幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、クラスタの中のオーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第１エネルギ指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタのスペクトルに基づき、クラスタの第２エネルギ指標を決定するステップを更に含んでよい。第１エネルギ指標は、クラスタの合計エネルギ（合計要素エネルギ（例えば、合計オブジェクトエネルギ）又は期待エネルギ）と呼ばれてよい。第２エネルギ指標は、クラスタの実際のエネルギと呼ばれてよい。方法は、複数のクラスタの中のクラスタについて、クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、第１エネルギ指標及び第２エネルギ指標に基づき、クラスタの全体補償利得を決定するステップを更に含んでよい。

クラスタの中のオーディオ要素に全体補償利得を適用するステップは、クラスタの推定エネルギと実際のエネルギとの間の差を低減し、それにより、音量ブーストを軽減し、及び知覚音声品質を向上する。

幾つかの実施形態では、クラスタの第１エネルギ指標は、次式により与えられ：

及び／又は、第２エネルギ指標は次式により与えられ：

ここで、インデックスｏはクラスタの中のそれぞれのオーディオ要素を示し、

はクラスタのスペクトルであり、X_oはそれぞれのオーディオ要素のスペクトルであり、■^*は■の複素共役である。

幾つかの実施形態では、クラスタの全体補償利得は、第１エネルギ指標及び第２エネルギ指標の比の平方根として決定される。例えば、クラスタの全体補償利得は、次式により与えられる：

この利得を適用するステップは、以下の合計オーディオ要素利得（合計オーディオ要素－クラスタ利得）を生じ得る：

幾つかの実施形態では、方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素と複数のオーディオ要素のうちのいずれかとの間の相関指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、
所与のオーディオ要素の補償利得の少なくとも部分として、クラスタ内のオーディオ要素のエネルギ指標及び所与のオーディオ要素と複数のオーディオ要素の中のいずれかとの間の相関指標に少なくとも部分的に基づき、所与のオーディオ要素の個別補償利得を決定するステップを更に含んでよい。

幾つかの実施形態では、方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素と複数のオーディオ要素のうちのいずれかとの間の相関指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、オーディオ要素がクラスタに貢献するエネルギ指標の和として、所与のオーディオ要素の第３エネルギ指標を決定するステップを更に含んでよい。エネルギ指標の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。方法は複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素を除く複数のオーディオ要素の中のいずれかのオーディオ要素に渡る、所与のオーディオ要素がクラスタに貢献するエネルギ指標及び所与のオーディオ要素以外の複数のオーディオ要素の中のオーディオ要素がクラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、所与のオーディオ要素の第４エネルギ指標を決定するステップを更に含んでよい。幾何平均の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素の補償利得の少なくとも部分として、第３エネルギ指標及び第４エネルギ指標に基づき、所与のオーディオ要素の個別補償利得を決定するステップを更に含んでよい。

クラスタ内のオーディオ要素に個別補償利得を適用するステップは、それらの他のオーディオ要素との相関関係に応じて、オーディオ要素を減衰させる。全体的な考えは以下の通りである。オーディオ要素が他のオーディオ要素に高度に相関している場合、それは、より高い音量ブーストを導入し、従って、より小さな利得の適用がより適切になるだろう。オーディオ要素がより高度に相関しているほど、音量ブーストに強く貢献するので、これは、オーディオ要素の目標とされる減衰を可能にし、それにより、音量ブーストを軽減し、知覚音声品質を向上する。

幾つかの実施形態では、所与のオーディオ要素と複数のオーディオ要素のいずれかとの間の相関指標は次式により与えられてよく：

ここで、インデックスｏ及びｕは、所与のオーディオ要素及び複数のオーディオ要素のうちの１つを示し、X_oは所与のオーディオ要素のスペクトルであり、X_uは複数のオーディオ要素のうちの１つのスペクトルであり、E_oは所与のオーディオ要素のエネルギであり、E_uは複数のオーディオ要素のうちの１つのエネルギである。追加又は代替として、第３エネルギ指標は、次式により与えられてよい：

追加又は代替として、第４エネルギ指標は、次式により与えられてよい：

幾つかの実施形態では、個別補償利得g１_ocは、次式により与えられてよい：

つまり、所与のオーディオ要素の個別補償利得は、第３エネルギ指標の、所与のオーディオ要素の第３及び第４エネルギ指標の和に対する比として決定されてよい。

幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素毎のそれぞれの個別補償利得を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素にそれぞれの個別補償利得を適用して、個別補償オーディオ要素を取得するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、
クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中の個別補償オーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得を決定するステップを更に含んでよい。

幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素毎のそれぞれの個別補償利得を決定するステップを含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素にそれぞれの個別補償利得を適用して、個別補償オーディオ要素を取得するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタの中の個別補償オーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第５エネルギ指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタのスペクトルに基づき、クラスタの第６エネルギ指標を決定するステップを更に含んでよい。このように、第５エネルギ指標は第１エネルギ指標に対応してよく、第６エネルギ指標は第２エネルギ指標に対応してよく、差分は、ここで個別補償オーディオ要素が考慮される。方法は、複数のクラスタの中のクラスタについて、
クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、第５エネルギ指標及び第６エネルギ指標に基づき（例えば、それらの比の平方根として、第１及び第２エネルギ指標の場合と同じ方法で）、クラスタの全体補償利得を決定するステップを更に含んでよい。

個別補償利得が適用された後に、このような全体補償利得を決定することにより、音量ブーストは更に軽減され、知覚音声品質は更に向上される。

幾つかの実施形態では、方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力（例えば、出力信号）に貢献するそれぞれのエネルギ指標を決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルを決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するエネルギ指標及びスピーカの出力のスペクトルに少なくとも部分的に基づき、スピーカの全体補償利得を決定するステップを更に含んでよい。

幾つかの実施形態では、方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力（例えば、出力信号）に貢献するそれぞれのエネルギ指標を決定するステップを更に含んでよい。オーディオ要素は、元のオーディオ要素又は個別補償オーディオ要素であってよい。方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するそれぞれのエネルギ指標に基づき、スピーカの出力の第７エネルギ指標を決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルを決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、スピーカの出力のスペクトルに基づき、スピーカの出力の第８エネルギ指標を決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、第７エネルギ指標及び第８エネルギ指標に基づき、スピーカの全体補償利得を決定するステップを更に含んでよい。

（場合によっては、全体及び／又は個別補償利得が適用された後に）このようなスピーカ依存補償利得を決定することにより、音量ブーストは更に軽減され、知覚音声品質は更に向上される。

幾つかの実施形態では、第７エネルギ指標は、次式により与えられてよく：

ここで、要素－スピーカ利得g_osは、複数のオーディオ要素の中のオーディオ要素o及びスピーカsについてである。追加又は代替として、スピーカの出力のスペクトルは、次式により与えられてよく：

ここで、インデックスcはクラスタを示し、X_oは所与のオーディオ要素oのスペクトルを示し、g_csはクラスタc及びスピーカsについてのクラスタ－スピーカ利得であり、g_ocはクラスタc及びクラスタ内のオーディオ要素oについての要素－クラスタ利得である。追加又は代替として、第８エネルギ指標は、次式により与えられてよい：

幾つかの実施形態では、スピーカの全体補償利得は、第７エネルギ指標及び第８エネルギ指標の比の平方根として決定されてよい。例えば、スピーカの全体補償利得は、次式により与えられる：

幾つかの実施形態では、補償利得は、オーディオコンテンツのフレーム毎又はフレームグループ毎に決定されてよい。つまり、補償利得は、動的に決定されてよい。

幾つかの実施形態では、複数のオーディオ要素を複数のクラスタにクラスタリングするステップは、複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップ（ステージ１クラスタリング）を含んでよい。複数のオーディオ要素を複数のクラスタにクラスタリングするステップは、複数の中間クラスタを複数のクラスタにクラスタリングするステップ（ステージ２クラスタリング）を更に含んでよい。このクラスタリングは、カスケードオーディオオブジェクトクラスタリングと呼ばれてよい。

幾つかの実施形態では、方法は、補償利得をそれぞれのオーディオ要素に適用する前に、決定された補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップを更に含んでよい。

幾つかの実施形態では、方法は、期待（例えば、合計）エネルギとそれぞれのクラスタの実際のエネルギとの間の差が差の所定の閾値より小さいかどうかに依存して、補償利得を単一（unity）に設定するステップを更に含んでよい。例えば、差が所定の閾値より小さい場合、補償利得は、単一（つまり、追加補償が無い）に設定されてよい。

幾つかの実施形態では、方法は、複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップを更に含んでよい。追加の非相関は、特に、内部ベッドチャネルに適用されてよい。

幾つかの実施形態では、補償利得は、複数の周波数サブバンドの各々において決定されてよい。

幾つかの実施形態では、エネルギ指標は、音量指標であってよい。つまり、補償利得決定は、音量ドメインにおいて実行されてよい。

これらの指標により、補償利得の決定が更に精緻化できる。

本開示の別の態様は、プロセッサと、該プロセッサに結合され該プロセッサによる実行のための命令を格納しているメモリと、を含む機器に関する。プロセッサは、前述の態様に記載の方法及びその実施形態のいずれかの方法ステップを実行するよう構成されてよい。

本開示の別の態様は、命令を含むコンピュータプログラムであって、該命令は、該命令を実行するプロセッサに、上述の第１の態様及びその実施形態のいずれかに記載の方法を実行させる、コンピュータプログラムに関する。

本開示の別の態様は、前述の態様に記載のコンピュータプログラムを格納しているコンピュータ可読記憶媒体に関する。

本開示では所与のクラスタ無いのオーディオ要素を参照するが、それぞれの要素－クラスタ利得に従い、所与のオーディオ要素は１つより多くのクラスタにレンダリングできることが理解される。この意味で、所与のクラスタ内のオーディオ要素は、所与のクラスタにレンダリングされるオーディオ要素の部分であることが理解され得る。オーディオ要素の一部に特定の補償利得を提供することは、オーディオ要素の別の部分に異なる補償利得が適用されることを除外しない。

本開示の例示的な実施形態は、添付の図面を参照して以下に説明される。ここで、同様の参照符号は同様の又は類似する要素を示す。
本開示の実施形態の第１使用例を概略的に示す。本開示の実施形態の第２使用例を概略的に示す。本開示の実施形態によるオーディオコンテンツを処理する方法の例を示すフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。本開示の実施形態による図３の方法の実施形態の例を説明するフローチャートである。

上述のように、本開示において同一又は同様の参照符号は同一又は同様の要素を示し、その繰り返しの説明は簡潔さの理由から省略されることがある。

理解されるように、音量ブーストは、主に、クラスタにクラスタリングする前に内部スピーカレイアウト（例えば７．１．４）に先ずプリベーク（pre－baked）された、サイズ（場合によってはゾーンマスク）を有するオブジェクトにより引き起こされる。これらの内部ベッドが動的クラスタにグループ化される、又は第１ステージクラスタリング処理から取得されるクラスタが第２ステージでより少数のクラスタに更にグループ化されるとき、異なるベッド又はクラスタに分配された同じオブジェクトからの信号は、同じクラスタに更にレンダリングされ、後続のクラスタリング処理において音響的に加算され、従って、音量ブーストを導入する。

通常、音量ブーストは、コンテンツ依存、クラスタ依存、及びスピーカレイアウト依存であってよい。従って、音量ブーストを補償するためにオブジェクト／クラスタ毎に予め定められた利得を使用することは現実的ではない。本開示は、この問題を解決するために、適応型音量正規化方法を提示する。

上述のように、本開示の実施形態による処理は、少なくとも２つの使用例：スピーカレイアウトへのレンダリングが続く、オブジェクトに基づくコンテンツのカスケードクラスタリング（第１使用例）；及び、クラスタリングオーディオコンテンツのスピーカレイアウトへの直接レンダリング（特に、限られた数のクラスタがある場合、第２使用例）；に適用可能である。これらの使用例を一緒に解決するために、用語「オーディオ要素」は、本開示を通じて、例えば、オーディオオブジェクト、オーディオベッド（ベッドチャネル）、及び／又はオーディオオブジェクト若しくはオーディオベッドの（中間）クラスタのような、ローカライズされたオーディオ要素を意味するために使用される。更に、特に断りのない限り、クラスタは、レンダリングを意図したクラスタを意味する。それら自体が更なるクラスタリングを受けるクラスタは、オーディオ要素又は中間クラスタと呼ばれてよい。この用語を用いて、カスケードクラスタリングは、先ず複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップと、次に複数の中間クラスタを複数のクラスタにクラスタリングするステップと、により複数のオーディオ要素をクラスタリングすることに関連すると言える。

広義には、本開示の実施形態による処理は、期待エネルギと各クラスタの実際のエネルギとを分析するステップと、対応する補償利得gを計算するステップと、所与のクラスタc内のオーディオ要素（例えば、オーディオオブジェクト、オーディオベッド、又は中間クラスタ）o毎に任意の元の要素－クラスタ利得（例えば、オブジェクト－クラスタ利得）g_ocに加えて、計算した利得を適用するステップと、を含む。

異なる使用例に依存して、必ずしも全部のオーディオ要素が補償利得を必要としない。上述の検討に沿って、幾つかの実施形態では、補償利得は、カスケードクラスタリング（第１使用例、図１）において中間クラスタに、単一ステージの場合に（第２使用例、図２）所定の（プリベーク）オブジェクトサイズを有する内部ベッドに、適用されてよい。しかしながら、本開示の実施形態の適用分野は、これらの例に限定されず、補償利得は他のエンティティにも適用されてよい。

図３に、複数のオーディオ要素を含むオーディオコンテンツを処理する方法３００の第１の例が示される。ここでも、オーディオ要素は、（例えば、第２使用例で）オーディオオブジェクト又はオーディオベッドに関連し、又は（例えば、第１使用例で）オーディオオブジェクト又はオーディオベッドの（中間）クラスタに関連してよい。

ステップＳ３１０で、複数のオーディオ要素は、オーディオ要素の複数のクラスタにクラスタリングされる。ここで、クラスタの各々は、空間的に近いオーディオ要素を含んでよい。クラスタの数は、オーディオ要素の数より少なくてよい。

ステップＳ３２０～Ｓ３４０は、複数のクラスタの中の（少なくとも）クラスタについて続いて実行される。言うまでも無く、幾つかの実施形態では、処理は複数のクラスタの各々に適用されてよい。

ステップＳ３２０で、クラスタ内のオーディオ要素毎に、オーディオ要素がクラスタに貢献するエネルギの指標が決定される（例えば、計算される）。例えば、オーディオ要素oがクラスタcに貢献するエネルギ指標E_ocは、次式により与えられる：

ここで、Eoは（動的）オーディオ要素oのエネルギである、g_ocはオーディオ要素oの要素－クラスタ利得（例えば、オブジェクト－クラスタ利得）である。

ステップと、Ｓ３３０で、クラスタ内の少なくとも１つのオーディオ要素について、該クラスタ内の該オーディオ要素のエネルギ指標に少なくとも部分的に基づき、補償利得が決定される（例えば、計算される）。

ステップＳ３４０で、補償利得は、クラスタ内の少なくとも１つのオーディオ要素に適用される。少なくとも１つのオーディオ要素に補償利得を適用するステップは、クラスタの部分としてスピーカのセットにレンダリングされるときの少なくとも１つのオーディオオブジェクトと、スピーカのセットに直接レンダリングされるときの少なくとも１つのオーディオオブジェクトとの間の音量の差を低減してよい。

幾つかの実施形態では、方法３００は、オーディオ要素の複数のクラスタをスピーカレイアウトにレンダリングするステップを更に含んでよい。

次に、図４～１１を参照して、方法３００のより多くの特定の実装の例及び詳細が説明される。これらの例から明らかになるように、補償利得（例えば、ステップＳ３３０で決定される）は、所与のクラスタの全体補償利得（これは、所与のクラスタ内の全部のオーディオ要素について同じである）、個別補償利得（これは、所与のクラスタ内のオーディオ要素間で異なり得る）、及び／又はスピーカの全体補償利得（これは、所与のスピーカにレンダリングされる全部のオーディオ要素について同じである）、のうちのいずれかを含んでよい。以下に記載する方法のいずれかは、方法３００のステップＳ３３０の実装として見ることができる。

図４及び図５は、方法４００及び５００をそれぞれ示し、それらは、クラスタ毎に全体補償利得を返す（及び適用する）。つまり、それらは、クラスタ適応型音量正規化に関連すると言える。

これらの方法の基礎にある一般的思想は、オーディオ要素がクラスタにレンダリングされるとき、クラスタ内の各オーディオ要素（例えば、オブジェクト）の適応型利得を推定することである（利得は、クラスタを通じて均一である）。クラスタ毎に、クラスタにレンダリングされる全部のオブジェクトがクラスタに貢献する全体エネルギ（全体要素エネルギ（例えば、全体オブジェクトエネルギ）又は期待エネルギ）が計算される。次に、クラスタの実際のエネルギが計算され、最後に、全体エネルギと実際のエネルギとの間の差を縮小するように、補償利得が計算される。

図４の方法４００は、この一般的思想の上位レベルの実装であると分かる。ステップＳ４１０及びＳ４２０は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。

ステップＳ４１０で、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される（例えば、計算される）。

ステップＳ４２０で、クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中のオーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得が決定される（例えば、計算される）。

図５の方法５００は、方法４００の特定の実装である。ステップＳ５１０～Ｓ５４０は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。

ステップＳ５１０で、クラスタ内のオーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第１エネルギ指標が決定される（例えば、計算される）。第１エネルギ指標は、クラスタの全体エネルギE_{tot_o}、つまりクラスタcにレンダリングされる合計（オブジェクト）エネルギとして表されてよい。次に、クラスタcの第１エネルギ指標は、次式により与えられる：

ここで、インデックスoは、クラスタc内のそれぞれのオーディオ要素を示す。

ステップＳ５２０で、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される（例えば、計算される）。クラスタのスペクトルX_cは、次式により与えられてよく：

ここで、X_oはそれぞれの（動的）オーディオ要素のスペクトルであり、■^＊は■の複素共役を示す。

ステップＳ５３０で、クラスタのスペクトルに基づき、クラスタの第２エネルギ指標が決定される。第２エネルギ指標は、クラスタの実際のエネルギＥ_ｃと呼ばれてよい。次に、第２エネルギ指標は、次式により与えられてよい：

ステップＳ５４０で、クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、第１エネルギ指標及び第２エネルギ指標に基づき、クラスタの全体補償利得が決定される（例えば、計算される）。この全体補償利得は、クラスタリングの前及び後で音量を同じようにするよう決定される。この目的のために、クラスタの全体補償利得は、第１エネルギ指標及び第２エネルギ指標の比の平方根として決定されてよい。例えば、クラスタの全体補償利得g１_cは、次式により与えられる：

この補償利得を適用するステップは、以下の合計オーディオ要素利得（合計オーディオ要素－クラスタ利得）を生じる：

通常、補償利得（又はその任意の部分）は、それぞれのオーディオ要素利得に加えて使用されてよい。

ここで及び本開示の残りの部分では、補償利得はフレーム毎に（動的に）決定されてよい。つまり、補償利得は、オーディオコンテンツのフレーム毎又はフレームグループ毎に決定されてよい。更に、フレーム毎（又はグループ毎）に決定された補償利得に、円滑化（smoothing）が適用できる。

図６及び図７は、方法６００及び７００をそれぞれ示し、それらは、相関依存補償利得を返す（及び適用する）。つまり、それらは、相関依存要素適応型音量正規化に関連すると言える。

方法４００及び５００は、クラスタ毎に１つの利得を推定し、該クラスタにレンダリングされる全部のオーディオ要素について同じ利得を適用する。これに対し、方法６００及び７００は、要素適応型（例えば、オブジェクト適応型）利得を決定し、異なるオーディオ要素に異なる利得を適用する。この目的のために、オーディオ要素間の相関が利用される。全体的な考えは以下の通りである。オーディオ要素が他のオーディオ要素に高度に相関している場合、それは、より高い音量ブーストを導入し、従って、より小さな利得の適用がより適切になるだろう。

図６の方法６００は、この一般的思想の上位レベルの実装であると分かる。ステップＳ６１０及びＳ６２０は、複数のクラスタの中の前述のクラスタ内の所与のオーディオ要素について実行される。幾つかの実施形態では、それらは、クラスタ内の各オーディオ要素について、及び／又は複数のクラスタの中の各クラスタについて実行されてよい。

ステップＳ６１０で、所与のオーディオ要素と複数のオーディオ要素のうちのいずれか（標準的に、必ずしも同じクラスタ内に存在しないが）との間の相関指標が決定される（例えば、計算される）。

ステップＳ６２０で、所与のオーディオ要素の補償利得の少なくとも部分として、クラスタ内のオーディオ要素のエネルギ指標及び所与のオーディオ要素と複数のオーディオ要素の中のいずれかとの間の相関指標に少なくとも部分的に基づき、所与のオーディオ要素の個別補償利得が決定される（例えば、計算される）。

図７の方法７００は、方法６００の特定の実装である。ステップＳ７１０～Ｓ７４０は、複数のクラスタの中の前述のクラスタ内の所与のオーディオ要素について実行される。幾つかの実施形態では、それらは、クラスタ内の各オーディオ要素について、及び／又は複数のクラスタの中の各クラスタについて実行されてよい。

ステップＳ７１０で、所与のオーディオ要素と複数のオーディオ要素のうちのいずれかとの間の相関指標が決定される（例えば、計算される）。所与のオーディオ要素oと複数のオーディオ要素の中のいずれかUとの間の相関指標r_ouは、次式により与えられる：

ここで、o及びuは、それぞれ、所与のオーディオ要素、及び複数のオーディオ要素のうちの１つを示す。X_oは所与のオーディオ要素のスペクトルを示し、X_uは複数のオーディオ要素のうちの１つのスペクトルを示し、E_oは所与のオーディオ要素のエネルギを示し、E_uは複数のオーディオ要素のうちの１つのエネルギを示す。Re(■)は■の実数部を示す。通常、r_ouは任意の２つのオーディオ要素o及びuの間の相関指標である。

ステップＳ７２０で、オーディオ要素uがクラスタcに貢献するエネルギ指標E_ucの加重和として所与のオーディオ要素の第３エネルギ指標が決定される（例えば、計算される）。ここで、エネルギ指標の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。例えば、第３エネルギ指標a_ocは、次式により与えられてよい：

つまり、重みは次式により与えられてよく：

つまり、それらは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標の大きさにより与えられてよい。ここで、Eucは次式により与えられてよく：

ここで、g_ucはオーディオ要素u及びクラスタcについての要素－クラスタ利得である。第３エネルギ指標a_ocは、クラスタcにレンダリングされる所与のオーディオ要素oの拡散エネルギとも呼ばれてよい。

ステップＳ７３０で、所与のオーディオ要素を除く複数のオーディオ要素の中のいずれかのオーディオ要素に渡る、所与のオーディオ要素がクラスタに貢献するエネルギ指標及び所与のオーディオ要素以外の複数のオーディオ要素の中のオーディオ要素がクラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、所与のオーディオ要素の第４エネルギ指標が決定される（例えば、計算される）。ここで、幾何平均の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。例えば、第４エネルギ指標b_ocは、次式により与えられてよい：

第４エネルギ指標b_ocは、クラスタcにレンダリングされるオーディオ要素oの要素間（cross－element）（例えば、オブジェクト間（cross－object））エネルギとも呼ばれてよい。

ステップＳ７４０で、所与のオーディオ要素毎に、補償利得の少なくとも部分として、第３エネルギ指標及び第４エネルギ指標に基づき、所与のオーディオ要素の個別補償利得が決定される（例えば、計算される）。例えば、個別補償利得g１_ocは、次式により与えられてよい：

この個別補償利得は、音量ブーストの主要因である高度に相関したオブジェクトにより多くの減衰を効率的に与える。

例えば、相関行列が３つのオーディオ要素（例えば、オブジェクト）について次式：

により与えられる簡単な例では、最初の２つのオーディオ要素はより小さな利得を受けてよい（つまり、より多くの減衰を受けてよい）。

代替として、クラスタc内のオーディオ要素oにそれぞれの個別補償利得g１_ocを適用した後に、方法４００及び５００と同じ方法であるが、補償エネルギE_o及びスペクトルX_c（つまり、個別補償利得の適用後のエネルギ及びスペクトル）を使用して、期待エネルギとクラスタcの実際のエネルギとの間の差を最小化するよう、クラスタcについて全体補償利得g１_cが決定できる（例えば、計算できる）。クラスタcについて、続けて個別補償利得g１_ocを決定し、個別補償利得g１_ocを適用し、全体補償利得g１_cを決定することにより、クラスタc内のオーディオ要素o毎に、次式により補償利得g１'_ocが決定できる：

これは、次式により与えられる全体要素－クラスタ利得g'_ocを示唆している：

図８及び図９は、それぞれ、方法８００及び９００を示す。これらは、上述のように補償利得を返す（及び適用する）。ここで、この補償利得は、個別補償利得が所与のクラスタ内のオーディオ要素に適用された後に、決定される。つまり、方法８００及び９００は、相関依存要素適応型及びクラスタ適用型の音量正規化に関連すると言える。

図８の方法８００は、前述の全体利得g１'_ocの決定の上位レベルの実装であると分かる。ステップＳ８１０～Ｓ８４０は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。

ステップＳ８１０で、クラスタ内のオーディオ要素毎に、それぞれの個別補償利得が決定される（例えば、計算される）。これは、例えば方法６００又は７００により進行してよい。

ステップＳ８２０で、それぞれの個別補償利得がクラスタ内のオーディオ要素に適用されて、個別補償オーディオ要素を得る。

ステップＳ８３０で、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される（例えば、計算される）。

ステップＳ８４０で、クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中の個別補償オーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得が決定される（例えば、計算される）。

通常、方法８００は、方法６００／７００毎に個別補償利得がクラスタ内のオーディオ要素に適用された後に、方法４００／５００を連続して実行することに対応すると言える。

図９の方法９００は、方法８００の特定の実装である。ステップＳ９１０～Ｓ９６０は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。

ステップＳ９１０で、クラスタ内のオーディオ要素毎に、それぞれの個別補償利得が決定される（例えば、計算される）。これは、例えば方法６００又は７００により進行してよい。

ステップＳ９２０で、それぞれの個別補償利得がクラスタ内のオーディオ要素に適用されて、個別補償オーディオ要素を得る。

ステップＳ９３０で、クラスタ内の個別補償オーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第５エネルギ指標が決定される（例えば、計算される）。第５エネルギ指標は、上述の第１エネルギ指標に対応してよく、（初期の未補償オーディオ要素の代わりに）個別補償オーディオ要素が考慮される点が異なる。従って、これは、上述のステップＳ５１０と同様に進行してよい。

ステップＳ９４０で、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される（例えば、計算される）。これは、上述のステップＳ５２０と同様に進行してよい。

ステップＳ９５０で、クラスタのスペクトルに基づき、クラスタの第６エネルギ指標が決定される（例えば、計算される）。第６エネルギ指標は、第２エネルギ指標に対応してよく、（初期の未補償オーディオ要素の代わりに）個別補償オーディオ要素が考慮される点が異なる。従って、これは、上述のステップＳ５３０と同様に進行してよい。

最後に、ステップＳ９６０で、クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、第５エネルギ指標及び第６エネルギ指標に基づき、クラスタの全体補償利得が決定される（例えば、計算される）。これは、上述のステップＳ５４０と同様に進行してよい。

図１０及び図１１は、方法１０００及び１１００をそれぞれ示し、それらは、クラスタがレンダリングされる（目標）スピーカレイアウトのスピーカ毎に、全体補償利得を返す（及び適用する）。つまり、それらは、スピーカ適応型音量正規化に関連すると言える。結果として生じるスピーカ適応型利得は、上述の方法４００～９００により決定される利得に加えて適用できる。

全体的な思想は、再生スピーカレイアウトが分かっている場合に、起こり得る音量ブーストを更に最小化するよう適切な利得を推定するために、目標スピーカレイアウトが使用できることである。

図１０の方法１０００は、スピーカ固有全体補償利得の決定の上位レベルの実装であると分かる。ステップＳ１０１０～Ｓ１０３０は、複数のクラスタのうちの少なくとも１つがレンダリングされるスピーカについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の少なくとも１つがレンダリングされるスピーカ毎に実行されてよい。本方法におけるオーディオ要素は、元の／初期オーディオ要素、又は前述の補償利得のうちのいずれかにより補償されたオーディオ要素（例えば、個別補償オーディオ要素、等）であってよい。

ステップＳ１０１０で、オーディオ要素がスピーカの出力（例えば、出力信号、スピーカチャネル信号）に貢献するそれぞれのエネルギ指標が決定される（例えば、計算される）。

ステップＳ１０２０で、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルが決定される（例えば、計算される）。

ステップＳ１０３０で、オーディオ要素がスピーカの出力に貢献するエネルギ指標及びスピーカの出力のスペクトルに少なくとも部分的に基づき、スピーカの全体補償利得が決定される（例えば、計算される）。

図１１の方法１１００は、方法１０００の特定の実装である。方法は、所与のスピーカチャネルにレンダリングされる合計要素エネルギ（例えば、オブジェクトエネルギ）を計算し、スピーカチャネルが受信／形成する信号の実際のスペクトル及び実際のエネルギを計算するステップを含む。従って、スピーカ依存補償利得が、応答して計算できる。

ステップＳ１１１０～Ｓ１１５０は、複数のクラスタのうちの少なくとも１つがレンダリングされるスピーカについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の少なくとも１つがレンダリングされるスピーカ毎に実行されてよい。本方法におけるオーディオ要素は、元の／初期オーディオ要素、又は前述の補償利得のうちのいずれかにより補償されたオーディオ要素（例えば、個別補償オーディオ要素、等）であってよい。

ステップＳ１１１０で、オーディオ要素がスピーカの出力（例えば、出力信号、スピーカチャネル信号）に貢献するそれぞれのエネルギ指標が決定される（例えば、計算される）。

ステップＳ１１２０で、オーディオ要素がスピーカの出力に貢献するそれぞれのエネルギ指標に基づき、スピーカの出力の第７エネルギ指標が決定される（例えば、計算される）。第７エネルギ指標は、スピーカ（スピーカチャネル）sによりレンダリングされることが予想される全体要素エネルギ（例えば、オブジェクトエネルギ）と呼ばれてよい。例えば、第７エネルギ指標は、次式により与えられてよい：

ここで、要素－スピーカ利得g_osは、複数のオーディオ要素の中のオーディオ要素o及びスピーカ（スピーカチャネル）sについてのものである（つまり、スピーカ（スピーカチャネル）sにレンダリングされるオーディオ要素oの部分）。

ステップＳ１１３０で、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルが決定される（例えば、計算される）。スピーカsの出力のスペクトルX_cls→spkは、スピーカ（スピーカチャネル）sが受信する実際の信号として表されてよい。それは次式により与えられる：

ここで、インデックスcはクラスタを示し、X_oは所与のオーディオ要素oのスペクトルを示し、g_csはクラスタc及びスピーカsについてのクラスタ－スピーカ利得であり、g_ocはクラスタc及びクラスタ内のオーディオ要素oについての要素－クラスタ利得である。従って、スピーカsの出力のスペクトルX_cls→spkは、２つのステップから生成されてよい。第１ステップでは、オーディオ要素（例えば、オブジェクト）は、クラスタにクラスタリングされ（例えば、レンダリングされ）、第２ステップでは、クラスタがスピーカにレンダリングされる。

ステップＳ１１４０で、スピーカの出力のスペクトルに基づき、スピーカの出力の第８エネルギ指標が決定される（例えば、計算される）。第８エネルギ指標は、スピーカ（スピーカチャネル）内の（実際の）エネルギと呼ばれてよい。それは次式により与えられる：

ステップＳ１１５０で、第７エネルギ指標及び第８エネルギ指標に基づき、スピーカの全体補償利得が決定される（例えば、計算される）。スピーカの全体補償利得は、第７エネルギ指標及び第８エネルギ指標の比の平方根として決定されてよい。例えば、スピーカの全体補償利得g２_ocは、次式により与えられる：

上述のように、全体補償利得g２_ocは、方法４００／５００、６００／７００、又は８００／９００で取得された補償利得のいずれかと結合され、元の要素－クラスタ利得に加えて適用できる。つまり、結果として生じる要素－クラスタ利得は、次式により与えられる：

上述の補償利得のいずれかを更に安定的に且つ混乱しないものにするために、コンプレッサ（例えば、ダイナミックレンジコンプレッサ、リミッタ）が取得された補償利得に適用され得る。例えば、補償利得の最小及び最大値が制限され得る。従って、本開示の実施形態による方法（例えば、方法３００、４００／５００、６００／７００、８００／９００、又は１０００／１１００）は、それぞれのオーディオ要素に補償利得を適用する前に、決定した補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップを含んでよい。例えば、利得値は、範囲（０．２５，４）、つまりデシベル領域では［－６dB,６dB］に限定されることができる。

幾つかの実施形態では、緩和（relax）パラメータが追加できる。期待エネルギ（第１又は第５エネルギ指標）とクラスタの実際のエネルギ（第２又は第６エネルギ指標）との間の差が耐性閾値、つまり例えば１dBより小さい場合、その差は受け入れることができ、そのクラスタの全体補償利得は１（単一、unity）に設定できる。この場合、クラスタの全体補償利得は、差が大きいときにのみ適用される。

通常、本開示の実施形態による方法（例えば、方法３００、４００／５００、６００／７００、８００／９００、又は１０００／１１００）は、期待エネルギとそれぞれのクラスタの実際のエネルギとの間の差が、差の所定の閾値より小さいかどうかに依存して、補償利得を単一に設定するステップを更に含んでよい。つまり、差が所定の閾値より小さい場合、補償利得は、単一（つまり、追加補償が無い）に設定されてよい。

更に、本開示による幾つかの実施形態では、音量ブーストを緩和し得る拡張動作が適用されてよい。

第１拡張動作は、サイズオブジェクトに対する非相関量を増大させることに関する。従来、サイズオブジェクトが内部ベッドにプリベークされるとき、音声の音色と自然さを保つために、ベッドは伝統的に非相関される。しかしながら、相関した信号がクラスタ内で音響的に加算され得るので、これは音量ブーストの可能性を増大し得る。非相関量の増大は、（音色の変化を犠牲にする可能性があるが）音量ブーストを低減し得る。

従って、本開示の実施形態による方法（例えば、方法３００、４００／５００、６００／７００、８００／９００、又は１０００／１１００）は、複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップを更に含んでよい。追加の非相関は、特に内部ベッドチャネルに（つまり、内部ベッドチャネルに対応するオーディオ要素に）適用されてよい。

第２拡張動作は、サブバンド利得推定に関する。上述の方法（例えば、方法３００、４００／５００、６００／７００、８００／９００、又は１０００／１１００）により推定／決定された利得は、広帯域利得であるが（つまり、同じ利得が全部の周波数ビンに適用される）、（例えば、ＥＲＢレートに基づき分割された）サブバンドから利得を推定することが有用であり得る。理由は、異なるサブバンドが知覚的に異なる役割を果たすことがあり、サブバンド固有の方法が、音量差及びオブジェクト相関を推定するためにより高い周波数分解能を提供し得るからである。

従って、本開示の実施形態による方法（例えば、方法３００、４００／５００、６００／７００、８００／９００、又は１０００／１１００）では、補償利得は、複数の周波数サブバンドの各々において決定されてよい。

第３拡張動作は、音量ドメイン利得推定に関する。上述の方法の幾つかは（音量に関連する）エネルギドメインで利得を推定するが、利得は、より直接的な方法で音量ブースト問題を解決するために、音量ドメインで推定／決定されてよい。オブジェクトのスペクトルから音量を計算することがよく知られている。従って、E_o及びE_cのようなエネルギを音量L_o及びL_cにより単に置き換えることにより、それぞれの音量利得を計算することは直接的である。

従って、本開示の実施形態による方法（例えば、方法３００、４００／５００、６００／７００、８００／９００、又は１０００／１１００）では、エネルギ指標は、音量の指標であってよい。

本開示は、プロセッサと、該プロセッサに結合され該プロセッサによる実行のための命令を格納しているメモリと、を含む機器に更に関する。プロセッサは、上述の方法のいずれかのステップを実行するよう構成されてよい。本開示の実施形態による方法に関する上述の任意の説明は、これらの機器に同様に適用されることが理解される。

本開示は、命令を含むコンピュータプログラムであって、該命令は、命令を実行するプロセッサに、上述の方法のいずれかのステップを実行させる、コンピュータプログラムに更に関する。本開示の実施形態による方法に関する上述の任意の説明は、これらのコンピュータプログラムに同様に適用されることが理解される。

本開示は、前述のコンピュータプログラムを格納しているコンピュータ可読記憶媒体に更に関する。本開示の実施形態による方法に関する上述の任意の説明は、これらのコンピュータ可読記憶媒体に同様に適用されることが理解される。

シミュレーション及び試聴により検証されたように、クラスタ適応型音量正規化は、音量ブーストを大幅に軽減でき、目標スピーカレイアウトに依存する音量正規化の追加は、クラスタリング品質を更に向上できる。

本発明の種々の態様及び実装は、請求されない以下に列挙する例示的な実施形態（enumerated example embodiment：ＥＥＥ）から明らかであり得る。

ＥＥＥ１は、複数のオーディオ要素を含むオーディオコンテンツを処理する方法であって、前記方法は、
前記複数のオーディオ要素をオーディオ要素の複数のクラスタにクラスタリングするステップと、
前記複数のクラスタの中のクラスタについて、
前記クラスタの中のオーディオ要素毎に、前記オーディオ要素が前記クラスタに貢献するエネルギ指標を決定するステップと、
前記クラスタの中の少なくとも１つのオーディオ要素について、前記クラスタの中の前記オーディオ要素の前記エネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップと、
前記クラスタの中の前記少なくとも１つのオーディオ要素に前記補償利得を適用するステップと、
を含む方法に関連する。

ＥＥＥ２は、オーディオ要素が前記クラスタｃに貢献する前記エネルギ指標は、

により与えられ、ここで、E_oは前記オーディオ要素のエネルギであり、g_ocは前記オーディオ要素oの要素－クラスタ利得である、ＥＥＥ１に記載の方法に関連する。

ＥＥＥ３は、前記複数のクラスタの中の前記クラスタについて、
前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの中のオーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むＥＥＥ１又は２に記載の方法に関連する。

ＥＥＥ４は、前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中の前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第１エネルギ指標を決定するステップと、
前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの前記スペクトルに基づき、前記クラスタの第２エネルギ指標を決定するステップと、
前記クラスタの中のオーディオ要素毎の前記補償利得の少なくとも部分として、前記第１エネルギ指標及び前記第２エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むＥＥＥ１又は２に記載の方法。

ＥＥＥ５は、前記クラスタの前記第１エネルギ指標は、次式により与えられ：

及び／又は、前記第２エネルギ指標は次式により与えられ：

ここで、インデックスｏは前記クラスタの中のそれぞれのオーディオ要素を示し、

は前記クラスタの前記スペクトルであり、X_oは前記それぞれのオーディオ要素の前記スペクトルであり、■^*は■の複素共役である、ＥＥＥ２に従属するＥＥＥ４に記載の方法に関連する。

ＥＥＥ６は、前記クラスタの前記全体補償利得は、前記第１エネルギ指標及び前記第２エネルギ指標の比の平方根として決定される、ＥＥＥ４又は５に記載の方法に関連する。

ＥＥＥ７は、前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の前記相関指標に少なくとも部分的に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
を含むＥＥＥ１又は２に記載の方法に関連する。

ＥＥＥ８は、前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の加重和として、前記所与のオーディオ要素の第３エネルギ指標を決定するステップであって、前記エネルギ指標の前記加重和は、前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
前記所与のオーディオ要素を除く前記複数のオーディオ要素の中のいずれかのオーディオ要素に渡り、前記所与のオーディオ要素が前記クラスタに貢献する前記エネルギ指標及び前記所与のオーディオ要素を除く前記複数のオーディオ要素の中の前記オーディオ要素が前記クラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、前記所与のオーディオ要素の第４エネルギ指標を決定するステップであって、前記幾何平均の重みは前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記第３エネルギ指標及び前記第４エネルギ指標に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
を含むＥＥＥ１又は２に記載の方法に関連する。

ＥＥＥ９は、前記所与のオーディオ要素と前記複数のオーディオ要素のいずれかとの間の前記相関指標は次式により与えられ：

ここで、インデックスｏ及びｕは、前記所与のオーディオ要素及び前記複数のオーディオ要素のうちの１つを示し、X_oは前記所与のオーディオ要素のスペクトルであり、X_uは前記複数のオーディオ要素のうちの１つのスペクトルであり、E_oは前記所与のオーディオ要素のエネルギであり、Euは前記複数のオーディオ要素のうちの１つのエネルギであり、前記第３エネルギ指標は次式により与えられ：

及び／又は前記第４エネルギ指標は次式により与えられる：

ＥＥＥ２に従属するＥＥＥ８に記載の方法に関連する。

ＥＥＥ１０は、前記個別補償利得が次式により与えられる：

ＥＥＥ９に記載の方法に関連する。

ＥＥＥ１１は、前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中のオーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの中の個別補償オーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記個別補償オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むＥＥＥ７～ＥＥＥ１０のいずれか一項に記載の方法に関連する。

ＥＥＥ１２は、前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中の前記オーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
前記クラスタの中の前記個別補償オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第５エネルギ指標を決定するステップと、
前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの前記スペクトルに基づき、前記クラスタの第６エネルギ指標を決定するステップと、
前記クラスタの中の個別補償オーディオ要素毎の前記補償利得の少なくとも部分として、前記第５エネルギ指標及び前記第６エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むＥＥＥ７～ＥＥＥ１０のいずれか一項に記載の方法に関連する。

ＥＥＥ１３は、前記クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、
前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献する前記エネルギ指標及び前記スピーカの前記出力の前記スペクトルに少なくとも部分的に基づき、前記スピーカの全体補償利得を決定するステップと、
を更に含むＥＥＥ１～１２に記載の方法に関連する。

ＥＥＥ１４は、前記クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、
前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献する前記それぞれのエネルギ指標に基づき、前記スピーカの前記出力の第７エネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
前記スピーカの前記出力の前記スペクトルに基づき、前記スピーカの前記出力の第８エネルギ指標を決定するステップと、
前記第７エネルギ指標及び前記第８エネルギ指標に基づき、前記スピーカの全体補償利得を決定するステップと、
を更に含むＥＥＥ１～ＥＥＥ１２のいずれか一項に記載の方法に関連する。

ＥＥＥ１５は、前記第７エネルギ指標は次式により与えられ：

要素－スピーカ利得g_osは前記複数のオーディオ要素の中のオーディオ要素o及び前記スピーカsについてであり、前記スピーカの前記出力の前記スペクトルは次式により与えられ：

インデックスcはクラスタを示し、X_oは所与のオーディオ要素oのスペクトルを示し、g_csはクラスタc及びスピーカsについてのクラスタ－スピーカ利得であり、g_ocはクラスタc及び該クラスタ内のオーディオ要素oについての要素－クラスタ利得であり、及び／又は前記第８エネルギ指標は次式により与えられる：

ＥＥＥ１４に記載の方法に関連する。

ＥＥＥ１６は、前記スピーカの前記全体補償利得は、前記第７エネルギ指標及び前記第８エネルギ指標の比の平方根として決定される、ＥＥＥ１４又は１５に記載の方法に関連する。

ＥＥＥ１７は、前記補償利得は、前記オーディオコンテンツのフレーム毎に又はフレームグループ毎に決定される、ＥＥＥ１～１６のいずれか一項に記載の方法に関連する。

ＥＥＥ１８は、前記複数のオーディオ要素を前記複数のクラスタにクラスタリングするステップは、
前記複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップと、
前記複数の中間クラスタを前記複数のクラスタにクラスタリングするステップと
を含む、ＥＥＥ１～１７のいずれか一項に記載の方法に関連する。

ＥＥＥ１９は、前記補償利得をそれぞれのオーディオ要素に適用する前に、前記の決定された補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップ、
を更に含むＥＥＥ１～１８のいずれか一項に記載の方法に関連する。

ＥＥＥ２０は、期待エネルギとそれぞれのクラスタの実際のエネルギとの間の差が前記差の所定の閾値より小さいかどうかに依存して、前記補償利得を単一に設定するステップ、
を更に含むＥＥＥ１～１９のいずれか一項に記載の方法に関連する。

ＥＥＥ２１は、前記複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップ、
を更に含むＥＥＥ１～２０のいずれか一項に記載の方法に関連する。

ＥＥＥ２２は、前記補償利得は、複数の周波数サブバンドの各々において決定される、ＥＥＥ１～２１のいずれか一項に記載の方法に関連する。

ＥＥＥ２３は、前記エネルギ指標は音量の指標である、ＥＥＥ１～２２のいずれか一項に記載の方法に関連する。

ＥＥＥ２４は、機器であって、プロセッサと、前記プロセッサに結合され前記プロセッサによる実行のための命令を格納しているメモリとを含み、前記プロセッサは、ＥＥＥ１～２３のいずれか一項に記載の方法の方法ステップを実行するよう構成される、機器に関連する。

ＥＥＥ２５は、命令を含むコンピュータプログラムであって、前記命令は、プロセッサにより実行されると、前記プロセッサに、ＥＥＥ１～ＥＥＥ２３のいずれか一項に記載のオーディオコンテンツを処理する方法を実行させる、コンピュータプログラムに関連する。

ＥＥＥ２６は、ＥＥＥ２５に記載のコンピュータプログラムを記憶しているコンピュータ可読媒体に関連する。

Claims

複数のオーディオ要素を含むオーディオコンテンツを処理する方法であって、前記方法は、
前記複数のオーディオ要素をオーディオ要素の複数のクラスタにクラスタリングするステップと、
前記複数のクラスタの中のクラスタについて、
前記クラスタの中のオーディオ要素毎に、前記オーディオ要素が前記クラスタに貢献するエネルギ指標を決定するステップと、
前記クラスタの中の少なくとも１つのオーディオ要素について、前記クラスタの中の前記オーディオ要素の前記エネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップと、
前記クラスタの中の前記少なくとも１つのオーディオ要素に前記補償利得を適用するステップと、
を含む方法。
オーディオ要素が前記クラスタｃに貢献する前記エネルギ指標は、

により与えられ、ここで、E_oは前記オーディオ要素のエネルギであり、g_ocは前記オーディオ要素oの要素－クラスタ利得である、請求項１に記載の方法。
前記複数のクラスタの中の前記クラスタについて、
前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの中のオーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
を含む請求項１又は２に記載の方法。
前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中の前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第１エネルギ指標を決定するステップと、
前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの前記スペクトルに基づき、前記クラスタの第２エネルギ指標を決定するステップと、
前記クラスタの中のオーディオ要素毎の前記補償利得の少なくとも部分として、前記第１エネルギ指標及び前記第２エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
を含む請求項１又は２に記載の方法。
前記クラスタの前記第１エネルギ指標は、次式により与えられ：

及び／又は、前記第２エネルギ指標は次式により与えられ：

ここで、インデックスｏは前記クラスタの中のそれぞれのオーディオ要素を示し、

は前記クラスタの前記スペクトルであり、X_oは前記それぞれのオーディオ要素の前記スペクトルであり、■^*は■の複素共役である、請求項２に従属する請求項４に記載の方法。
前記クラスタの前記全体補償利得は、前記第１エネルギ指標及び前記第２エネルギ指標の比の平方根として決定される、請求項４又は５に記載の方法。
前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の前記相関指標に少なくとも部分的に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
を含む請求項１又は２に記載の方法。
前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の加重和として、前記所与のオーディオ要素の第３エネルギ指標を決定するステップであって、前記エネルギ指標の前記加重和は、前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
前記所与のオーディオ要素を除く前記複数のオーディオ要素の中のいずれかのオーディオ要素に渡り、前記所与のオーディオ要素が前記クラスタに貢献する前記エネルギ指標及び前記所与のオーディオ要素を除く前記複数のオーディオ要素の中の前記オーディオ要素が前記クラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、前記所与のオーディオ要素の第４エネルギ指標を決定するステップであって、前記幾何平均の重みは前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記第３エネルギ指標及び前記第４エネルギ指標に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
を含む請求項１又は２に記載の方法。
前記所与のオーディオ要素の前記個別補償利得は、前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標が大きいほど前記所与のオーディオ要素の個別補償利得が小さくなるように決定される、請求項７又は８に記載の方法。
前記所与のオーディオ要素と前記複数のオーディオ要素のいずれかとの間の前記相関指標は次式により与えられ：

ここで、インデックスｏ及びｕは、前記所与のオーディオ要素及び前記複数のオーディオ要素のうちの１つを示し、X_oは前記所与のオーディオ要素のスペクトルであり、X_uは前記複数のオーディオ要素のうちの１つのスペクトルであり、E_oは前記所与のオーディオ要素のエネルギであり、E_uは前記複数のオーディオ要素のうちの１つのエネルギであり、前記第３エネルギ指標は次式により与えられ：

及び／又は、前記第４エネルギ指標は次式により与えられる：

請求項２に従属する請求項８に記載の方法。
前記個別補償利得は次式により与えられる：

請求項１０に記載の方法。
前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中のオーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの中の個別補償オーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記個別補償オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
を含む請求項７～１１のいずれか一項に記載の方法。
前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中の前記オーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
前記クラスタの中の前記個別補償オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第５エネルギ指標を決定するステップと、
前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの前記スペクトルに基づき、前記クラスタの第６エネルギ指標を決定するステップと、
前記クラスタの中の個別補償オーディオ要素毎の前記補償利得の少なくとも部分として、前記第５エネルギ指標及び前記第６エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
を含む請求項７～１１のいずれか一項に記載の方法。
前記クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、
前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献する前記エネルギ指標及び前記スピーカの前記出力の前記スペクトルに少なくとも部分的に基づき、前記スピーカの全体補償利得を決定するステップと、
を更に含む請求項１～１３のいずれか一項に記載の方法。
前記クラスタのうちの少なくとも１つがレンダリングされるスピーカについて、
前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献する前記それぞれのエネルギ指標に基づき、前記スピーカの前記出力の第７エネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
前記スピーカの前記出力の前記スペクトルに基づき、前記スピーカの前記出力の第８エネルギ指標を決定するステップと、
前記第７エネルギ指標及び前記第８エネルギ指標に基づき、前記スピーカの全体補償利得を決定するステップと、
を更に含む請求項１～１３のいずれか一項に記載の方法。
前記第７エネルギ指標は次式により与えられ：

要素－スピーカ利得g_osは前記複数のオーディオ要素の中のオーディオ要素o及び前記スピーカsについてであり、前記スピーカの前記出力の前記スペクトルは次式により与えられ：

インデックスcはクラスタを示し、X_oは所与のオーディオ要素oのスペクトルを示し、g_csはクラスタc及びスピーカsについてのクラスタ－スピーカ利得であり、g_ocはクラスタc及び該クラスタ内のオーディオ要素oについての要素－クラスタ利得であり、及び／又は前記第８エネルギ指標は次式により与えられる：

請求項１５に記載の方法。
前記スピーカの前記全体補償利得は、前記第７エネルギ指標及び前記第８エネルギ指標の比の平方根として決定される、請求項１５又は１６に記載の方法。
前記補償利得は、前記オーディオコンテンツのフレーム毎に又はフレームグループ毎に決定される、請求項１～１７のいずれか一項に記載の方法。
前記複数のオーディオ要素を前記複数のクラスタにクラスタリングするステップは、
前記複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップと、
前記複数の中間クラスタを前記複数のクラスタにクラスタリングするステップと
を含む、請求項１～１８のいずれか一項に記載の方法。
前記補償利得をそれぞれのオーディオ要素に適用する前に、前記の決定された補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップ、
を更に含む請求項１～１９のいずれか一項に記載の方法。
期待エネルギとそれぞれのクラスタの実際のエネルギとの間の差が前記差の所定の閾値より小さいかどうかに依存して、前記補償利得を単一に設定するステップ、
を更に含む請求項１～２０のいずれか一項に記載の方法。
前記複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップ、
を更に含む請求項１～２１のいずれか一項に記載の方法。
前記補償利得は、複数の周波数サブバンドの各々において決定される、請求項１～２２のいずれか一項に記載の方法。
前記エネルギ指標は音量の指標である、請求項１～２３のいずれか一項に記載の方法。
機器であって、プロセッサと、前記プロセッサに結合され前記プロセッサによる実行のための命令を格納しているメモリとを含み、前記プロセッサは、請求項１～２４のいずれか一項に記載の方法の方法ステップを実行するよう構成される、機器。
命令を含むコンピュータプログラムであって、前記命令は、プロセッサにより実行されると、前記プロセッサに、請求項１～２４のいずれか一項に記載のオーディオコンテンツを処理する方法を実行させる、コンピュータプログラム。
請求項２６に記載のコンピュータプログラムを記憶しているコンピュータ可読媒体。