JP2022521694A - オーディオオブジェクトクラスタリングのための適応型音量正規化 - Google Patents

オーディオオブジェクトクラスタリングのための適応型音量正規化 Download PDF

Info

Publication number
JP2022521694A
JP2022521694A JP2021547121A JP2021547121A JP2022521694A JP 2022521694 A JP2022521694 A JP 2022521694A JP 2021547121 A JP2021547121 A JP 2021547121A JP 2021547121 A JP2021547121 A JP 2021547121A JP 2022521694 A JP2022521694 A JP 2022521694A
Authority
JP
Japan
Prior art keywords
cluster
audio
audio element
given
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021547121A
Other languages
English (en)
Inventor
チェン,リエンウー
ルゥ,リエ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022521694A publication Critical patent/JP2022521694A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

複数のオーディオ要素を含むオーディオコンテンツを処理する方法であって、前記方法は、前記複数のオーディオ要素をオーディオ要素の複数のクラスタにクラスタリングするステップと、前記複数のクラスタの中のクラスタについて、前記クラスタの中のオーディオ要素毎に、前記オーディオ要素が前記クラスタに貢献するエネルギ指標を決定するステップと、前記クラスタの中の少なくとも1つのオーディオ要素について、前記クラスタの中の前記オーディオ要素の前記エネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップと、前記クラスタの中の前記少なくとも1つのオーディオ要素に前記補償利得を適用するステップと、を含む方法。

Description

[関連出願]
本願は、米国仮出願番号第62/814,718号、2019年3月6日出願、及び欧州特許出願番号第19161889.1号、2019年3月11日出願、及びPCT/CN2019/074915、2019年2月13日出願の優先権の利益を主張する。これらの出願は、参照によりそれらの全体がここに組み込まれる。
[技術分野]
本開示は、複数のオーディオ要素を含むオーディオコンテンツを処理する方法及び機器に関し、特に、そのようなオーディオコンテンツの適応型音量正規化に関する。
新しい消費者Dolby(登録商標)Atmos(登録商標)シネマシステムは、オーディオベッド(チャネル)及びオーディオオブジェクトを含む新しいオーディオフォーマットを導入している。オーディオベッド(Audio bed)は、所定の固定されたスピーカ位置において再生されることを意味するオーディオチャネルを表す。一方で、オーディオオブジェクト(audio object)は、定められた時間期間の間に存在し、各オブジェクトの位置、速度、及びサイズを記述する空間情報も(例えば、メタデータの部分として)有してよい、個別オーディオ要素を表す。送信中に、ベッド及びオブジェクトは、別個に送信され、知られている物理的位置にある可変数のスピーカを用いて芸術的意図を再生成する空間再生システムにより使用されることができる。幾つかのサウンドトラックでは、最大で7、9、又は11個のベッドチャネルが存在し得る。更に、オーサリングシステムの能力に基づき、空間的多様性及び没入型オーディオ経験を生成するためにレンダリング中に結合される数十又は数百もの個別オーディオオブジェクトが存在し得る。
このようなオブジェクトに基づくコンテンツの中に存在する膨大な数のオーディオ信号は、このようなコンテンツのコーディング及び分配にとって新たな課題を提示する。幾つかの分配及び送信システムでは、僅かな又は全くオーディオ圧縮を伴わずに、全部のオーディオベッド及びオブジェクトを送信するために十分な利用可能帯域幅がある場合がある。しかしながら、Blu-ray(登録商標)ディスク、ブロードキャスト(ケーブル、衛星、及び地上波)、モバイル(3G及び4G)、及びオーバザトップ(over the top (OTT)、又はインターネット)分配のような幾つかの場合には、全部のベッド及びオブジェクトをデジタル方式で送信するための利用可能帯域幅に有意な制限がある場合がある。オーディオコーディング方法(損失又は無損失)が所要の帯域幅を低減するためにオーディオに適用され得るが、オーディオコーディングは、特にモバイル3G及び4Gネットワークのような非常に限られたネットワークを介してオーディオを送信するために必要な帯域幅を削減するのに十分ではないことがある。
この問題を解決するために、入力オブジェクト及びベッドの数は、クラスタリングにより、より少数の出力オブジェクト/ベッドセットに削減できる。一般に、オーディオクラスタリング処理は、2つの主な段階:(1)クラスタ位置を決定するステップと、(2)オブジェクトを出力クラスタにレンダリングする利得を決定するステップと、を含み、空間マスクの仮定に基づき、全体の空間的歪みを最小化すること、又は全体の空間的知覚を保存することを目的としている。
クラスタリングは、通常、オブジェクト/ベッドが相当数のクラスタ(例えば、11)にクラスタリングされるとき、良好に動作し得る。しかしながら、これは、「カスケードオーディオオブジェクトクラスタリング」の使用例には通常当てはまらない。この使用例は、図1に概略的に示される。オブジェクトの基づくオーディオコンテンツ110(例えば、Atmosプリントマスタ)は、第1クラスタリング段階120で、第1の数(例えば、11)の(中間又は初期)クラスタにクラスタリングされる。次に、取得されたクラスタは、第2クラスタリング段階130で、より少数の(最終又は出力)クラスタ(例えば、5)に更にクラスタリングされる。この使用例では、処理段階140で最終クラスタ(例えば、5)が所与のスピーカレイアウト(例えば、5.1.2)にレンダリングされるとき、初期クラスタ(例えば、11)を同じスピーカレイアウトに直接レンダリングするのに比べて、音量ブーストが見られる。この音量ブーストは、明らかに望ましくない。
同様の(あまり目立たない)音量ブーストは、オブジェクト/ベッドがクラスタ数(例えば、5)に直接クラスタリングされ、次にスピーカレイアウトにレンダリングされる使用例で生じ得る。この使用例は、図2に概略的に示される。オブジェクトに基づくオーディオコンテンツ210は、クラスタリング段階220でクラスタ数(例えば、5)にクラスタリングされ、次に処理段階230でスピーカレイアウトにレンダリングされる。
従って、複数のオーディオ要素を含むオーディオコンテンツの改良された処理が必要である。オーディオコンテンツのクラスタ化バージョンをスピーカレイアウトにレンダリングするときに音量ブーストを回避する、複数のオーディオ要素を含むオーディオコンテンツの改良された処理が特に必要である。一般に、このようなオーディオコンテンツの音量の改良された制御の必要がある。
本発明は、それぞれ独立請求項の特徴を有する、複数のオーディオ要素を含むオーディオコンテンツを処理する方法、及び対応する機器を提供する。
本開示の態様は、複数のオーディオ要素を含むオーディオコンテンツを処理する方法に関する。オーディオ要素は、ローカライズされたオーディオ要素であってよく、例えば、オーディオオブジェクト、オーディオベッド(ベッドチャネル)、及び/又はオーディオオブジェクトの(中間)クラスタを含んでよい。方法は、複数のオーディオ要素を、オーディオ要素の複数のクラスタ(例えば、最終クラスタ又は出力クラスタ)にクラスタリングするステップを含んでよい。クラスタの各々は、空間的に近いオーディオ要素を含んでよい。クラスタの数は、オーディオ要素の数より少なくてよい。処理は、各クラスタに適用されてよい。従って、方法は、複数のクラスタの中のクラスタについて、
該クラスタ内のオーディオ要素毎に、該オーディオ要素が該クラスタに貢献するエネルギ指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、
該クラスタ内の少なくとも1つのオーディオ要素について、該クラスタ内の該オーディオ要素のエネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタ内の少なくとも1つのオーディオ要素に補償利得を適用するステップを更に含んでよい。少なくとも1つのオーディオ要素に補償利得を適用するステップは、クラスタの部分としてスピーカのセット(レイアウト)にレンダリングされるときの少なくとも1つのオーディオオブジェクトと、スピーカのセットに直接レンダリングされるときの少なくとも1つのオーディオオブジェクトとの間の音量の差を低減してよい。方法は、オーディオ要素の複数のクラスタをスピーカレイアウトにレンダリングするステップを更に含んでよい。
提案される方法において補償利得を決定するステップは、音量ブーストを大幅に軽減できる。つまり、クラスタを目標スピーカレイアウトにレンダリングすることに起因する、各々の知覚可能なオーディオオブジェクト又はベッドチャネルの音量は、オーディオオブジェクト又はベッドチャネルが目標スピーカレイアウトに直接レンダリングされた場合に生じ得るそれぞれの音量にかなり近くなり得る。
幾つかの実施形態では、オーディオ要素がクラスタcに貢献するエネルギの指標は、次式により与えられてよく:
Figure 2022521694000002
ここで、Eoはオーディオ要素のエネルギであり、gocはオーディオ要素oについての要素-クラスタ利得である(例えば、該利得により、このオーディオ要素はクラスタにレンダリングされる)。
幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、
クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中のオーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得を決定するステップを更に含んでよい。
幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、クラスタの中のオーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第1エネルギ指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタのスペクトルに基づき、クラスタの第2エネルギ指標を決定するステップを更に含んでよい。第1エネルギ指標は、クラスタの合計エネルギ(合計要素エネルギ(例えば、合計オブジェクトエネルギ)又は期待エネルギ)と呼ばれてよい。第2エネルギ指標は、クラスタの実際のエネルギと呼ばれてよい。方法は、複数のクラスタの中のクラスタについて、クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、第1エネルギ指標及び第2エネルギ指標に基づき、クラスタの全体補償利得を決定するステップを更に含んでよい。
クラスタの中のオーディオ要素に全体補償利得を適用するステップは、クラスタの推定エネルギと実際のエネルギとの間の差を低減し、それにより、音量ブーストを軽減し、及び知覚音声品質を向上する。
幾つかの実施形態では、クラスタの第1エネルギ指標は、次式により与えられ:
Figure 2022521694000003
及び/又は、第2エネルギ指標は次式により与えられ:
Figure 2022521694000004
ここで、インデックスoはクラスタの中のそれぞれのオーディオ要素を示し、
Figure 2022521694000005
はクラスタのスペクトルであり、Xoはそれぞれのオーディオ要素のスペクトルであり、■*は■の複素共役である。
幾つかの実施形態では、クラスタの全体補償利得は、第1エネルギ指標及び第2エネルギ指標の比の平方根として決定される。例えば、クラスタの全体補償利得は、次式により与えられる:
Figure 2022521694000006
この利得を適用するステップは、以下の合計オーディオ要素利得(合計オーディオ要素-クラスタ利得)を生じ得る:
Figure 2022521694000007
幾つかの実施形態では、方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素と複数のオーディオ要素のうちのいずれかとの間の相関指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、
所与のオーディオ要素の補償利得の少なくとも部分として、クラスタ内のオーディオ要素のエネルギ指標及び所与のオーディオ要素と複数のオーディオ要素の中のいずれかとの間の相関指標に少なくとも部分的に基づき、所与のオーディオ要素の個別補償利得を決定するステップを更に含んでよい。
幾つかの実施形態では、方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素と複数のオーディオ要素のうちのいずれかとの間の相関指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、オーディオ要素がクラスタに貢献するエネルギ指標の和として、所与のオーディオ要素の第3エネルギ指標を決定するステップを更に含んでよい。エネルギ指標の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。方法は複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素を除く複数のオーディオ要素の中のいずれかのオーディオ要素に渡る、所与のオーディオ要素がクラスタに貢献するエネルギ指標及び所与のオーディオ要素以外の複数のオーディオ要素の中のオーディオ要素がクラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、所与のオーディオ要素の第4エネルギ指標を決定するステップを更に含んでよい。幾何平均の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。方法は、複数のクラスタの中のクラスタ内の所与のオーディオ要素について、所与のオーディオ要素の補償利得の少なくとも部分として、第3エネルギ指標及び第4エネルギ指標に基づき、所与のオーディオ要素の個別補償利得を決定するステップを更に含んでよい。
クラスタ内のオーディオ要素に個別補償利得を適用するステップは、それらの他のオーディオ要素との相関関係に応じて、オーディオ要素を減衰させる。全体的な考えは以下の通りである。オーディオ要素が他のオーディオ要素に高度に相関している場合、それは、より高い音量ブーストを導入し、従って、より小さな利得の適用がより適切になるだろう。オーディオ要素がより高度に相関しているほど、音量ブーストに強く貢献するので、これは、オーディオ要素の目標とされる減衰を可能にし、それにより、音量ブーストを軽減し、知覚音声品質を向上する。
幾つかの実施形態では、所与のオーディオ要素と複数のオーディオ要素のいずれかとの間の相関指標は次式により与えられてよく:
Figure 2022521694000008
ここで、インデックスo及びuは、所与のオーディオ要素及び複数のオーディオ要素のうちの1つを示し、Xoは所与のオーディオ要素のスペクトルであり、Xuは複数のオーディオ要素のうちの1つのスペクトルであり、Eoは所与のオーディオ要素のエネルギであり、Euは複数のオーディオ要素のうちの1つのエネルギである。追加又は代替として、第3エネルギ指標は、次式により与えられてよい:
Figure 2022521694000009
追加又は代替として、第4エネルギ指標は、次式により与えられてよい:
Figure 2022521694000010
幾つかの実施形態では、個別補償利得g1ocは、次式により与えられてよい:
Figure 2022521694000011
つまり、所与のオーディオ要素の個別補償利得は、第3エネルギ指標の、所与のオーディオ要素の第3及び第4エネルギ指標の和に対する比として決定されてよい。
幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素毎のそれぞれの個別補償利得を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素にそれぞれの個別補償利得を適用して、個別補償オーディオ要素を取得するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、
クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中の個別補償オーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得を決定するステップを更に含んでよい。
幾つかの実施形態では、方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素毎のそれぞれの個別補償利得を決定するステップを含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタ内のオーディオ要素にそれぞれの個別補償利得を適用して、個別補償オーディオ要素を取得するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタの中の個別補償オーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第5エネルギ指標を決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルを決定するステップを更に含んでよい。方法は、複数のクラスタの中のクラスタについて、クラスタのスペクトルに基づき、クラスタの第6エネルギ指標を決定するステップを更に含んでよい。このように、第5エネルギ指標は第1エネルギ指標に対応してよく、第6エネルギ指標は第2エネルギ指標に対応してよく、差分は、ここで個別補償オーディオ要素が考慮される。方法は、複数のクラスタの中のクラスタについて、
クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、第5エネルギ指標及び第6エネルギ指標に基づき(例えば、それらの比の平方根として、第1及び第2エネルギ指標の場合と同じ方法で)、クラスタの全体補償利得を決定するステップを更に含んでよい。
個別補償利得が適用された後に、このような全体補償利得を決定することにより、音量ブーストは更に軽減され、知覚音声品質は更に向上される。
幾つかの実施形態では、方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力(例えば、出力信号)に貢献するそれぞれのエネルギ指標を決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルを決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するエネルギ指標及びスピーカの出力のスペクトルに少なくとも部分的に基づき、スピーカの全体補償利得を決定するステップを更に含んでよい。
幾つかの実施形態では、方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力(例えば、出力信号)に貢献するそれぞれのエネルギ指標を決定するステップを更に含んでよい。オーディオ要素は、元のオーディオ要素又は個別補償オーディオ要素であってよい。方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するそれぞれのエネルギ指標に基づき、スピーカの出力の第7エネルギ指標を決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルを決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、スピーカの出力のスペクトルに基づき、スピーカの出力の第8エネルギ指標を決定するステップを更に含んでよい。方法は、クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、第7エネルギ指標及び第8エネルギ指標に基づき、スピーカの全体補償利得を決定するステップを更に含んでよい。
(場合によっては、全体及び/又は個別補償利得が適用された後に)このようなスピーカ依存補償利得を決定することにより、音量ブーストは更に軽減され、知覚音声品質は更に向上される。
幾つかの実施形態では、第7エネルギ指標は、次式により与えられてよく:
Figure 2022521694000012
ここで、要素-スピーカ利得gosは、複数のオーディオ要素の中のオーディオ要素o及びスピーカsについてである。追加又は代替として、スピーカの出力のスペクトルは、次式により与えられてよく:
Figure 2022521694000013
ここで、インデックスcはクラスタを示し、Xoは所与のオーディオ要素oのスペクトルを示し、gcsはクラスタc及びスピーカsについてのクラスタ-スピーカ利得であり、gocはクラスタc及びクラスタ内のオーディオ要素oについての要素-クラスタ利得である。追加又は代替として、第8エネルギ指標は、次式により与えられてよい:
Figure 2022521694000014
幾つかの実施形態では、スピーカの全体補償利得は、第7エネルギ指標及び第8エネルギ指標の比の平方根として決定されてよい。例えば、スピーカの全体補償利得は、次式により与えられる:
Figure 2022521694000015
幾つかの実施形態では、補償利得は、オーディオコンテンツのフレーム毎又はフレームグループ毎に決定されてよい。つまり、補償利得は、動的に決定されてよい。
幾つかの実施形態では、複数のオーディオ要素を複数のクラスタにクラスタリングするステップは、複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップ(ステージ1クラスタリング)を含んでよい。複数のオーディオ要素を複数のクラスタにクラスタリングするステップは、複数の中間クラスタを複数のクラスタにクラスタリングするステップ(ステージ2クラスタリング)を更に含んでよい。このクラスタリングは、カスケードオーディオオブジェクトクラスタリングと呼ばれてよい。
幾つかの実施形態では、方法は、補償利得をそれぞれのオーディオ要素に適用する前に、決定された補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップを更に含んでよい。
幾つかの実施形態では、方法は、期待(例えば、合計)エネルギとそれぞれのクラスタの実際のエネルギとの間の差が差の所定の閾値より小さいかどうかに依存して、補償利得を単一(unity)に設定するステップを更に含んでよい。例えば、差が所定の閾値より小さい場合、補償利得は、単一(つまり、追加補償が無い)に設定されてよい。
幾つかの実施形態では、方法は、複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップを更に含んでよい。追加の非相関は、特に、内部ベッドチャネルに適用されてよい。
幾つかの実施形態では、補償利得は、複数の周波数サブバンドの各々において決定されてよい。
幾つかの実施形態では、エネルギ指標は、音量指標であってよい。つまり、補償利得決定は、音量ドメインにおいて実行されてよい。
これらの指標により、補償利得の決定が更に精緻化できる。
本開示の別の態様は、プロセッサと、該プロセッサに結合され該プロセッサによる実行のための命令を格納しているメモリと、を含む機器に関する。プロセッサは、前述の態様に記載の方法及びその実施形態のいずれかの方法ステップを実行するよう構成されてよい。
本開示の別の態様は、命令を含むコンピュータプログラムであって、該命令は、該命令を実行するプロセッサに、上述の第1の態様及びその実施形態のいずれかに記載の方法を実行させる、コンピュータプログラムに関する。
本開示の別の態様は、前述の態様に記載のコンピュータプログラムを格納しているコンピュータ可読記憶媒体に関する。
本開示では所与のクラスタ無いのオーディオ要素を参照するが、それぞれの要素-クラスタ利得に従い、所与のオーディオ要素は1つより多くのクラスタにレンダリングできることが理解される。この意味で、所与のクラスタ内のオーディオ要素は、所与のクラスタにレンダリングされるオーディオ要素の部分であることが理解され得る。オーディオ要素の一部に特定の補償利得を提供することは、オーディオ要素の別の部分に異なる補償利得が適用されることを除外しない。
本開示の例示的な実施形態は、添付の図面を参照して以下に説明される。ここで、同様の参照符号は同様の又は類似する要素を示す。
本開示の実施形態の第1使用例を概略的に示す。 本開示の実施形態の第2使用例を概略的に示す。 本開示の実施形態によるオーディオコンテンツを処理する方法の例を示すフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。 本開示の実施形態による図3の方法の実施形態の例を説明するフローチャートである。
上述のように、本開示において同一又は同様の参照符号は同一又は同様の要素を示し、その繰り返しの説明は簡潔さの理由から省略されることがある。
理解されるように、音量ブーストは、主に、クラスタにクラスタリングする前に内部スピーカレイアウト(例えば7.1.4)に先ずプリベーク(pre-baked)された、サイズ(場合によってはゾーンマスク)を有するオブジェクトにより引き起こされる。これらの内部ベッドが動的クラスタにグループ化される、又は第1ステージクラスタリング処理から取得されるクラスタが第2ステージでより少数のクラスタに更にグループ化されるとき、異なるベッド又はクラスタに分配された同じオブジェクトからの信号は、同じクラスタに更にレンダリングされ、後続のクラスタリング処理において音響的に加算され、従って、音量ブーストを導入する。
通常、音量ブーストは、コンテンツ依存、クラスタ依存、及びスピーカレイアウト依存であってよい。従って、音量ブーストを補償するためにオブジェクト/クラスタ毎に予め定められた利得を使用することは現実的ではない。本開示は、この問題を解決するために、適応型音量正規化方法を提示する。
上述のように、本開示の実施形態による処理は、少なくとも2つの使用例:スピーカレイアウトへのレンダリングが続く、オブジェクトに基づくコンテンツのカスケードクラスタリング(第1使用例);及び、クラスタリングオーディオコンテンツのスピーカレイアウトへの直接レンダリング(特に、限られた数のクラスタがある場合、第2使用例);に適用可能である。これらの使用例を一緒に解決するために、用語「オーディオ要素」は、本開示を通じて、例えば、オーディオオブジェクト、オーディオベッド(ベッドチャネル)、及び/又はオーディオオブジェクト若しくはオーディオベッドの(中間)クラスタのような、ローカライズされたオーディオ要素を意味するために使用される。更に、特に断りのない限り、クラスタは、レンダリングを意図したクラスタを意味する。それら自体が更なるクラスタリングを受けるクラスタは、オーディオ要素又は中間クラスタと呼ばれてよい。この用語を用いて、カスケードクラスタリングは、先ず複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップと、次に複数の中間クラスタを複数のクラスタにクラスタリングするステップと、により複数のオーディオ要素をクラスタリングすることに関連すると言える。
広義には、本開示の実施形態による処理は、期待エネルギと各クラスタの実際のエネルギとを分析するステップと、対応する補償利得gを計算するステップと、所与のクラスタc内のオーディオ要素(例えば、オーディオオブジェクト、オーディオベッド、又は中間クラスタ)o毎に任意の元の要素-クラスタ利得(例えば、オブジェクト-クラスタ利得)gocに加えて、計算した利得を適用するステップと、を含む。
異なる使用例に依存して、必ずしも全部のオーディオ要素が補償利得を必要としない。上述の検討に沿って、幾つかの実施形態では、補償利得は、カスケードクラスタリング(第1使用例、図1)において中間クラスタに、単一ステージの場合に(第2使用例、図2)所定の(プリベーク)オブジェクトサイズを有する内部ベッドに、適用されてよい。しかしながら、本開示の実施形態の適用分野は、これらの例に限定されず、補償利得は他のエンティティにも適用されてよい。
図3に、複数のオーディオ要素を含むオーディオコンテンツを処理する方法300の第1の例が示される。ここでも、オーディオ要素は、(例えば、第2使用例で)オーディオオブジェクト又はオーディオベッドに関連し、又は(例えば、第1使用例で)オーディオオブジェクト又はオーディオベッドの(中間)クラスタに関連してよい。
ステップS310で、複数のオーディオ要素は、オーディオ要素の複数のクラスタにクラスタリングされる。ここで、クラスタの各々は、空間的に近いオーディオ要素を含んでよい。クラスタの数は、オーディオ要素の数より少なくてよい。
ステップS320~S340は、複数のクラスタの中の(少なくとも)クラスタについて続いて実行される。言うまでも無く、幾つかの実施形態では、処理は複数のクラスタの各々に適用されてよい。
ステップS320で、クラスタ内のオーディオ要素毎に、オーディオ要素がクラスタに貢献するエネルギの指標が決定される(例えば、計算される)。例えば、オーディオ要素oがクラスタcに貢献するエネルギ指標Eocは、次式により与えられる:
Figure 2022521694000016
ここで、Eoは(動的)オーディオ要素oのエネルギである、gocはオーディオ要素oの要素-クラスタ利得(例えば、オブジェクト-クラスタ利得)である。
ステップと、S330で、クラスタ内の少なくとも1つのオーディオ要素について、該クラスタ内の該オーディオ要素のエネルギ指標に少なくとも部分的に基づき、補償利得が決定される(例えば、計算される)。
ステップS340で、補償利得は、クラスタ内の少なくとも1つのオーディオ要素に適用される。少なくとも1つのオーディオ要素に補償利得を適用するステップは、クラスタの部分としてスピーカのセットにレンダリングされるときの少なくとも1つのオーディオオブジェクトと、スピーカのセットに直接レンダリングされるときの少なくとも1つのオーディオオブジェクトとの間の音量の差を低減してよい。
幾つかの実施形態では、方法300は、オーディオ要素の複数のクラスタをスピーカレイアウトにレンダリングするステップを更に含んでよい。
次に、図4~11を参照して、方法300のより多くの特定の実装の例及び詳細が説明される。これらの例から明らかになるように、補償利得(例えば、ステップS330で決定される)は、所与のクラスタの全体補償利得(これは、所与のクラスタ内の全部のオーディオ要素について同じである)、個別補償利得(これは、所与のクラスタ内のオーディオ要素間で異なり得る)、及び/又はスピーカの全体補償利得(これは、所与のスピーカにレンダリングされる全部のオーディオ要素について同じである)、のうちのいずれかを含んでよい。以下に記載する方法のいずれかは、方法300のステップS330の実装として見ることができる。
図4及び図5は、方法400及び500をそれぞれ示し、それらは、クラスタ毎に全体補償利得を返す(及び適用する)。つまり、それらは、クラスタ適応型音量正規化に関連すると言える。
これらの方法の基礎にある一般的思想は、オーディオ要素がクラスタにレンダリングされるとき、クラスタ内の各オーディオ要素(例えば、オブジェクト)の適応型利得を推定することである(利得は、クラスタを通じて均一である)。クラスタ毎に、クラスタにレンダリングされる全部のオブジェクトがクラスタに貢献する全体エネルギ(全体要素エネルギ(例えば、全体オブジェクトエネルギ)又は期待エネルギ)が計算される。次に、クラスタの実際のエネルギが計算され、最後に、全体エネルギと実際のエネルギとの間の差を縮小するように、補償利得が計算される。
図4の方法400は、この一般的思想の上位レベルの実装であると分かる。ステップS410及びS420は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。
ステップS410で、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される(例えば、計算される)。
ステップS420で、クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中のオーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得が決定される(例えば、計算される)。
図5の方法500は、方法400の特定の実装である。ステップS510~S540は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。
ステップS510で、クラスタ内のオーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第1エネルギ指標が決定される(例えば、計算される)。第1エネルギ指標は、クラスタの全体エネルギEtot_o、つまりクラスタcにレンダリングされる合計(オブジェクト)エネルギとして表されてよい。次に、クラスタcの第1エネルギ指標は、次式により与えられる:
Figure 2022521694000017
ここで、インデックスoは、クラスタc内のそれぞれのオーディオ要素を示す。
ステップS520で、オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される(例えば、計算される)。クラスタのスペクトルXcは、次式により与えられてよく:
Figure 2022521694000018
ここで、Xoはそれぞれの(動的)オーディオ要素のスペクトルであり、■は■の複素共役を示す。
ステップS530で、クラスタのスペクトルに基づき、クラスタの第2エネルギ指標が決定される。第2エネルギ指標は、クラスタの実際のエネルギEと呼ばれてよい。次に、第2エネルギ指標は、次式により与えられてよい:
Figure 2022521694000019
ステップS540で、クラスタの中のオーディオ要素毎に、補償利得の少なくとも部分として、第1エネルギ指標及び第2エネルギ指標に基づき、クラスタの全体補償利得が決定される(例えば、計算される)。この全体補償利得は、クラスタリングの前及び後で音量を同じようにするよう決定される。この目的のために、クラスタの全体補償利得は、第1エネルギ指標及び第2エネルギ指標の比の平方根として決定されてよい。例えば、クラスタの全体補償利得g1cは、次式により与えられる:
Figure 2022521694000020
この補償利得を適用するステップは、以下の合計オーディオ要素利得(合計オーディオ要素-クラスタ利得)を生じる:
Figure 2022521694000021
通常、補償利得(又はその任意の部分)は、それぞれのオーディオ要素利得に加えて使用されてよい。
ここで及び本開示の残りの部分では、補償利得はフレーム毎に(動的に)決定されてよい。つまり、補償利得は、オーディオコンテンツのフレーム毎又はフレームグループ毎に決定されてよい。更に、フレーム毎(又はグループ毎)に決定された補償利得に、円滑化(smoothing)が適用できる。
図6及び図7は、方法600及び700をそれぞれ示し、それらは、相関依存補償利得を返す(及び適用する)。つまり、それらは、相関依存要素適応型音量正規化に関連すると言える。
方法400及び500は、クラスタ毎に1つの利得を推定し、該クラスタにレンダリングされる全部のオーディオ要素について同じ利得を適用する。これに対し、方法600及び700は、要素適応型(例えば、オブジェクト適応型)利得を決定し、異なるオーディオ要素に異なる利得を適用する。この目的のために、オーディオ要素間の相関が利用される。全体的な考えは以下の通りである。オーディオ要素が他のオーディオ要素に高度に相関している場合、それは、より高い音量ブーストを導入し、従って、より小さな利得の適用がより適切になるだろう。
図6の方法600は、この一般的思想の上位レベルの実装であると分かる。ステップS610及びS620は、複数のクラスタの中の前述のクラスタ内の所与のオーディオ要素について実行される。幾つかの実施形態では、それらは、クラスタ内の各オーディオ要素について、及び/又は複数のクラスタの中の各クラスタについて実行されてよい。
ステップS610で、所与のオーディオ要素と複数のオーディオ要素のうちのいずれか(標準的に、必ずしも同じクラスタ内に存在しないが)との間の相関指標が決定される(例えば、計算される)。
ステップS620で、所与のオーディオ要素の補償利得の少なくとも部分として、クラスタ内のオーディオ要素のエネルギ指標及び所与のオーディオ要素と複数のオーディオ要素の中のいずれかとの間の相関指標に少なくとも部分的に基づき、所与のオーディオ要素の個別補償利得が決定される(例えば、計算される)。
図7の方法700は、方法600の特定の実装である。ステップS710~S740は、複数のクラスタの中の前述のクラスタ内の所与のオーディオ要素について実行される。幾つかの実施形態では、それらは、クラスタ内の各オーディオ要素について、及び/又は複数のクラスタの中の各クラスタについて実行されてよい。
ステップS710で、所与のオーディオ要素と複数のオーディオ要素のうちのいずれかとの間の相関指標が決定される(例えば、計算される)。所与のオーディオ要素oと複数のオーディオ要素の中のいずれかUとの間の相関指標rouは、次式により与えられる:
Figure 2022521694000022
ここで、o及びuは、それぞれ、所与のオーディオ要素、及び複数のオーディオ要素のうちの1つを示す。Xoは所与のオーディオ要素のスペクトルを示し、Xuは複数のオーディオ要素のうちの1つのスペクトルを示し、Eoは所与のオーディオ要素のエネルギを示し、Euは複数のオーディオ要素のうちの1つのエネルギを示す。Re(■)は■の実数部を示す。通常、rouは任意の2つのオーディオ要素o及びuの間の相関指標である。
ステップS720で、オーディオ要素uがクラスタcに貢献するエネルギ指標Eucの加重和として所与のオーディオ要素の第3エネルギ指標が決定される(例えば、計算される)。ここで、エネルギ指標の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。例えば、第3エネルギ指標aocは、次式により与えられてよい:
Figure 2022521694000023
つまり、重みは次式により与えられてよく:
Figure 2022521694000024
つまり、それらは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標の大きさにより与えられてよい。ここで、Eucは次式により与えられてよく:
Figure 2022521694000025
ここで、gucはオーディオ要素u及びクラスタcについての要素-クラスタ利得である。第3エネルギ指標aocは、クラスタcにレンダリングされる所与のオーディオ要素oの拡散エネルギとも呼ばれてよい。
ステップS730で、所与のオーディオ要素を除く複数のオーディオ要素の中のいずれかのオーディオ要素に渡る、所与のオーディオ要素がクラスタに貢献するエネルギ指標及び所与のオーディオ要素以外の複数のオーディオ要素の中のオーディオ要素がクラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、所与のオーディオ要素の第4エネルギ指標が決定される(例えば、計算される)。ここで、幾何平均の重みは、それぞれのオーディオ要素と所与のオーディオ要素との間のそれぞれの相関指標に基づいてよい。例えば、第4エネルギ指標bocは、次式により与えられてよい:
Figure 2022521694000026
第4エネルギ指標bocは、クラスタcにレンダリングされるオーディオ要素oの要素間(cross-element)(例えば、オブジェクト間(cross-object))エネルギとも呼ばれてよい。
ステップS740で、所与のオーディオ要素毎に、補償利得の少なくとも部分として、第3エネルギ指標及び第4エネルギ指標に基づき、所与のオーディオ要素の個別補償利得が決定される(例えば、計算される)。例えば、個別補償利得g1ocは、次式により与えられてよい:
Figure 2022521694000027
この個別補償利得は、音量ブーストの主要因である高度に相関したオブジェクトにより多くの減衰を効率的に与える。
例えば、相関行列が3つのオーディオ要素(例えば、オブジェクト)について次式:
Figure 2022521694000028
により与えられる簡単な例では、最初の2つのオーディオ要素はより小さな利得を受けてよい(つまり、より多くの減衰を受けてよい)。
代替として、クラスタc内のオーディオ要素oにそれぞれの個別補償利得g1ocを適用した後に、方法400及び500と同じ方法であるが、補償エネルギEo及びスペクトルXc(つまり、個別補償利得の適用後のエネルギ及びスペクトル)を使用して、期待エネルギとクラスタcの実際のエネルギとの間の差を最小化するよう、クラスタcについて全体補償利得g1cが決定できる(例えば、計算できる)。クラスタcについて、続けて個別補償利得g1ocを決定し、個別補償利得g1ocを適用し、全体補償利得g1cを決定することにより、クラスタc内のオーディオ要素o毎に、次式により補償利得g1'ocが決定できる:
Figure 2022521694000029
これは、次式により与えられる全体要素-クラスタ利得g'ocを示唆している:
Figure 2022521694000030
図8及び図9は、それぞれ、方法800及び900を示す。これらは、上述のように補償利得を返す(及び適用する)。ここで、この補償利得は、個別補償利得が所与のクラスタ内のオーディオ要素に適用された後に、決定される。つまり、方法800及び900は、相関依存要素適応型及びクラスタ適用型の音量正規化に関連すると言える。
図8の方法800は、前述の全体利得g1'ocの決定の上位レベルの実装であると分かる。ステップS810~S840は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。
ステップS810で、クラスタ内のオーディオ要素毎に、それぞれの個別補償利得が決定される(例えば、計算される)。これは、例えば方法600又は700により進行してよい。
ステップS820で、それぞれの個別補償利得がクラスタ内のオーディオ要素に適用されて、個別補償オーディオ要素を得る。
ステップS830で、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される(例えば、計算される)。
ステップS840で、クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、クラスタの中の個別補償オーディオ要素のエネルギ指標及びクラスタのスペクトルに少なくとも部分的に基づき、クラスタの全体補償利得が決定される(例えば、計算される)。
通常、方法800は、方法600/700毎に個別補償利得がクラスタ内のオーディオ要素に適用された後に、方法400/500を連続して実行することに対応すると言える。
図9の方法900は、方法800の特定の実装である。ステップS910~S960は、複数のクラスタの中の前述のクラスタについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の各クラスタについて実行されてよい。
ステップS910で、クラスタ内のオーディオ要素毎に、それぞれの個別補償利得が決定される(例えば、計算される)。これは、例えば方法600又は700により進行してよい。
ステップS920で、それぞれの個別補償利得がクラスタ内のオーディオ要素に適用されて、個別補償オーディオ要素を得る。
ステップS930で、クラスタ内の個別補償オーディオ要素がクラスタに貢献するエネルギ指標の和として、クラスタの第5エネルギ指標が決定される(例えば、計算される)。第5エネルギ指標は、上述の第1エネルギ指標に対応してよく、(初期の未補償オーディオ要素の代わりに)個別補償オーディオ要素が考慮される点が異なる。従って、これは、上述のステップS510と同様に進行してよい。
ステップS940で、個別補償オーディオ要素がクラスタに貢献するそれぞれのスペクトルに基づき、クラスタのスペクトルが決定される(例えば、計算される)。これは、上述のステップS520と同様に進行してよい。
ステップS950で、クラスタのスペクトルに基づき、クラスタの第6エネルギ指標が決定される(例えば、計算される)。第6エネルギ指標は、第2エネルギ指標に対応してよく、(初期の未補償オーディオ要素の代わりに)個別補償オーディオ要素が考慮される点が異なる。従って、これは、上述のステップS530と同様に進行してよい。
最後に、ステップS960で、クラスタの中の個別補償オーディオ要素毎に、補償利得の少なくとも部分として、第5エネルギ指標及び第6エネルギ指標に基づき、クラスタの全体補償利得が決定される(例えば、計算される)。これは、上述のステップS540と同様に進行してよい。
図10及び図11は、方法1000及び1100をそれぞれ示し、それらは、クラスタがレンダリングされる(目標)スピーカレイアウトのスピーカ毎に、全体補償利得を返す(及び適用する)。つまり、それらは、スピーカ適応型音量正規化に関連すると言える。結果として生じるスピーカ適応型利得は、上述の方法400~900により決定される利得に加えて適用できる。
全体的な思想は、再生スピーカレイアウトが分かっている場合に、起こり得る音量ブーストを更に最小化するよう適切な利得を推定するために、目標スピーカレイアウトが使用できることである。
図10の方法1000は、スピーカ固有全体補償利得の決定の上位レベルの実装であると分かる。ステップS1010~S1030は、複数のクラスタのうちの少なくとも1つがレンダリングされるスピーカについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の少なくとも1つがレンダリングされるスピーカ毎に実行されてよい。本方法におけるオーディオ要素は、元の/初期オーディオ要素、又は前述の補償利得のうちのいずれかにより補償されたオーディオ要素(例えば、個別補償オーディオ要素、等)であってよい。
ステップS1010で、オーディオ要素がスピーカの出力(例えば、出力信号、スピーカチャネル信号)に貢献するそれぞれのエネルギ指標が決定される(例えば、計算される)。
ステップS1020で、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルが決定される(例えば、計算される)。
ステップS1030で、オーディオ要素がスピーカの出力に貢献するエネルギ指標及びスピーカの出力のスペクトルに少なくとも部分的に基づき、スピーカの全体補償利得が決定される(例えば、計算される)。
図11の方法1100は、方法1000の特定の実装である。方法は、所与のスピーカチャネルにレンダリングされる合計要素エネルギ(例えば、オブジェクトエネルギ)を計算し、スピーカチャネルが受信/形成する信号の実際のスペクトル及び実際のエネルギを計算するステップを含む。従って、スピーカ依存補償利得が、応答して計算できる。
ステップS1110~S1150は、複数のクラスタのうちの少なくとも1つがレンダリングされるスピーカについて実行される。幾つかの実施形態では、それらは、複数のクラスタの中の少なくとも1つがレンダリングされるスピーカ毎に実行されてよい。本方法におけるオーディオ要素は、元の/初期オーディオ要素、又は前述の補償利得のうちのいずれかにより補償されたオーディオ要素(例えば、個別補償オーディオ要素、等)であってよい。
ステップS1110で、オーディオ要素がスピーカの出力(例えば、出力信号、スピーカチャネル信号)に貢献するそれぞれのエネルギ指標が決定される(例えば、計算される)。
ステップS1120で、オーディオ要素がスピーカの出力に貢献するそれぞれのエネルギ指標に基づき、スピーカの出力の第7エネルギ指標が決定される(例えば、計算される)。第7エネルギ指標は、スピーカ(スピーカチャネル)sによりレンダリングされることが予想される全体要素エネルギ(例えば、オブジェクトエネルギ)と呼ばれてよい。例えば、第7エネルギ指標は、次式により与えられてよい:
Figure 2022521694000031
ここで、要素-スピーカ利得gosは、複数のオーディオ要素の中のオーディオ要素o及びスピーカ(スピーカチャネル)sについてのものである(つまり、スピーカ(スピーカチャネル)sにレンダリングされるオーディオ要素oの部分)。
ステップS1130で、オーディオ要素がスピーカの出力に貢献するそれぞれのスペクトルに基づき、スピーカの出力のスペクトルが決定される(例えば、計算される)。スピーカsの出力のスペクトルXcls→spkは、スピーカ(スピーカチャネル)sが受信する実際の信号として表されてよい。それは次式により与えられる:
Figure 2022521694000032
ここで、インデックスcはクラスタを示し、Xoは所与のオーディオ要素oのスペクトルを示し、gcsはクラスタc及びスピーカsについてのクラスタ-スピーカ利得であり、gocはクラスタc及びクラスタ内のオーディオ要素oについての要素-クラスタ利得である。従って、スピーカsの出力のスペクトルXcls→spkは、2つのステップから生成されてよい。第1ステップでは、オーディオ要素(例えば、オブジェクト)は、クラスタにクラスタリングされ(例えば、レンダリングされ)、第2ステップでは、クラスタがスピーカにレンダリングされる。
ステップS1140で、スピーカの出力のスペクトルに基づき、スピーカの出力の第8エネルギ指標が決定される(例えば、計算される)。第8エネルギ指標は、スピーカ(スピーカチャネル)内の(実際の)エネルギと呼ばれてよい。それは次式により与えられる:
Figure 2022521694000033
ステップS1150で、第7エネルギ指標及び第8エネルギ指標に基づき、スピーカの全体補償利得が決定される(例えば、計算される)。スピーカの全体補償利得は、第7エネルギ指標及び第8エネルギ指標の比の平方根として決定されてよい。例えば、スピーカの全体補償利得g2ocは、次式により与えられる:
Figure 2022521694000034
上述のように、全体補償利得g2ocは、方法400/500、600/700、又は800/900で取得された補償利得のいずれかと結合され、元の要素-クラスタ利得に加えて適用できる。つまり、結果として生じる要素-クラスタ利得は、次式により与えられる:
Figure 2022521694000035
上述の補償利得のいずれかを更に安定的に且つ混乱しないものにするために、コンプレッサ(例えば、ダイナミックレンジコンプレッサ、リミッタ)が取得された補償利得に適用され得る。例えば、補償利得の最小及び最大値が制限され得る。従って、本開示の実施形態による方法(例えば、方法300、400/500、600/700、800/900、又は1000/1100)は、それぞれのオーディオ要素に補償利得を適用する前に、決定した補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップを含んでよい。例えば、利得値は、範囲(0.25,4)、つまりデシベル領域では[-6dB,6dB]に限定されることができる。
幾つかの実施形態では、緩和(relax)パラメータが追加できる。期待エネルギ(第1又は第5エネルギ指標)とクラスタの実際のエネルギ(第2又は第6エネルギ指標)との間の差が耐性閾値、つまり例えば1dBより小さい場合、その差は受け入れることができ、そのクラスタの全体補償利得は1(単一、unity)に設定できる。この場合、クラスタの全体補償利得は、差が大きいときにのみ適用される。
通常、本開示の実施形態による方法(例えば、方法300、400/500、600/700、800/900、又は1000/1100)は、期待エネルギとそれぞれのクラスタの実際のエネルギとの間の差が、差の所定の閾値より小さいかどうかに依存して、補償利得を単一に設定するステップを更に含んでよい。つまり、差が所定の閾値より小さい場合、補償利得は、単一(つまり、追加補償が無い)に設定されてよい。
更に、本開示による幾つかの実施形態では、音量ブーストを緩和し得る拡張動作が適用されてよい。
第1拡張動作は、サイズオブジェクトに対する非相関量を増大させることに関する。従来、サイズオブジェクトが内部ベッドにプリベークされるとき、音声の音色と自然さを保つために、ベッドは伝統的に非相関される。しかしながら、相関した信号がクラスタ内で音響的に加算され得るので、これは音量ブーストの可能性を増大し得る。非相関量の増大は、(音色の変化を犠牲にする可能性があるが)音量ブーストを低減し得る。
従って、本開示の実施形態による方法(例えば、方法300、400/500、600/700、800/900、又は1000/1100)は、複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップを更に含んでよい。追加の非相関は、特に内部ベッドチャネルに(つまり、内部ベッドチャネルに対応するオーディオ要素に)適用されてよい。
第2拡張動作は、サブバンド利得推定に関する。上述の方法(例えば、方法300、400/500、600/700、800/900、又は1000/1100)により推定/決定された利得は、広帯域利得であるが(つまり、同じ利得が全部の周波数ビンに適用される)、(例えば、ERBレートに基づき分割された)サブバンドから利得を推定することが有用であり得る。理由は、異なるサブバンドが知覚的に異なる役割を果たすことがあり、サブバンド固有の方法が、音量差及びオブジェクト相関を推定するためにより高い周波数分解能を提供し得るからである。
従って、本開示の実施形態による方法(例えば、方法300、400/500、600/700、800/900、又は1000/1100)では、補償利得は、複数の周波数サブバンドの各々において決定されてよい。
第3拡張動作は、音量ドメイン利得推定に関する。上述の方法の幾つかは(音量に関連する)エネルギドメインで利得を推定するが、利得は、より直接的な方法で音量ブースト問題を解決するために、音量ドメインで推定/決定されてよい。オブジェクトのスペクトルから音量を計算することがよく知られている。従って、Eo及びEcのようなエネルギを音量Lo及びLcにより単に置き換えることにより、それぞれの音量利得を計算することは直接的である。
従って、本開示の実施形態による方法(例えば、方法300、400/500、600/700、800/900、又は1000/1100)では、エネルギ指標は、音量の指標であってよい。
本開示は、プロセッサと、該プロセッサに結合され該プロセッサによる実行のための命令を格納しているメモリと、を含む機器に更に関する。プロセッサは、上述の方法のいずれかのステップを実行するよう構成されてよい。本開示の実施形態による方法に関する上述の任意の説明は、これらの機器に同様に適用されることが理解される。
本開示は、命令を含むコンピュータプログラムであって、該命令は、命令を実行するプロセッサに、上述の方法のいずれかのステップを実行させる、コンピュータプログラムに更に関する。本開示の実施形態による方法に関する上述の任意の説明は、これらのコンピュータプログラムに同様に適用されることが理解される。
本開示は、前述のコンピュータプログラムを格納しているコンピュータ可読記憶媒体に更に関する。本開示の実施形態による方法に関する上述の任意の説明は、これらのコンピュータ可読記憶媒体に同様に適用されることが理解される。
シミュレーション及び試聴により検証されたように、クラスタ適応型音量正規化は、音量ブーストを大幅に軽減でき、目標スピーカレイアウトに依存する音量正規化の追加は、クラスタリング品質を更に向上できる。
本発明の種々の態様及び実装は、請求されない以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)から明らかであり得る。
EEE1は、複数のオーディオ要素を含むオーディオコンテンツを処理する方法であって、前記方法は、
前記複数のオーディオ要素をオーディオ要素の複数のクラスタにクラスタリングするステップと、
前記複数のクラスタの中のクラスタについて、
前記クラスタの中のオーディオ要素毎に、前記オーディオ要素が前記クラスタに貢献するエネルギ指標を決定するステップと、
前記クラスタの中の少なくとも1つのオーディオ要素について、前記クラスタの中の前記オーディオ要素の前記エネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップと、
前記クラスタの中の前記少なくとも1つのオーディオ要素に前記補償利得を適用するステップと、
を含む方法に関連する。
EEE2は、オーディオ要素が前記クラスタcに貢献する前記エネルギ指標は、
Figure 2022521694000036
により与えられ、ここで、Eoは前記オーディオ要素のエネルギであり、gocは前記オーディオ要素oの要素-クラスタ利得である、EEE1に記載の方法に関連する。
EEE3は、前記複数のクラスタの中の前記クラスタについて、
前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの中のオーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むEEE1又は2に記載の方法に関連する。
EEE4は、前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中の前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第1エネルギ指標を決定するステップと、
前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの前記スペクトルに基づき、前記クラスタの第2エネルギ指標を決定するステップと、
前記クラスタの中のオーディオ要素毎の前記補償利得の少なくとも部分として、前記第1エネルギ指標及び前記第2エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むEEE1又は2に記載の方法。
EEE5は、前記クラスタの前記第1エネルギ指標は、次式により与えられ:
Figure 2022521694000037
及び/又は、前記第2エネルギ指標は次式により与えられ:
Figure 2022521694000038
ここで、インデックスoは前記クラスタの中のそれぞれのオーディオ要素を示し、
Figure 2022521694000039
は前記クラスタの前記スペクトルであり、Xoは前記それぞれのオーディオ要素の前記スペクトルであり、■*は■の複素共役である、EEE2に従属するEEE4に記載の方法に関連する。
EEE6は、前記クラスタの前記全体補償利得は、前記第1エネルギ指標及び前記第2エネルギ指標の比の平方根として決定される、EEE4又は5に記載の方法に関連する。
EEE7は、前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の前記相関指標に少なくとも部分的に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
を含むEEE1又は2に記載の方法に関連する。
EEE8は、前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の加重和として、前記所与のオーディオ要素の第3エネルギ指標を決定するステップであって、前記エネルギ指標の前記加重和は、前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
前記所与のオーディオ要素を除く前記複数のオーディオ要素の中のいずれかのオーディオ要素に渡り、前記所与のオーディオ要素が前記クラスタに貢献する前記エネルギ指標及び前記所与のオーディオ要素を除く前記複数のオーディオ要素の中の前記オーディオ要素が前記クラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、前記所与のオーディオ要素の第4エネルギ指標を決定するステップであって、前記幾何平均の重みは前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記第3エネルギ指標及び前記第4エネルギ指標に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
を含むEEE1又は2に記載の方法に関連する。
EEE9は、前記所与のオーディオ要素と前記複数のオーディオ要素のいずれかとの間の前記相関指標は次式により与えられ:
Figure 2022521694000040
ここで、インデックスo及びuは、前記所与のオーディオ要素及び前記複数のオーディオ要素のうちの1つを示し、Xoは前記所与のオーディオ要素のスペクトルであり、Xuは前記複数のオーディオ要素のうちの1つのスペクトルであり、Eoは前記所与のオーディオ要素のエネルギであり、Euは前記複数のオーディオ要素のうちの1つのエネルギであり、前記第3エネルギ指標は次式により与えられ:
Figure 2022521694000041
及び/又は前記第4エネルギ指標は次式により与えられる:
Figure 2022521694000042
EEE2に従属するEEE8に記載の方法に関連する。
EEE10は、前記個別補償利得が次式により与えられる:
Figure 2022521694000043
EEE9に記載の方法に関連する。
EEE11は、前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中のオーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの中の個別補償オーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記個別補償オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むEEE7~EEE10のいずれか一項に記載の方法に関連する。
EEE12は、前記複数のクラスタの中の前記クラスタについて、
前記クラスタの中の前記オーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
前記クラスタの中の前記個別補償オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第5エネルギ指標を決定するステップと、
前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
前記クラスタの前記スペクトルに基づき、前記クラスタの第6エネルギ指標を決定するステップと、
前記クラスタの中の個別補償オーディオ要素毎の前記補償利得の少なくとも部分として、前記第5エネルギ指標及び前記第6エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
を含むEEE7~EEE10のいずれか一項に記載の方法に関連する。
EEE13は、前記クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、
前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献する前記エネルギ指標及び前記スピーカの前記出力の前記スペクトルに少なくとも部分的に基づき、前記スピーカの全体補償利得を決定するステップと、
を更に含むEEE1~12に記載の方法に関連する。
EEE14は、前記クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、
前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献する前記それぞれのエネルギ指標に基づき、前記スピーカの前記出力の第7エネルギ指標を決定するステップと、
前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
前記スピーカの前記出力の前記スペクトルに基づき、前記スピーカの前記出力の第8エネルギ指標を決定するステップと、
前記第7エネルギ指標及び前記第8エネルギ指標に基づき、前記スピーカの全体補償利得を決定するステップと、
を更に含むEEE1~EEE12のいずれか一項に記載の方法に関連する。
EEE15は、前記第7エネルギ指標は次式により与えられ:
Figure 2022521694000044
要素-スピーカ利得gosは前記複数のオーディオ要素の中のオーディオ要素o及び前記スピーカsについてであり、前記スピーカの前記出力の前記スペクトルは次式により与えられ:
Figure 2022521694000045
インデックスcはクラスタを示し、Xoは所与のオーディオ要素oのスペクトルを示し、gcsはクラスタc及びスピーカsについてのクラスタ-スピーカ利得であり、gocはクラスタc及び該クラスタ内のオーディオ要素oについての要素-クラスタ利得であり、及び/又は前記第8エネルギ指標は次式により与えられる:
Figure 2022521694000046
EEE14に記載の方法に関連する。
EEE16は、前記スピーカの前記全体補償利得は、前記第7エネルギ指標及び前記第8エネルギ指標の比の平方根として決定される、EEE14又は15に記載の方法に関連する。
EEE17は、前記補償利得は、前記オーディオコンテンツのフレーム毎に又はフレームグループ毎に決定される、EEE1~16のいずれか一項に記載の方法に関連する。
EEE18は、前記複数のオーディオ要素を前記複数のクラスタにクラスタリングするステップは、
前記複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップと、
前記複数の中間クラスタを前記複数のクラスタにクラスタリングするステップと
を含む、EEE1~17のいずれか一項に記載の方法に関連する。
EEE19は、前記補償利得をそれぞれのオーディオ要素に適用する前に、前記の決定された補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップ、
を更に含むEEE1~18のいずれか一項に記載の方法に関連する。
EEE20は、期待エネルギとそれぞれのクラスタの実際のエネルギとの間の差が前記差の所定の閾値より小さいかどうかに依存して、前記補償利得を単一に設定するステップ、
を更に含むEEE1~19のいずれか一項に記載の方法に関連する。
EEE21は、前記複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップ、
を更に含むEEE1~20のいずれか一項に記載の方法に関連する。
EEE22は、前記補償利得は、複数の周波数サブバンドの各々において決定される、EEE1~21のいずれか一項に記載の方法に関連する。
EEE23は、前記エネルギ指標は音量の指標である、EEE1~22のいずれか一項に記載の方法に関連する。
EEE24は、機器であって、プロセッサと、前記プロセッサに結合され前記プロセッサによる実行のための命令を格納しているメモリとを含み、前記プロセッサは、EEE1~23のいずれか一項に記載の方法の方法ステップを実行するよう構成される、機器に関連する。
EEE25は、命令を含むコンピュータプログラムであって、前記命令は、プロセッサにより実行されると、前記プロセッサに、EEE1~EEE23のいずれか一項に記載のオーディオコンテンツを処理する方法を実行させる、コンピュータプログラムに関連する。
EEE26は、EEE25に記載のコンピュータプログラムを記憶しているコンピュータ可読媒体に関連する。

Claims (27)

  1. 複数のオーディオ要素を含むオーディオコンテンツを処理する方法であって、前記方法は、
    前記複数のオーディオ要素をオーディオ要素の複数のクラスタにクラスタリングするステップと、
    前記複数のクラスタの中のクラスタについて、
    前記クラスタの中のオーディオ要素毎に、前記オーディオ要素が前記クラスタに貢献するエネルギ指標を決定するステップと、
    前記クラスタの中の少なくとも1つのオーディオ要素について、前記クラスタの中の前記オーディオ要素の前記エネルギ指標に少なくとも部分的に基づき、補償利得を決定するステップと、
    前記クラスタの中の前記少なくとも1つのオーディオ要素に前記補償利得を適用するステップと、
    を含む方法。
  2. オーディオ要素が前記クラスタcに貢献する前記エネルギ指標は、
    Figure 2022521694000047
    により与えられ、ここで、Eoは前記オーディオ要素のエネルギであり、gocは前記オーディオ要素oの要素-クラスタ利得である、請求項1に記載の方法。
  3. 前記複数のクラスタの中の前記クラスタについて、
    前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
    前記クラスタの中のオーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
    を含む請求項1又は2に記載の方法。
  4. 前記複数のクラスタの中の前記クラスタについて、
    前記クラスタの中の前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第1エネルギ指標を決定するステップと、
    前記オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
    前記クラスタの前記スペクトルに基づき、前記クラスタの第2エネルギ指標を決定するステップと、
    前記クラスタの中のオーディオ要素毎の前記補償利得の少なくとも部分として、前記第1エネルギ指標及び前記第2エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
    を含む請求項1又は2に記載の方法。
  5. 前記クラスタの前記第1エネルギ指標は、次式により与えられ:
    Figure 2022521694000048
    及び/又は、前記第2エネルギ指標は次式により与えられ:
    Figure 2022521694000049
    ここで、インデックスoは前記クラスタの中のそれぞれのオーディオ要素を示し、
    Figure 2022521694000050
    は前記クラスタの前記スペクトルであり、Xoは前記それぞれのオーディオ要素の前記スペクトルであり、■*は■の複素共役である、請求項2に従属する請求項4に記載の方法。
  6. 前記クラスタの前記全体補償利得は、前記第1エネルギ指標及び前記第2エネルギ指標の比の平方根として決定される、請求項4又は5に記載の方法。
  7. 前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
    前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
    前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記クラスタの中の前記オーディオ要素の前記エネルギ指標及び前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の前記相関指標に少なくとも部分的に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
    を含む請求項1又は2に記載の方法。
  8. 前記複数のクラスタの中の前記クラスタの中の所与のオーディオ要素について、
    前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標を決定するステップと、
    前記オーディオ要素が前記クラスタに貢献する前記エネルギ指標の加重和として、前記所与のオーディオ要素の第3エネルギ指標を決定するステップであって、前記エネルギ指標の前記加重和は、前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
    前記所与のオーディオ要素を除く前記複数のオーディオ要素の中のいずれかのオーディオ要素に渡り、前記所与のオーディオ要素が前記クラスタに貢献する前記エネルギ指標及び前記所与のオーディオ要素を除く前記複数のオーディオ要素の中の前記オーディオ要素が前記クラスタに貢献するそれぞれのエネルギ指標の幾何平均の加重和として、前記所与のオーディオ要素の第4エネルギ指標を決定するステップであって、前記幾何平均の重みは前記それぞれのオーディオ要素と前記所与のオーディオ要素との間のそれぞれの相関指標に基づく、ステップと、
    前記所与のオーディオ要素の前記補償利得の少なくとも部分として、前記第3エネルギ指標及び前記第4エネルギ指標に基づき、前記所与のオーディオ要素の個別補償利得を決定するステップと、
    を含む請求項1又は2に記載の方法。
  9. 前記所与のオーディオ要素の前記個別補償利得は、前記所与のオーディオ要素と前記複数のオーディオ要素の中のいずれかとの間の相関指標が大きいほど前記所与のオーディオ要素の個別補償利得が小さくなるように決定される、請求項7又は8に記載の方法。
  10. 前記所与のオーディオ要素と前記複数のオーディオ要素のいずれかとの間の前記相関指標は次式により与えられ:
    Figure 2022521694000051
    ここで、インデックスo及びuは、前記所与のオーディオ要素及び前記複数のオーディオ要素のうちの1つを示し、Xoは前記所与のオーディオ要素のスペクトルであり、Xuは前記複数のオーディオ要素のうちの1つのスペクトルであり、Eoは前記所与のオーディオ要素のエネルギであり、Euは前記複数のオーディオ要素のうちの1つのエネルギであり、前記第3エネルギ指標は次式により与えられ:
    Figure 2022521694000052
    及び/又は、前記第4エネルギ指標は次式により与えられる:
    Figure 2022521694000053
    請求項2に従属する請求項8に記載の方法。
  11. 前記個別補償利得は次式により与えられる:
    Figure 2022521694000054
    請求項10に記載の方法。
  12. 前記複数のクラスタの中の前記クラスタについて、
    前記クラスタの中のオーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
    それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
    前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
    前記クラスタの中の個別補償オーディオ要素毎に、前記補償利得の少なくとも部分として、前記クラスタの中の前記個別補償オーディオ要素の前記エネルギ指標及び前記クラスタの前記スペクトルに少なくとも部分的に基づき、前記クラスタの全体補償利得を決定するステップと、
    を含む請求項7~11のいずれか一項に記載の方法。
  13. 前記複数のクラスタの中の前記クラスタについて、
    前記クラスタの中の前記オーディオ要素毎に、それぞれの個別補償利得を決定するステップと、
    それぞれの個別補償利得を前記クラスタの中の前記オーディオ要素に適用して、個別補償オーディオ要素を取得するステップと、
    前記クラスタの中の前記個別補償オーディオ要素が前記クラスタに貢献する前記エネルギ指標の和として、前記クラスタの第5エネルギ指標を決定するステップと、
    前記個別補償オーディオ要素が前記クラスタに貢献するそれぞれのスペクトルに基づき、前記クラスタのスペクトルを決定するステップと、
    前記クラスタの前記スペクトルに基づき、前記クラスタの第6エネルギ指標を決定するステップと、
    前記クラスタの中の個別補償オーディオ要素毎の前記補償利得の少なくとも部分として、前記第5エネルギ指標及び前記第6エネルギ指標に基づき、前記クラスタの全体補償利得を決定するステップと、
    を含む請求項7~11のいずれか一項に記載の方法。
  14. 前記クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、
    前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
    前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
    前記オーディオ要素が前記スピーカの前記出力に貢献する前記エネルギ指標及び前記スピーカの前記出力の前記スペクトルに少なくとも部分的に基づき、前記スピーカの全体補償利得を決定するステップと、
    を更に含む請求項1~13のいずれか一項に記載の方法。
  15. 前記クラスタのうちの少なくとも1つがレンダリングされるスピーカについて、
    前記オーディオ要素が前記スピーカの出力に貢献するそれぞれのエネルギ指標を決定するステップと、
    前記オーディオ要素が前記スピーカの前記出力に貢献する前記それぞれのエネルギ指標に基づき、前記スピーカの前記出力の第7エネルギ指標を決定するステップと、
    前記オーディオ要素が前記スピーカの前記出力に貢献するそれぞれのスペクトルに基づき、前記スピーカの前記出力のスペクトルを決定するステップと、
    前記スピーカの前記出力の前記スペクトルに基づき、前記スピーカの前記出力の第8エネルギ指標を決定するステップと、
    前記第7エネルギ指標及び前記第8エネルギ指標に基づき、前記スピーカの全体補償利得を決定するステップと、
    を更に含む請求項1~13のいずれか一項に記載の方法。
  16. 前記第7エネルギ指標は次式により与えられ:
    Figure 2022521694000055
    要素-スピーカ利得gosは前記複数のオーディオ要素の中のオーディオ要素o及び前記スピーカsについてであり、前記スピーカの前記出力の前記スペクトルは次式により与えられ:
    Figure 2022521694000056
    インデックスcはクラスタを示し、Xoは所与のオーディオ要素oのスペクトルを示し、gcsはクラスタc及びスピーカsについてのクラスタ-スピーカ利得であり、gocはクラスタc及び該クラスタ内のオーディオ要素oについての要素-クラスタ利得であり、及び/又は前記第8エネルギ指標は次式により与えられる:
    Figure 2022521694000057
    請求項15に記載の方法。
  17. 前記スピーカの前記全体補償利得は、前記第7エネルギ指標及び前記第8エネルギ指標の比の平方根として決定される、請求項15又は16に記載の方法。
  18. 前記補償利得は、前記オーディオコンテンツのフレーム毎に又はフレームグループ毎に決定される、請求項1~17のいずれか一項に記載の方法。
  19. 前記複数のオーディオ要素を前記複数のクラスタにクラスタリングするステップは、
    前記複数のオーディオ要素を複数の中間クラスタにクラスタリングするステップと、
    前記複数の中間クラスタを前記複数のクラスタにクラスタリングするステップと
    を含む、請求項1~18のいずれか一項に記載の方法。
  20. 前記補償利得をそれぞれのオーディオ要素に適用する前に、前記の決定された補償利得にダイナミックレンジコンプレッサ又はリミッタを適用するステップ、
    を更に含む請求項1~19のいずれか一項に記載の方法。
  21. 期待エネルギとそれぞれのクラスタの実際のエネルギとの間の差が前記差の所定の閾値より小さいかどうかに依存して、前記補償利得を単一に設定するステップ、
    を更に含む請求項1~20のいずれか一項に記載の方法。
  22. 前記複数のオーディオ要素の中の、サイズについての所定の閾値を超える空間サイズを有するオーディオ要素の間の非相関を増大するステップ、
    を更に含む請求項1~21のいずれか一項に記載の方法。
  23. 前記補償利得は、複数の周波数サブバンドの各々において決定される、請求項1~22のいずれか一項に記載の方法。
  24. 前記エネルギ指標は音量の指標である、請求項1~23のいずれか一項に記載の方法。
  25. 機器であって、プロセッサと、前記プロセッサに結合され前記プロセッサによる実行のための命令を格納しているメモリとを含み、前記プロセッサは、請求項1~24のいずれか一項に記載の方法の方法ステップを実行するよう構成される、機器。
  26. 命令を含むコンピュータプログラムであって、前記命令は、プロセッサにより実行されると、前記プロセッサに、請求項1~24のいずれか一項に記載のオーディオコンテンツを処理する方法を実行させる、コンピュータプログラム。
  27. 請求項26に記載のコンピュータプログラムを記憶しているコンピュータ可読媒体。
JP2021547121A 2019-02-13 2020-02-12 オーディオオブジェクトクラスタリングのための適応型音量正規化 Pending JP2022521694A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2019074915 2019-02-13
CNPCT/CN2019/074915 2019-02-13
US201962814718P 2019-03-06 2019-03-06
US62/814,718 2019-03-06
EP19161889 2019-03-11
EP19161889.1 2019-03-11
PCT/US2020/017953 WO2020167966A1 (en) 2019-02-13 2020-02-12 Adaptive loudness normalization for audio object clustering

Publications (1)

Publication Number Publication Date
JP2022521694A true JP2022521694A (ja) 2022-04-12

Family

ID=69780347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021547121A Pending JP2022521694A (ja) 2019-02-13 2020-02-12 オーディオオブジェクトクラスタリングのための適応型音量正規化

Country Status (5)

Country Link
US (1) US11930347B2 (ja)
EP (1) EP3925236A1 (ja)
JP (1) JP2022521694A (ja)
CN (1) CN113366865B (ja)
WO (1) WO2020167966A1 (ja)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5185254B2 (ja) 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
ATE539434T1 (de) * 2006-10-16 2012-01-15 Fraunhofer Ges Forschung Vorrichtung und verfahren für mehrkanalparameterumwandlung
US8143620B1 (en) * 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
EP2686654A4 (en) 2011-03-16 2015-03-11 Dts Inc CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES
US9312829B2 (en) * 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
BR122021021487B1 (pt) 2012-09-12 2022-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
CN104885151B (zh) 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
CN103199881B (zh) 2013-04-11 2015-07-29 海能达通信股份有限公司 自动增益控制方法、系统和接收机
US9247342B2 (en) * 2013-05-14 2016-01-26 James J. Croft, III Loudspeaker enclosure system with signal processor for enhanced perception of low frequency output
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9712939B2 (en) 2013-07-30 2017-07-18 Dolby Laboratories Licensing Corporation Panning of audio objects to arbitrary speaker layouts
CN110797037A (zh) * 2013-07-31 2020-02-14 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
WO2018017394A1 (en) * 2016-07-20 2018-01-25 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
US10764704B2 (en) * 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers

Also Published As

Publication number Publication date
CN113366865B (zh) 2023-03-21
WO2020167966A1 (en) 2020-08-20
US11930347B2 (en) 2024-03-12
EP3925236A1 (en) 2021-12-22
US20220159395A1 (en) 2022-05-19
CN113366865A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
EP3739908B1 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
US20190057713A1 (en) Methods and apparatus for decoding based on speech enhancement metadata
US20090304189A1 (en) Rendering Center Channel Audio
KR20070027692A (ko) 다채널 출력신호 생성 장치 및 방법
AU2010332925A1 (en) SBR bitstream parameter downmix
JP2022526271A (ja) ラウドネスレベルを制御するオーディオ信号処理方法及び装置
US11051119B2 (en) Stereophonic sound reproduction method and apparatus
US20150334500A1 (en) Producing a multichannel sound from stereo audio signals
US11031024B2 (en) Spatially aware multiband compression system with priority
JP2022521694A (ja) オーディオオブジェクトクラスタリングのための適応型音量正規化
IL225858A (en) Restrict mixing down
KR102089821B1 (ko) 다중 채널 음성 시스템 내에서 다중 채널 음성을 처리하기 위한 방법
KR101296765B1 (ko) 스피커와 청취자 위치를 반영한 능동적 오디오 매트릭스 디코딩 방법 및 장치
CN109791773B (zh) 音频输出产生系统、音频通道输出方法和计算机可读介质
KR102443055B1 (ko) 입체 음향 재생 방법 및 장치
KR102380232B1 (ko) 입체 음향 재생 방법 및 장치
EP3725100B1 (en) Spatially aware dynamic range control system with priority
US20210151068A1 (en) Mixing apparatus, mixing method, and mixing program
AU2013242852B2 (en) Sbr bitstream parameter downmix
KR20240014462A (ko) 공간 오디오 객체의 동적 범위 조정
JP2018101824A (ja) マルチチャンネル音響の音声信号変換装置及びそのプログラム

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20210811

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402