JP6982604B2

JP6982604B2 - 符号化されたオーディオメタデータに基づくラウドネス等化及びｄｒｃ中の動的等化

Info

Publication number: JP6982604B2
Application number: JP2019173808A
Authority: JP
Inventors: フランクバウムガルテ
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2015-09-30
Filing date: 2019-09-25
Publication date: 2021-12-17
Anticipated expiration: 2036-09-26
Also published as: CN114070217A; US20190327558A1; CN107925391A; KR20190055272A; JP2020008878A; KR101981437B1; KR20180034565A; JP6595099B2; US10785569B2; US10341770B2; EP3329592A1; EP3329592B1; CN107925391B; US20170094409A1; JP2018533046A; WO2017058731A1

Description

本出願は、２０１５年９月３０日出願の、米国仮特許出願第６２／２３５，２９３号の出願日遡及の特典を主張する。

本発明の実施形態は、聴き手の経験を改善するために、メタデータに関連付けられたデジタルオーディオコンテンツの再生側でのデジタルオーディオ信号処理に関する。他の実施形態も記載される。

映画の音楽やサウンドトラックなどのオーディオコンテンツは、通常、特定の再生レベル（例えば、聴き手の位置で、オーディオコンテンツのプロデューサが意図したものと同じ音圧レベルを得るために、その初期又は復号化された形式からスピーカによって音声に変換されるときまでの間の、再生中のオーディオ信号に適用される「全体ゲイン」。）を前提として生成される。異なる再生レベルが使用される場合、コンテンツはより大音量で又はより小音量で聞こえるだけでなく、異なるトーン特性を有するようにも感じられ得る。心理音響学から知られている効果は、低い周波数においては、再生レベルに対するラウドネス知覚は非線形的に増加することである。この効果は、知覚された等ラウドネス曲線によって、並びに再生レベル及び信号特性の関数としての知覚されたラウドネスの測定によって、定量化され得る。一般的に、コンテンツがプロデューサが意図したレベルより低いレベルで再生されるとき、他の周波数と比較して低周波数成分の部分的な損失が報告されている。従来、ラウドネス等化は、再生音量の設定に応じて低周波数帯域をブーストする適応フィルタによって行われた。多くの古いオーディオレシーバは、そのように動作する「ラウドネス」ボタンを有する。

メタデータベースのラウドネス等化（ＥＱ）のためのいくつかのスキームを以下に記載する。そのいくつかは、例えば、再生側の複雑さが軽減され、遅延が少なくなり、品質が向上するなどの、１つ以上利点を有することができる。いくつかの品質改善は、符号化側でのオフライン処理によるものであり、再生デバイスにおけるリアルタイム処理の制限及び低遅延要件によって限定されない。本明細書に記載されたメタデータベースのアプローチは、既存のＭＰＥＧ−ＤＤＲＣｓｔａｎｄａｒｄ，ＩＳＯ／ＩＥＣ，「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ−Ｐａｒｔ４：Ｄｙｎａｍｉｃｒａｎｇｅｃｏｎｔｒｏｌ，」ＩＳＯ／ＩＥＣ２３００３−４：２０１５、にシームレスに統合されてもよく、ダイナミックレンジ制御と共同する。

ＤＲＣプロセス内に動的ＥＱを提供するアプローチも記載される。それは、マルチバンドＤＲＣと同様のＥＱを達成することができるが、より少数のバンド又は単一バンドのみのＤＲＣである。動的ＥＱはメタデータによって制御されてもよく、一般的なＭＰＥＧ−ＤＤＲＣ規格に統合され得る。

上述の概要は、本発明のすべての態様の網羅的なリストを含んでいない。本発明は、上でまとめた様々な態様のすべての適切な組み合わせによって実施できるすべてのシステム及び方法、並びに以下の「発明を実施するための形態」で開示されるもの、特に本出願と共に提出された請求項に指摘されるものを含むと考えられる。そのような組み合わせは、上記概要に具体的に記載されていない特定の利点を有する。

本発明の実施形態は、同様の参照符号が同様の要素を示す添付の図面に例として限定としてではなく示されている。本開示における本発明の「一」実施形態又は「一つの」実施形態への言及は、必ずしも同じ実施形態に対するものではなく、それらは、少なくとも１つの実施形態を意味することに留意されたい。また、簡潔さ及び図の総数の低減のために、所与の図を使用して、本発明の複数の実施形態の特徴を例示することができ、図中のすべての要素が所与の実施形態に対して必要とされなくてもよい。

オーディオコンテンツの受信メタデータから導出された瞬時ラウドネス値に基づく復号化側ラウドネス等化器のブロック図である。瞬時ラウドネス値を含むメタデータを生成するための制作又は符号化側システムのブロック図である。ＤＲＣゲイン値を計算するために符号化側で、及びその逆の形で復号化側で、使用され得るいくつかの例示的なＤＲＣ特性を示す。ラウドネス等化フィルタの適応のために、復号化側で瞬時ラウドネス値を生成するために逆ＤＲＣ特性がどのように使用されるかを示す図である。ダイナミックレンジ圧縮及びラウドネス等化がオーディオコンテンツに適用されている復号化側を示す。オーディオコンテンツにダイナミックレンジ圧縮と動的等化が適用されている復号化側を示す。復号化側におけるラウドネス等化のための別のシステムのブロック図である。

本発明のいくつかの実施形態を、添付図面を参照してここに説明する。実施形態に記載される部品の形状、相対位置、及び他の態様が明瞭には規定されない場合はいつでも、本発明の範囲は、示した部品のみに限定されず、その部品は、単に説明目的のためであることが意味される。多くの詳細が説明されるが、本発明のいくつかの実施形態は、これらの詳細なしに実施され得ることも理解される。他の事例では、本明細書の理解を妨げないように、周知の回路、構造、及び技術は詳細には示していない。

背景技術の項で紹介した従来の「ラウドネス」ボタン機構は、聴き手によって報告された低周波数帯域損失量が、聴き手におけるその周波数帯域の音響レベルに依存し、それはオーディオコンテンツ自体に依存するという重要な問題を無視している。本発明の実施形態は、（スピーカを駆動する前に）オーディオ信号が通過させられる時間的に変化するフィルタを制御するために、オーディオコンテンツのスペクトル帯域の時間的に変化するレベルを考慮に入れたラウドネス等化スキームである。時間的に変化するフィルタ（本明細書では等化フィルタとも呼ばれるスペクトル整形フィルタ）は、再生レベル及び周波数帯域に対してラウドネス知覚が非線形的であることによって現れるスペクトルのゆがみを補償することを目的とする。

再生されているオーディオコンテンツに関連付けられたメタデータに基づいて動作するラウドネス等化器の概念を示すブロック図を図１に示す。この図（及び本明細書の他の図面における全ての図）は、デジタル信号処理（ＤＳＰ）動作又はＤＳＰ論理ハードウェアユニットを表しており（例えば、家庭用オーディオシステム、民生用電子機器スピーカデバイス、又は車両内のオーディオシステムにおけるローカル・ストレージ装置又はメモリなどの機械可読媒体に記憶された命令を実行しているプロセッサ）、例えば、デスクトップコンピュータ、家庭用オーディオエンターテイメントシステム、セットトップボックス、ラップトップコンピュータ、タブレットコンピュータ、スマートホンなどの、オーディオコンテンツを受信している復号化及び再生システム、又は得られたデジタルオーディオ出力信号がアナログ形式に変換されてから、スピーカ（例えば、ラウドスピーカ、イヤホン）を駆動しているオーディオ電力増幅器に供給される他の電子オーディオ再生システムとも呼ばれる。例えばインターネットストリーミング又はインターネットダウンロードを介して受信された当初のオーディオコンテンツは、符号化されメタデータと共に多重化されてビットストリームとされていて、本明細書の図面に描かれた処理に到達するまでに、再生システムにおいて解凍され復号化されていてもよい。

メタデータ２は、オーディオコンテンツのミキシングレベル及び任意選択でプログラムラウドネスを含む静的メタデータを含み、これは、例えば、完結したコンテンツ（本明細書ではオーディオプログラム又はオーディオアセットとも呼ばれる）毎の単一の値である。ミキシングレベルは、制作中に（又は符号化側で）確立された規格に従って、測定され得る。プログラムラウドネス値は、ＩＴＵ，「Ａｌｇｏｒｉｔｈｍｓｔｏｍｅａｓｕｒｅａｕｄｉｏｐｒｏｇｒａｍｍｅｌｏｕｄｎｅｓｓａｎｄｔｒｕｅ−ｐｅａｋａｕｄｉｏｌｅｖｅｌ，」ＩＴＵ−ＲＢＳ．１７７０−３で定義されているラウドネスモデルを使用して測定され得る。更に、瞬時ラウドネス値（例えば、音響レベル、音圧レベル、ＳＰＬ）が、メタデータストリームを介する動的メタデータとして伝達され、そこでは、予想される聴き手の位置における音声コンテンツの音圧レベル（ＳＰＬ）を（音声コンテンツ信号のフレームに同期した）フレーム又はブロック毎に記述する多数の瞬時ラウドネス値が時間の経過と共に順次受信される。言い換えると、瞬時ラウドネスは、オーディオコンテンツを定義するフレーム又はブロックの時系列によって変化する。メタデータは、復号化及び再生システムである、図示された再生又は復号化側に、オーディオコンテンツ（図では「オーディオ入力」として示されている）とともに、例えば、インターネットダウンロードを介して又はインターネットストリーミングを介して、転送されてもよい。復号化又は再生側では、瞬時ラウドネス値がメタデータ内にあるために追加の遅延は発生せず、したがって、再生側でのラウドネス推定プロセスは不要である。平滑度の改善、デコーダの複雑さの低減、及び追加的遅延のなさは、すべて、ラウドネス等化における最先端技術（メタデータの使用なしに再生側でもっぱら動作する）に対する本提案の利点である。

再生側では、ユーザの音量設定（再生中のスピーカ又はイヤホンからの音量を手動で制御するための）が音量制御ブロック４に入力される。次いで、音量制御ブロック４は、デジタルオーディオ出力信号（図の「オーディオ出力」）に適用されることとなる適切なゲイン値（例えば、フルバンドスケーリングファクタ）を（例えば、おそらくテーブル参照を含む計算により）生成する。それは、ユーザの音量設定に基づいて、及び再生システムのレベル伝達特性（感度）に関する記憶された又は既定の知識に基づいて、再生レベルを導出する。後者は、所与のオーディオ出力信号が、どのように、聴き手の耳における音圧レベルを有する音としてレンダリングされるかを表現する（この感度は、ユーザ音量設定などの要因にも依存し得ることに留意を要する）。

フィルタ適応ブロック７は、メタデータ２、及び静的ミキシングレベル（メタデータに示される）と再生レベルとの間の計算された差（例えば、ミキシングレベルと再生レベルの比較とも呼ばれる、２つのｄＢ値間の減算として）を取り込み、その差に基づいて等化（ＥＱ）フィルタ５を制御する（例えば、定義する）フィルタパラメータを生成する。フィルタ適応ブロック７は、まず、再生レベルがミキシングレベルより高いか低いかを判定してもよい。（ミキシングレベルがメタデータによって提供されない場合、平均ミキシングレベル（例えば、音声プログラム又はオーディオ録音制作環境で一般的に使用されるもの）を仮定することができる。再生レベルの方が低い場合、（メタデータ２によって）オーディオコンテンツについて報告された瞬時ラウドネスに応じて、低周波数帯域及び任意選択で高周波数帯域をある程度ブーストする必要がある。同様に、再生レベルの方が高い場合には、これらのスペクトル帯域をある程度減衰させる必要がある。ＥＱフィルタ５は、こうしたことを行うように構成されており、（例えば、デジタルオーディオコンテンツ（オーディオ入力）の、メタデータ内の瞬時ラウドネス値に関連付けられたすべてのフレームについて更新されるようにするか、又は、ＥＱフィルタ５を、オーディオコンテンツのすべてのフレームについては更新する必要がないように、いくつかのフレームをスキップすることによって）フレーム毎に更新され得る。

再生レベルがミキシングレベルより低い場合、そして、再生レベルがミキシングレベルと比較して低く、瞬時ラウドネスが低いほど、ＥＱフィルタ５によって与えられるブーストの量が大きくなることに留意されたい。これは、低い音圧レベルでは、レベルに対して、人間のラウドネス知覚の非線形性が増大するためである。また、再生レベルがミキシングレベルと十分には異なっていないことがわかっている一実施形態では、ＥＱフィルタ５によるスペクトル整形は必要ない（例えば、そのレスポンスは０ｄＢで平坦となるべきである）。

一般に、オーディオスペクトルをいくつかの帯域に分割し、それらの帯域のそれぞれにおけるラウドネスを個別に推定することが有利である。特に本明細書が対象としているラウドネス等化の場合、符号化側でラウドネス測定を行う（メタデータ内の対の瞬時ラウドネス値のシーケンスとして現れる）ために、低周波数帯域及び高周波数での（重複しない）別の帯域を定義することができる。これは、それらの周波数帯域における人間の聴覚をモデル化する試みとして行われる。あるいは、瞬時ラウドネス値は、単一の周波数帯域だけ、例えば２００Ｈｚ未満の低周波数に対して提供されてもよい。そしてまた、これらのラウドネス値は、その概念を上述した方法でＥＱフィルタ５を制御するのに適している。

一実施形態では、ＥＱフィルタ５を制御するために必要な情報は、ミキシング（制作）時（Ｉ）及び再生時（ＩＩ）のオーディオコンテンツの特定のオーディオ帯域（スペクトル帯域）の瞬時ＳＰＬを含む。以下において、（Ｉ）は、Ｌ_range,mix（ｔ）と呼ばれ、（ＩＩ）はＬ_{range,playback}（ｔ）と呼ばれる。このような入力を使用し、そして従来の手法を使用して、特定の周波数帯域において必要とされるブーストゲイン又はカットゲインを計算することができる。

オーディオコンテンツが与えられれば、オーディオ帯域内の瞬時ラウドネスレベルを、制作又は符号化側で推定できるが、再生中の絶対的なレベルは、再生システムの感度がわかっている場合にのみ決定できる。再生システムでは、感度ΔＬ_playbackは音響レベル［音圧レベル］Ｌ_playbackと、そのレベルをもたらすコンテンツの電気音響信号レベル［ｄＢＦＳ］との測定された差異を表す。制作システムでは、感度は、コンテンツの電気オーディオ信号レベル（Ｌ_content）と、得られた測定されたＳＰＬ、例えば、ＳＰＬのミキシングレベルとの差として定義され得る。ミキシングシステムの感度ΔＬ_mixingは、メタデータ内に静的な値として含まれ得る。あるいは、それは、ミキシングレベル（例えば、ミキシングスタジオにおける測定された平均ＳＰＬ）と平均ラウドネスレベル（両方の値をメタデータとして伝達することができる）との間の差を計算することによって、再生システムにおいて推定され得る。平均ラウドネスレベルは、例えば、ＩＴＵ−ＲＢＳ．１７７０−３に記載された方法によって計算され得る。この推定はプログラムラウドネスと呼ばれる−図１参照。典型的には、制作／ミキシングシステムの感度は一定である。しかし、再生システムの場合、それは、ユーザが音量調整を行うとき、例えば、デバイスの音量ノブを回すことによって、変化し得る。

ミキシングスタジオで瞬時ラウドネス値［ＳＰＬ］を計算又は測定できない場合、［ｄＢＦＳ］で表す絶対コンテンツレベルＬ_{range、content}（ｔ）に基づいて、再生側で推定瞬時ラウドネスレベルを計算できる。ここで（ｔ）は、コンテンツ（オーディオ入力）のレベル変動によって経時的に変化することを示す。この推定値を使用すると、ミキシング側及び再生側でのスペクトル帯域のＳＰＬを計算できる。
Ｌ_{range、mixing}（ｔ）＝Ｌ_{range、content}（ｔ）−ｄｅｌｔａＬ_mixing
及び
Ｌ_{range、playback}（ｔ）＝Ｌ_{range、content}（ｔ）＋ｄｅｌｔａＬ_playback

あるいは、生産側と再生側の間の平均レベル差ΔＬ_acousticは、平均ミキシングレベルＬ_mixing及び再生レベルＬ_playbackに基づいて直接的に計算され得る。
ΔＬ_acoustic＝Ｌ_playback−Ｌ_mixing
その結果に基づいて、再生側の瞬時ＳＰＬは、次式で表される。
Ｌ_{range,playback}（ｔ）＝ΔＬ_acoustic＋Ｌ_range,mix（ｔ）

特定のスペクトル帯域で人間が知覚するラウドネスは、低い周波数帯域では、より低い音圧レベルＳＰＬにおいて非線形的に低下する。ミキシング時及び再生シナリオにおける低周波数及び中間周波数帯域に対する、実験室の環境で測定できる従来型の知覚ラウドネスカーブが存在する。

様々な試験信号の周波数及びレベルに依存するラウドネスの心理音響的な測定の様々な公開物に基づいて、このようなブーストゲインの量を計算するために従来技術を使用することができる。例えば、Ｔ．ＨｏｌｍａｎａｎｄＦＫａｍｐｍａｎｎ，「ＬｏｕｄｎｅｓｓＣｏｍｐｅｎｓａｔｉｏｎ：ＵｓｅａｎｄＡｂｕｓｅ」，ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，Ｊｕｌｙ／Ａｕｇｕｓｔ１９７８，Ｖｏｌ．２６，Ｎｏ．２／８参照。データの一般的な表現は、レベルに対するラウドネスの増加を示す等ラウドネス曲線又はグラフの形である。そのような心理音響データを用いて、ブーストゲインの量は、瞬時ラウドネス値の関数として（フィルタ適応ブロック７をプログラムすることによって）、かつ、上述の再生及びミキシングレベルに基づいて、容易に計算され得る。ブーストゲイン値と、周波数ブーストが適用されるべき帯域に基づいて、ＥＱフィルタ５の一部であって対象の周波数帯域において適切なブーストを生成するデジタルフィルタ要素のパラメータを導出することができる。
ＥＱフィルタ要素の実施例

以下の実施例は、低周波数帯域及び高周波数帯域のカット及びブーストフィルタ要素の例を示しており、ラウドネス等化のための所望の周波数レスポンスを近似することができる。この実施例では、図１のＥＱフィルタ５の一部として、いくつかの異なるフィルタ要素が接続されてカスケードを形成しており、各要素は、オーディオスペクトルの残りの部分を変更することなく（０ｄＢゲイン）、カット又はブースト周波数帯域を有することができる。これらは、低周波数整形フィルタ及び高周波数整形フィルタの実施例であり、低周波数整形フィルタ及び高周波数整形フィルタは、ＥＱフィルタ５の一部としてカスケード接続されている。

各低周波数整形フィルタ（ＥＱフィルタ５の一部である）は、実係数を有する一次ＩＩＲフィルタであることができ、次の形を有する。

低周波数カットフィルタは、所望のコーナ周波数に依存する固定係数ａ₁を有することができる。フィルタパラメータｂ₁は、上記で定義したブーストゲインｇ_boost又はＬ_boostに基づいて、以下のように動的に計算され得る。

低周波数ブーストフィルタは、コーナ周波数に依存する固定係数ｂ₁を有することができる。フィルタパラメータａ₁は、線形ゲインＬ_boostに基づいて動的に計算され得る。

各高周波整形フィルタは、次の形を有する実係数を有する二次ＩＩＲフィルタであることができる。

フィルタのコーナ周波数は、オーディオサンプルレート及び正規化されたコーナ周波数に依存し得る。
ｆ_c＝ｆ_c,normｆ_s
ｆｆｋｌｋｌ
各高周波数カットフィルタは、ｂ₁を除いて固定係数を有することができる。固定フィルタ係数は、コーナ周波数インデックス及び極／零半径パラメータに依存する。
ｒ＝０．４５
ａ₁＝−２ｒｃｏｓ（２πｆ_c,norm）
ａ₂＝ｒ²
ｂ₂＝ａ₂
フィルタパラメータｂ₁は、ブーストゲインｇ_boost又はＬ_boostに基づいて動的に計算され得る。

高周波数ブーストフィルタは、ａ係数がカットフィルタのｂ係数と同じ方法で計算され、ｂ係数がカットフィルタのａ係数と同じ方法で計算されること以外は同じ係数を有することができる。
ｂ₁＝−２ｒｃｏｓ（２πｆ_c,norm）
ｂ₂＝ｒ²
ａ₂＝ｂ₂
フィルタパラメータａ₁は、ブーストゲインＬ_boostに基づいて動的に計算することができる。

所与のオーディオプログラムの瞬時ラウドネス（例えば、ＳＰＬ）値を含むメタデータを生成するための例示的な制作／符号化側システムが図２に示されている。符号化側で行われる瞬時ラウドネス又はＳＰＬ測定の精度を向上させるために、再生側のＥＱフィルタ５のより良いダウンストリーム制御の目的で、オーディオ信号がラウドネス測定モジュール１４に入る前に、オーディオ信号はまず、対象のスペクトル帯域（ＥＱフィルタ５によって修正されるスペクトル帯域）外のすべての構成要素を除去するバンドパスフィルタ１３によって処理されてもよい。このようにして、瞬時ラウドネスのより正確な推定を達成し、そのスペクトル帯域内のラウドネス等化のより良好な知覚品質を得ることができる。瞬時ラウドネスは、例えば、ラウドネス測定モジュール１４がバンドパスフィルタ１３の出力で短期エネルギーを計算することにより、次いで計算された短期エネルギーシーケンスを平滑化して（平滑化ブロック１６）瞬時ラウドネス値の急速な変動を避けることにより、導出され得る。オーディオコンテンツのオフライン処理の場合（ライブストリーミングと比較して）、平滑化のルックアヘッドを増加させて平滑性を向上させることができ、さもなければＥＱフィルタ５が（瞬時ラウドネス値に応じて）あまりにも急速に又は不適切なときに適応される場合に生じるアーチファクトを回避することができる。

本発明の別の実施形態によれば、以下のアプローチを使用することにより（復号化側／再生システムにおいてラウドネスＥＱを達成するために）、メタデータに（制作側又は符号化側で計算された）瞬時ラウドネス値のシーケンスを含める必要がなくなる。ＩＳＯ／ＩＥＣ，「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ−Ｐａｒｔ４：Ｄｙｎａｍｉｃｒａｎｇｅｃｏｎｔｒｏｌ，」ＩＳＯ／ＩＥＣ２３００３−４：２０１５は、ラウドネス及びダイナミックレンジ制御（ＤＲＣ）のための柔軟なスキームを定義している。それは、ＤＲＣゲイン値を復号化側に伝達し、ＤＲＣゲイン値を復号化されたオーディオ信号に適用することによって復号化側で圧縮効果を適用するために、メタデータ内のゲインシーケンスを使用する。符号化に戻って、これらのＤＲＣゲイン値は、通常、図３に示すようなＤＲＣ特性を平滑化された瞬時ラウドネス推定値に適用することによって、生成される。図３は、ＩＳＯ／ＩＥＣ，「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ−Ｐａｒｔ４：Ｄｙｎａｍｉｃｒａｎｇｅｃｏｎｔｒｏｌ，」ＩＳＯ／ＩＥＣ２３００３−４：２０１５からのものである。図３のグラフにおけるＤＲＣ入力レベルは、平滑化された瞬時ラウドネスレベルである。

本発明の一実施形態によれば、ＭＰＥＧ−ＤＤＲＣで定義されるようなオーディオプログラムの圧縮のために意図された、同じメタデータソースＤＲＣゲインシーケンスを（再生中の同じオーディオプログラムに対し）ラウドネスＥＱの目的で使用することが可能である。図４を参照すると、（復号化側で）ＤＲＣゲインシーケンスに逆ＤＲＣ特性関数２０を適用することによってこれを行うことができ、その平滑化された瞬時ラウドネス値を復元し、瞬時ＳＰＬ値として再解釈し、次いで使用して上述のようにラウドネスＥＱフィルタ５を動的に更新することができる。この逆関数は、例えば、メタデータ内で受信された符号化されたＤＲＣゲイン値のシーケンスを計算するために符号化側で適用されたＤＲＣ特性であるか又はそれを表す、いくつかのＤＲＣゲイン曲線（例えば、図３に示すものなど）の１つである数学関数の入力変数及び出力変数を逆転させることによって得られ得る。言い換えると、逆ＤＲＣ特性は、符号化側のオーディオコンテンツに適用されてＤＲＣゲイン値を生成したＤＲＣ特性の逆数であってもよい。ここで、後者のシーケンスは数学的関数の「出力」に（又は、数学的関数の計算された逆関数への入力として）適用され、ＤＲＣフレーム毎に、瞬時ラウドネスレベルとして扱われる、対応するラウドネス値のシーケンスを生成する。オフセット調整されたシーケンスをフィルタ適応ブロック７に供給する前に、基準レベルオフセットを適用して、シーケンスのそのような瞬時値のそれぞれを調整することができることに留意されたい。例えば、ここで、オフセットは、基準音響レベルを表す例えばｄＢの固定値である。図４の他の全ての態様は、ＥＱフィルタ５から出てきた（復号化されたオーディオプログラムの）フィルタリングされたオーディオコンテンツをスケーリング又は乗算して、現在のユーザ音量設定を反映させる前に、音量制御部４によって計算されたｄＢ値を線形フォーマットに変換するのに必要であり得る線形ブロック２２（図１には図示せず）への任意選択の変換を含め、図１と同じであってもよい。

本発明の別の実施形態によれば、メタデータ内に、ラウドネスＥＱをもっぱら対象とする別個のＤＲＣゲインシーケンスを有することも有用であることが認識される。その目的のために、ＭＰＥＧ−ＤＤＲＣ規格を、（メタデータに含まれる）いくつかのゲインシーケンスのどれが（ＥＱフィルタ５を制御するため）ラウドネスＥＱに適しているか、及びどの周波数帯域を制御すべきかについての情報を運ぶ、追加的なメタデータ構文によって拡張することができる。メタデータには、それぞれ異なる周波数帯域でラウドネスＥＱを実行するように指示されている、そのような専用のＤＲＣゲインシーケンスのいくつかが存在してもよい。更に、追加的なメタデータは、該当する場合、ラウドネスＥＱのために使用されるどのゲインシーケンスが特定のダウンミックス及びダイナミックレンジ制御にも適しているか、を指定することができる。この実施形態は、図５のブロック図を用いて説明される。図５と図４との類似点は明らかであるが、相違点には以下が挙げられる：図５では、乗算器においてダイナミックレンジ制御（ＤＲＣゲイン調整）が適用され、異なるＤＲＣゲインシーケンス、シーケンス２（この場合任意選択のＤＲＣゲイン修正ブロック２５を使用する）から導出されるが、図４ではＤＲＣゲイン調節は適用されない。また、ＥＱフィルタ５（ラウドネスＥＱ）はここでは瞬時ラウドネス（ＳＰＬ）値の関数として制御されており、それはもっぱらの目標とされたＤＲＣゲインシーケンス１から導出され、動的制御のために乗算器で同時に適用されているＤＲＣゲイン調整値（ＤＲＣゲインシーケンス２から導出される）によって（加算ユニットで）補正されている。

図５においても、例えば固定された参照ＳＰＬである、瞬時ラウドネス値に対する静的オフセットの代わりに、ＤＲＣゲイン修正ブロック２５の出力によって与えられ得る動的補正が行われている。しかしながら、瞬時ラウドネス値に対してなされる補正は代わりに、メタデータから供給されるＤＲＣゲインシーケンス２によって直接与えられ得るので、ブロック２５は任意選択である。ＤＲＣゲイン修正ブロック２５は、再生中に適用されている圧縮プロファイル又はＤＲＣ特性を変更するために、制作／符号化側によって（メタデータソースＤＲＣゲインシーケンスを計算するために）選択され使用されたものと比較して、任意選択で含まれ得る。ＤＲＣゲイン修正ブロック２５は、この特定の再生システムにより好適であり得る、いわゆる「修正された」ＤＲＣゲイン（新しいＤＲＣゲイン調整値）を生成する、米国特許出願公開第２０１４／０２９４２００号（段落［００４０］〜［００４５］）の記述によることができる。いずれの場合でも、ここでは、フィルタ適応ブロック７に入力される瞬時ラウドネスシーケンスは、そのゲイン値が、例えば、図の乗算器によって示される、ＥＱフィルタ５のダウンストリームにおけるオーディオコンテンツのスケーリングにも適用されているＤＲＣゲイン値シーケンスによって、ダイナミックレンジ制御の目的で補正される。したがって、このような技術では、メタデータがフレーム単位でＤＲＣゲイン値を既に提供している場合、瞬時ラウドネス値の別個のシーケンス（図１に関連して上記参照）を（再生側でラウドネスＥＱを達成するために）メタデータに含める必要はない。

更に別の実施形態では、図６を参照すると、図４のラウドネスＥＱスキームがＤＲＣと組み合わされ、ダイナミックレンジ調整されたオーディオコンテンツがＥＱフィルタ５によってフィルタリングされ、最終的にＥＱフィルタ及びダイナミックレンジ調整の両方がなされたオーディオコンテンツを生成する。しかしながら、これは、図５で行われた方法（ラウドネスＥＱとＤＲＣも組み合わせる）とは異なる方法で行われる。図５との相違点には以下が含まれる：所与のＤＲＣ利得シーケンス１（メタデータ内）に逆ＤＲＣ特性関数２０を適用することによって提供される瞬時ラウドネスシーケンスに基準レベル（例えば、固定値）を加えることにより、ミキシング時に瞬時音響レベルをフィルタ適応ブロック７に提供すること、及び同時に適用されているＤＲＣゲインに従って、再生レベルとミキシングレベルとの間の静的な差を動的に調整することによって、フィルタ適応ブロック７への入力を動的に更新すること。他の相違点には、ＭＰＥＧ−ＤＤＲＣで定義されるような、制御パラメータをＤＲＣブロックに供給するためのフォーマットである、ＤＲＣインタフェースの追加、及びＥＱフィルタ５のアップストリーム（図５に見られるＥＱフィルタ５のダウンストリームに比較して）のオーディオコンテンツへのＤＲＣゲインの適用が含まれる。
動的等化及びＤＲＣ

上述のスキームは、ＭＰＥＧ−ＤＤＲＣで提供されるようなＤＲＣと組み合わせることができるラウドネスＥＱツールを提供する。しかし、いくつかのアプリケーションでは、例えば、再生レベルが不明なために、ラウドネスＥＱツールが複雑すぎることがあり得るか、又は適切な制御ができないことがあり得る。

多くのアプリケーションでは、マルチバンドＤＲＣが採用されてダイナミックレンジ圧縮を達成する。多くの場合、各ＤＲＣバンド内で個別に圧縮を制御することによって、「動的等化」も可能である。次のアプローチは、ラウドネスＥＱだけよりも一般的な目的のために、そのような動的ＥＱスキームを提供する。

以下では、上述のラウドネスＥＱといくつかの面で同様に動作するＤＲＣの動的ＥＱスキームについて説明する。相違点は、それは再生レベル（例えば、音量制御ブロック４によって生成される−図１、図４、図５、図６参照）を考慮しないことである。それはむしろＥＱを、ダイナミックレンジ制御による色付け効果を補償するために適用しており、この効果は、部分的に、ＤＲＣの適用に起因するレベルの変化及び関連するラウドネス知覚の心理音響特性から生じ得る。本明細書に記載される動的ＥＱアプローチの他の有用な応用は、例えば、オーディオコンテンツにおけるノイズの多い低レベルバックグラウンド音のバンドパスフィルタリングを含み、さもなければ騒々しく聞こえ得るノイズの大きな増幅を回避する。

以下に説明するスキームは、（メタデータに基づいて）ＭＰＥＧ−ＤＤＲＣに統合され得る。しかし、それは一般的なリアルタイムダイナミックレンジ制御（メタデータなし）でも使用され得る。それは、以前はマルチバンドメタデータベースのＤＲＣプロセスがサポートされている場合にのみ可能であったシングルバンドＤＲＣの動的ＥＱの利点を提供することができる。従来のメタデータベースのシングルバンドＤＲＣプロセスは、すべての周波数成分に同じゲインを適用するので、例えば低周波数帯域のみでＤＲＣゲインを選択的に低減することはできない。

更に、以下に説明するスキームは、従来のメタデータに基づくマルチバンドＤＲＣプロセスのサブバンド解像度に限定されず、したがって、より滑らかなスペクトル整形を提供することができ、より低い計算複雑性を有することができる。図７は、動的ＥＱと組み合わせたＤＲＣ機能の実施例を示す。ＥＱは、ＤＲＣゲインシーケンスによって間接的に動的に制御され、この態様は、逆ＤＲＣ特性関数２０、ＤＲＣゲイン値によって瞬時ラウドネスを補正する加算ユニット、及び任意選択のＤＲＣゲイン修正ブロック２５（ブロック２５によって生成されたＤＲＣゲイン値は、ｄＢブロック２６への変換によってラウドネスｄＢ値に変換される）を含む点において、図５の一部に類似している。しかしながら、ラウドネス値は、逆ＤＲＣ特性関数２０を、ＤＲＣゲイン値を生成している同じメタデータソースＤＲＣゲインシーケンスに適用することによって得られる。この実施形態では、ＥＱフィルタ５は、以下を決定するビットストリーム内で伝達される静的メタデータに部分的に基づいて設定される：フィルタタイプ（例えば、低周波数カット／ブースト、高周波数カット／ブースト）、フィルタ強度、及び適応周波数帯域。ここで、図１、図４、図５の等化器の実施形態では、メタデータ内の静的フィルタ構成情報は必要ないことに留意されたい。

図７とは代替的なスキームでは、逆ＤＲＣ特性関数２０は省略され、フィルタ適応ブロック７は、ＤＲＣゲイン値によって直接駆動されて複雑さを軽減する。言い換えると、ＥＱフィルタ５を定義する動的パラメータは、メタデータ内で受信されたＤＲＣゲイン値に直接基づいて計算される一方、それらのＤＲＣゲイン値も、ＤＲＣゲイン調整値を計算するように処理され（例えば、任意選択のＤＲＣ修正ブロック２５によって）、それは（ダイナミックレンジ制御を行うために）ＥＱでフィルタリングされたオーディオコンテンツに適用される。

ここで以下の発明の説明がなされる。製造品はその中に命令を記憶した機械可読媒体を含み、その命令は、オーディオ再生システムのプロセッサによって実行されるとき、以下のように、ダイナミックレンジ制御を適用しながら動的オーディオ等化を実行する。オーディオコンテンツが受信され、オーディオコンテンツのメタデータも受信され、メタデータは、オーディオコンテンツについて計算された、複数のダイナミックレンジ制御、ＤＲＣ、ゲイン値を含む。逆ＤＲＣ特性がメタデータ内で受信された複数のＤＲＣゲイン値に適用され、オーディオコンテンツの複数の瞬時ラウドネス値を計算する。等化フィルタを定義する複数の動的パラメータが計算され、動的パラメータは計算された複数の瞬時ラウドネス値に基づいて計算される。オーディオコンテンツが等化フィルタによってフィルタリングされ、ＥＱフィルタリングされたオーディオコンテンツを生成する。メタデータ内で受信された複数のＤＲＣゲイン値が使用されて、複数のＤＲＣゲイン調整値を計算する。複数のＤＲＣゲイン調整値がＥＱフィルタリングされたオーディオコンテンツに適用され、ダイナミックレンジ制御を行う。動的等化の別の実施形態では、計算された複数の瞬時ラウドネス値が複数のＤＲＣゲイン調整値に従って補正されて、補正された瞬時ラウドネス値を生成し、等化フィルタを定義する複数の動的パラメータは複数の補正された瞬時ラウドネス値に基づいて計算される。更に、計算された複数の瞬時ラウドネス値を補正することは、ｄＢフォーマットで、計算された複数の瞬時ラウドネス値を複数のＤＲＣゲイン調整値に加算することを含む。別の態様では、メタデータは、等化フィルタを定義するための以下の１つ以上を指定する静的フィルタ構成データを含む：ａ）タイプ、例えば低周波数カット若しくはブースト、又は高周波数カット若しくはブースト、ｂ）フィルタ強度、及びｃ）適応又は有効周波数帯域。その場合、静的フィルタ構成データに従って構成された等化フィルタは、オーディオコンテンツがそれを通過している間に、動的パラメータによって動的に修正される。更に、更なる態様では等化フィルタを定義する前記複数の動的パラメータを計算することは、ミキシングレベル又は再生レベルを使用しない。

製造品はその中に命令を記憶した機械可読媒体を含み、その命令は、オーディオ再生システムのプロセッサによって実行されるとき、以下のように、ダイナミックレンジ制御を適用しながら動的オーディオ等化を実行する。オーディオコンテンツ、及びオーディオコンテンツのメタデータを受信し、メタデータは、オーディオコンテンツについて計算された複数のダイナミックレンジ制御、ＤＲＣ、ゲイン値を含む。等化フィルタを定義する複数の動的パラメータを計算し、動的パラメータを、メタデータで受信されたＤＲＣゲイン値に基づいて計算する。等化フィルタを使用して受信されたオーディオコンテンツをフィルタリングし、ＥＱフィルタリングされたオーディオコンテンツを生成する。メタデータ内で受信された複数のＤＲＣゲイン値を処理して、複数のＤＲＣゲイン調整値を計算する。計算された複数のＤＲＣゲイン調整値をＥＱフィルタリングされたオーディオコンテンツに適用して、ダイナミックレンジ制御を行う。

特定の実施形態を記載し添付の図面で示してきたが、そのような実施形態は、広範な発明を単に説明するものであって、限定するものではなく、当業者には様々な他の修正が生じ得るので、本発明は、図示又は記載された特定の構造及び配置に限定されないことが理解されるべきである。したがって、本明細書は、限定的ではなく例示的であると見なされるべきである。

Claims

ダイナミックレンジ制御を適用している再生システムにおけるオーディオ等化のための方法であって、
ａ）オーディオコンテンツ、及び前記オーディオコンテンツのメタデータを受信するステップであって、
前記メタデータは、前記オーディオコンテンツについて計算された複数のダイナミックレンジ制御（ＤＲＣ）ゲイン値を含む、前記受信するステップと、
ｂ）等化フィルタを定義する複数のパラメータを計算するステップであって、前記パラメータは、前記メタデータにおいて受信された前記複数のＤＲＣゲイン値に基づいて計算される、ステップと、
ｃ）前記オーディオコンテンツを前記等化フィルタによってフィルタリングするステップと、
ｄ）前記オーディオコンテンツに前記複数のＤＲＣゲイン値を適用することによって前記オーディオコンテンツのダイナミックレンジを調整するステップであって、
前記オーディオコンテンツをフィルタリングすることによって、前記オーディオコンテンツの前記ダイナミックレンジを調整する色付け効果の補償をするステップと、
ｅ）前記フィルタリングされかつ調整されたオーディオコンテンツを提供して、前記再生システムにおけるスピーカを駆動するステップ、を含む方法。
前記メタデータにおいて受信された前記複数のＤＲＣゲイン値を処理して複数のＤＲＣゲイン調整値を計算するステップをさらに含み、前記複数のＤＲＣゲイン値を前記オーディオコンテンツに適用するステップは、前記ＤＲＣゲイン調整値を前記オーディオコンテンツに適用するステップを含む、請求項１に記載の方法。
前記メタデータは、前記等化フィルタを定義するための以下の１つ以上を指定する静的フィルタ構成データを含み：ａ）タイプ、例えば低周波数カット若しくは低周波数ブースト、又は高周波数カット若しくは高周波数ブースト、ｂ）フィルタ強度、及びｃ）適応又は有効周波数帯域、
前記静的フィルタ構成データに従って構成された前記等化フィルタは、前記オーディオコンテンツがそれを通過している間に、前記パラメータによって動的に修正される、
請求項１に記載の方法。
前記メタデータにおいて受信された前記複数のＤＲＣゲイン値を処理して複数のＤＲＣゲイン調整値を計算するステップをさらに含み、前記複数のＤＲＣゲイン値を前記オーディオコンテンツに適用するステップは、前記ＤＲＣゲイン調整値を前記オーディオコンテンツに適用するステップを含む、請求項１に記載の方法。
前記メタデータは、静的フィルタ構成データは以下の１つ以上を指定する静的フィルタ構成データを含み：ａ）タイプ、例えば低周波数カット若しくは低周波数ブースト、又は高周波数カット若しくは高周波数ブースト、ｂ）フィルタ強度、及びｃ）適応又は有効周波数帯域、
前記静的フィルタ構成データに従って構成された前記等化フィルタは、前記オーディオコンテンツがそれを通過している間に、前記パラメータによって動的に修正される、請求項１に記載の方法。
前記等化フィルタを定義する前記複数のパラメータを計算するステップは、ミキシングレベルまたは再生レベルを使用しない、請求項１に記載の方法。
前記等化フィルタによって前記オーディオコンテンツをフィルタリングするステップは前記オーディオコンテンツのバックグランドノイズ音のバンドパスフィルタリングを行って前記バックグランドノイズ音の増幅を回避するステップを含む、請求項１に記載の方法。
前記複数のＤＲＣゲイン調整値を前記オーディオコンテンツに適用するステップは、前記オーディオコンテンツの同じゲインが全ての周波数成分に適用されるシングルバンドＤＲＣを適用するステップを含む、請求項７に記載の方法。
オーディオ再生システムのプロセッサが実行する命令を記憶した非一時的械可読媒体を備える製造品であって、
前記オーディオ再生システムのプロセッサが実行する命令が、
ａ）オーディオコンテンツ、及び前記オーディオコンテンツのメタデータを受信すること、であって、前記メタデータが、前記オーディオコンテンツについて計算された複数のダイナミックレンジ制御（ＤＲＣ）ゲイン値を含む、こと、
ｂ）等化フィルタを定義する複数のパラメータを計算することであって、前記パラメータが、前記メタデータにおいて受信された前記複数のＤＲＣゲイン値に基づいて計算されること、
ｃ）前記オーディオコンテンツを前記等化フィルタによってフィルタリングすること、
ｄ）前記オーディオコンテンツに前記複数のＤＲＣゲイン値を適用することによって前記オーディオコンテンツのダイナミックレンジを調整することであって、
前記オーディオコンテンツをフィルタリングすることによって、前記オーディオコンテンツの前記ダイナミックレンジを調整する色付け効果の補償をすること、
及び、
ｅ）前記フィルタリングされ、かつ調整されたオーディオコンテンツを提供して、前記再生システムにおけるスピーカを駆動すること、を含む製造品。
前記非一時的機械可読媒体は、その中に、前記プロセッサが、前記メタデータにおいて受信した前記複数のＤＲＣゲイン値を処理して、複数のＤＲＣゲイン調整値を計算することを実行する、命令を記憶しており，前記複数のＤＲＣゲイン値を前記オーディオコンテンツに適用することが、前記ＤＲＣゲイン調整値を前記オーディオコンテンツに適用することを含む、請求項９に記載の製造品。
前記メタデータは、前記等化フィルタを定義するための以下の１つ以上を指定する静的フィルタ構成データを含み：ａ）タイプ、例えば低周波数カット若しくは低周波数ブースト、又は高周波数カット若しくは高周波数ブースト、ｂ）フィルタ強度、及びｃ）適応又は有効周波数帯域、
前記静的フィルタ構成データに従って構成された前記等化フィルタは、前記オーディオコンテンツがそれを通過している間に、前記パラメータによって動的に修正される、
請求項９に記載の製造品。
前記非一時的機械可読媒体は、その中に、前記プロセッサが、前記メタデータにおいて受信した前記複数のＤＲＣゲイン値を処理して、複数のＤＲＣゲイン調整値を計算することを実行する、命令を記憶しており、前記複数のＤＲＣゲイン値を前記オーディオコンテンツに適用することが、前記ＤＲＣゲイン調整値を前記オーディオコンテンツに適用することを含む、請求項９に記載の製造品。
前記メタデータは、前記等化フィルタを定義するための以下の１つ以上を指定する静的フィルタ構成データを含み：ａ）タイプ、例えば低周波数カット若しくは低周波数ブースト、又は高周波数カット若しくは高周波数ブースト、ｂ）フィルタ強度、及びｃ）適応又は有効周波数帯域、
前記静的フィルタ構成データに従って構成された前記等化フィルタは、前記オーディオコンテンツがそれを通過している間に、前記パラメータによって動的に修正される、
請求項９に記載の製造品。
前記プロセッサがミキシングレベル又は再生レベルを使用することなく、前記等化フィルタを定義する前記複数のパラメータを計算する、請求項９に記載の製造品。
前記非一時的機械可読媒体は、その中に、前記プロセッサが、前記オーディオコンテンツの中のバックグランドノイズ音の増幅を回避するように前記オーディオコンテンツをフィルタリングするバンドパスフィルタとして前記等化フィルタを構成することを実行する、命令を記憶している、請求項９に記載の製造品。
前記非一時的機械可読媒体は、その中に、前記プロセッサが、同じゲインが全ての周波数成分に適用されるシングルバンドＤＲＣを適用することによって、前記複数のＤＲＣゲイン値を前記オーディオコンテンツに適用することを実行する、命令を記憶している、請求項９に記載の製造品。