JP2022077033A

JP2022077033A - ダイナミックレンジ制御のための延期されたラウドネス調整

Info

Publication number: JP2022077033A
Application number: JP2021183523A
Authority: JP
Inventors: バウムガルテフランク; Baumgarte Frank
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-11-10
Filing date: 2021-11-10
Publication date: 2022-05-20
Anticipated expiration: 2041-11-10
Also published as: CN114464199A; GB2619594B; US20240143271A1; GB202405585D0; GB2602873A; DE102021128853A1; JP7465858B2; KR20220063733A; GB2602873B; US20220147311A1; GB202305068D0; GB2619594A; US11907611B2

Abstract

【課題】ダイナミックレンジ制御のためのオーディオデコーダ装置及びデジタルオーディオ処理を提供する。【解決手段】オーディオコーデックシステムにおいて、オーディオ信号の符号化バージョン及びオーディオ信号の遅延のないラウドネスシーケンスを含むビットストリームを、デコーダ側で取得する。遅延のないラウドネスシーケンスは、音量が正規化されていない。音量の正規化を伴ってラウドネスシーケンスをＤＲＣ特性に適用することによってダイナミックレンジ制御（ＤＲＣ）利得シーケンスを生成する。このＤＲＣ利得シーケンスを、復号したオーディオ信号に適用する。【選択図】図２

Description

本発明は、オーディオデコーダ装置に関し、特にダイナミックレンジ制御のための延期されたラウドネス調整に関する。

音楽、ポッドキャスト、ライブ録画の短編ビデオクリップ、又は長編映画などのサウンドプログラムは、そのダイナミクス（強弱変化）及びダイナミックレンジを定めるラウドな部分とソフトな部分とを有する。騒音の多い環境でヘッドセットを通して聴く、又は深夜に自宅のラウドスピーカを通して聴くなどの多くの状況で、聴取者の体験を改善するために、再生サウンドのダイナミクス及びダイナミックレンジを低減することが望ましい。その目的のために、ダイナミックレンジコンプレッサが使用される。このコンプレッサは、（サウンドプログラムの）デジタルオーディオ信号である入力に時間的に変動する利得を適用して、オーディオ信号のソフトな部分を増幅し、ラウドな部分を減衰させるデジタル信号プロセッサである。オーディオ信号のダイナミックレンジの圧縮から生じる可能性のある可聴のポンピングアーチファクトを回避するために、圧縮特性に従ってオーディオ信号を圧縮しながら、圧縮特性又はプロファイルに入力オーディオ信号を「整合させる」ラウドネスノーマライゼーション処理を行うことができる。この処理は、入力オーディオ信号の瞬間ラウドネスをその信号のプログラムラウドネスでオフセットすることによって行うことができ、プログラムラウドネスは、サウンドプログラムの全体的なラウドネスを表現することを目的とする計算値である（統合ラウドネスとも称する）。

オーディオ符号化の諸規格は、サウンドプログラムが作成される、又は、配信若しくは記憶／アーカイブのために準備されるエンコーダ側でダイナミックレンジ制御（ＤＲＣ）利得を生成する、ダイナミックレンジ圧縮の方法を定義する。本明細書において、ＤＲＣ利得とは、シーケンス内の１つ以上の利得値がサウンドプログラム内の対応するデジタルオーディオフレームに適用されるように、関連するサウンドプログラムに時間的に整合されたＤＲＣ利得シーケンスを指す。ＤＲＣ利得シーケンスは、次いで、例えばサウンドプログラムに関連するメタデータとして、１つ以上のビットストリームへとフォーマットされる。デコーダ側はビットストリームを取得し、デコーダ側で所望される場合（典型的には復号されたオーディオ信号の再生中に）、ストリーム内のＤＲＣ利得を適用して、復号されたオーディオ信号のダイナミックレンジを圧縮する。メタデータに基づくそのような手法の利点は、リアルタイム圧縮で得られるよりも長い先取り時間間隔がＤＲＣ利得のオフライン符号化のために得られることによる、品質改善である。もう一つの利点は、例えば、サウンドプログラム作成者又は配信者の専門知識により、エンコーダ側で圧縮特性を制御できることである。

オンラインアプリケーション（例えば、ライブオーディオストリーミング、及び、ファイルへのライブオーディオの録音）におけるメタデータに基づくＤＲＣには、再生のためにストリーミングされている、又は、記憶のために書き込まれているサウンドプログラムのプログラムラウドネスがまだ不明である（サウンドプログラムがまだ終了していないため）場合には、課題がある。その理由は、サウンドプログラムの実際のプログラムラウドネス（これは、サウンドプログラムが終了して初めて判断できる）が、期待又は予測されるものから著しく逸脱する場合には、コンプレッサ特性を適切に調整（又はラウドネスノーマライズ）されないことがあるからである。

本明細書の開示のいくつかの態様は、ダイナミックレンジ制御（ＤＲＣ）のラウドネス調整（ラウドネスノーマライゼーション）をエンコーダ側からデコーダ側へ延期する、新規のデジタル信号処理方法である。他の態様は、メタデータに基づくＤＲＣ利得シーケンス処理をラウドネスノーマライゼーションに使用するときに、デコーダ側でコンプレッサ特性を変更する技法である。これらの態様は、ライブストリーミングなどのアプリケーション、またファイルへのライブ録音にとって特に有益である。

上記概要には、本開示の全ての態様の網羅的なリストを挙げてはいない。本開示には、上記でまとめた種々の態様の全ての好適な組合せからの実施可能な全てのシステム及び方法が含まれ、並びに以下の「発明を実施するための形態」で開示するものと、特許請求の範囲の欄において特に指摘するものが含まれると考えられる。このような組合せは、上記概要には具体的に列挙していない特定の利点を有してもよい。

本明細書の本開示のいくつかの態様は、例示の目的として説明されるものであり、同様の参照記号が同様の要素を示す添付の図面の図に限定することを目的として説明されるものではない。本開示の「ａｎ」又は「ｏｎｅ」態様への言及は、必ずしも同じ態様に対するものではなく、それらは、少なくとも１つを意味していることに留意されたい。また、簡潔さ及び図の総数の低減のために、所与の図を使用して、本開示の複数の態様の特徴を例示することができ、図中の全ての要素が所与の態様に対して必要とされなくてもよい。

例示的なＤＲＣ特性曲線を示す図である。デコーダ側でＤＲＣを適用し、エンコーダ側ではラウドネスノーマライゼーションが行われないオーディオコーデックシステムのブロック図である。デコーダ側でＤＲＣを適用し、エンコーダ側ではラウドネスノーマライゼーションが行われない、ライブストリーミングに適したオーディオコーデックシステムのブロック図である。デコーダ側でＤＲＣを適用し、エンコーダ側ではラウドネスノーマライゼーションが行われない、記憶領域又はアーカイブへのライブ録音に適したオーディオコーデックシステムのブロック図である。デコーダ側でＤＲＣを適用する、ＭＰＥＧ－ＤＤＲＣ準拠のオーディオコーデックシステムの一部を示す図である。エンコーダ側にラウドネスノーマライゼーションを備え、デコーダ側でＤＲＣを適用する、ＭＰＥＧ－ＤＤＲＣ準拠のオーディオコーデックシステムの一部を示す図である。デコーダ側でラウドネスノーマライゼーションを伴ってＤＲＣを適用する、ＭＰＥＧ－ＤＤＲＣ準拠のオーディオコーデックシステムの一部を示す。後方互換性及び非後方互換性のＭＰＥＧ－ＤＤＲＣビットストリーム拡張部を生成できる新エンコーダ側処理のフロー図である。後方互換性又は非後方互換性のＭＰＥＧ－ＤＤＲＣビットストリーム拡張部のいずれかを使用してＤＲＣ利得シーケンスを生成できる新デコーダ側処理のフロー図である。後方互換性エンコーダ側が、新デコーダと従来型デコーダとの両方によって処理される後方互換性ビットストリームを生成する、ＭＰＥＧ－ＤＤＲＣ準拠のオーディオコーデックシステムのブロック図である。後方互換性エンコーダ側が、新デコーダと従来型デコーダとの両方によって処理される後方互換性ビットストリームを生成する、ＭＰＥＧ－ＤＤＲＣ準拠のオーディオコーデックシステムのブロック図である。

本開示のいくつかの態様を、添付図面を参照してここに説明する。記載される部品の形状、相対位置、及び他の態様が明示的に規定されない場合はいつでも、本発明の範囲は、図示した部品のみに限定されず、それは、単に説明目的のために過ぎないことが意味される。また、多数の詳細を説明するが、本開示のいくつかの態様は、これらの詳細なしに実施され得ることが理解される。他の例では、本明細書の理解を妨げないように、周知の回路、構造、及び技法は詳細には示していない。

オーディオ信号に適切にダイナミックレンジ制御を適用するためには、コンプレッサ特性（ＤＲＣ特性、ＤＲＣプロファイル）をオーディオ信号のラウドネスレベル範囲に「整合させる」べきである。例えば、図１を参照すると、整合は、ＤＲＣ特性曲線のゼロ交差がオーディオ信号のラウドネスレベル範囲のほぼ中心にくるように入力レベル軸に沿ってなされている。ゼロ交差点におけるレベルは、ＤＲＣ入力ラウドネス目標とも称され、図１に示す特性曲線の例示的なセットでは、そのレベルは約－３１ｄＢである。ラウドネスレベル範囲の中心は、例えば、サウンドプログラムの平均レベル、又はサウンドプログラム内の平均ダイアログレベルであってもよい。本明細書において、そのような整合を実現するための処理は、オーディオ信号のＤＲＣに関連した、所与のラウドネス目標へのラウドネスノーマライゼーションと称される。例えば、オーディオ信号（サウンドプログラム）のラウドネスは、統合ラウドネスとして知られる単一の値であってもよい。統合ラウドネスは、オーディオ信号のラウドネスの尺度であり、二乗平均平方根（ＲＭＳ）と類似しているが、人間の聴覚の観点から、より忠実性が高い。統合ラウドネスは、サウンドプログラムがその全持続時間にわたって、どの程度ラウドであるかを測定するという点でプログラムラウドネスと同等であり得る。ラウドネスノーマライゼーションを実現するために、統合ラウドネスがデシベル（ｄＢ）の単位で与えられる場合は、ＤＲＣ入力ラウドネス目標からそれを減算して、ノーマライゼーション利得をｄＢ単位で導出することができる。このノーマライゼーション利得が、オーディオ信号（サウンドプログラム）の瞬間ラウドネスを計算するラウドネスモデルの出力に加算される。瞬間ラウドネスは、入力デジタルオーディオ信号を構成するそれぞれのデジタルオーディオフレームに基づいて計算された（かつ、人間の知覚ラウドネスを表す）ラウドネス値のシーケンスであってもよい。ラウドネスノーマライゼーションを実現するもう一つの方法は、図１に示すＤＲＣ特性曲線を（ノーマライゼーション利得の量だけ）右又は左にシフトさせることである。図１の例では、曲線は、－３１ｄＢ（この例ではラウドネス目標）まで左にシフトされており、したがって、－３１ｄＢＡ（Ａ加重）又はＬＫＦＳ（loudness K-weighted level full scale、ラウドネスＫ加重レベルフルスケール）の統合ラウドネスを有するサウンドプログラムに適切に整合されている（したがって直接適用され得る）。換言すれば、その場合のノーマライゼーション利得は、ゼロｄＢＡである。

ダイナミックレンジ制御信号処理の進行中に、音声プログラムの統合ラウドネスがまだ不明である場合は、ライブオーディオの場合のように、ラウドネスノーマライゼーションを適用するために予測を行う必要がある。ところが予測は、不正確な場合があり、よって、望ましくないバイアスを内包するＤＲＣ利得が結果として得られる、又は、オーディオ信号の非圧縮部分と圧縮部分との間の望ましくないラウドネスシフトであるポンピング効果を生成するＤＲＣ利得が結果として得られることがある。

望ましくないラウドネスシフトの可能性を低減するために、本明細書の開示の一態様は、オーディオコーデックシステム又は方法のエンコーダ側ではなくデコーダ側で、ＤＲＣにラウドネスノーマライゼーションを適用する。オーディオコーデックシステム及び関連する方法の一例を、図２のハードウェアブロック図に示す。オーディオコーデックシステム及び方法の様々なハードウェアブロックは、プログラムドプロセッサによって実装されてもよい。そのような方法では、統合ラウドネス（復号されたオーディオ信号の再生又はアーカイブ／記憶のためにＤＲＣに関連して行われるラウドネスノーマライゼーションのために必要）を、図３及び図４に関連して以下で説明する少なくとも２つの例において取得することができる。

まず図２を見ると、オーディオコーデックシステムは、エンコーダ側を有し、それは、本明細書では「プログラムドプロセッサ」と総称する、メモリに記憶された命令を実行する、又は、その命令によって設定される１つ以上のプロセッサによって、例えば１つ以上のサーバ内に実装されてもよい。上側のオーディオ信号処理経路は、側鎖を含み、この側鎖は、本明細書ではサウンドプログラムとも称されるデジタル入力オーディオ信号（シーケンス）の瞬間ラウドネスを計算又は推定するラウドネスモデルを含む。この推定は、知覚ラウドネススケール（ソーンスケールなど）に基づき、よって、ほぼ対数関数的である。瞬間ラウドネスシーケンスを経時的に平滑化するために、図示するように平滑化フィルタを適用することができる。その結果、圧縮利得の変化が所望されない入力オーディオシーケンスの領域は平滑化されるが、マクロダイナミックなラウドネス遷移は影響を受けない。

下側のオーディオ信号処理経路は、側鎖による遅延を相殺するために、入力オーディオシーケンスを遅延させる遅延ブロックを含む。次いで、平滑化されたラウドネスシーケンス及び遅延された入力オーディオシーケンスがエンコーダに供給される。

エンコーダは、一方又は両方の入力にビットレート低減操作を行って、一方又は両方の入力のビットレート低減バージョンを含む１つ以上のビットストリームを生成することができる。次いで、この１つ以上のビットストリームが、デコーダ側に（例えば、インターネットを介して）送信されてもよく、又はデコーダ側処理にアクセスされるまで記憶又はアーカイブ用のファイルに書き込まれてもよい。平滑化されたラウドネス（平滑化されたラウドネス値のシーケンス、又は単一の平滑化されたラウドネス値を指す）は、遅延された入力オーディオシーケンスと同じビットストリーム内に、例えば、「対応する」アドバンストオーディオコーディング（ＡＡＣ）オーディオフレームに関連付けられて、メタデータとして担持されてもよい。このことを、オーディオ層内に存在するとも称する。あるいは、（以下で更に論じるように）統合ラウドネス更新値及びＤＲＣペイロードなどの、平滑化されたラウドネスシーケンス及びその他のラウドネス値は、オーディオ層内ではなく、ファイルフォーマットレベルなどの上位層で送信されてもよい。どちらの場合も１つ以上のビットストリームが生成され、その中に、符号化されたオーディオが、平滑化されたラウドネスシーケンスなどの関連メタデータと共に、又は、他の態様では以下に記載されるように、エンコーダから供給されるＤＲＣ利得シーケンスを適用するためのデコーダ側に対する命令と共に提供される。

デコーダ側はまた、例えば、オーディオ再生装置の一部としてメモリ内に記憶された命令によって実行される、又はその命令によって設定される１つ以上のプロセッサなどの、プログラムドプロセッサとして実装されてもよい。ここで、デコーダ側処理は、エンコーダ側処理と同じオーディオ再生装置内に実装されてもよいことに留意されたい。あるいは、デコーダ側処理は、エンコーダ側処理を行うプログラムドプロセッサとは別個のオーディオ再生装置内に実装されてもよい。オーディオ再生装置の例として、スマートフォン、タブレットコンピュータ、デジタルメディアプレーヤ、ヘッドセット、又は車両インフォテインメントシステムが挙げられる。デコーダ側では、平滑化されたラウドネスシーケンス及び遅延された入力オーディオシーケンスを復元するために、デコーダは、エンコーダのビットレート低減操作を解除する。平滑化されたラウドネス値は復号されると、次いで、「対応する」ＤＲＣすなわち圧縮利得値にマッピングされる。このマッピングは、例えば、図１に示される曲線のうちの１つ（あるいは、他の所望の曲線）を実施する、メモリレスの入出力関数である。このマッピングは、コンプレッサ特性又はコンプレッサプロファイル（ＤＲＣ特性）を成し、その出力は、時間的に変動する入力ラウドネスレベルの関数である、時間的に変動する利得（ＤＲＣ利得値のシーケンス）である。このマッピングはまた、対数関数的なラウドネス領域からＤＲＣ利得の線形領域への変換を含んでもよい。次いで、圧縮が所望される場合には、図の乗算記号によって示されるように、復号されたオーディオ信号にＤＲＣ利得値（シーケンス）が適用される。図示されていないが、圧縮されたオーディオは、次いで再生処理ブロックに引き渡され、そのブロックでは最終的に、圧縮されたオーディオを音に変換するトランスデューサ（スピーカ）ドライバ入力信号を生成してもよい。

図２を見ると、平滑化されたラウドネスシーケンスは、デコーダ側で、ＤＲＣマッピングブロックに入力される前に調整すなわちノーマライズされることが分かる。例えば、不変の統合ラウドネス（単一値）をＤＲＣ入力ラウドネス目標から（ｄＢ領域で）減算して、ｄＢ単位でノーマライゼーション利得を導出することができる。このノーマライゼーション利得が、平滑化されたラウドネスシーケンス内の平滑化されたラウドネス値のそれぞれに加算されて、ＤＲＣ処理で使用されるノーマライズされたラウドネスシーケンスが生成される。そのようなＤＲＣ処理には、少なくとも２つの適用例、例えば、ライブ又はリアルタイムのストリーミング、及び、記憶又はアーカイブのためのファイルへのライブ録音がある。

そのような適用例の１つでは、図３を参照すると、エンコーダ側の入力オーディオは、例えばインターネットを介してデコーダ側にストリーミングされているライブ又はリアルタイムのデジタルオーディオ録音である。入力オーディオは、符号化及びビットストリーム送信と同時に行われる、ライブ又はリアルタイムのイベントのオーディオキャプチャを含む。したがって、サウンドプログラム全体を表す単一の統合ラウドネス値は、ライブイベントが終了するまで計算することができない。それまでの間、エンコーダ側の中にある統合ラウドネス測定ブロックが、時間整合のために遅延してエンコーダに送られるライブオーディオのサンプルを、５～１００ミリ秒である単一のオーディオフレームより長い、例えば数秒間の時間間隔にわたって収集し、その時間間隔のラウドネスの測定値を計算する。このブロックは次に、サウンドプログラムの先頭に戻りながらそのような測定値のいくつかを「統合」又は収集して、例えばそれらを平均し、統合ラウドネス更新値を計算する。統合ラウドネス更新値は、現在の更新までに再生又はストリーミングされたサウンドプログラムの部分のみに対する統合ラウドネスの測定であり得る。例えば定期的に、この測定は、繰り返されて「移動平均」統合ラウドネスを生成し、デコーダ側に最新の統合ラウドネス更新値（単一の値である）を送信する。本明細書で使用するとき、用語「移動平均」は、実際の平均を行うことを必要とせず、収集されたラウドネス測定値の統計の評価を含めたラウドネス測定値の収集に基づく、プログラムの先頭から現在の更新までのサウンドプログラムのラウドネスのいくつかの測定のみを必要とすることに留意されたい。更新値（移動平均）は、計算されてから、符号化されたサウンドプログラム（符号化されたオーディオ信号）もまた含むビットストリームの一部として、統合ラウドネス更新値フィールドの複数のインスタンスとして、ビットストリーム内の隣接するインスタンスがサウンドプログラムの持続時間にわたって１～１０秒間だけ離れているようにして提供されてもよい。

また、用語「統合ラウドネス更新値」は、移動平均ラウドネス又は「部分統合ラウドネス」とも称され得ることに留意されたい。サウンドプログラムの末尾において、最後の、又は最終的なラウドネス更新値は、サウンドプログラム全体のラウドネス（例えば、オーディオプログラムラウドネス及びトゥルーピークオーディオレベルを測定するための勧告ＩＴＵ－ＲＢＳ．１７７０－４（１０／２０１５）アルゴリズムに記載されている、統合ラウドネス又はプログラムラウドネスとも称する）を表し得る。

デコーダ側では、デコーダがビットストリームを取得し、そこから統合ラウドネス更新値を抽出し、次いでデコーダ側処理がそれを適用して、ＤＲＣ処理にラウドネスノーマライゼーションを施す。これは、例えば、復号又は復元された瞬間ラウドネスシーケンスに単一のラウドネスノーマライゼーション利得値（例えば、ＤＲＣ入力ラウドネス目標と統合ラウドネス更新値との差）を加算してから、ＤＲＣ特性マッピングブロックに入力することによって行われてもよい。あるいは、ラウドネスノーマライゼーションは、ＤＲＣ特性を、ラウドネスノーマライゼーション利得値と等しい量だけ入力軸に沿ってシフトすることによって行われてもよい。ラウドネスノーマライゼーション利得は、ライブイベントの経過部分に対してエンコーダ側で計算された最新の部分統合ラウドネス値（統合ラウドネス更新値）を使用して、ビットストリーム（サウンドプログラム）の送信中に定期的に更新されてもよい。

もう一つの適用例では、図４を参照すると、エンコーダ側の入力オーディオは、イベントのライブ又はリアルタイムデジタルオーディオ録音であり、録音の終了時に（イベントが終了するとき）アーカイブ又は記憶の目的でファイルに書き込まれる。ライブオーディオイベント全体のプログラムラウドネスを表す単一の統合ラウドネス値を、録音の終了時に統合ラウドネスモデルブロックによって計算し、イベントが終了し次第、エンコーダに提供することができる。エンコーダは、統合ラウドネス値を、ライブオーディオの符号化バージョン及び、ラウドネスモデルによって（同じライブオーディオに基づいて）計算された瞬間（及び平滑化された）ラウドネスシーケンスの符号化バージョンと共に、ファイルに書き込む。デコーダ側では、デコーダがファイル（ビットストリーム）を取得し、そのファイルから入力オーディオ及び瞬間ラウドネスシーケンスを復号し、そのファイルから統合ラウドネス値を抽出する。デコーダ側処理は、次いで、復号された瞬間ラウドネスシーケンスに、統合ラウドネス値を使用してラウドネスノーマライゼーションを施してから、ＤＲＣ（圧縮）マッピングブロックに入力し、次いで、再生中に（圧縮が所望される場合は）このブロックの出力が、復号された入力オーディオに適用される。

一態様では、平滑化フィルタは、米国特許第１０，１０９，２８８号に記載されているような非線形フィルタである。このフィルタの有用な特性は、その出力を入力と同じ量だけレベルシフトできることある。すなわち、ｆ（ｘ）を非線形関数、ｘ（ｎ）を入力信号、ｙ（ｎ）を出力として定義すると、次のように記述することができる。
ｙ（ｎ）＝ｆ（ｘ（ｎ））

入力信号のシフトがΔＬだけ与えられると、出力がΔＬだけシフトした場合には、ｆ（ｘ）はシフト特性を満たし、これを数学的に表すと次のとおりである。
ｙ（ｎ）＋ΔＬ＝ｆ（ｘ（ｎ）＋ΔＬ）

これにより、絶対ラウドネス値に対する依存性を有するエンコーダ側の側鎖処理が一切回避されるので、有益である。

本明細書の開示のもう一つの態様は、エンコーダ側でのラウドネスノーマライゼーションに対応するために拡張された、ＭＰＥＧ－ＤＤＲＣｓｔａｎｄａｒｄＩＳＯ／ＩＥＣ、「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ－ＭＰＥＧＡｕｄｉｏＴｅｃｈｎｏｌｏｇｉｅｓ－Ｐａｒｔ４：ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ」、ＩＳＯ／ＩＥＣ２３００３－４：２０２０（「ＭＰＥＧ－ＤＤＲＣ」）に準拠してＤＲＣを適用する方法である。図５は、ＭＰＥＧ－ＤＤＲＣ処理の一部の単純化されたブロック図を示し、ここでは、エンコーダ側から得られたビットストリーム内のメタデータからＤＲＣ利得を復号することに基づいて、ＤＲＣ利得を生成して適用する。ＭＰＥＧ－ＤＤＲＣは、既定のＤＲＣ特性と、パラメータ化された特性を符号化する柔軟な方法とを提供する。

図５で、エンコーダ側は、（入力オーディオシーケンスについて計算された）平滑化瞬間ラウドネスシーケンスを、選択されたＤＲＣ特性（上記で図２に関連して使用した「マッピングブロック」とも称する）に適用する。ＤＲＣ特性マッピングブロックの出力がＤＲＣ利得シーケンスを生成し、それがＤＲＣエンコーダに供給される。ＤＲＣエンコーダは、ビットレート低減を行って入力シーケンスを１つ以上のビットストリームに符号化し、そのビットストリームは次いで、送信されるか、又はそれ以外の方法でデコーダ側の利用に供される。デコーダ側で、ＤＲＣデコーダがビットレート低減符号化を解除して、ＤＲＣ利得シーケンスを復元する（復号されたＤＲＣ利得シーケンス）。復号されたＤＲＣ利得シーケンスは、（圧縮が所望される場合は）次いで、復号されたオーディオ信号に適用される。

ＭＰＥＧ－ＤＤＲＣはまた、サウンドプラグラムを圧縮するために適用されるＤＲＣ特性を、図５に示されるようにエンコーダ側で（メタデータとしてビットストリームに挿入されたＤＲＣ利得シーケンスを計算するために）使用されるものから、現在の再生又は聴取の条件に基づいてデコーダ側処理によって選択されてもよい別のものに変更するタイプのデコーダ側処理にも対応する。これを実現するにはまず、図６に示すように、エンコーダ側ＤＲＣ利得シーケンスを逆特性Ａに適用する。逆特性Ａは、エンコーダ側でエンコーダ側ＤＲＣ利得シーケンスを生成するために適用されるＤＲＣ特性Ａの逆数である。デコーダ側が逆特性Ａを特定できるように、ＤＲＣ特性Ａ（エンコーダ側でＤＲＣ利得シーケンスを生成するために使用されたもの）へのインデックス（識別子又はポインタ）がビットストリーム内に提供されてもよい。ＤＲＣ利得シーケンスを逆特性Ａへの入力として適用すると、その結果、平滑化された瞬間ラウドネスシーケンスが復元される。量子化効果を無視すれば、（逆特性Ａブロックの出力における）復元されたラウドネスシーケンスは、本質的に、エンコーダ側処理によって使用された、平滑化されたラウドネスシーケンスである。その結果、復元されたラウドネスシーケンスを第２のＤＲＣ特性Ｂに適用して、復号されたオーディオ信号を圧縮するために（ＤＲＣ特性Ａよりも）好適であり得る第２のＤＲＣ利得シーケンスを生成することができる。次いで、（例えば、再生中に圧縮が所望される場合は）第２のＤＲＣ利得シーケンスが、復号されたオーディオに適用される。

本明細書の開示の一態様によれば、図６に示すエンコーダ側の側鎖のラウドネスノーマライゼーションは、図２に示す手法を使用して置き換えられる。つまり、統合ラウドネスに基づくオフセット（ノーマライゼーション利得）が、エンコーダ側ではなくデコーダ側で適用される。図７は、そのようなシステムのブロック図を示す。本明細書では、このシステムは、拡張ＭＰＥＧ－ＤＤＲＣ準拠システムとも称される（以下、「新」エンコーダ及び「新」デコーダを有するとも称される）。そのようなシステムは、統合ラウドネス測定と呼ばれるブロックをエンコーダ側に有し、このブロックの出力は、上記で図３に関して論じたように統合ラウドネス更新値を提供する。この統合ラウドネス更新値がオーディオエンコーダに提供される。本明細書では、このエンコーダは、（入力オーディオに加えて）ＤＲＣ利得シーケンスもまた符号化するＤＲＣエンコーダである。ＤＲＣ利得シーケンスは、上記で図６に関して論じたように決定されてもよい。符号化されたＤＲＣ利得シーケンス及び統合ラウドネス更新値が、１つ以上のビットストリームを介してデコーダ側に提供される。ＤＲＣ利得シーケンスは、それもまたデコーダ側に提供される符号化された入力オーディオに関連付けられた、メタデータとしてフォーマットされてもよい。

統合ラウドネス測定は、統合ラウドネスの移動測定（本明細書では移動平均とも称する）であり、サウンドプログラムの始めに取得を開始し、サウンドプログラムの経過した部分のみについて統合ラウドネスを計算する目的で、経時的に続行してサウンドプログラムのオーディオ信号を「統合」する。オーディオ信号（サウンドプログラム）が続行するにつれて、統合ラウドネス測定は、例えば定期的に、例えば１０秒毎に、更新値を生成する。これらの統合ラウドネス更新値が、（例えばＤＲＣエンコーダによって）ビットストリームに書き込まれる。これは、ＭＰＥＧ－ＤＤＲＣでは、更新値をオーディオビットストリームの拡張フィールド若しくは拡張ペイロードに書き込むこと、又は更新値をＭＰ４ファイルの一部として別個のメタデータトラックに書き込むことのいずれかによって対応できる。余分なシステム遅延をもたらすことなく、更新は、ＤＲＣ利得シーケンスを生成する側鎖の遅延に等しい先取り時間を有し得る（ＤＲＣ特性Ａブロックの出力において）。先取り時間が長くなることによって、サウンドプログラムの先頭における最初の統合ラウドネス更新が改善される。すなわち、サウンドプログラムのプログラムラウドネスに近づき得る。

図７によって例示され得る第１の事例では、入力オーディオは、デコーダ側にビットストリームを介して（例えば、インターネット経由で）デコーダ側に同時ストリーミングされるライブオーディオである。その場合、プログラムラウドネスは、ストリーミング中に提供することができない（ライブオーディオイベントがまだ終了していないため）。その場合、ＤＲＣ（デコーダ側で適用される）は、図示するように、ＤＲＣ入力ラウドネス目標値と動的に変化する統合ラウドネス更新値との差に等しくてもよい、動的に変化するノーマライゼーション利得であるストリーム内統合ラウドネス更新値に基づいて動的に調整、すなわちラウドネスノーマライゼーションを施される。統合ラウドネス更新値の変化率を制限するために、更新値シーケンスは、ストリームの終わりではなくストリームの始めに平滑化されてもよい。また、初期更新値（ストリームの始め）には、入力オーディオの予想ラウドネスが考慮されてもよい。例えば、予想ラウドネスは、慎重に行われた専門職によるスタジオ設定と、入力オーディオのすでに経過した初期部分のパイロット測定との結果であってもよい。

第２の事例では、入力オーディオ（エンコーダ側）は、（ライブストリーミングではなく）図４に示すようにエンコーダ側のオーディオファイルに書き込まれているライブオーディオ録音である。その場合、最終的な統合ラウドネス更新値（サウンドプログラムの真の統合ラウドネス又はプログラムラウドネス）を、録音の終了時に、ファイルの書き換えの必要なくファイルに書き込むことができる。ＭＰＥＧ－ＤＤＲＣに準拠しようとする場合には、これは、（エンコーダ側で）最終的な統合ラウドネス更新値を、ＩＳＯベースメディアファイルフォーマットのレベルでラウドネス「ボックス」又はフィールドに書き込むことによって実現することができる。このオーディオストリームラウドネス（Audio Stream Loudness）ボックスタイプは、ｌｕｄｔと呼ばれる。図７を更に参照すると、符号化されたオーディオと、それに関連するエンコーダ側ＤＲＣ利得シーケンス及び統合ラウドネス更新値とがデコーダ側によって取得されると、デコーダ側の処理は、復号されたオーディオ信号のラウドネスノーマライゼーションバージョンに基づいてＤＲＣ利得シーケンス（ＤＲＣ特性Ｂを使用して）を決定することによってＤＲＣを適用することができる。このノーマライゼーションは、この例では、復元された、平滑化された瞬間ラウドネスを逆特性Ａの出力において調整し、好ましくは、ラウドネスボックスに書き込まれた最終的な統合ラウドネス更新値を使用することによって実現される。エンコーダ側でストリームにラウドネスボックスを追加することなく録音が終了した場合でも、ストリーム内の統合ラウドネス更新値を使用することによって、デコーダ側でラウドネスノーマライゼーションを適用することができる。

ストリーム内の統合ラウドネス更新値は、例えば１～１０秒毎に、経時的にゆっくりと変化し得るので、それに従い、ノーマライゼーションによって事実上、ＤＲＣ特性Ｂがシフトされる。統合ラウドネス更新がサウンドプログラムの短い期間（経過時間間隔）に基づいている場合には、復号されたオーディオの再生中に、録音又はストリームの始めにおいて、このシフトが可聴となる場合がある。統合ラウドネス更新値の変化率を制限するために、更新値そのものを、記録又はストリーミングの終わりではなく始めに平滑化してもよい。

図６に示す、入力オーディオがファイルへのライブ記録であるエンコーダ側処理では、入力オーディオは、エンコーダ側で、側鎖ラウドネスノーマライゼーションを使用して圧縮（ＤＲＣ）され、次いで符号化されてファイルに書き込まれてもよい。この処理では結果として本質的に、図７によるデコーダ側処理（復号されたオーディオが、デコーダ側で、ビットストリームに含まれる統合ラウドネス更新値に基づくラウドネスノーマライゼーションによって圧縮される）から得られる圧縮されたオーディオ出力とは本質的には同じではないとしても、それに匹敵する圧縮されたオーディオ出力が得られる。しかし、図７に示すようにラウドネスノーマライゼーションをデコーダ側に延期することには、録音又はイベントが終了したときに、最終的な統合ラウドネス更新値をＩＳＯベースメディアファイルフォーマットレベルのＭＰ４レベルに加えるだけで、ファイルが再生されるときにリスニング体験が改善されるという利点がある。

ここで図８を参照する。これは、デコーダ側によるＤＲＣのために、後方互換性及び非後方互換性の両方のＭＰＥＧ－ＤＤＲＣビットストリーム拡張部を生成することができる新エンコーダ側処理のフロー図である。後方互換性のビットストリーム拡張フィールド又はペイロードは、従来型のデコーダ（デコーダ側処理）によって処理することでこの拡張部どおりにＤＲＣを行うことができるが、ラウドネスノーマライゼーションを伴わないものである（復号されたオーディオ信号にＤＲＣを適用するとき）。そのような従来型デコーダの例を図６に示すことができる。非後方互換性ビットストリーム拡張部は、従来型デコーダによって（圧縮されたオーディオを生成するために）処理することができないものである。この二重機能は、以下のとおりにして有効化されてもよい。

ビットストリーム内にフラグを定義し、例えば、ｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅと称してもよい。エンコーダ側は、以下のとおりにして、このフラグを設定又はクリアすることができる。後方互換性ビットストリームを生成するには、フラグにｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝１などの第１の値を与え、その場合、ビットストリームは、ラウドネスノーマライゼーション利得もまた含み、これを、ｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂとも称する。このモードでは、エンコーダ側処理は、ラウドネスノーマライゼーション利得（本明細書ではエンコーダ側ＤＲＣノーマライゼーション利得とも称する）を使用して、ラウドネスノーマライゼーションを伴ってオーディオ信号を第１のＤＲＣ特性に適用することによって、第１のＤＲＣ利得シーケンスを決定する。図１０Ａ及び図１０Ｂを参照すると、これらは、新デコーダと従来型デコーダの両方によって処理される後方互換性ビットストリームを後方互換性エンコーダ側が生成する、ＭＰＥＧ－ＤＤＲＣ準拠オーディオコーデックシステムのブロック図である。入力オーディオがライブ録音である事例では、統合ラウドネス更新値もまた計算され、エンコーダに提供される（ビットストリームに組み込まれる）。ラウドネスノーマライゼーション利得は、図１０Ａに示すように、（例えば、ｄＢＡの単位を想定して）ＤＲＣ入力ラウドネス目標から予測プログラムラウドネス値を減算することによって計算されてもよい。

ラウドネスノーマライゼーション利得ｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂは、新しい後方互換性エンコーダ側処理で後方互換性ビットストリームを生成するために適用される値で、その処理では、（ＤＲＣ特性Ａについて）ラウドネスノーマライゼーションを伴ってＤＲＣ利得シーケンスが得られている。このビットストリームは、例えば図１０Ｂに示すように、新デコーダと従来型デコーダの両方による処理が可能である。このビットストリームが従来型デコーダによって処理されるときは、このデコーダは、ＤＲＣ中にラウドネスノーマライゼーションを適用しない。ＤＲＣ中にラウドネスノーマライゼーションを適用する新デコーダによってビットストリームが処理されるときは、統合ラウドネス更新値を使用してより正確なラウドネスノーマライゼーションを適用するために、ｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂを使用して、後方互換性エンコーダによるｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂの適用が相殺、中和、又は無効化される。換言すれば、新デコーダのプロセッサは、デコーダ側ＤＲＣラウドネスノーマライゼーションを適用するときに、エンコーダ側ＤＲＣノーマライゼーション利得を相殺する。

図８に戻ると、従来型デコーダと新デコーダの両方による処理を可能にするために、後方互換性ビットストリームはまた、フラグが第１の値を有する場合、例えばｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝１、第１のＤＲＣ設定フィールド、例えばＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ１、及び第２のＤＲＣ設定フィールド、例えばＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２を含んでもよい。第１のＤＲＣ設定フィールドは、例えば、図１０Ｂの従来型デコーダブロックに示されるように、復号されたオーディオ信号にラウドネスノーマライゼーションを伴わずにＤＲＣを適用するように、デコーダ側処理に命令する。第２のＤＲＣ設定フィールドは、例えば、図１０Ｂの新デコーダブロックに示されるように、復号されたオーディオ信号にラウドネスノーマライゼーションを伴ってＤＲＣを適用するように、デコーダ側処理に命令する。

更に図８を参照すると、新エンコーダ側は、以下のように、非後方互換性のＭＰＥＧ－ＤＤＲＣビットストリーム拡張部（従来型デコーダによって、圧縮されたオーディオを生成するために処理することができないもの）を作成することができる。そのビットストリームが新デコーダ側のみで処理されるということをエンコーダ側が認識している場合には、エンコーダ側は、このＤＲＣビットストリーム拡張部の作成を所望してもよいことに留意されたい。そのようなビットストリームでは、フラグは、第２の値、例えばｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝０を有し、ビットストリームは、ラウドネスノーマライゼーション利得（デコーダ側による使用が意図される）を含まない。加えて、第１のＤＲＣ設定フィールド、例えばＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ１もビットストリームから省略される。図９は、そのようなビットストリームを処理できる新デコーダを示す。換言すれば、フラグが第２の値、例えば、ｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝０を有するとき、ビットストリームは、第２のＤＲＣ設定フィールドを含み、第１のＤＲＣ設定フィールドを含まない。

図９は、後方互換性又は非後方互換性のいずれかのＭＰＥＧ－ＤＤＲＣビットストリーム拡張部を使用してＤＲＣ利得シーケンスを生成できる、新デコーダ側処理のフロー図である。処理は、ビットストリームを解析して、第２のＤＲＣ設定フィールド、例えばＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２、及び、フラグｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅを検出することで開始してもよい。フラグが第１の値、例えばｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝１を有することに応答して、処理は、例えば図１０Ｂ（新デコーダブロック）に示すようにＤＲＣ特性Ｂを使用し、かつラウドネスノーマライゼーションを伴って、オーディオ信号にＤＲＣを適用し、このラウドネスノーマライゼーションは、ｉ）ラウドネスノーマライゼーション利得（例えば、ｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂ）及び、ｉｉ）複数インスタンスの統合ラウドネス更新値（その両方がオーディオ信号に沿ってＤＲＣデコーダによってビットストリームから復号される）を使用する。

一態様では、引き続き図９を参照すると、フラグが第１の値、例えばｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝１を有するとき、第１のＤＲＣ設定フィールド内に含まれ得る第１のＤＲＣ特性のインデックスは、第２のＤＲＣ設定フィールド内に含まれる第１のＤＲＣ特性のインデックスによって無効化される。例えば、ＭＰＥＧ－ＤＤＲＣは、従来型ＭＰＥＧ－ＤＤＲＣデコーダによって認識可能なＤＲＣ特性１～６（本明細書では従来型インデックス値又は従来型範囲とも称する）を定義し得る。本開示では、拡張ＭＰＥＧ－ＤＤＲＣ手順に従って、同じそれらの特性が、例えば６５～７０などの異なるインデックス値（本明細書では新インデックス値又は新範囲とも称される）を有して複製される。換言すれば、従来型の特性は、従来型インデックス１～６によって、又は新インデックス６５～７０によってのいずれかで参照することができ、特性のパラメータは、以下の表に示すとおり、同じままである。

新エンコーダ側処理は、後方互換性ビットストリームを生成するとき（図８のフロー図の右側、ｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝１）、第１（Ｖ１）及び第２（Ｖ２）のＤＲＣ設定拡張フィールドの両方を生成し、第１のＤＲＣ設定フィールドは、従来型デコーダとの後方互換性を有効にするために、新インデックス６５～７０のいずれでもなく、従来型インデックス１～６のうちの１つ以上を指す。Ｖ２拡張フィールドは、新しいインデックス値のうちの１つ以上を指してもよいし、又は従来型インデックス値のうちの１つ以上を指してもよい）。新インデックス値は、事実上、新デコーダ（本開示の拡張ＭＰＥＧ－ＤＤＲＣ手順に準拠しているもの）に、第２のＤＲＣ利得シーケンスを生成するときにラウドネスノーマライゼーションが必要であり得ることを通知する。ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２拡張部のみが、デコーダ内でラウドネスノーマライゼーションを必要とするＤＲＣ特性インデックス６５～７０に対応する。

新デコーダ側処理は、図９の右側に示すように、Ｖ１とＶ２の両方の拡張フィールドを復号してもよく、その結果、同じＤＲＣ特性Ａを指示する２つのインデックス（２つの異なるインデックス値）を抽出し得る。この場合、Ｖ２インデックスは、Ｖ１を無効化すると言われる。その理由は、ｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅ＝１であり、その場合には、新デコーダは、ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ１拡張部から得られたＤＲＣ特性インデックスを、ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２拡張部から得られたものによって置き換えるからである。

図８に戻ると、非後方互換性ビットストリーム（従来型デコーダではなく、新デコーダに提供される）が生成されると、フラグｃｈａｒａｃｔｅｒｉｓｔｉｃＶ１Ｏｖｅｒｒｉｄｅは、ゼロに設定され、ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２拡張部がビットストリーム内に生成される。ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２拡張部は、ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ１拡張部と実質的に同じビットストリームフィールドを含む。ＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ１は、特性６５～７０に対応しないが、送信されるＵＮＩＤＲＣＣＯＮＦＥＸＴ＿Ｖ２は対応する。エンコーダ側でＤＲＣシーケンスを生成するためのラウドネスノーマライゼーションは、この場合には適用されないので（図７を参照）、デコーダ内では相殺されない（これも図７を参照）。その状況は、図１０Ｂのデコーダ側処理でノーマライゼーション利得、例えばｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂを０に設定することと同等である。そのようなビットストリームが新デコーダ側処理によって解析されるとき、ｉ）フラグが第２の値を有することと、ｉｉ）インデックスが第１の値（例えば、６５～７０の範囲）であることとに応答して、デコーダ側処理は、第２のＤＲＣ特性Ｂを使用し、かつラウドネスノーマライゼーションを伴って、オーディオ信号にＤＲＣを適用し、このラウドネスノーマライゼーションは、統合ラウドネス更新値は使用するがラウドネスノーマライゼーション利得は使用しない（例えば、加法ブロックのｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂの値がゼロに設定される）。換言すれば、ノーマライズされたラウドネスシーケンスをＤＲＣ特性Ｂの入力において生成する場合は、ｅｎｃＤｒｃＮｏｒｍＧａｉｎＤｂは、ゼロに設定される。

ところが、ｉ）フラグが第２の値を有すること、及び、ｉｉ）インデックスが第１の値とは異なる第２の値であること（例えば、範囲１～６にある）に新デコーダが遭遇した場合は、デコーダ側処理は、オーディオ信号にＤＲＣを適用する（第２のＤＲＣ特性Ｂを使用する）が、ラウドネスノーマライゼーションは伴わない。換言すれば、図１０Ｂを参照すると、逆特性Ａの出力における復元された、平滑化された瞬間ラウドネスシーケンスは、（ＤＲＣ特性Ｂに入力される前に）調整されない。したがって、その図に示された加法ブロックは、存在しない。

以下の付録は、ＭＰＥＧ－ＤＤＲＣ標準のフレームワークにおける延期されたラウドネスノーマライゼーションのために提案される方法の暫定仕様を含む。この文書は、従来型デコーダでも復号可能な新情報を用いてビットストリームを生成する効率的な方法を含む。

特定の態様を記載し添付の図面に図示してきたが、このような態様は、大まかな発明の単なる例示にすぎず、それを限定するものではないこと、また、他の様々な変更が当業者により想起され得るので、本発明は、図示及び記載した特定の構成並びに配置に限定されないことを理解されたい。したがって、本明細書は、限定的ではなく例示的であると見なされるべきである。

Claims

プロセッサと、
ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと
を備えるオーディオデコーダ装置であって、前記ビットストリームが、
オーディオ信号の符号化バージョンと、
前記オーディオ信号を第１のＤＲＣ特性に適用するエンコーダ側処理によって決定された、第１のダイナミックレンジ制御、すなわちＤＲＣ、利得シーケンスと、
前記第１のＤＲＣ利得シーケンスを決定するときに前記エンコーダ側によって適用されたラウドネスノーマライゼーション利得と、
前記第１のＤＲＣ特性のインデックスであって、前記インデックスが前記第１のＤＲＣ特性を識別又は指示する、インデックスと、
統合ラウドネス更新値の経時的な複数のインスタンスと、
を含む、
オーディオデコーダ装置。
前記インデックスが第１の値を有することに応じて、前記プロセッサが、前記オーディオ信号にＤＲＣを適用するときにラウドネスノーマライゼーションを行う、請求項１に記載のオーディオデコーダ装置。
前記ビットストリームが前記プロセッサに、前記ＤＲＣ利得シーケンスに逆ＤＲＣ特性を適用した後に、前記エンコーダ側によって前記ＤＲＣ利得シーケンスを決定するときに適用されたラウドネスノーマライゼーションを、前記ビットストリーム内の前記ラウドネスノーマライゼーション利得を使用して相殺するか取り消すことによってラウドネスノーマライゼーションを行うように指示する、請求項１に記載のオーディオデコーダ装置。
前記メモリが命令を内部に記憶して有し、前記命令が、前記プロセッサを、
前記第１のＤＲＣ特性の逆数に前記第１のＤＲＣ利得シーケンスを適用することによって、ラウドネスシーケンスを復元し、
前記復元されたラウドネスシーケンスに対してラウドネスノーマライゼーションを行い、
前記復元されたラウドネスシーケンスを第２のＤＲＣ特性に適用することによって第２のＤＲＣ利得シーケンスを生成し、
前記第２のＤＲＣ利得シーケンスを前記オーディオ信号に適用する、
ように構成する、
請求項１～５のいずれか一項に記載のオーディオデコーダ装置。
前記ラウドネスノーマライゼーション利得がｄＢの単位であり、ラウドネスノーマライゼーションを行うことが、前記ラウドネスノーマライゼーション利得を、前記復元されたラウドネスシーケンス及び前記統合ラウドネス更新値のインスタンスと結合することを含む、請求項６に記載のオーディオデコーダ装置。
前記ラウドネスノーマライゼーションを行うことが、前記第２のＤＲＣ特性を、前記ラウドネスノーマライゼーション利得及び前記統合ラウドネス更新値のインスタンスに基づく量だけ入力軸に沿ってシフトさせることを含む、請求項１～６のいずれか一項に記載のオーディオデコーダ装置。
前記プロセッサが、前記統合ラウドネス更新値の各インスタンスについて、ＤＲＣ入力ラウドネス目標と前記統合ラウドネス更新値の前記インスタンスとの差としてノーマライゼーション利得に対する更新を計算し、前記ノーマライゼーション利得を前記復元されたラウドネスシーケンスに加算してノーマライズされたラウドネスシーケンスを生成してから、前記ノーマライズされたラウドネスシーケンスを前記第２のＤＲＣ特性に適用して前記第２のＤＲＣ利得シーケンスを生成する、請求項１～８のいずれか一項に記載のオーディオデコーダ装置。
隣接する前記統合ラウドネス更新値のインスタンスが、１～１０秒間だけ離れている、請求項１～９のいずれか一項に記載のオーディオデコーダ装置。
前記統合ラウドネス更新値が前記オーディオ信号の移動平均統合ラウドネスを表す、請求項１～１０のいずれか一項に記載のオーディオデコーダ装置。
前記プロセッサが、
前記ビットストリームから前記第１のＤＲＣ特性への前記インデックスを抽出して、前記抽出されたインデックスを使用して前記第１のＤＲＣ特性の逆数を取得し、
前記第１のＤＲＣ特性の前記逆数に前記第１のＤＲＣ利得シーケンスを適用することによって、ラウドネスシーケンスを復元し、
前記インデックスが第１の既定値を有する場合には、統合ラウドネス更新値の各インスタンスについて、ｉ）ＤＲＣ入力ラウドネス目標と、ｉｉ）統合ラウドネス更新値の前記インスタンスとエンコーダ側処理によって使用されたエンコーダ側ラウドネスノーマライゼーション利得との合計との差として、ノーマライゼーション利得更新値を計算し、前記ノーマライゼーション利得更新値を前記復元されたラウドネスシーケンスに加えて、ノーマライズされたラウドネスシーケンスを生成し、
前記ノーマライズされたラウドネスシーケンスを第２のＤＲＣ特性に適用することによって第２のＤＲＣ利得シーケンスを生成し、
前記第２のＤＲＣ利得シーケンスを前記オーディオ信号に適用する、
ように構成されている、請求項１に記載のオーディオデコーダ装置。
前記プロセッサが、前記インデックスが第２の規定値を有する場合には、前記第２のＤＲＣ特性に前記復元されたラウドネスシーケンスを、ラウドネスノーマライゼーションを伴わずに適用することによって、前記第２のＤＲＣ利得シーケンスを生成するように構成されている、請求項１２に記載のオーディオデコーダ装置。
プロセッサと、
ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
を備えるオーディオデコーダ装置であって、前記ビットストリームが、
オーディオ信号の符号化バージョンと、
前記オーディオ信号を第１のＤＲＣ特性に適用するエンコーダ側処理によって決定された、第１のダイナミックレンジ制御、すなわちＤＲＣ、利得シーケンスと、
前記第１のＤＲＣ特性のインデックスであって、前記インデックスが前記第１のＤＲＣ特性を識別又は指示する、インデックスと、
統合ラウドネス更新値の経時的な複数のインスタンスと、
フラグであって、前記フラグが第１の値を有するときは前記ビットストリームがエンコーダ側ラウドネスノーマライゼーション利得を含み、又は前記フラグが第２の値を有するときは前記ビットストリームが前記エンコーダ側ラウドネスノーマライゼーション利得を含まない、フラグと、
を含む、
オーディオデコーダ装置。
前記フラグが前記第１の値を有することに応答して、前記プロセッサが、第２のＤＲＣ特性を使用し、かつラウドネスノーマライゼーションを伴って、前記オーディオ信号にＤＲＣを適用し、前記ラウドネスノーマライゼーションが、ｉ）前記エンコーダ側ラウドネスノーマライゼーション利得、及びｉｉ）統合ラウドネス更新値の前記複数のインスタンスを使用する、請求項１４に記載のオーディオデコーダ装置。
ｉ）前記フラグが前記第２の値を有することに応答して、ｉｉ）前記インデックスが第１の値を有するときに、前記プロセッサが、第２のＤＲＣ特性を使用し、かつラウドネスノーマライゼーションを伴って、前記オーディオ信号にＤＲＣを適用し、前記ラウドネスノーマライゼーションが、統合ラウドネス更新値の前記複数のインスタンスを使用するがエンコーダ側ラウドネスノーマライゼーション利得は使用しない、請求項１４に記載のオーディオデコーダ装置。
前記インデックスが前記第１の値とは異なる第２の値であることに応答して、前記プロセッサが、前記第２のＤＲＣ特性を使用するがラウドネスノーマライゼーションは伴わない、前記オーディオ信号にＤＲＣを適用する、請求項１６に記載のオーディオデコーダ装置。
プロセッサと、
ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
を備えるオーディオデコーダ装置であって、前記ビットストリームが、
オーディオ信号の符号化バージョンと、
前記オーディオ信号を第１のＤＲＣ特性に適用するエンコーダ側処理によって決定された、第１のダイナミックレンジ制御、すなわちＤＲＣ、利得シーケンスと、
前記第１のＤＲＣ特性のインデックスであって、前記インデックスが前記第１のＤＲＣ特性を識別又は指示する、インデックスと、
統合ラウドネス更新値の経時的な複数のインスタンスと、
フラグと、を含み、前記フラグが第１の値を有するときは、前記プロセッサが、前記ビットストリーム内の従来型拡張ペイロードの一部又は全ての従来型ＤＲＣ特性インデックス値を、前記ビットストリーム内の新拡張ペイロードに含まれるＤＲＣ特性インデックス値に置き換える、
オーディオデコーダ装置。
プロセッサと、
ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
を備えるオーディオデコーダ装置であって、前記ビットストリームが、
オーディオ信号の符号化バージョンと、
前記オーディオ信号を第１のＤＲＣ特性に適用するエンコーダ側処理によって決定された、第１のダイナミックレンジ制御、すなわちＤＲＣ、利得シーケンスと、
前記第１のＤＲＣ特性のインデックスであって、前記インデックスが前記第１のＤＲＣ特性を識別又は指示する、インデックスと、
統合ラウドネス更新値の経時的な複数のインスタンスと、
を含み、
前記ビットストリームがエンコーダ側ＤＲＣノーマライゼーション利得を含み、前記プロセッサが、デコーダ側ＤＲＣラウドネスノーマライゼーションを適用するときに前記エンコーダ側ＤＲＣノーマライゼーション利得を相殺する、
オーディオデコーダ装置。
プロセッサと、
ビットストリームを生成するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
を備えるオーディオデコーダ装置であって、前記ビットトリームが、
オーディオ信号の符号化バージョンと、
前記オーディオ信号を第１のＤＲＣ特性に適用するエンコーダ側処理によって決定された、第１のダイナミックレンジ制御、すなわちＤＲＣ、利得シーケンスと、
前記第１のＤＲＣ特性のインデックスと、
統合ラウドネス更新値の経時的な複数のインスタンスと、
を含み、
デコーダ側処理が、ラウドネスノーマライゼーションを行いながら前記オーディオ信号にＤＲＣを適用する様式を、前記ビットストリームが制御する、
オーディオデコーダ装置。
前記プロセッサがフラグを前記ビットストリームに挿入し、前記フラグが第１の値を有するときは前記ビットストリームがエンコーダ側ラウドネスノーマライゼーション利得を含み、又は前記フラグが第２の値を有するときは前記ビットストリームが前記エンコーダ側ラウドネスノーマライゼーション利得を含まない、請求項２１に記載のオーディオエンコーダ装置。
前記フラグが前記第１の値を有するときは、前記第１のＤＲＣ利得シーケンスを決定するときに前記エンコーダ側処理によって前記ラウドネスノーマライゼーション利得が適用された、請求項２２に記載のオーディオエンコーダ装置。
ビットストリームを取得することであって、前記ビットストリームが、オーディオ信号の符号化バージョンと、前記オーディオ信号を第１のＤＲＣ特性に適用するエンコーダ側処理によって決定された第１のダイナミックレンジ制御、すなわちＤＲＣ、利得シーケンスと、前記第１のＤＲＣ特性のインデックスであって、前記インデックスが、前記第１のＤＲＣ特性を識別又は指示するインデックスと、統合ラウドネス更新値の経時的な複数のインスタンスと、を含む、ことと、
前記インデックスを使用して逆ＤＲＣ特性を取得することと、
前記第１のＤＲＣ利得シーケンスに前記逆ＤＲＣ特性を適用した後にラウドネスノーマライゼーションを行って、ノーマライズされたラウドネスシーケンスを生成することと、
前記ノーマライズされたラウドネスシーケンスを第２のＤＲＣ特性に適用して、第２のＤＲＣ利得シーケンスを生成することと、
前記第２のＤＲＣ利得シーケンスを前記オーディオ信号に適用して、圧縮されたオーディオを生成することと、
を含む、デジタルオーディオの方法。
前記ビットストリームが、前記第１のＤＲＣ特性に前記オーディオ信号を適用することによって前記第１のＤＲＣ利得シーケンスを判定するときにエンコーダ側によって適用された、ラウドネスノーマライゼーション利得を含み、
前記ビットストリームが前記プロセッサに、前記第１のＤＲＣ利得シーケンスを決定するときに前記エンコーダ側によって適用されたラウドネスノーマライゼーションを、前記ビットストリーム内の前記ラウドネスノーマライゼーション利得を使用して相殺するか又は取り消すことによってラウドネスノーマライゼーションを行うように指示する、
請求項３０に記載の方法。
前記ビットストリームがフラグを含み、前記フラグが第１の値を有するときは、前記第１のＤＲＣ利得シーケンスが、ラウドネスノーマライゼーションを伴って前記オーディオ信号を前記第１のＤＲＣ特性に適用する前記エンコーダ側処理によって決定されている、請求項３０に記載の方法。
前記フラグが第２の値を有するときは、前記第１のＤＲＣ利得シーケンスが、ラウドネスノーマライゼーションを伴わずに前記オーディオ信号を前記第１のＤＲＣ特性に適用する前記エンコーダ側処理によって決定されている、請求項３２に記載の方法。
ラウドネスノーマライゼーションを行うことが、
前記ノーマライズされたラウドネスシーケンスを調整し、次いで前記調整されたラウドネスシーケンスを前記第２のＤＲＣ特性に適用すること、
を含む、請求項３０～３３のいずれか一項に記載の方法。
オーディオ信号を符号化して、前記オーディオ信号の符号化バージョンを生成することと、
前記オーディオ信号を処理して、統合ラウドネス更新値の経時的な複数のインスタンスを生成することと、
前記オーディオ信号をダイナミックレンジ制御、すなわちＤＲＣ、特性に適用して、ＤＲＣ利得シーケンスを決定することと、
前記オーディオ信号の前記符号化バージョンと、前記ＤＲＣ利得シーケンスと、前記ＤＲＣ特性のインデックスと、統合ラウドネス更新値の経時的な前記複数のインスタンスと、を含むビットストリームを生成することと、を含み、デコーダ側処理が、ラウドネスノーマライゼーションを行いながら前記オーディオ信号にＤＲＣを適用する様式を、前記ビットストリームが制御する、
デジタルオーディオ処理。
前記ビットストリームにフラグを挿入することを更に含み、前記フラグが第１の値を有するときは前記ビットストリームがエンコーダ側ラウドネスノーマライゼーション利得を含み、又は前記フラグが第２の値を有するときは前記ビットストリームが前記エンコーダ側ラウドネスノーマライゼーション利得を含まない、
請求項３５に記載の処理。
プロセッサと、
命令を内部に記憶して有するメモリと、
を備えるオーディオデコーダ装置であって、前記命令が、前記プロセッサを、
ビットストリームを取得し、前記ビットストリームは、オーディオ信号の符号化バージョンと、瞬間ラウドネスシーケンスと、統合ラウドネス値と、を含み、
ＤＲＣ入力ラウドネス目標を前記ビットストリームから抽出された前記統合ラウドネス値と結合することによって、ノーマライゼーション利得を計算し、
前記ビットストリームから抽出された前記瞬間ラウドネスシーケンスを、前記ラウドネスノーマライゼーション利得を使用して調整して、ノーマライズされた瞬間ラウドネスシーケンスを生成し、
前記ノーマライズされた瞬間ラウドネスシーケンスをＤＲＣ特性に適用することによってＤＲＣ利得シーケンスを生成し、
前記ＤＲＣ利得シーケンスを前記オーディオ信号に適用することによって、前記オーディオ信号に対してＤＲＣを行う、
ように構成する、オーディオデコーダ装置。
前記ビットストリームにおける前記瞬間ラウドネスシーケンスが、ラウドネスノーマライズされていない、請求項４０に記載のオーディオデコーダ装置。
前記統合ラウドネス値が、前記ビットストリームに含まれる統合ラウドネス更新値の複数のインスタンスのうち１つのインスタンスであり、隣接するインスタンスが、例えば１～１０秒だけ離れており、前記統合ラウドネス更新値が、前記オーディオ信号の移動平均統合ラウドネスを表す、請求項４０～４３のいずれか一項に記載のオーディオデコーダ装置。
前記ビットストリームが、前記瞬間ラウドネスシーケンス及び前記オーディオ信号の前記符号化バージョンと共に前記統合ラウドネス値が書き込まれたファイルである、請求項４０～４３のいずれか一項に記載のオーディオデコーダ装置。
プロセッサと、
ビットストリームを生成するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
を備えるオーディオデコーダ装置であって、前記ビットストリームが、オーディオ信号の符号化バージョンと、前記オーディオ信号の瞬間ラウドネスシーケンスと、デコーダ側が、前記瞬間ラウドネスシーケンスをＤＲＣ特性に適用するときに、ラウドネスノーマライゼーションを伴って前記オーディオ信号にダイナミックレンジ制御、すなわちＤＲＣを適用する様式を制御するための命令とを含む、
オーディオエンコーダ装置。
ビットストリームを取得することであって、前記ビットストリームは、オーディオ信号の符号化バージョンと、瞬間ラウドネスシーケンスと、統合ラウドネス値と、を含む、ことと、
ＤＲＣ入力ラウドネス目標を前記ビットストリームから抽出された前記統合ラウドネス値と結合することによって、ノーマライゼーション利得を計算することと、
前記ビットストリームからの前記瞬間ラウドネスシーケンスを、前記ラウドネスノーマライゼーション利得を使用して調整して、ノーマライズされた瞬間ラウドネスシーケンスを生成することと、
前記ノーマライズされた瞬間ラウドネスシーケンスをＤＲＣ特性に適用することによってＤＲＣ利得シーケンスを生成することと、
前記ＤＲＣ利得シーケンスを前記オーディオ信号に適用することによって、前記オーディオ信号に対してＤＲＣを行うことと、
を含む、デジタルオーディオ処理。
オーディオ信号を符号化して、前記オーディオ信号の符号化バージョンを生成することと、
前記オーディオ信号を処理して、前記オーディオ信号の瞬間ラウドネスシーケンスを生成することと、
前記オーディオ信号の前記符号化バージョンと、前記瞬間ラウドネスシーケンスと、デコーダ側が、前記瞬間ラウドネスシーケンスをＤＲＣ特性に適用するときに、ラウドネスノーマライゼーションを伴って前記オーディオ信号にダイナミックレンジ制御、すなわちＤＲＣを適用する様式を制御するための命令と、を含むビットストリームを生成することと、
を含む、デジタルオーディオ処理。