JP7465858B2 - ダイナミックレンジ制御のための延期されたラウドネス調整 - Google Patents

ダイナミックレンジ制御のための延期されたラウドネス調整 Download PDF

Info

Publication number
JP7465858B2
JP7465858B2 JP2021183523A JP2021183523A JP7465858B2 JP 7465858 B2 JP7465858 B2 JP 7465858B2 JP 2021183523 A JP2021183523 A JP 2021183523A JP 2021183523 A JP2021183523 A JP 2021183523A JP 7465858 B2 JP7465858 B2 JP 7465858B2
Authority
JP
Japan
Prior art keywords
loudness
drc
sequence
gain
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021183523A
Other languages
English (en)
Other versions
JP2022077033A (ja
Inventor
バウムガルテ フランク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2022077033A publication Critical patent/JP2022077033A/ja
Application granted granted Critical
Publication of JP7465858B2 publication Critical patent/JP7465858B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオデコーダ装置に関し、特にダイナミックレンジ制御のための延期されたラウドネス調整に関する。
音楽、ポッドキャスト、ライブ録画の短編ビデオクリップ、又は長編映画などのサウンドプログラムは、そのダイナミクス(強弱変化)及びダイナミックレンジを定めるラウドな部分とソフトな部分とを有する。騒音の多い環境でヘッドセットを通して聴く、又は深夜に自宅のラウドスピーカを通して聴くなどの多くの状況で、聴取者の体験を改善するために、再生サウンドのダイナミクス及びダイナミックレンジを低減することが望ましい。その目的のために、ダイナミックレンジコンプレッサが使用される。このコンプレッサは、(サウンドプログラムの)デジタルオーディオ信号である入力に時間的に変動する利得を適用して、オーディオ信号のソフトな部分を増幅し、ラウドな部分を減衰させるデジタル信号プロセッサである。オーディオ信号のダイナミックレンジの圧縮から生じる可能性のある可聴のポンピングアーチファクトを回避するために、圧縮特性に従ってオーディオ信号を圧縮しながら、圧縮特性又はプロファイルに入力オーディオ信号を「整合させる」ラウドネスノーマライゼーション処理を行うことができる。この処理は、入力オーディオ信号の瞬間ラウドネスをその信号のプログラムラウドネスでオフセットすることによって行うことができ、プログラムラウドネスは、サウンドプログラムの全体的なラウドネスを表現することを目的とする計算値である(統合ラウドネスとも称する)。
オーディオ符号化の諸規格は、サウンドプログラムが作成される、又は、配信若しくは記憶/アーカイブのために準備されるエンコーダ側でダイナミックレンジ制御(DRC)利得を生成する、ダイナミックレンジ圧縮の方法を定義する。本明細書において、DRC利得とは、シーケンス内の1つ以上の利得値がサウンドプログラム内の対応するデジタルオーディオフレームに適用されるように、関連するサウンドプログラムに時間的に整合されたDRC利得シーケンスを指す。DRC利得シーケンスは、次いで、例えばサウンドプログラムに関連するメタデータとして、1つ以上のビットストリームへとフォーマットされる。デコーダ側はビットストリームを取得し、デコーダ側で所望される場合(典型的には復号されたオーディオ信号の再生中に)、ストリーム内のDRC利得を適用して、復号されたオーディオ信号のダイナミックレンジを圧縮する。メタデータに基づくそのような手法の利点は、リアルタイム圧縮で得られるよりも長い先取り時間間隔がDRC利得のオフライン符号化のために得られることによる、品質改善である。もう一つの利点は、例えば、サウンドプログラム作成者又は配信者の専門知識により、エンコーダ側で圧縮特性を制御できることである。
オンラインアプリケーション(例えば、ライブオーディオストリーミング、及び、ファイルへのライブオーディオの録音)におけるメタデータに基づくDRCには、再生のためにストリーミングされている、又は、記憶のために書き込まれているサウンドプログラムのプログラムラウドネスがまだ不明である(サウンドプログラムがまだ終了していないため)場合には、課題がある。その理由は、サウンドプログラムの実際のプログラムラウドネス(これは、サウンドプログラムが終了して初めて判断できる)が、期待又は予測されるものから著しく逸脱する場合には、コンプレッサ特性を適切に調整(又はラウドネスノーマライズ)されないことがあるからである。
本明細書の開示のいくつかの態様は、ダイナミックレンジ制御(DRC)のラウドネス調整(ラウドネスノーマライゼーション)をエンコーダ側からデコーダ側へ延期する、新規のデジタル信号処理方法である。他の態様は、メタデータに基づくDRC利得シーケンス処理をラウドネスノーマライゼーションに使用するときに、デコーダ側でコンプレッサ特性を変更する技法である。これらの態様は、ライブストリーミングなどのアプリケーション、またファイルへのライブ録音にとって特に有益である。
上記概要には、本開示の全ての態様の網羅的なリストを挙げてはいない。本開示には、上記でまとめた種々の態様の全ての好適な組合せからの実施可能な全てのシステム及び方法が含まれ、並びに以下の「発明を実施するための形態」で開示するものと、特許請求の範囲の欄において特に指摘するものが含まれると考えられる。このような組合せは、上記概要には具体的に列挙していない特定の利点を有してもよい。
本明細書の本開示のいくつかの態様は、例示の目的として説明されるものであり、同様の参照記号が同様の要素を示す添付の図面の図に限定することを目的として説明されるものではない。本開示の「an」又は「one」態様への言及は、必ずしも同じ態様に対するものではなく、それらは、少なくとも1つを意味していることに留意されたい。また、簡潔さ及び図の総数の低減のために、所与の図を使用して、本開示の複数の態様の特徴を例示することができ、図中の全ての要素が所与の態様に対して必要とされなくてもよい。
例示的なDRC特性曲線を示す図である。 デコーダ側でDRCを適用し、エンコーダ側ではラウドネスノーマライゼーションが行われないオーディオコーデックシステムのブロック図である。 デコーダ側でDRCを適用し、エンコーダ側ではラウドネスノーマライゼーションが行われない、ライブストリーミングに適したオーディオコーデックシステムのブロック図である。 デコーダ側でDRCを適用し、エンコーダ側ではラウドネスノーマライゼーションが行われない、記憶領域又はアーカイブへのライブ録音に適したオーディオコーデックシステムのブロック図である。 デコーダ側でDRCを適用する、MPEG-D DRC準拠のオーディオコーデックシステムの一部を示す図である。 エンコーダ側にラウドネスノーマライゼーションを備え、デコーダ側でDRCを適用する、MPEG-D DRC準拠のオーディオコーデックシステムの一部を示す図である。 デコーダ側でラウドネスノーマライゼーションを伴ってDRCを適用する、MPEG-D DRC準拠のオーディオコーデックシステムの一部を示す。 後方互換性及び非後方互換性のMPEG-D DRCビットストリーム拡張部を生成できる新エンコーダ側処理のフロー図である。 後方互換性又は非後方互換性のMPEG-D DRCビットストリーム拡張部のいずれかを使用してDRC利得シーケンスを生成できる新デコーダ側処理のフロー図である。 後方互換性エンコーダ側が、新デコーダと従来型デコーダとの両方によって処理される後方互換性ビットストリームを生成する、MPEG-D DRC準拠のオーディオコーデックシステムのブロック図である。 後方互換性エンコーダ側が、新デコーダと従来型デコーダとの両方によって処理される後方互換性ビットストリームを生成する、MPEG-D DRC準拠のオーディオコーデックシステムのブロック図である。
本開示のいくつかの態様を、添付図面を参照してここに説明する。記載される部品の形状、相対位置、及び他の態様が明示的に規定されない場合はいつでも、本発明の範囲は、図示した部品のみに限定されず、それは、単に説明目的のために過ぎないことが意味される。また、多数の詳細を説明するが、本開示のいくつかの態様は、これらの詳細なしに実施され得ることが理解される。他の例では、本明細書の理解を妨げないように、周知の回路、構造、及び技法は詳細には示していない。
オーディオ信号に適切にダイナミックレンジ制御を適用するためには、コンプレッサ特性(DRC特性、DRCプロファイル)をオーディオ信号のラウドネスレベル範囲に「整合させる」べきである。例えば、図1を参照すると、整合は、DRC特性曲線のゼロ交差がオーディオ信号のラウドネスレベル範囲のほぼ中心にくるように入力レベル軸に沿ってなされている。ゼロ交差点におけるレベルは、DRC入力ラウドネス目標とも称され、図1に示す特性曲線の例示的なセットでは、そのレベルは約-31dBである。ラウドネスレベル範囲の中心は、例えば、サウンドプログラムの平均レベル、又はサウンドプログラム内の平均ダイアログレベルであってもよい。本明細書において、そのような整合を実現するための処理は、オーディオ信号のDRCに関連した、所与のラウドネス目標へのラウドネスノーマライゼーションと称される。例えば、オーディオ信号(サウンドプログラム)のラウドネスは、統合ラウドネスとして知られる単一の値であってもよい。統合ラウドネスは、オーディオ信号のラウドネスの尺度であり、二乗平均平方根(RMS)と類似しているが、人間の聴覚の観点から、より忠実性が高い。統合ラウドネスは、サウンドプログラムがその全持続時間にわたって、どの程度ラウドであるかを測定するという点でプログラムラウドネスと同等であり得る。ラウドネスノーマライゼーションを実現するために、統合ラウドネスがデシベル(dB)の単位で与えられる場合は、DRC入力ラウドネス目標からそれを減算して、ノーマライゼーション利得をdB単位で導出することができる。このノーマライゼーション利得が、オーディオ信号(サウンドプログラム)の瞬間ラウドネスを計算するラウドネスモデルの出力に加算される。瞬間ラウドネスは、入力デジタルオーディオ信号を構成するそれぞれのデジタルオーディオフレームに基づいて計算された(かつ、人間の知覚ラウドネスを表す)ラウドネス値のシーケンスであってもよい。ラウドネスノーマライゼーションを実現するもう一つの方法は、図1に示すDRC特性曲線を(ノーマライゼーション利得の量だけ)右又は左にシフトさせることである。図1の例では、曲線は、-31dB(この例ではラウドネス目標)まで左にシフトされており、したがって、-31dBA(A加重)又はLKFS(loudness K-weighted level full scale、ラウドネスK加重レベルフルスケール)の統合ラウドネスを有するサウンドプログラムに適切に整合されている(したがって直接適用され得る)。換言すれば、その場合のノーマライゼーション利得は、ゼロdBAである。
ダイナミックレンジ制御信号処理の進行中に、音声プログラムの統合ラウドネスがまだ不明である場合は、ライブオーディオの場合のように、ラウドネスノーマライゼーションを適用するために予測を行う必要がある。ところが予測は、不正確な場合があり、よって、望ましくないバイアスを内包するDRC利得が結果として得られる、又は、オーディオ信号の非圧縮部分と圧縮部分との間の望ましくないラウドネスシフトであるポンピング効果を生成するDRC利得が結果として得られることがある。
望ましくないラウドネスシフトの可能性を低減するために、本明細書の開示の一態様は、オーディオコーデックシステム又は方法のエンコーダ側ではなくデコーダ側で、DRCにラウドネスノーマライゼーションを適用する。オーディオコーデックシステム及び関連する方法の一例を、図2のハードウェアブロック図に示す。オーディオコーデックシステム及び方法の様々なハードウェアブロックは、プログラムドプロセッサによって実装されてもよい。そのような方法では、統合ラウドネス(復号されたオーディオ信号の再生又はアーカイブ/記憶のためにDRCに関連して行われるラウドネスノーマライゼーションのために必要)を、図3及び図4に関連して以下で説明する少なくとも2つの例において取得することができる。
まず図2を見ると、オーディオコーデックシステムは、エンコーダ側を有し、それは、本明細書では「プログラムドプロセッサ」と総称する、メモリに記憶された命令を実行する、又は、その命令によって設定される1つ以上のプロセッサによって、例えば1つ以上のサーバ内に実装されてもよい。上側のオーディオ信号処理経路は、側鎖を含み、この側鎖は、本明細書ではサウンドプログラムとも称されるデジタル入力オーディオ信号(シーケンス)の瞬間ラウドネスを計算又は推定するラウドネスモデルを含む。この推定は、知覚ラウドネススケール(ソーンスケールなど)に基づき、よって、ほぼ対数関数的である。瞬間ラウドネスシーケンスを経時的に平滑化するために、図示するように平滑化フィルタを適用することができる。その結果、圧縮利得の変化が所望されない入力オーディオシーケンスの領域は平滑化されるが、マクロダイナミックなラウドネス遷移は影響を受けない。
下側のオーディオ信号処理経路は、側鎖による遅延を相殺するために、入力オーディオシーケンスを遅延させる遅延ブロックを含む。次いで、平滑化されたラウドネスシーケンス及び遅延された入力オーディオシーケンスがエンコーダに供給される。
エンコーダは、一方又は両方の入力にビットレート低減操作を行って、一方又は両方の入力のビットレート低減バージョンを含む1つ以上のビットストリームを生成することができる。次いで、この1つ以上のビットストリームが、デコーダ側に(例えば、インターネットを介して)送信されてもよく、又はデコーダ側処理にアクセスされるまで記憶又はアーカイブ用のファイルに書き込まれてもよい。平滑化されたラウドネス(平滑化されたラウドネス値のシーケンス、又は単一の平滑化されたラウドネス値を指す)は、遅延された入力オーディオシーケンスと同じビットストリーム内に、例えば、「対応する」アドバンストオーディオコーディング(AAC)オーディオフレームに関連付けられて、メタデータとして担持されてもよい。このことを、オーディオ層内に存在するとも称する。あるいは、(以下で更に論じるように)統合ラウドネス更新値及びDRCペイロードなどの、平滑化されたラウドネスシーケンス及びその他のラウドネス値は、オーディオ層内ではなく、ファイルフォーマットレベルなどの上位層で送信されてもよい。どちらの場合も1つ以上のビットストリームが生成され、その中に、符号化されたオーディオが、平滑化されたラウドネスシーケンスなどの関連メタデータと共に、又は、他の態様では以下に記載されるように、エンコーダから供給されるDRC利得シーケンスを適用するためのデコーダ側に対する命令と共に提供される。
デコーダ側はまた、例えば、オーディオ再生装置の一部としてメモリ内に記憶された命令によって実行される、又はその命令によって設定される1つ以上のプロセッサなどの、プログラムドプロセッサとして実装されてもよい。ここで、デコーダ側処理は、エンコーダ側処理と同じオーディオ再生装置内に実装されてもよいことに留意されたい。あるいは、デコーダ側処理は、エンコーダ側処理を行うプログラムドプロセッサとは別個のオーディオ再生装置内に実装されてもよい。オーディオ再生装置の例として、スマートフォン、タブレットコンピュータ、デジタルメディアプレーヤ、ヘッドセット、又は車両インフォテインメントシステムが挙げられる。デコーダ側では、平滑化されたラウドネスシーケンス及び遅延された入力オーディオシーケンスを復元するために、デコーダは、エンコーダのビットレート低減操作を解除する。平滑化されたラウドネス値は復号されると、次いで、「対応する」DRCすなわち圧縮利得値にマッピングされる。このマッピングは、例えば、図1に示される曲線のうちの1つ(あるいは、他の所望の曲線)を実施する、メモリレスの入出力関数である。このマッピングは、コンプレッサ特性又はコンプレッサプロファイル(DRC特性)を成し、その出力は、時間的に変動する入力ラウドネスレベルの関数である、時間的に変動する利得(DRC利得値のシーケンス)である。このマッピングはまた、対数関数的なラウドネス領域からDRC利得の線形領域への変換を含んでもよい。次いで、圧縮が所望される場合には、図の乗算記号によって示されるように、復号されたオーディオ信号にDRC利得値(シーケンス)が適用される。図示されていないが、圧縮されたオーディオは、次いで再生処理ブロックに引き渡され、そのブロックでは最終的に、圧縮されたオーディオを音に変換するトランスデューサ(スピーカ)ドライバ入力信号を生成してもよい。
図2を見ると、平滑化されたラウドネスシーケンスは、デコーダ側で、DRCマッピングブロックに入力される前に調整すなわちノーマライズされることが分かる。例えば、不変の統合ラウドネス(単一値)をDRC入力ラウドネス目標から(dB領域で)減算して、dB単位でノーマライゼーション利得を導出することができる。このノーマライゼーション利得が、平滑化されたラウドネスシーケンス内の平滑化されたラウドネス値のそれぞれに加算されて、DRC処理で使用されるノーマライズされたラウドネスシーケンスが生成される。そのようなDRC処理には、少なくとも2つの適用例、例えば、ライブ又はリアルタイムのストリーミング、及び、記憶又はアーカイブのためのファイルへのライブ録音がある。
そのような適用例の1つでは、図3を参照すると、エンコーダ側の入力オーディオは、例えばインターネットを介してデコーダ側にストリーミングされているライブ又はリアルタイムのデジタルオーディオ録音である。入力オーディオは、符号化及びビットストリーム送信と同時に行われる、ライブ又はリアルタイムのイベントのオーディオキャプチャを含む。したがって、サウンドプログラム全体を表す単一の統合ラウドネス値は、ライブイベントが終了するまで計算することができない。それまでの間、エンコーダ側の中にある統合ラウドネス測定ブロックが、時間整合のために遅延してエンコーダに送られるライブオーディオのサンプルを、5~100ミリ秒である単一のオーディオフレームより長い、例えば数秒間の時間間隔にわたって収集し、その時間間隔のラウドネスの測定値を計算する。このブロックは次に、サウンドプログラムの先頭に戻りながらそのような測定値のいくつかを「統合」又は収集して、例えばそれらを平均し、統合ラウドネス更新値を計算する。統合ラウドネス更新値は、現在の更新までに再生又はストリーミングされたサウンドプログラムの部分のみに対する統合ラウドネスの測定であり得る。例えば定期的に、この測定は、繰り返されて「移動平均」統合ラウドネスを生成し、デコーダ側に最新の統合ラウドネス更新値(単一の値である)を送信する。本明細書で使用するとき、用語「移動平均」は、実際の平均を行うことを必要とせず、収集されたラウドネス測定値の統計の評価を含めたラウドネス測定値の収集に基づく、プログラムの先頭から現在の更新までのサウンドプログラムのラウドネスのいくつかの測定のみを必要とすることに留意されたい。更新値(移動平均)は、計算されてから、符号化されたサウンドプログラム(符号化されたオーディオ信号)もまた含むビットストリームの一部として、統合ラウドネス更新値フィールドの複数のインスタンスとして、ビットストリーム内の隣接するインスタンスがサウンドプログラムの持続時間にわたって1~10秒間だけ離れているようにして提供されてもよい。
また、用語「統合ラウドネス更新値」は、移動平均ラウドネス又は「部分統合ラウドネス」とも称され得ることに留意されたい。サウンドプログラムの末尾において、最後の、又は最終的なラウドネス更新値は、サウンドプログラム全体のラウドネス(例えば、オーディオプログラムラウドネス及びトゥルーピークオーディオレベルを測定するための勧告ITU-R BS.1770-4(10/2015)アルゴリズムに記載されている、統合ラウドネス又はプログラムラウドネスとも称する)を表し得る。
デコーダ側では、デコーダがビットストリームを取得し、そこから統合ラウドネス更新値を抽出し、次いでデコーダ側処理がそれを適用して、DRC処理にラウドネスノーマライゼーションを施す。これは、例えば、復号又は復元された瞬間ラウドネスシーケンスに単一のラウドネスノーマライゼーション利得値(例えば、DRC入力ラウドネス目標と統合ラウドネス更新値との差)を加算してから、DRC特性マッピングブロックに入力することによって行われてもよい。あるいは、ラウドネスノーマライゼーションは、DRC特性を、ラウドネスノーマライゼーション利得値と等しい量だけ入力軸に沿ってシフトすることによって行われてもよい。ラウドネスノーマライゼーション利得は、ライブイベントの経過部分に対してエンコーダ側で計算された最新の部分統合ラウドネス値(統合ラウドネス更新値)を使用して、ビットストリーム(サウンドプログラム)の送信中に定期的に更新されてもよい。
もう一つの適用例では、図4を参照すると、エンコーダ側の入力オーディオは、イベントのライブ又はリアルタイムデジタルオーディオ録音であり、録音の終了時に(イベントが終了するとき)アーカイブ又は記憶の目的でファイルに書き込まれる。ライブオーディオイベント全体のプログラムラウドネスを表す単一の統合ラウドネス値を、録音の終了時に統合ラウドネスモデルブロックによって計算し、イベントが終了し次第、エンコーダに提供することができる。エンコーダは、統合ラウドネス値を、ライブオーディオの符号化バージョン及び、ラウドネスモデルによって(同じライブオーディオに基づいて)計算された瞬間(及び平滑化された)ラウドネスシーケンスの符号化バージョンと共に、ファイルに書き込む。デコーダ側では、デコーダがファイル(ビットストリーム)を取得し、そのファイルから入力オーディオ及び瞬間ラウドネスシーケンスを復号し、そのファイルから統合ラウドネス値を抽出する。デコーダ側処理は、次いで、復号された瞬間ラウドネスシーケンスに、統合ラウドネス値を使用してラウドネスノーマライゼーションを施してから、DRC(圧縮)マッピングブロックに入力し、次いで、再生中に(圧縮が所望される場合は)このブロックの出力が、復号された入力オーディオに適用される。
一態様では、平滑化フィルタは、米国特許第10,109,288号に記載されているような非線形フィルタである。このフィルタの有用な特性は、その出力を入力と同じ量だけレベルシフトできることある。すなわち、f(x)を非線形関数、x(n)を入力信号、y(n)を出力として定義すると、次のように記述することができる。
y(n)=f(x(n))
入力信号のシフトがΔLだけ与えられると、出力がΔLだけシフトした場合には、f(x)はシフト特性を満たし、これを数学的に表すと次のとおりである。
y(n)+ΔL=f(x(n)+ΔL)
これにより、絶対ラウドネス値に対する依存性を有するエンコーダ側の側鎖処理が一切回避されるので、有益である。
本明細書の開示のもう一つの態様は、エンコーダ側でのラウドネスノーマライゼーションに対応するために拡張された、MPEG-D DRC standard ISO/IEC、「Information technology-MPEG Audio Technologies-Part 4:Dynamic Range Control」、ISO/IEC 23003-4:2020(「MPEG-D DRC」)に準拠してDRCを適用する方法である。図5は、MPEG-D DRC処理の一部の単純化されたブロック図を示し、ここでは、エンコーダ側から得られたビットストリーム内のメタデータからDRC利得を復号することに基づいて、DRC利得を生成して適用する。MPEG-D DRCは、既定のDRC特性と、パラメータ化された特性を符号化する柔軟な方法とを提供する。
図5で、エンコーダ側は、(入力オーディオシーケンスについて計算された)平滑化瞬間ラウドネスシーケンスを、選択されたDRC特性(上記で図2に関連して使用した「マッピングブロック」とも称する)に適用する。DRC特性マッピングブロックの出力がDRC利得シーケンスを生成し、それがDRCエンコーダに供給される。DRCエンコーダは、ビットレート低減を行って入力シーケンスを1つ以上のビットストリームに符号化し、そのビットストリームは次いで、送信されるか、又はそれ以外の方法でデコーダ側の利用に供される。デコーダ側で、DRCデコーダがビットレート低減符号化を解除して、DRC利得シーケンスを復元する(復号されたDRC利得シーケンス)。復号されたDRC利得シーケンスは、(圧縮が所望される場合は)次いで、復号されたオーディオ信号に適用される。
MPEG-D DRCはまた、サウンドプラグラムを圧縮するために適用されるDRC特性を、図5に示されるようにエンコーダ側で(メタデータとしてビットストリームに挿入されたDRC利得シーケンスを計算するために)使用されるものから、現在の再生又は聴取の条件に基づいてデコーダ側処理によって選択されてもよい別のものに変更するタイプのデコーダ側処理にも対応する。これを実現するにはまず、図6に示すように、エンコーダ側DRC利得シーケンスを逆特性Aに適用する。逆特性Aは、エンコーダ側でエンコーダ側DRC利得シーケンスを生成するために適用されるDRC特性Aの逆数である。デコーダ側が逆特性Aを特定できるように、DRC特性A(エンコーダ側でDRC利得シーケンスを生成するために使用されたもの)へのインデックス(識別子又はポインタ)がビットストリーム内に提供されてもよい。DRC利得シーケンスを逆特性Aへの入力として適用すると、その結果、平滑化された瞬間ラウドネスシーケンスが復元される。量子化効果を無視すれば、(逆特性Aブロックの出力における)復元されたラウドネスシーケンスは、本質的に、エンコーダ側処理によって使用された、平滑化されたラウドネスシーケンスである。その結果、復元されたラウドネスシーケンスを第2のDRC特性Bに適用して、復号されたオーディオ信号を圧縮するために(DRC特性Aよりも)好適であり得る第2のDRC利得シーケンスを生成することができる。次いで、(例えば、再生中に圧縮が所望される場合は)第2のDRC利得シーケンスが、復号されたオーディオに適用される。
本明細書の開示の一態様によれば、図6に示すエンコーダ側の側鎖のラウドネスノーマライゼーションは、図2に示す手法を使用して置き換えられる。つまり、統合ラウドネスに基づくオフセット(ノーマライゼーション利得)が、エンコーダ側ではなくデコーダ側で適用される。図7は、そのようなシステムのブロック図を示す。本明細書では、このシステムは、拡張MPEG-D DRC準拠システムとも称される(以下、「新」エンコーダ及び「新」デコーダを有するとも称される)。そのようなシステムは、統合ラウドネス測定と呼ばれるブロックをエンコーダ側に有し、このブロックの出力は、上記で図3に関して論じたように統合ラウドネス更新値を提供する。この統合ラウドネス更新値がオーディオエンコーダに提供される。本明細書では、このエンコーダは、(入力オーディオに加えて)DRC利得シーケンスもまた符号化するDRCエンコーダである。DRC利得シーケンスは、上記で図6に関して論じたように決定されてもよい。符号化されたDRC利得シーケンス及び統合ラウドネス更新値が、1つ以上のビットストリームを介してデコーダ側に提供される。DRC利得シーケンスは、それもまたデコーダ側に提供される符号化された入力オーディオに関連付けられた、メタデータとしてフォーマットされてもよい。
統合ラウドネス測定は、統合ラウドネスの移動測定(本明細書では移動平均とも称する)であり、サウンドプログラムの始めに取得を開始し、サウンドプログラムの経過した部分のみについて統合ラウドネスを計算する目的で、経時的に続行してサウンドプログラムのオーディオ信号を「統合」する。オーディオ信号(サウンドプログラム)が続行するにつれて、統合ラウドネス測定は、例えば定期的に、例えば10秒毎に、更新値を生成する。これらの統合ラウドネス更新値が、(例えばDRCエンコーダによって)ビットストリームに書き込まれる。これは、MPEG-D DRCでは、更新値をオーディオビットストリームの拡張フィールド若しくは拡張ペイロードに書き込むこと、又は更新値をMP4ファイルの一部として別個のメタデータトラックに書き込むことのいずれかによって対応できる。余分なシステム遅延をもたらすことなく、更新は、DRC利得シーケンスを生成する側鎖の遅延に等しい先取り時間を有し得る(DRC特性Aブロックの出力において)。先取り時間が長くなることによって、サウンドプログラムの先頭における最初の統合ラウドネス更新が改善される。すなわち、サウンドプログラムのプログラムラウドネスに近づき得る。
図7によって例示され得る第1の事例では、入力オーディオは、デコーダ側にビットストリームを介して(例えば、インターネット経由で)デコーダ側に同時ストリーミングされるライブオーディオである。その場合、プログラムラウドネスは、ストリーミング中に提供することができない(ライブオーディオイベントがまだ終了していないため)。その場合、DRC(デコーダ側で適用される)は、図示するように、DRC入力ラウドネス目標値と動的に変化する統合ラウドネス更新値との差に等しくてもよい、動的に変化するノーマライゼーション利得であるストリーム内統合ラウドネス更新値に基づいて動的に調整、すなわちラウドネスノーマライゼーションを施される。統合ラウドネス更新値の変化率を制限するために、更新値シーケンスは、ストリームの終わりではなくストリームの始めに平滑化されてもよい。また、初期更新値(ストリームの始め)には、入力オーディオの予想ラウドネスが考慮されてもよい。例えば、予想ラウドネスは、慎重に行われた専門職によるスタジオ設定と、入力オーディオのすでに経過した初期部分のパイロット測定との結果であってもよい。
第2の事例では、入力オーディオ(エンコーダ側)は、(ライブストリーミングではなく)図4に示すようにエンコーダ側のオーディオファイルに書き込まれているライブオーディオ録音である。その場合、最終的な統合ラウドネス更新値(サウンドプログラムの真の統合ラウドネス又はプログラムラウドネス)を、録音の終了時に、ファイルの書き換えの必要なくファイルに書き込むことができる。MPEG-D DRCに準拠しようとする場合には、これは、(エンコーダ側で)最終的な統合ラウドネス更新値を、ISOベースメディアファイルフォーマットのレベルでラウドネス「ボックス」又はフィールドに書き込むことによって実現することができる。このオーディオストリームラウドネス(Audio Stream Loudness)ボックスタイプは、ludtと呼ばれる。図7を更に参照すると、符号化されたオーディオと、それに関連するエンコーダ側DRC利得シーケンス及び統合ラウドネス更新値とがデコーダ側によって取得されると、デコーダ側の処理は、復号されたオーディオ信号のラウドネスノーマライゼーションバージョンに基づいてDRC利得シーケンス(DRC特性Bを使用して)を決定することによってDRCを適用することができる。このノーマライゼーションは、この例では、復元された、平滑化された瞬間ラウドネスを逆特性Aの出力において調整し、好ましくは、ラウドネスボックスに書き込まれた最終的な統合ラウドネス更新値を使用することによって実現される。エンコーダ側でストリームにラウドネスボックスを追加することなく録音が終了した場合でも、ストリーム内の統合ラウドネス更新値を使用することによって、デコーダ側でラウドネスノーマライゼーションを適用することができる。
ストリーム内の統合ラウドネス更新値は、例えば1~10秒毎に、経時的にゆっくりと変化し得るので、それに従い、ノーマライゼーションによって事実上、DRC特性Bがシフトされる。統合ラウドネス更新がサウンドプログラムの短い期間(経過時間間隔)に基づいている場合には、復号されたオーディオの再生中に、録音又はストリームの始めにおいて、このシフトが可聴となる場合がある。統合ラウドネス更新値の変化率を制限するために、更新値そのものを、記録又はストリーミングの終わりではなく始めに平滑化してもよい。
図6に示す、入力オーディオがファイルへのライブ記録であるエンコーダ側処理では、入力オーディオは、エンコーダ側で、側鎖ラウドネスノーマライゼーションを使用して圧縮(DRC)され、次いで符号化されてファイルに書き込まれてもよい。この処理では結果として本質的に、図7によるデコーダ側処理(復号されたオーディオが、デコーダ側で、ビットストリームに含まれる統合ラウドネス更新値に基づくラウドネスノーマライゼーションによって圧縮される)から得られる圧縮されたオーディオ出力とは本質的には同じではないとしても、それに匹敵する圧縮されたオーディオ出力が得られる。しかし、図7に示すようにラウドネスノーマライゼーションをデコーダ側に延期することには、録音又はイベントが終了したときに、最終的な統合ラウドネス更新値をISOベースメディアファイルフォーマットレベルのMP4レベルに加えるだけで、ファイルが再生されるときにリスニング体験が改善されるという利点がある。
ここで図8を参照する。これは、デコーダ側によるDRCのために、後方互換性及び非後方互換性の両方のMPEG-D DRCビットストリーム拡張部を生成することができる新エンコーダ側処理のフロー図である。後方互換性のビットストリーム拡張フィールド又はペイロードは、従来型のデコーダ(デコーダ側処理)によって処理することでこの拡張部どおりにDRCを行うことができるが、ラウドネスノーマライゼーションを伴わないものである(復号されたオーディオ信号にDRCを適用するとき)。そのような従来型デコーダの例を図6に示すことができる。非後方互換性ビットストリーム拡張部は、従来型デコーダによって(圧縮されたオーディオを生成するために)処理することができないものである。この二重機能は、以下のとおりにして有効化されてもよい。
ビットストリーム内にフラグを定義し、例えば、characteristicV1Overrideと称してもよい。エンコーダ側は、以下のとおりにして、このフラグを設定又はクリアすることができる。後方互換性ビットストリームを生成するには、フラグにcharacteristicV1Override=1などの第1の値を与え、その場合、ビットストリームは、ラウドネスノーマライゼーション利得もまた含み、これを、encDrcNormGainDbとも称する。このモードでは、エンコーダ側処理は、ラウドネスノーマライゼーション利得(本明細書ではエンコーダ側DRCノーマライゼーション利得とも称する)を使用して、ラウドネスノーマライゼーションを伴ってオーディオ信号を第1のDRC特性に適用することによって、第1のDRC利得シーケンスを決定する。図10A及び図10Bを参照すると、これらは、新デコーダと従来型デコーダの両方によって処理される後方互換性ビットストリームを後方互換性エンコーダ側が生成する、MPEG-D DRC準拠オーディオコーデックシステムのブロック図である。入力オーディオがライブ録音である事例では、統合ラウドネス更新値もまた計算され、エンコーダに提供される(ビットストリームに組み込まれる)。ラウドネスノーマライゼーション利得は、図10Aに示すように、(例えば、dBAの単位を想定して)DRC入力ラウドネス目標から予測プログラムラウドネス値を減算することによって計算されてもよい。
ラウドネスノーマライゼーション利得encDrcNormGainDbは、新しい後方互換性エンコーダ側処理で後方互換性ビットストリームを生成するために適用される値で、その処理では、(DRC特性Aについて)ラウドネスノーマライゼーションを伴ってDRC利得シーケンスが得られている。このビットストリームは、例えば図10Bに示すように、新デコーダと従来型デコーダの両方による処理が可能である。このビットストリームが従来型デコーダによって処理されるときは、このデコーダは、DRC中にラウドネスノーマライゼーションを適用しない。DRC中にラウドネスノーマライゼーションを適用する新デコーダによってビットストリームが処理されるときは、統合ラウドネス更新値を使用してより正確なラウドネスノーマライゼーションを適用するために、encDrcNormGainDbを使用して、後方互換性エンコーダによるencDrcNormGainDbの適用が相殺、中和、又は無効化される。換言すれば、新デコーダのプロセッサは、デコーダ側DRCラウドネスノーマライゼーションを適用するときに、エンコーダ側DRCノーマライゼーション利得を相殺する。
図8に戻ると、従来型デコーダと新デコーダの両方による処理を可能にするために、後方互換性ビットストリームはまた、フラグが第1の値を有する場合、例えばcharacteristicV1Override=1、第1のDRC設定フィールド、例えばUNIDRCCONFEXT_V1、及び第2のDRC設定フィールド、例えばUNIDRCCONFEXT_V2を含んでもよい。第1のDRC設定フィールドは、例えば、図10Bの従来型デコーダブロックに示されるように、復号されたオーディオ信号にラウドネスノーマライゼーションを伴わずにDRCを適用するように、デコーダ側処理に命令する。第2のDRC設定フィールドは、例えば、図10Bの新デコーダブロックに示されるように、復号されたオーディオ信号にラウドネスノーマライゼーションを伴ってDRCを適用するように、デコーダ側処理に命令する。
更に図8を参照すると、新エンコーダ側は、以下のように、非後方互換性のMPEG-D DRCビットストリーム拡張部(従来型デコーダによって、圧縮されたオーディオを生成するために処理することができないもの)を作成することができる。そのビットストリームが新デコーダ側のみで処理されるということをエンコーダ側が認識している場合には、エンコーダ側は、このDRCビットストリーム拡張部の作成を所望してもよいことに留意されたい。そのようなビットストリームでは、フラグは、第2の値、例えばcharacteristicV1Override=0を有し、ビットストリームは、ラウドネスノーマライゼーション利得(デコーダ側による使用が意図される)を含まない。加えて、第1のDRC設定フィールド、例えばUNIDRCCONFEXT_V1もビットストリームから省略される。図9は、そのようなビットストリームを処理できる新デコーダを示す。換言すれば、フラグが第2の値、例えば、characteristicV1Override=0を有するとき、ビットストリームは、第2のDRC設定フィールドを含み、第1のDRC設定フィールドを含まない。
図9は、後方互換性又は非後方互換性のいずれかのMPEG-D DRCビットストリーム拡張部を使用してDRC利得シーケンスを生成できる、新デコーダ側処理のフロー図である。処理は、ビットストリームを解析して、第2のDRC設定フィールド、例えばUNIDRCCONFEXT_V2、及び、フラグcharacteristicV1Overrideを検出することで開始してもよい。フラグが第1の値、例えばcharacteristicV1Override=1を有することに応答して、処理は、例えば図10B(新デコーダブロック)に示すようにDRC特性Bを使用し、かつラウドネスノーマライゼーションを伴って、オーディオ信号にDRCを適用し、このラウドネスノーマライゼーションは、i)ラウドネスノーマライゼーション利得(例えば、encDrcNormGainDb)及び、ii)複数インスタンスの統合ラウドネス更新値(その両方がオーディオ信号に沿ってDRCデコーダによってビットストリームから復号される)を使用する。
一態様では、引き続き図9を参照すると、フラグが第1の値、例えばcharacteristicV1Override=1を有するとき、第1のDRC設定フィールド内に含まれ得る第1のDRC特性のインデックスは、第2のDRC設定フィールド内に含まれる第1のDRC特性のインデックスによって無効化される。例えば、MPEG-D DRCは、従来型MPEG-D DRCデコーダによって認識可能なDRC特性1~6(本明細書では従来型インデックス値又は従来型範囲とも称する)を定義し得る。本開示では、拡張MPEG-D DRC手順に従って、同じそれらの特性が、例えば65~70などの異なるインデックス値(本明細書では新インデックス値又は新範囲とも称される)を有して複製される。換言すれば、従来型の特性は、従来型インデックス1~6によって、又は新インデックス65~70によってのいずれかで参照することができ、特性のパラメータは、以下の表に示すとおり、同じままである。
Figure 0007465858000001
新エンコーダ側処理は、後方互換性ビットストリームを生成するとき(図8のフロー図の右側、characteristicV1Override=1)、第1(V1)及び第2(V2)のDRC設定拡張フィールドの両方を生成し、第1のDRC設定フィールドは、従来型デコーダとの後方互換性を有効にするために、新インデックス65~70のいずれでもなく、従来型インデックス1~6のうちの1つ以上を指す。V2拡張フィールドは、新しいインデックス値のうちの1つ以上を指してもよいし、又は従来型インデックス値のうちの1つ以上を指してもよい)。新インデックス値は、事実上、新デコーダ(本開示の拡張MPEG-D DRC手順に準拠しているもの)に、第2のDRC利得シーケンスを生成するときにラウドネスノーマライゼーションが必要であり得ることを通知する。UNIDRCCONFEXT_V2拡張部のみが、デコーダ内でラウドネスノーマライゼーションを必要とするDRC特性インデックス65~70に対応する。
新デコーダ側処理は、図9の右側に示すように、V1とV2の両方の拡張フィールドを復号してもよく、その結果、同じDRC特性Aを指示する2つのインデックス(2つの異なるインデックス値)を抽出し得る。この場合、V2インデックスは、V1を無効化すると言われる。その理由は、characteristicV1Override=1であり、その場合には、新デコーダは、UNIDRCCONFEXT_V1拡張部から得られたDRC特性インデックスを、UNIDRCCONFEXT_V2拡張部から得られたものによって置き換えるからである。
図8に戻ると、非後方互換性ビットストリーム(従来型デコーダではなく、新デコーダに提供される)が生成されると、フラグcharacteristicV1Overrideは、ゼロに設定され、UNIDRCCONFEXT_V2拡張部がビットストリーム内に生成される。UNIDRCCONFEXT_V2拡張部は、UNIDRCCONFEXT_V1拡張部と実質的に同じビットストリームフィールドを含む。UNIDRCCONFEXT_V1は、特性65~70に対応しないが、送信されるUNIDRCCONFEXT_V2は対応する。エンコーダ側でDRCシーケンスを生成するためのラウドネスノーマライゼーションは、この場合には適用されないので(図7を参照)、デコーダ内では相殺されない(これも図7を参照)。その状況は、図10Bのデコーダ側処理でノーマライゼーション利得、例えばencDrcNormGainDbを0に設定することと同等である。そのようなビットストリームが新デコーダ側処理によって解析されるとき、i)フラグが第2の値を有することと、ii)インデックスが第1の値(例えば、65~70の範囲)であることとに応答して、デコーダ側処理は、第2のDRC特性Bを使用し、かつラウドネスノーマライゼーションを伴って、オーディオ信号にDRCを適用し、このラウドネスノーマライゼーションは、統合ラウドネス更新値は使用するがラウドネスノーマライゼーション利得は使用しない(例えば、加法ブロックのencDrcNormGainDbの値がゼロに設定される)。換言すれば、ノーマライズされたラウドネスシーケンスをDRC特性Bの入力において生成する場合は、encDrcNormGainDbは、ゼロに設定される。
ところが、i)フラグが第2の値を有すること、及び、ii)インデックスが第1の値とは異なる第2の値であること(例えば、範囲1~6にある)に新デコーダが遭遇した場合は、デコーダ側処理は、オーディオ信号にDRCを適用する(第2のDRC特性Bを使用する)が、ラウドネスノーマライゼーションは伴わない。換言すれば、図10Bを参照すると、逆特性Aの出力における復元された、平滑化された瞬間ラウドネスシーケンスは、(DRC特性Bに入力される前に)調整されない。したがって、その図に示された加法ブロックは、存在しない。
以下の付録は、MPEG-D DRC標準のフレームワークにおける延期されたラウドネスノーマライゼーションのために提案される方法の暫定仕様を含む。この文書は、従来型デコーダでも復号可能な新情報を用いてビットストリームを生成する効率的な方法を含む。
特定の態様を記載し添付の図面に図示してきたが、このような態様は、大まかな発明の単なる例示にすぎず、それを限定するものではないこと、また、他の様々な変更が当業者により想起され得るので、本発明は、図示及び記載した特定の構成並びに配置に限定されないことを理解されたい。したがって、本明細書は、限定的ではなく例示的であると見なされるべきである。

Claims (21)

  1. プロセッサと、
    ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと
    を備えるオーディオデコーダ装置であって、前記ビットストリームが、
    オーディオ信号の符号化バージョンと、
    前記オーディオ信号を第1のDRC特性に適用するエンコーダ側処理によって決定された、第1のダイナミックレンジ制御、すなわちDRC、利得シーケンスと、
    前記第1のDRC利得シーケンスを決定するときに前記エンコーダ側処理によって適用されたラウドネスノーマライゼーション利得と、
    前記第1のDRC特性のインデックスであって、前記第1のDRC特性を識別又は指示するインデックスと、
    統合ラウドネス更新値の経時的な複数のインスタンスと、
    を含む、
    オーディオデコーダ装置。
  2. 前記インデックスが第1の値を有することに応じて、前記プロセッサが、前記オーディオ信号にDRCを適用するときにラウドネスノーマライゼーションを行う、請求項1に記載のオーディオデコーダ装置。
  3. 前記ビットストリームが前記プロセッサに、前記DRC利得シーケンスに逆DRC特性を適用した後に、前記エンコーダ側処理によって前記DRC利得シーケンスを決定するときに適用されたラウドネスノーマライゼーションを、前記ビットストリーム内の前記ラウドネスノーマライゼーション利得を使用して相殺するか取り消すことによってラウドネスノーマライゼーションを行うように指示する、請求項1に記載のオーディオデコーダ装置。
  4. 前記メモリが命令を内部に記憶して有し、前記命令が、前記プロセッサを、
    前記第1のDRC特性の逆数に前記第1のDRC利得シーケンスを適用することによって、ラウドネスシーケンスを復元し、
    前記復元されたラウドネスシーケンスに対してラウドネスノーマライゼーションを行い、
    前記復元されたラウドネスシーケンスを第2のDRC特性に適用することによって第2のDRC利得シーケンスを生成し、
    前記第2のDRC利得シーケンスを前記オーディオ信号に適用する、
    ように構成する、
    請求項1~3のいずれか一項に記載のオーディオデコーダ装置。
  5. 前記ラウドネスノーマライゼーション利得がdBの単位であり、ラウドネスノーマライゼーションを行うことが、前記ラウドネスノーマライゼーション利得を、前記復元されたラウドネスシーケンス及び前記統合ラウドネス更新値のインスタンスと結合することを含む、請求項4に記載のオーディオデコーダ装置。
  6. 前記ラウドネスノーマライゼーションを行うことが、前記第2のDRC特性を、前記ラウドネスノーマライゼーション利得及び前記統合ラウドネス更新値のインスタンスに基づく量だけ入力軸に沿ってシフトさせることを含む、請求項4に記載のオーディオデコーダ装置。
  7. 前記プロセッサが、前記統合ラウドネス更新値の各インスタンスについて、DRC入力ラウドネス目標と前記統合ラウドネス更新値の前記インスタンスとの差としてノーマライゼーション利得に対する更新を計算し、前記ノーマライゼーション利得を前記復元されたラウドネスシーケンスに加算することにより、前記復元されたラウドネスシーケンスに従って前記ラウドネスノーマライゼーションを実行してノーマライズされたラウドネスシーケンスを生成し、前記プロセッサは、前記ノーマライズされたラウドネスシーケンスを前記第2のDRC特性に適用することにより、前記第2のDRC利得シーケンスを生成する、請求項4~6のいずれか一項に記載のオーディオデコーダ装置。
  8. 隣接する前記統合ラウドネス更新値のインスタンスが、1~10秒間だけ離れている、請求項1~7のいずれか一項に記載のオーディオデコーダ装置。
  9. 前記統合ラウドネス更新値が前記オーディオ信号の移動平均統合ラウドネスを表す、請求項1~8のいずれか一項に記載のオーディオデコーダ装置。
  10. 前記プロセッサが、
    前記ビットストリームから前記第1のDRC特性への前記インデックスを抽出して、前記抽出されたインデックスを使用して前記第1のDRC特性の逆数を取得し、
    前記第1のDRC特性の前記逆数に前記第1のDRC利得シーケンスを適用することによって、ラウドネスシーケンスを復元し、
    前記インデックスが第1の既定値を有する場合には、統合ラウドネス更新値の各インスタンスについて、i)DRC入力ラウドネス目標と、ii)統合ラウドネス更新値の前記インスタンスとエンコーダ側ラウドネスノーマライゼーション利得との合計との差として、ノーマライゼーション利得更新値を計算し、前記ノーマライゼーション利得更新値を前記復元されたラウドネスシーケンスに加えて、ノーマライズされたラウドネスシーケンスを生成し、
    前記ノーマライズされたラウドネスシーケンスを第2のDRC特性に適用することによって第2のDRC利得シーケンスを生成し、
    前記第2のDRC利得シーケンスを前記オーディオ信号に適用する、
    ように構成されている、請求項1に記載のオーディオデコーダ装置。
  11. 前記プロセッサが、前記インデックスが第2の規定値を有する場合には、前記第2のDRC特性に前記復元されたラウドネスシーケンスを、ラウドネスノーマライゼーションを伴わずに適用することによって、前記第2のDRC利得シーケンスを生成するように構成されている、請求項10に記載のオーディオデコーダ装置。
  12. プロセッサと、
    ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
    を備えるオーディオデコーダ装置であって、前記ビットストリームが、
    オーディオ信号の符号化バージョンと、
    前記オーディオ信号を第1のDRC特性に適用するエンコーダ側処理によって決定された、第1のダイナミックレンジ制御、すなわちDRC、利得シーケンスと、
    前記第1のDRC特性のインデックスであって、前記インデックスが前記第1のDRC特性を識別又は指示する、インデックスと、
    統合ラウドネス更新値の経時的な複数のインスタンスと、
    フラグであって、前記フラグが第1の値を有するときは前記ビットストリームがエンコーダ側ラウドネスノーマライゼーション利得を含み、又は前記フラグが第2の値を有するときは前記ビットストリームが前記エンコーダ側ラウドネスノーマライゼーション利得を含まない、フラグと、
    を含む、
    オーディオデコーダ装置。
  13. 前記フラグが前記第1の値を有することに応答して、前記プロセッサが、第2のDRC特性を使用し、かつラウドネスノーマライゼーションを伴って、前記オーディオ信号にDRCを適用し、前記ラウドネスノーマライゼーションが、i)前記エンコーダ側ラウドネスノーマライゼーション利得、及びii)統合ラウドネス更新値の前記複数のインスタンスを使用する、請求項12に記載のオーディオデコーダ装置。
  14. i)前記フラグが前記第2の値を有することに応答して、ii)前記インデックスが第1の値を有するときに、前記プロセッサが、第2のDRC特性を使用し、かつラウドネスノーマライゼーションを伴って、前記オーディオ信号にDRCを適用し、前記ラウドネスノーマライゼーションが、統合ラウドネス更新値の前記複数のインスタンスを使用するが前記エンコーダ側ラウドネスノーマライゼーション利得は使用しない、請求項12に記載のオーディオデコーダ装置。
  15. 前記インデックスが前記第1の値とは異なる第2の値であることに応答して、前記プロセッサが、前記第2のDRC特性を使用するがラウドネスノーマライゼーションは伴わない、前記オーディオ信号にDRCを適用する、請求項14に記載のオーディオデコーダ装置。
  16. プロセッサと、
    ビットストリームを取得するように前記プロセッサを構成する命令を内部に記憶して有するメモリと、
    を備えるオーディオデコーダ装置であって、前記ビットストリームが、
    オーディオ信号の符号化バージョンと、
    前記オーディオ信号を第1のDRC特性に適用するエンコーダ側処理によって決定された、第1のダイナミックレンジ制御、すなわちDRC、利得シーケンスと、
    前記第1のDRC特性のインデックスであって、前記インデックスが前記第1のDRC特性を識別又は指示する、インデックスと、
    統合ラウドネス更新値の経時的な複数のインスタンスと、
    を含み、
    前記ビットストリームがエンコーダ側DRCノーマライゼーション利得を含み、前記プロセッサが、デコーダ側DRCラウドネスノーマライゼーションを適用するときに前記エンコーダ側DRCノーマライゼーション利得を相殺する、
    オーディオデコーダ装置。
  17. ビットストリームを取得することであって、前記ビットストリームが、オーディオ信号の符号化バージョンと、前記オーディオ信号を第1のDRC特性に適用するエンコーダ側処理によって決定された第1のダイナミックレンジ制御、すなわちDRC、利得シーケンスと、前記第1のDRC特性のインデックスであって、前記第1のDRC特性を識別又は指示するインデックスと、統合ラウドネス更新値の経時的な複数のインスタンスと、を含む、ことと、
    前記インデックスを使用して逆DRC特性を取得することと、
    前記第1のDRC利得シーケンスに前記逆DRC特性を適用した後にラウドネスノーマライゼーションを行って、ノーマライズされたラウドネスシーケンスを生成することと、
    前記ノーマライズされたラウドネスシーケンスを第2のDRC特性に適用して、第2のDRC利得シーケンスを生成することと、
    前記第2のDRC利得シーケンスを前記オーディオ信号に適用して、圧縮されたオーディオを生成することと、
    を含む、デジタルオーディオの方法。
  18. 前記ビットストリームが、前記第1のDRC特性に前記オーディオ信号を適用することによって前記第1のDRC利得シーケンスを判定するときに前記エンコーダ側処理によって適用された、ラウドネスノーマライゼーション利得を含み、
    前記ビットストリーム、前記第1のDRC利得シーケンスを決定するときに前記エンコーダ側処理によって適用された前記ラウドネスノーマライゼーション利得を、前記ビットストリーム内の前記ラウドネスノーマライゼーション利得を使用して相殺するか又は取り消すことによって前記ラウドネスノーマライゼーションを行うことをプロセッサに指示する、
    請求項17に記載の方法。
  19. 前記ビットストリームがフラグを含み、前記フラグが第1の値を有するときは、前記第1のDRC利得シーケンスが、ラウドネスノーマライゼーションを伴って前記オーディオ信号を前記第1のDRC特性に適用する前記エンコーダ側処理によって決定されている、請求項17に記載の方法。
  20. 前記フラグが第2の値を有するときは、前記第1のDRC利得シーケンスが、ラウドネスノーマライゼーションを伴わずに前記オーディオ信号を前記第1のDRC特性に適用する前記エンコーダ側処理によって決定されている、請求項19に記載の方法。
  21. ラウドネスノーマライゼーションを行い、前記ノーマライズされたラウドネスシーケンスを第2のDRC特性に適用することが、
    前記ノーマライズされたラウドネスシーケンスを調整し、次いで前記調整されたラウドネスシーケンスを前記第2のDRC特性に適用すること、
    を含む、請求項17~20のいずれか一項に記載の方法。
JP2021183523A 2020-11-10 2021-11-10 ダイナミックレンジ制御のための延期されたラウドネス調整 Active JP7465858B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063111759P 2020-11-10 2020-11-10
US63/111,759 2020-11-10

Publications (2)

Publication Number Publication Date
JP2022077033A JP2022077033A (ja) 2022-05-20
JP7465858B2 true JP7465858B2 (ja) 2024-04-11

Family

ID=81256074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021183523A Active JP7465858B2 (ja) 2020-11-10 2021-11-10 ダイナミックレンジ制御のための延期されたラウドネス調整

Country Status (6)

Country Link
US (2) US11907611B2 (ja)
JP (1) JP7465858B2 (ja)
KR (1) KR20220063733A (ja)
CN (1) CN114464199A (ja)
DE (1) DE102021128853A1 (ja)
GB (3) GB2619594B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008505586A (ja) 2004-07-01 2008-02-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法
US20140294200A1 (en) 2013-03-29 2014-10-02 Apple Inc. Metadata for loudness and dynamic range control
JP2017534903A (ja) 2014-10-01 2017-11-24 ドルビー・インターナショナル・アーベー 効率的なdrcプロファイル伝送
JP2018522286A (ja) 2015-07-31 2018-08-09 アップル インコーポレイテッド エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2639663C2 (ru) 2013-01-28 2017-12-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
JP6476192B2 (ja) 2013-09-12 2019-02-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008505586A (ja) 2004-07-01 2008-02-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法
US20140294200A1 (en) 2013-03-29 2014-10-02 Apple Inc. Metadata for loudness and dynamic range control
JP2017534903A (ja) 2014-10-01 2017-11-24 ドルビー・インターナショナル・アーベー 効率的なdrcプロファイル伝送
JP2018522286A (ja) 2015-07-31 2018-08-09 アップル インコーポレイテッド エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御

Also Published As

Publication number Publication date
GB2619594B (en) 2024-06-05
US20220147311A1 (en) 2022-05-12
GB202305068D0 (en) 2023-05-17
US20240143271A1 (en) 2024-05-02
DE102021128853A1 (de) 2022-05-12
GB2602873A (en) 2022-07-20
GB2619594A (en) 2023-12-13
CN114464199A (zh) 2022-05-10
US11907611B2 (en) 2024-02-20
JP2022077033A (ja) 2022-05-20
GB202405585D0 (en) 2024-06-05
KR20220063733A (ko) 2022-05-17
GB2602873B (en) 2023-05-17

Similar Documents

Publication Publication Date Title
JP6982604B2 (ja) 符号化されたオーディオメタデータに基づくラウドネス等化及びdrc中の動的等化
JP7038788B2 (ja) ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
JP7049503B2 (ja) 多様な再生環境のためのダイナミックレンジ制御
JP7273914B2 (ja) 効率的なdrcプロファイル伝送
CN107851440B (zh) 经编码音频扩展的基于元数据的动态范围控制
CN105103222B (zh) 用于响度和动态范围控制的元数据
JP4726898B2 (ja) オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法
JP5695677B2 (ja) 単一再生モードにおいてラウドネス測定値を合成するシステム
EP3761672B1 (en) Using metadata to aggregate signal processing operations
JP7465858B2 (ja) ダイナミックレンジ制御のための延期されたラウドネス調整

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230710

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240229

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240401

R150 Certificate of patent or registration of utility model

Ref document number: 7465858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150