JP2018522286A - エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御 - Google Patents

エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御 Download PDF

Info

Publication number
JP2018522286A
JP2018522286A JP2018504936A JP2018504936A JP2018522286A JP 2018522286 A JP2018522286 A JP 2018522286A JP 2018504936 A JP2018504936 A JP 2018504936A JP 2018504936 A JP2018504936 A JP 2018504936A JP 2018522286 A JP2018522286 A JP 2018522286A
Authority
JP
Japan
Prior art keywords
drc
metadata
digital audio
audio recording
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018504936A
Other languages
English (en)
Other versions
JP6574046B2 (ja
Inventor
フランク バウムガルテ
フランク バウムガルテ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2018522286A publication Critical patent/JP2018522286A/ja
Application granted granted Critical
Publication of JP6574046B2 publication Critical patent/JP6574046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

オーディオエンコーダは、多数のオーディオチャネル又はオーディオオブジェクトを有するデジタルオーディオ録音をエンコードする。ダイナミックレンジ制御(DRC)プロセッサは、多数のDRC特性のうちの選択された1つをオーディオチャネル又はオーディオオブジェクトのうちの1つ以上の群に適用することにより、エンコーダDRCゲイン値のシーケンスを生成する。エンコーダDRCゲイン値は、エンコードされたデジタルオーディオ録音からデコードする際にオーディオチャネル又はオーディオオブジェクトの群を調整するために、適用されることになる。ビットストリームマルチプレクサは、a)エンコードされたデジタルオーディオ録音を、b)エンコーダDRCゲイン値のシーケンス、選択されたDRC特性のインジケーション、及びエンコードされたデジタルオーディオ録音に関連付けられたメタデータとしての代替DRC特性のインジケーションと混合する。エンコードされたオーディオ録音をデコードして、それにDRC調整を実行するためのシステムを含む他の実施形態もまた説明する。【選択図】図1

Description

本出願は、米国仮特許出願第62/199,819号(2015年7月31日出願)の先の出願日の利益を主張する。
本発明の実施形態は、概して、様々な種類の家庭用エンドユーザ向け電子デバイスにおける再生の品質を向上するための、オーディオ信号のエンコード及びデコード、並びにデコードされた信号の再生中のエンコードされた信号に関連付けられたメタデータの使用に関する。他の実施形態についてもまた説明する。
デジタルオーディオコンテンツは、例えば、音楽及び動画ファイルを含めた多くの事例に登場する。多くの事例では、オーディオ信号は、データ転送速度低減又は形式変換の目的でエンコードされて、メディアファイル又はストリーミングの伝送又は配信が、より実用的で、より狭い帯域幅を消費し、かつ/又はより速くなり、それにより、多数の他の伝送を同時に行うことができるようになる。メディアファイル又はストリーミングは、異なる種類のエンドユーザデバイスにおいて受信することができ、エンコードされたオーディオ信号は、内蔵スピーカ又は取り外し可能なスピーカのいずれかを介して消費者に提示される前に、デコードされる。これは、インターネットを介してデジタルメディアを入手することに対する消費者の欲求を刺激するのに役立った。デジタルオーディオコンテンツ(プログラム)の創作者及び配給業者は、オーディオコンテンツをエンコード及びデコードするために使用することができる、自由に使用できるいくつかの手法を有する。これらの手法としては、Advanced Television Systems Committee,Inc.により2005年6月14日に発行されたDigital Audio Compression Standard(AC−3,E−AC−3),Revision B,Document A/52B(「ATSC Standard」)、ISO/IEC 13818−7のMPEG−2 Transport Streamに基づくEuropean Telecommunication Standards Institute,ETSI TS 101 154 Digital Video Broadcasting(DVB)、Advanced Audio Coding(AAC)(「MPEG−2 AAC Standard」)、及びInternational Standards Organization(ISO)により発行されたISO/IEC 14496−3(「MPEG−4 Audio」)が挙げられる。
オーディオコンテンツは、デコードして、その後、最初にマスタリングされたのとは異なって処理(レンダリング)することができる。例えば、マスタリング技術者は、再生すると拍手が背後から聞こえてきて聴取者がコンサートの聴衆の中に、すなわち、バンド又はオーケストラの前に座っているかのように(聴取者に)聞こえるように、オーケストラ又はコンサートを録音することができる。マスタリング技術者は、代わりに、例えば、再生すると聴取者が舞台上にいるかのようにコンサートを聞く(聴取者は楽器を「聴取者の周囲で」かつ拍手を「前で」聞くであろう)ように、(同じコンサートの)異なるレンダリングをすることができる。これは、再生室内の聴取者に対する異なる視点の生成、又は異なる「聴取位置」若しくは異なる再生室に対するオーディオコンテンツのレンダリングとも呼ばれる。
オーディオコンテンツはまた、異なる音響環境、例えば、ヘッドセット、スマートフォンのスピーカフォン、又はタブレットコンピュータ、ラップトップコンピュータ、若しくはデスクトップコンピュータの内蔵スピーカを介した再生に対してレンダリングすることができる。特に、オブジェクトベースのオーディオ再生技術が現在利用可能であり、例えば、話している単一の個人、爆発、拍手、又は背景音のデジタルオーディオ録音である個々のデジタルオーディオオブジェクトを、所与の音響環境において任意の1つ以上のスピーカチャネルを介して異なって再生することができる。
コンテキストオーディオ再生におけるダイナミックレンジは、デジタルオーディオコンテンツから計算された最大のサウンドと最小のサウンド(音量レベル)との間の比を指す。音量レベルは、どのようにサウンドが人間によって知覚される(又は聞こえる)かを推定する任意の好適な数学モデルを使用して計算することができる。ダイナミックレンジ制御(Dynamic range control)(DRC)は、再生中にオーディオコンテンツの音量の大きい部分及び音量の小さい部分がどのように聞こえるかを変化させるように、ダイナミックレンジを制御する、例えば、圧縮する又は拡張するための手法を指す。オーディオ技術者は、特定の音響環境に対して又は特定の聴取者視点に対して特定のオーディオ録音を最適化するために、DRCをデジタルオーディオ信号に適用する。例えば、現代のポピュラー音楽の作品は、より大きな音量レベルで再生する(クリッピングすることなく)ことができるように、そのダイナミックレンジを圧縮させていることがあり、一方で、クラシック音楽の作品は、多くの場合、より大きなダイナミックレンジで録音される。
本発明の実施形態は、エンコードされたデジタルオーディオコンテンツ(又はオーディオ録音)ファイルのメタデータの一部であるDRCゲイン値を生成する、生成又は配信システム(例えば、サーバシステム)である。例えば、DRCゲイン値は、正(増幅)又は負(減衰)とすることができ、再生中に録音の音量の大きい部分及び/又は音量の小さい部分を調整するために、再生中に(例えば、オーディオ録音がエンコードされたファイルからデコーダにより抽出された後で)オーディオ録音に適用されることになる。DRC調整は、例えば、デジタルオーディオ信号のすべてのフレームで更新することができる。DRC調整は、特定の種類のオーディオ録音を特定の再生音響環境又は聴取視点により良好に適合させるのに役立つことができる。これにより、DRC調整されたオーディオコンテンツの再生が可能になり、DRC調整は、エンコード段階で指定されている。例えば、オーディオコンテンツファイルは、例えばMPEG動画ファイルなどの動画ファイル、例えばAACファイルなどのオーディオのみのファイル、又は任意の好適なマルチメディア形式を有するファイルとすることができる。
一実施形態では、ダイナミックレンジ制御(DRC)プロセッサは、多数のDRC特性のうちの選択された1つをオーディオチャネル又はオーディオオブジェクトのうちの1つ以上の群に適用することにより、エンコーダDRCゲイン値のシーケンスを生成する。エンコーダDRCゲイン値は、エンコードされたデジタルオーディオ録音からデコードする際にオーディオチャネル又はオーディオオブジェクトの群を調整するために、デコードシステムによって適用されることになる。ビットストリームマルチプレクサは、a)エンコードされたデジタルオーディオ録音を、b)エンコーダDRCゲイン値のシーケンス、選択されたDRC特性のインジケーション、及びエンコードされたデジタルオーディオ録音に関連付けられたメタデータとして複数のDRC特性から選択された代替DRC特性のインジケーションと混合する。これにより、エンコードシステムが、代替のDRC(再生中にデコードされた録音に適用することができる)を要求する又はデコーダオプションとして可能にするのいずれかができるようになる。
上述の構成により、エンコーダが、代替DRC特性を適用しなければならない(やはりエンコードシステムで選択された「既定の」DRC特性の代わりに)シナリオを特定することに加えて、代替DRC特性を適用したことの効果に関する音量情報を提供することができる。代替のDRCのゲイン値は、メタデータで受信される単一のDRCゲインシーケンスに基づいてデコードシステムによって導出することができるため、著しいビットレートの節約が実現される。これにより、エンコードシステムがそれぞれの圧縮シナリオに対して別個のDRCゲインシーケンスを送信する必要を回避する。DRCゲインシーケンスは、特にフレームごとに変化する場合に、メタデータの最もビットレートを消費する部分であると考えられ得る。
別の実施形態では、メタデータは、生成又は配信システム(エンコードシステム)によりエンコーダDRCゲイン値の2つ以上のシーケンスが含まれ得る形式を有するとして定義される。加えて、メタデータは、エンコードシステムからデコードシステムへの命令を内部に含むことができるように定義され、メタデータは、エンコーダDRCゲイン値のシーケンス(メタデータ内に存在する)のうちの任意の1つをDRCに適用してデコードされたデジタルオーディオ録音の任意のサブバンドを調整することができることをエンコードシステムが指定することができる命令を含むことができる。例えば、メタデータは、エンコーダDRCゲイン値のシーケンス(メタデータ内にある)のそれぞれが、デコードされたデジタルオーディオ録音の異なるサブバンドに適用されるものであることを指定することができる。換言すれば、メタデータは、メタデータ内に含むことができる2つ以上のDRCゲインシーケンスの、サブバンドごとにデコードシステムによって圧縮が実行されるサブバンドのうちの任意に選択されたサブバンドへの任意の割り当てを可能にすることができる。再度、例えば、複数のサブバンドを圧縮するためにデコードシステムにより同じDRCゲインシーケンスを使用することができるため、ビットレートの節約が実現される。
更に別の実施形態では、単一のDRCゲインシーケンスを2つ以上のサブバンドに任意に割り当てる能力に加えて、メタデータはまた、第1のサブバンドが1つの倍率に従ってDRCゲインシーケンスのうちの1つをスケール変更することにより調整され、別の倍率に従ってDRCゲインシーケンスをスケール変更して異なるサブバンドに適用するように、生成又は配信システムがメタデータ内で指定することができるフォーマッティングをサポートする。この結果として、デコードシステムは、メタデータ内の命令に従って、すべてメタデータ内で指定されたように、第1の倍率によりDRCゲインシーケンスのうちの指定された1つをスケール変更し(そのスケール変更されたシーケンスを第1のサブバンドに適用する前に)、第2の倍率により指定されたDRCゲインシーケンスをスケール変更する(そのスケール変更されたシーケンスを異なるサブバンドに適用する前に)。
上記概要は、本発明のすべての態様の網羅的なリストを含んでいない。本発明は、上でまとめた種々の態様のすべての適切な組合せによって実施できるすべてのシステム及び方法、並びに以下の「発明を実施するための形態」で開示されるもの、特に本出願と共に提出された請求項に指摘されるものを含むと考えられる。このような組合せは、上記概要には具体的に記載していない特定の利点を有する。
本発明の実施形態は、限定としてではなく例として、添付の図面の図に示されており、図中、同じ参照符号は同様の要素を示している。本開示における本発明の「ある」実施形態又は「一」実施形態に対する言及は、必ずしも同じ実施形態に対するものではなく、それらは、少なくとも1つの実施形態を意味することに留意されたい。また、簡潔さ及び図の総数を低減するために、所与の図を使用して、本発明の1つより多くの実施形態の特徴を例示する場合があり、図に示すすべての要素が所与の実施形態に対して必要ではないことがある。
デジタルオーディオエンコードシステムの態様を例示するために使用されるブロック図である。 いくつかの例示的なダイナミックレンジ制御(DRC)特性を示す。 デジタルオーディオデコードシステム、特にデコードされたオーディオ信号の再生中にデータ処理が実行されるデジタルオーディオデコードシステムの態様を例示するために使用されるブロック図である。 例示的なマルチバンドの周波数ドメインDRC適用ブロックの態様を説明するブロック図である。 オーディオデコーダの一部として時間ドメインで実行されるマルチバンドDRCの実施例を例示するために使用される。 DRCに関連するメタデータ内のいくつかの例示的なフィールドを示す。
本明細書で、エンコードされたデジタルオーディオ録音を生成するためのシステム、及び再生中にデコードされた録音を調整するためにDRCを適用するためのデコーダシステムの関連する構成要素の実施例を含む、本発明の各種実施形態が説明され図に例示される。メタデータに関する、その形式及びデコーダシステムにおけるその使用を含む多数の詳細の存在を留意されたい。それらの一部は、本発明の特定の実施形態を実施するときに必要ではない場合がある。これらの詳細の多くは、以下の請求項において使用される言い回しの実施例であると考えられる。
いくつかの例では、本説明の理解を不明瞭にすることがないように、周知の回路、構造、及び技術は、詳細には示していない。例えば、特定の詳細は、本明細書で、MPEG標準によるビットレート低減のためのエンコードの文脈で説明される。しかし、DRCゲイン値及び関連情報をエンコードされたオーディオコンテンツファイルのメタデータに埋め込むための手法はまた、Apple Lossless Audio Codec(ALAC)などの無損失データ圧縮を含むオーディオコーディング及びデコードの他の形態にも適用可能である。
図1は、デジタルオーディオエンコードシステムの態様を例示するために使用されるブロック図である。図1の元のオーディオ録音又はオーディオ信号は、音楽作品又は音響映像作品、例えば、多数のオーディオチャネルを有する動画のサウンドトラックなどのサウンドプログラムコンテンツ片のビットストリーム又はファイル(これらの用語は、本明細書で区別なく使用される)の形態とすることができる。オーディオチャネルの代わりに又はそれに加えて、録音は、多数のオーディオオブジェクト、例えば、個々の楽器、ボーカル、音響効果のサウンドプログラムコンテンツを含むことができる。エンコーダ段階の処理は、例えば、演奏又は動画の製作者などのサウンドプログラムコンテンツの製作者又は配給業者のコンピュータ(又はコンピュータネットワーク)によって実行することができる。デコード段階の処理(以下の図3を参照)は、例えば、消費者のコンピュータ(又はコンピュータネットワーク)、例えば、ホームオーディオシステム、スピーカドック、車両内のオーディオシステムによって実行することができる。このブロック図を使用して、デジタルオーディオエンコーダ装置だけでなく、オーディオ信号をエンコードするための方法も説明する。
エンコードシステムは、多数の元のオーディオチャネル又はオーディオオブジェクト(本明細書の図で、信号フローを表す線を横切るフォワードスラッシュにより示される)を有するデジタルオーディオ録音(又は本明細書でデジタルオーディオ信号とも呼ばれる)を異なるデジタル形式にエンコードする、エンコーダ2を有する。新しい形式は、エンコードされたファイルの記憶(例えば、コンパクトディスク又はデジタルビデオディスクなどのポータブルデータ記憶デバイス上への)のため、又はビットストリームを消費者のコンピュータに送信する(例えば、インターネットを介して)ために、より好適なものとすることができる。エンコーダ2はまた、例えば、MPEG標準、又はApple Lossless Audio Codec(ALAC)などの無損失データ圧縮に従って、元のオーディオチャネル又はオーディオオブジェクトに損失又は無損失ビットレート低減(データ圧縮)を実行することができる。
エンコード段階の処理はまた、エンコードされたデジタルオーディオ録音をエンコードされたデジタルオーディオ録音に関連付けられたメタデータとしてのDRCゲイン値の1つ以上のシーケンスと混合する又は組み立てる、マルチプレクサ(mux)8を有することができる。組合せの結果は、エンコードされた録音及びその関連付けられたメタデータを含むビットストリーム又はエンコードされたファイル(以降、一般的に「ビットストリーム」と呼ばれる)とすることができる。メタデータは、ビットストリーム内のエンコードされた録音に埋め込むことができる、又は、別個のファイル若しくは補助データチャネル7(エンコードされた録音が関連付けられる)と本明細書で一般的に呼ばれるサイドチャネル内に提供することができることに留意されたい。エンコードされたデジタルオーディオ録音に関連付けられたメタデータは、ISO/IEC 23003−4:2015−Information Technology−MPEGオーディオ技術−Part 4:Dynamic Range Control(「MPEG−D DRC」)の多数の拡張フィールド内で搬送することができる。
エンコード段階はまた、エンコーダDRCゲイン値のシーケンスを生成するDRCプロセッサ4を有する。既定のDRCゲインシーケンスは、多数のDRC特性又はプロファイル(DRCプロセッサ4に記憶することができる、少なくとも2つ又はN個が存在する)のうちの選択された1つを、デジタルオーディオ信号の一部であるオーディオチャネル又はオーディオオブジェクトのうちの1つ以上の群に適用することにより生成される。これを繰り返して、結果として、オーディオチャネル又はオブジェクトの複数の群に対応する複数のDRCゲインシーケンスを生成することができる。DRC特性又はプロファイルは、DRCプロセッサ4の一部としての、かつまたデコードシステム内のDRC_1プロセッサ12(図3を参照)の一部としてのメモリに記憶することができる。DRC特性の例を図2に示し、x軸に沿った入力レベルは、短期音量値(本明細書でDRC入力レベルとも呼ばれる)を指し、DRCゲイン値の範囲は、y軸に沿って示される。
既定のDRC特性は、ユーザ入力(例えば、グラフィカルユーザインタフェース)を介してユーザによって選択することができる。ユーザは、例えば、再生装置(図示せず)を介してチャネル又はオブジェクトを聴取することを含めて関連するチャネル又はオブジェクト内のコンテンツの種類を評価して、経験に基づいてコンテンツの種類、及び音響設定又は特定の再生デバイスシナリオ(例えば、ヘッドセット対ラップトップコンピュータ又はデスクトップコンピュータの内蔵スピーカ対独立型のラウドスピーカ)でどのようにチャネル又はオブジェクトがそのダイナミックレンジを変更した(既定の特性に従って)ときに聞こえるかを選択する、ミキシング技術者又はサウンド技術者であってよい。これは、例えば、公共の映画館のオーディオシステムより小さなダイナミックレンジを有することがあるオーディオシステムを介して再生される動画のサウンドトラックを変更するために行うことができる。
所与のDRC入力レベルに対して、この特性は、正(拡張効果)又は負(圧縮効果)であり、かつDRC適用ブロック3(図1を参照)により入力オーディオ信号に適用される、対応するゲイン値を与える。換言すれば、DRCブロック3は、入力オーディオ信号から任意の必要とされる入力レベルを計算し、入力レベルを特性に適用することにより出力ゲインを得て、出力ゲインを入力オーディオ信号に適用して、ダイナミックレンジ調整を実行するように、選択されたDRC特性を備えて構成されるといわれる。図2のグラフのゲイン値は、本明細書でDRCゲイン値とも呼ばれ、この特定の実施例では、対数形式(dB)で示されている。特性(DRC入力レベル)に適用される入力オーディオ信号のレベルは、例えば、5ミリ秒未満のオーダー、例えば、1ミリ秒未満の、本明細書でフレームとも呼ばれる入力オーディオ信号の所定の時間間隔にわたって計算することができる。したがって、DRCゲインシーケンスは、そのようなフレームごとの更新されたDRCゲイン値を提供することができる。エンコードされているデジタルオーディオ信号は、オーディオ信号のフレーム又はチャンクが逐次利用可能になる、パルスコード変調(pulse code modulated)(PCM)形式、又はパケットベース形式のいずれかとすることができ、それぞれのフレーム又はチャンクは、シーケンス内のいくつかのDRCゲイン値がそれぞれのオーディオフレーム又はチャンクに適用されるように、例えば、20〜100ミリ秒とすることができることに留意されたい。これらの数値は、当然ながら、本明細書で適用される概念が、DRCゲインシーケンス内のそれぞれのゲイン値に対して、又はオーディオ信号をデジタル的に処理するために定義されたフレーム長さに限定されないことを理解されるべきであるように、単に例である。
入力オーディオ信号を選択された既定のDRC特性に適用することにより生成されたゲイン値(エンコードシステム内のDRCプロセッサ4により)は、エンコードされたデジタルオーディオ録音からオーディオオブジェクトをデコードする際に(デコードシステム内で)、1つ以上のチャネル又はオーディオオブジェクトの群を調整するために適用されなければならない。それは、図3で以下に更に説明するような再生中の処理の一部とすることができる。この目的を実現するために、エンコード段階はまた、エンコードされたデジタルオーディオ録音に関連付けられたメタデータとしてエンコーダDRCゲイン値のシーケンスをデコードシステムに提供するための、なんらかの手段を有する。これは、例えば、マルチプレクサ8自体として、又は補助データチャネル7と組合せて上述した。
一実施形態では、メタデータはまた、既定のDRC特性のインジケーション、並びに利用可能なDRC特性0、1、...Nから選択された代替DRC特性のインジケーションを含む。以下に説明するように、これにより、デコードシステムで適用されるダイナミックレンジ制御の圧縮強度をエンコード段階でユーザ入力により要求されたように変更することができる。これを行なうことができる技術は、追加のDRCゲインシーケンス(単一の既定のDRCゲインシーケンスを上回る)を担うメタデータを必要とすることなく、新しいダイナミックレンジ制御オプションがデコードシステムに与えられて、ビットレート効率がよい。したがって、相対的に一般的な変更は、メタデータ内に指定された代替DRC特性の知識を使用して既定のDRCゲインシーケンスのゲインマッピングを実行するためのデコードシステムに利用可能である。メタデータは、ここで、例えば、デコードシステムが代替DRC特性(既定のDRC特性ではなく)に従ってダイナミックレンジ制御を適用することになる特定のシナリオ又は条件を特定することに加えて、代替DRC特性を示すことができる追加のフィールドを定義することにより拡張される。既定のDRCゲインシーケンスのこのゲインマッピングは、図3に関連して以下に説明する。
また図1を参照して、一実施形態では、音量パラメータ、又は本明細書で音量情報とも呼ばれるものは、DRCプロセッサ4により、具体的には音量測定ブロック6(音量計算機)により計算することができ、これらはまた、メタデータ内に含めることができる。これらの音量パラメータは、デジタルオーディオ録音の代替のDRC調整されたバージョンの音量の測定値を与え、この測定値は、デコードシステムが既定のDRCと代替のDRCとの間でのようなDRCを適用するか否かの選択を与えられた場合に評価するのに有用である。オーディオ測定ブロック6への入力は、DRC適用ブロック3により提供される入力オーディオ信号の代替のDRC調整されたバージョンを受信し、DRC適用ブロック3は、代替DRC特性(ユーザ入力により選択されていることがある)に従って構成されている。
既定の又は代替のDRC特性の「インジケーション」(メタデータ内の)を提供するために、いくつかの手法のうちのいずれか1つを取ることができる。図1に示すように、ここの特定の実施例は、入力レベル又は音量対出力DRCゲインの所定の曲線又はグラフに対するリファレンス又はポインタであるインデックスを使用する。曲線又はグラフは、DRC_1プロセッサ4のメモリ内のDRC特性0、1、...Nとしてデコードシステムに記憶することができる。デコードシステムは、次に、メタデータ内で受信したインデックスにより指定されていたDRC特性を取得することになる。あるいは、メタデータは、デコードシステムにより既定の数学関数に挿入されるとDRCゲイン曲線に対して特定の音量を与える多数の定数又はパラメータ又は係数を含むことにより、DRC特性を示すことができる。別の実施形態では、DRC特性のインジケーションは、入力レベル又は音量値及びDRCゲイン曲線を定義する対応するDRCゲイン値のすべてのルックアップテーブルとすることができる。最後に、DRC特性のインジケーションは、デコードシステムが不特定の入力音量レベル(メタデータ内で指定されていない)に対してDRCゲイン曲線又は特定のDRCゲイン値を補間する、低減した数の音量値及び対応するDRCゲイン値とすることができる。ビットレート効率のために、DRC特性のインジケーションは、単に、DRCゲイン曲線又はグラフ(デコードシステムに記憶されている)に対する所定の音量のインデックスであるべきである。
どのようにメタデータをエンコードシステム内に読み込むことができるかを説明してきたが、ここで、再生のための処理中のメタデータの使用を、図3の実施例を使用して説明する。図3は、デコードシステム、特にデコードされたオーディオ信号の再生中にデータ処理が実行されるデコードシステムの態様を例示するために使用されるブロック図である。これは、デジタルオーディオ録音がエンコードされている(図1を参照)ビットストリームを受信する、デコードされたデジタルオーディオ録音を生成するためのシステムである。
図3に示す構成要素に関する本明細書で説明するデジタル信号処理動作は、専用のハードウェア(回路)により実装することができる、又は、ハードウェア回路、及び1つ以上のプロセッサ(一般的に本明細書で「プロセッサ」と呼ばれる)によって実行されると本明細書で説明する動作を実行する命令をメモリが内部に記憶している1つ以上のプログラムされたプロセッサの組合せにより実装することができる。具体的には、デマルチプレクサ(demux)13は、エンコードされたオーディオビットストリームを受信して、エンコードされたマルチチャネル又はマルチオブジェクトのオーディオを抽出し、これは、デコーダ10に供給され、抽出されたメタデータは、DRC_1プロセッサ12に提供される。一実施形態では、メタデータは、図1で上述した既定のDRCゲイン値とすることができるエンコーダDRCゲイン値(図3に示すようなDRCゲイン)のシーケンスを含む。メタデータはまた、エンコーダシステムにより既定のDRCゲイン値のシーケンスを導出するために使用された(元のデジタルオーディオ録音を選択された又は既定のDRC特性に適用するときに)、選択されたDRC特性(既定のDRC特性)のインジケーションを含む。加えて、代替DRC特性のインジケーションも、メタデータ内で受信される。メタデータの一部又はすべては、エンコードされたオーディオビットストリームとは別個のチャネル、例えば、補助データチャネル7(図1を参照)内とすることができることを理解されたい。
デコーダ10は、デジタルオーディオ録音をデコード(例えば、図1のエンコーダ2によって実行された動作をアンドゥ又はその動作の逆を実行)し、次に、デコードされた録音の再生が、既定のDRCゲイン値をデコードされたオーディオ信号又はDRCゲインの再マッピングされたセットのいずれかを適用してダイナミックレンジ−調整された(DRC調整された)オーディオ録音を生成する乗算器ブロック11で開始されて実行される。DRC調整されたオーディオ信号は、次に、アナログ形態に変換される(デジタル/アナログ変換器、DAC18により)前に、更なるオーディオ処理16(例えば、ダウンミックス)を受けることができ、その後、電気音響トランスデューサ19のスピーカドライバ入力に供給することができる。
図3で再マッピングされたDRCゲインとも呼ばれるDRCゲイン値の代替のシーケンスは、以下の処理を実行するDRC_1プロセッサ12によって計算することができる。最初に、メタデータ内で受信した既定のDRC特性のインジケーションを使用して、既定のDRC特性の逆数が生成される。例えば、メタデータは、既定のDRC特性のインデックスを含むことができる。このインデックスを使用して、図示するようなDRC_1プロセッサ12に記憶することができる既定のDRC特性(DRC特性0、1、...Nのうちの1つとしての)を検索することができる。逆数は、例えば、DRCフレームごとに、DRC特性を表す数学関数(DRCゲイン曲線)の入力及び出力変数を反転させ、メタデータ内で受信したエンコードされたDRCゲイン値のシーケンスを数学関数の「出力」に(又は数学関数の計算される逆数への入力として)適用して、音量値の対応するシーケンスを生成することにより、得ることができる。
プロセスは、メタデータ内で受信したインジケーションを使用して代替DRC特性を入手して継続する。例えば、DRC特性3は、既定とすることができ、代替DRC特性は、DRC特性5であると示される。既定の特性、DRC特性3の逆数を使用して計算された音量値のシーケンスは、今度は入力として代替の特性、DRC特性5に適用されて、図3で再マッピングされたDRCゲイン又は「代替のDRCゲイン」と呼ばれるDRCゲイン値のシーケンスを生成する。再マッピングされたDRCゲインは、次に、乗算器ブロック11によりデコードされたデジタルオーディオ録音(デコーダ10の出力から来る)に適用されて、デコードされたオーディオ録音の代替のDRC調整されたバージョンを生成する。
したがって、図3のデコードシステムは、メタデータ内で受信した既定のDRCゲイン値(デコーダ10の出力に)を適用する、又は代替DRC特性のインジケーション(インジケーションは、メタデータ内で受信された)に基づいた上述した手順を使用して再マッピングされたゲインを生成(して次に適用)する、のいずれかのオプションを有する。一実施形態では、それら2つのダイナミックレンジ制御調整の間の選択は、メタデータ内で受信した命令に従うことができる。あるいは、選択は、ユーザ入力及び/又は再生用に使用されているトランスデューサ19のダイナミックレンジの所定の知識に基づいて、デコードシステムにより単独で行うことができる。より一般的には、更なるオーディオ処理16中に適用されるあらゆるゲインを含めた再生システムの感度、及びデジタル/アナログ変換器(DAC)18の感度もまた、既定のDRC又は代替のDRCの間で決定する際に考慮することができる。
更なる実施形態もまた、図3に示し、別個の又は独立したダイナミックレンジ制御調整が実行されていることがある他のオーディオ源(別個のDRC適用ブロック3により示すような)からのオーディオ信号を混合するように機能するミキサ14が存在してもよい。
上述したように図1及び図3は、既定及び代替のDRC特性の両方のインデックスを(代替のDRCに関する任意選択の音量パラメータと共に)メタデータ内に埋め込むことにより、メタデータを使用する、より有用なDRCゲインマッピング機能が実装された本発明の実施形態を示す。図1及び図3はまた、メタデータ内に指定された(エンコードシステムによって)ようにデコードされたオーディオ信号にマルチバンドDRCを実行することができる(デコーダ10の特定の内部要素による乗算器ブロック11により)本発明の他の実施形態を示す。第1に、既定のDRCゲイン値の個々のサブバンドごとのスケール変更を指定する(エンコードシステムにより、かつメタデータ内の命令を介して)ことにより、既定のDRCゲイン値を変更する能力が存在する。同じ既定のDRCゲインシーケンスを、デコードシステムによりここで再使用して、複数のサブバンドに適用することができる。したがって、図1に戻って、DRCプロセッサ4は、今度は、既定のDRCゲインシーケンスに加えて、サブバンド定義、及びDRCゲインシーケンスのサブバンドへの割り当てを生成する。サブバンド定義は、例えば、オーディオスペクトル全体の中の少なくとも2つのサブバンドに対するいくつかのクロスオーバー周波数を定義する、完全に既存のものとすることができる。加えて、メタデータは、ここで、メタデータ内にあるエンコーダDRCゲイン値の複数のシーケンス(例えば、既定のDRCゲインシーケンス)のうちの1つがダイナミックレンジに適用され、(エンコーダ2によって生成されたエンコードされたデジタルオーディオ録音から)デコードされるオーディオチャネル又はオーディオオブジェクトの2つ以上のサブバンドを調整するものであることを指定する。メタデータは、1)DRCゲイン値のシーケンスのうちの指定された1つをスケール変更するために、スケール変更されたシーケンスをデコードされたオーディオチャネル又はオーディオオブジェクトの第1のサブバンドに適用する前に適用されるものである第1のスケーリング値、及び2)エンコーダDRCゲイン値のシーケンスのうちの指定された1つをスケール変更するために、スケール変更されたシーケンスをデコードされたオーディオチャネル又はオーディオオブジェクトの第2のサブバンドに適用する前に適用されるものである第2の異なるスケーリング値を更に指定することができる。図6で分かるように、マルチバンドDRCに関するメタデータ内のいくつかの例示的なフィールドが示されている。具体的には、クロスオーバー周波数インデックスと呼ばれるデータ構造は、2つ以上のサブバンドのクロスオーバー周波数を定義することができる。クロスオーバー周波数は、サブバンドの数を示すデータ構造バンド数と共に示されている。更なるデータ構造、マルチバンドDRCスケーリング(p、バンド1、バンド2、...、スカラー1、スカラー2、...)は、複数の(K≧2)DRCゲインシーケンスのうちのどれ(p=1、2、...K)が定義された(デコードシステムに既知である)サブバンド(バンド1、バンド2、...)のうちの2つ以上を調整するために適用されるものであるか、及びスケール変更されたDRCシーケンスを2つ以上のサブバンドにそれぞれ適用する前に同じDRCゲインシーケンスpに適用されるものである異なるスケーリング値(スカラー1、スカラー2、...)(減衰又は増幅スケーリング)を指定する。
図6の実施例はまた、メタデータが、1つ以上のDRCゲインシーケンス(又はエンコーダDRCゲイン値のシーケンス)を有するデータ構造であるエンコードされたDRCゲインセットを含み、複数のゲインセットがメタデータ内に存在し得る(ゲインセット数データ構造に示すように)実施形態を示す。
一実施形態では、メタデータは、DRCゲインシーケンス(メタデータ内の)のうちの1つがオーディオチャネル又はオーディオオブジェクト(エンコードされたデジタルオーディオ録音からデコードされた)のサブバンドのうちの指定された2つ以上を調整するために適用されることを指定する。あるいは、メタデータは、エンコーダDRCゲイン値のシーケンスがデコードされたオーディオチャネル又はオブジェクトのすべてのサブバンドに適用されることを指定することができる。いくつかの実施形態では、デコードシステム内のプロセッサが、マルチバンドDRCをデコードされたオーディオ録音に実行するときにデコードされたオーディオ録音のオーディオチャネル又はオーディオオブジェクトのグループ分けをなんら実行しないように、メタデータは、チャネル又はオブジェクトのグループ分けをなんら参照しない。例えば、デコードされる2つのオーディオチャネルのみが存在する場合があり、異なるサブバンドに対して異なるスケーリング値がメタデータ内に指定されない限り、同じサブバンドDRCをチャネルの両方に適用しなければならない。
DRCゲイン値のデコードされたオーディオ信号への適用(デコードシステム内のプログラムされたプロセッサ又はプログラムされたプロセッサ及び配線によるロジックの組合せによる)は、周波数ドメイン又は時間ドメインとすることができる。図4は、マルチバンドクロスオーバーフィルタ17が入力としてデコードされた単一のオーディオチャネル又はオブジェクトを受信する周波数ドメインの実装形態の実施例を示す。フィルタ17は、その入力信号を2つ以上の構成帯域に分割する。フィルタ17は、メタデータ内に指定されたように帯域又はクロスオーバー周波数を定義するようにプログラムすることができる。結果として得られるサブバンド信号a、b、...nは、次に、それぞれに関連付けられたDRCゲインに従ってサブバンド信号の減衰又は増幅のいずれかをするように機能する多数の乗算器11a、11b、...11nにそれぞれ並列に供給される。このDRCゲインは、メタデータ内に指定された(エンコードシステムによって選択された)既定値、又は「変更された」値のいずれかとすることができる。変更されたDRCゲイン値は、メタデータ内に指定されたようにスケール変更された既定のDRCゲインとすることができる、又は上述した手順のように代替DRC特性により既定のDRCゲインをマッピングした結果とすることができる。乗算器11a、11b、...の出力は、次に、加算ユニット20によって合計され、DRC調整された単一のオーディオチャネル又はオブジェクトを与え、これは、次にミキサ14に供給される。
図5は、DRCゲイン値の適用の時間ドメインの実装形態の実施例を示す。この手法は、デコーダ10(図3を参照)がすでにサブバンド形態のデコードされたオーディオチャネル又はオブジェクトを有する(エンコードシステムもまた、これらの帯域の定義の知識を有し、ゆえにそれらをメタデータ内に指定することができる)場合に、特に望ましいことがある。デコーダ10はまた、デコードされたオーディオ信号のサブバンド形態を単一のパルスコード変調されたビットストリーム又は時間サンプルシーケンスに混合するために使用される、合成フィルタバンクを有することができる。このフィルタバンクは、そのn個のスカラー入力にn個のDRCゲイン(対数又はデジベル形態とは対照的に線形形態の)を提供することにより、DRC調整用に2つの目的を兼ねている。合成フィルタバンクは、サブバンド信号を単一の時間ドメインシーケンスに混合する前に、そのn個のスカラー入力のゲイン値をn個のサブバンド信号にそれぞれ適用する。周波数ドメインの解決策におけるように、DRCゲインは、エンコードシステムによって選択されたメタデータ内の既定値、又は上述した変更された値のいずれかとすることができる。
本明細書で説明した実施形態は、大まかな発明を例示するものにすぎず、限定するものではないこと、また、他の種々の変更が当業者によって想起され得るので、本発明は、図示及び記述した特定の構成及び配置には限定されないことが理解されるべきである。例えば、エンコード及びデコード段階のそれぞれは、一実施形態では、例えば、インターネットを介して通信しているオーディオコンテンツ製作者の機械及びオーディオコンテンツ消費者の機械で別々に動作するとして説明することができるが、エンコード及びデコードはまた、同じ機械の中で実行することができる(例えば、トランスコーディングプロセスの一部として)。したがって、本説明は、例示するものであり、限定するものではないと考えられるべきである。

Claims (21)

  1. 複数のオーディオチャネル又はオーディオオブジェクトを有するエンコードされたデジタルオーディオ録音を生成するためのシステムであって、
    複数のオーディオチャネル又はオーディオオブジェクトを有するデジタルオーディオ録音をエンコードするオーディオエンコーダと、
    複数のDRC特性のうちの選択された1つを前記複数のオーディオチャネル又はオーディオオブジェクトのうちの1つ以上の群に適用することにより、前記エンコードされたデジタルオーディオ録音からオーディオチャネル又はオーディオオブジェクトの前記群をデコードする際にオーディオチャネル又はオーディオオブジェクトの前記群を調整するために適用されるものであるエンコーダDRCゲイン値のシーケンスを生成するダイナミックレンジ制御(DRC)プロセッサと、
    i)エンコーダDRCゲイン値の前記シーケンス、ii)前記選択されたDRC特性のインジケーション、及びiii)前記複数のDRC特性から選択された代替DRC特性のインジケーションを前記エンコードされたデジタルオーディオ録音に関連付けられたメタデータとして提供するための手段と、
    を備えるシステム。
  2. 前記メタデータは、デコードシステムが前記選択されたDRC特性ではなく前記代替DRC特性に従ってDRCを適用することになるシナリオ又は条件を指定する、請求項1に記載のシステム。
  3. 前記エンコードされたデジタルオーディオ録音に関連付けられた前記メタデータは、MPEG−D DRCの複数の拡張フィールド内で搬送される、請求項1に記載のシステム。
  4. 前記DRCプロセッサは、前記デジタルオーディオ録音を入力として受信し、前記入力を前記代替DRC特性に従って構成されたDRC適用ブロックに適用して、前記デジタルオーディオ録音の代替のDRC調整されたバージョンを生成するものであり、
    前記システムは、前記デジタルオーディオ録音の前記代替のDRC調整されたバージョンの音量の測定値を与える音量情報を計算する音量計算機を更に備え、
    前記エンコードされたデジタルオーディオ録音に関連付けられたメタデータとして提供するための前記手段は、前記メタデータの一部として前記代替のDRC調整されたバージョンに対する前記音量情報を含む、請求項1に記載のシステム。
  5. 前記メタデータ内で、前記代替DRC特性の前記インジケーションは、
    a)デコードシステムに記憶された所定の音量対DRCゲインの曲線又はグラフに対するインデックス又はリファレンス、
    b)前記デコードシステムによって既定の数学関数に挿入されると音量対DRCゲインの曲線を定義する複数の定数又はパラメータ、
    c)音量及び対応するDRCゲイン値のルックアップテーブル、又は
    d)前記デコードシステムが入力音量レベルに対するDRCゲイン値を補間する複数の音量及び対応するDRCゲイン値、
    のうちの1つを含む、請求項1に記載のシステム。
  6. 前記DRCプロセッサは、エンコーダDRCゲイン値の複数のシーケンスを有するエンコーダDRCゲインセットを生成するものであり、
    前記エンコードされたデジタルオーディオ録音に関連付けられたメタデータとして提供するための前記手段は、前記メタデータの一部として前記エンコーダDRCゲインセットをも含み、
    前記メタデータは、エンコーダDRCゲイン値の前記複数のシーケンスのうちの1つが前記エンコードされたデジタルオーディオ録音からデコードされたオーディオチャネル又はオーディオオブジェクトの複数のサブバンドを調整するために適用されることを指定する、請求項1に記載のシステム。
  7. 前記メタデータは、エンコーダDRCゲイン値の前記複数のシーケンスのうちの前記1つが前記デコードされたデジタルオーディオ録音のすべてのサブバンドに適用されることを指定する、請求項6に記載のシステム。
  8. 前記メタデータは、1)前記デコードされたデジタルオーディオ録音の第1のサブバンドがエンコーダDRCゲイン値の前記複数のシーケンスのうちの1つによってDRC調整されること、及び2)第2のサブバンドがエンコーダDRCゲイン値の前記複数のシーケンスのうちの別の1つによってDRC調整されることを指定する、請求項6に記載のシステム。
  9. 前記メタデータは、1)DRCゲイン値の前記複数のシーケンスのうちの前記指定された1つをスケール変更するために、前記スケール変更されたシーケンスを前記デコードされたオーディオチャネル又はオーディオオブジェクトの第1のサブバンドに適用する前に適用されるものである第1のスケーリング値、及び2)エンコーダDRCゲイン値の前記複数のシーケンスのうちの前記指定された1つをスケール変更するために、前記スケール変更されたシーケンスを前記デコードされたオーディオチャネル又はオーディオオブジェクトの第2のサブバンドに適用する前に適用されるものである第2の異なるスケーリング値を指定する、請求項6に記載のシステム。
  10. デコードされたデジタルオーディオ録音を生成するためのシステムであって、
    プロセッサと、
    命令を内部に記憶させたメモリと、
    を備え、前記命令は、前記プロセッサによって実行されると、前記プロセッサに、
    デジタルオーディオ録音がエンコードされたビットストリーム、並びに、選択されたDRC特性のインジケーションと、前記デジタルオーディオ録音を前記選択されたDRC特性、及び代替DRC特性のインジケーションに適用することに基づいて導出されたエンコーダDRCゲイン値のシーケンスとを含む、前記デジタルオーディオ録音に関連付けられたメタデータを受信させ、
    前記デジタルオーディオ録音をデコードさせ、
    a)前記メタデータ内で受信した前記選択されたDRC特性の前記インジケーションを使用して前記選択されたDRC特性の逆数を生成し、入力として前記メタデータ内で受信したエンコーダDRCゲイン値の前記シーケンスを前記逆数に適用して、音量値のシーケンスを生成すること、
    b)前記メタデータ内で受信した前記代替DRC特性の前記インジケーションを使用して前記代替DRC特性を入手し、音量値の前記シーケンスを入力として前記代替DRC特性に適用して、DRCゲイン値の代替のシーケンスを生成すること、及び、
    c)DRCゲイン値の前記代替のシーケンスを前記デコードされたデジタルオーディオ録音に適用して、前記デジタルオーディオ録音の代替のDRC調整されたバージョンを生成すること、
    により、再生用の代替のDRC調整されたオーディオ録音を生成することにより、前記デコードされた録音の再生を実行させる、
    システム。
  11. 前記メタデータは、エンコーダDRCゲイン値の複数のシーケンスを有するエンコーダDRCゲインセットを含み、
    前記メタデータは、エンコードシステムがエンコーダDRCゲイン値の前記複数のシーケンスのうちの任意の1つを前記デコードされたデジタルオーディオ録音の任意のサブバンドに適用することができることを指定することができる命令を含む、請求項10に記載のシステム。
  12. 前記メタデータは、エンコーダDRCゲイン値の複数のシーケンスを有するエンコーダDRCゲインセットを含み、
    前記メタデータは、マルチバンドDRCを実行するときに、エンコーダDRCゲイン値の前記複数のシーケンスのうちの指定された1つを前記デコードされたデジタルオーディオ録音の複数のサブバンドに適用する前記プロセッサへの命令を含む、請求項10に記載のシステム。
  13. 前記メタデータは、1)スケール変更されたシーケンスを前記デコードされたデジタルオーディオ録音の第1のサブバンドに適用する前に、前記メタデータ内で指定されたように第1のスケーリング値によりDRCゲイン値の前記複数のシーケンスのうちの前記指定された1つをスケール変更し、2)スケール変更されたシーケンスを前記デコードされたデジタルオーディオ録音の第2のサブバンドに適用する前に、前記メタデータ内で指定されたように第2の異なるスケーリング値によりDRCゲイン値の前記複数のシーケンスのうちの前記指定された1つをスケール変更する、前記プロセッサへの命令を有する、請求項10に記載のシステム。
  14. デコードされたデジタルオーディオ録音を生成するためのシステムであって、
    プロセッサと、
    命令を内部に記憶させたメモリと、
    を備え、前記命令は、前記プロセッサによって実行されると、前記プロセッサに、
    エンコーダDRCゲイン値の複数のシーケンスを有するエンコーダDRCゲインセットを含むメタデータに関連付けられたデジタルオーディオ録音がエンコードされたビットストリームを受信させ、
    前記デジタルオーディオ録音をデコードさせ、
    前記デコードされたデジタルオーディオ録音にマルチバンドDRCを実行させ、
    前記メタデータは、前記メタデータ内にあるエンコーダDRCゲイン値の前記複数のシーケンスのうちの指定された1つを前記デコードされたデジタルオーディオ録音の複数の異なるサブバンドに適用する命令を含み、前記サブバンドもまた、前記メタデータ内で指定された、システム。
  15. 前記プロセッサは、マルチバンドDRCを前記デコードされたオーディオ録音に実行する際に前記デコードされたオーディオ録音のオーディオチャネル又はオーディオオブジェクトのグループ分けをなんら実行しない、請求項14に記載のシステム。
  16. 前記メタデータは、エンコーダDRCゲイン値の前記複数のシーケンスのうちの前記1つが前記デコードされたデジタルオーディオ録音の前記サブバンドのすべてに適用されることを指定する、請求項14に記載のシステム。
  17. 前記メタデータは、1)スケール変更されたシーケンスを第1のサブバンドに適用する前に、第1のスケーリング値によりDRCゲイン値の前記複数のシーケンスのうちの前記指定された1つをスケール変更し、2)スケール変更されたシーケンスを第2のサブバンドに適用する前に、第2のスケーリング値によりDRCゲイン値の前記複数のシーケンスのうちの前記指定された1つをスケール変更する、前記プロセッサへの命令を含み、前記第1及び第2のスケーリング値、並びに前記第1及び第2のサブバンドは、前記メタデータ内で指定された、請求項14に記載のシステム。
  18. エンコードされたデジタルオーディオ録音を生成するための方法であって、
    複数のオーディオチャネル又はオーディオオブジェクトを有するデジタルオーディオ録音をエンコードすることと、
    複数のDRC特性のうちの選択された1つを前記オーディオチャネル又はオーディオオブジェクトのうちの1つ以上の群に適用することにより、前記エンコードされたデジタルオーディオ録音からオーディオチャネル又はオーディオオブジェクトの前記群をデコードする際にオーディオチャネル又はオーディオオブジェクトの前記群を調整するために適用されるものであるエンコーダDRCゲイン値のシーケンスを生成することと、
    (i)エンコーダDRCゲイン値の前記シーケンス、(ii)前記選択されたDRC特性のインジケーション、及び(iii)前記複数のDRC特性から選択された代替DRC特性のインジケーションを前記エンコードされたデジタルオーディオ録音に関連付けられたメタデータとして提供することと、
    を含む方法。
  19. 前記代替DRC特性に従って前記デジタルオーディオ録音の代替のDRC調整されたバージョンを生成することと、
    前記デジタルオーディオ録音の前記代替のDRC調整されたバージョンの音量の測定値を与える音量情報を計算することと、
    前記エンコードされたデジタルオーディオ録音に関連付けられた前記メタデータの一部として前記代替のDRC調整されたバージョンに対する前記音量情報を提供することと、
    を更に含む、請求項18に記載の方法。
  20. 前記エンコードされたデジタルオーディオ録音に関連付けられた前記メタデータの一部として、エンコーダDRCゲイン値の同じシーケンスが前記エンコードされたデジタルオーディオ録音からデコードされたオーディオチャネル又はオーディオオブジェクトの複数のサブバンドを調整するためにデコードシステムによって適用される命令を提供することを更に含む、請求項18又は19に記載の方法。
  21. 前記エンコードされたデジタルオーディオ録音に関連付けられた前記メタデータの一部として、1)第1のスケーリング値、及びエンコーダDRCゲイン値の前記シーケンスのうちの指定された1つをスケール変更するために、前記スケール変更されたシーケンスを前記デコードされたオーディオチャネル又はオーディオオブジェクトの第1のサブバンドに適用する前に前記第1のスケーリング値を適用する命令、並びに2)第2の異なるスケーリング値、及びエンコーダDRCゲイン値の前記シーケンスのうちの指定された1つをスケール変更するために、前記スケール変更されたシーケンスを前記デコードされたオーディオチャネル又はオーディオオブジェクトの第2のサブバンドに適用する前に前記第2のスケーリング値を適用する命令を提供することを更に含む、請求項20に記載の方法。
JP2018504936A 2015-07-31 2016-07-25 エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御 Active JP6574046B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562199819P 2015-07-31 2015-07-31
US62/199,819 2015-07-31
US15/217,632 US9837086B2 (en) 2015-07-31 2016-07-22 Encoded audio extended metadata-based dynamic range control
US15/217,632 2016-07-22
PCT/US2016/043932 WO2017023601A1 (en) 2015-07-31 2016-07-25 Encoded audio extended metadata-based dynamic range control

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019074217A Division JP6778781B2 (ja) 2015-07-31 2019-04-09 エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御

Publications (2)

Publication Number Publication Date
JP2018522286A true JP2018522286A (ja) 2018-08-09
JP6574046B2 JP6574046B2 (ja) 2019-09-11

Family

ID=57886597

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018504936A Active JP6574046B2 (ja) 2015-07-31 2016-07-25 エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
JP2019074217A Active JP6778781B2 (ja) 2015-07-31 2019-04-09 エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019074217A Active JP6778781B2 (ja) 2015-07-31 2019-04-09 エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御

Country Status (7)

Country Link
US (2) US9837086B2 (ja)
EP (1) EP3329487B1 (ja)
JP (2) JP6574046B2 (ja)
KR (1) KR102122137B1 (ja)
CN (1) CN107851440B (ja)
ES (1) ES2777600T3 (ja)
WO (1) WO2017023601A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022009694A1 (ja) * 2020-07-09 2022-01-13 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2022077033A (ja) * 2020-11-10 2022-05-20 アップル インコーポレイテッド ダイナミックレンジ制御のための延期されたラウドネス調整

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
CN104303229B (zh) 2012-05-18 2017-09-12 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
KR101637897B1 (ko) 2013-01-21 2016-07-08 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
KR102331129B1 (ko) 2013-01-21 2021-12-01 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
US9715880B2 (en) 2013-02-21 2017-07-25 Dolby International Ab Methods for parametric multi-channel encoding
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
WO2014165304A1 (en) 2013-04-05 2014-10-09 Dolby Laboratories Licensing Corporation Acquisition, recovery, and matching of unique information from file-based media for automated file detection
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
JP6476192B2 (ja) 2013-09-12 2019-02-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
CN110808723A (zh) 2014-05-26 2020-02-18 杜比实验室特许公司 音频信号响度控制
ES2916254T3 (es) 2014-10-10 2022-06-29 Dolby Laboratories Licensing Corp Sonoridad de programa basada en la presentación, independiente de la transmisión
MX365274B (es) * 2015-06-17 2019-05-29 Sony Corp Dispositivo de transmisión, método de transmisión, dispositivo de recepción, y método de recepción.
US10951994B2 (en) * 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
CN112639968A (zh) * 2018-08-30 2021-04-09 杜比国际公司 用于控制对经低比特率编码的音频的增强的方法和装置
BR112020018466A2 (pt) 2018-11-13 2021-05-18 Dolby Laboratories Licensing Corporation representando áudio espacial por meio de um sinal de áudio e de metadados associados
US11347470B2 (en) 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event
EP3895164B1 (en) * 2018-12-13 2022-09-07 Dolby Laboratories Licensing Corporation Method of decoding audio content, decoder for decoding audio content, and corresponding computer program
CN109889170B (zh) * 2019-02-25 2021-06-04 珠海格力电器股份有限公司 音频信号的控制方法和装置
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
CN117061951A (zh) * 2019-07-30 2023-11-14 杜比实验室特许公司 跨具有不同回放能力的设备的动态处理
EP4014506B1 (en) 2019-08-15 2023-01-11 Dolby International AB Methods and devices for generation and processing of modified audio bitstreams
KR20220047816A (ko) * 2019-08-15 2022-04-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 수정된 비트스트림들의 생성 및 처리를 위한 방법들 및 디바이스들
CN113470692B (zh) * 2020-03-31 2024-02-02 抖音视界有限公司 音频处理方法、装置、可读介质及电子设备
CN112992166B (zh) * 2021-05-08 2021-08-20 北京百瑞互联技术有限公司 一种动态调整lc3音频编码速率的方法、装置及存储介质
WO2023104360A1 (en) * 2021-12-07 2023-06-15 Dolby International Ab Method and apparatus for processing of audio data
WO2023196004A1 (en) * 2022-04-06 2023-10-12 Dolby Laboratories Licensing Corporation Method and apparatus for processing of audio data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297291A1 (en) * 2013-03-29 2014-10-02 Apple Inc. Metadata driven dynamic range control
US20140294200A1 (en) * 2013-03-29 2014-10-02 Apple Inc. Metadata for loudness and dynamic range control
WO2015038475A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
WO2015059087A1 (en) * 2013-10-22 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for combined dynamic range compression and guided clipping prevention for audio devices
JP2015517688A (ja) * 2012-05-18 2015-06-22 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
KR100948256B1 (ko) 2004-06-24 2010-03-18 한국전자통신연구원 타겟팅 지원을 위한 확장된 서술구조와 이를 적용한티비애니타임 서비스 방법 및 시스템
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
WO2010013943A2 (en) 2008-07-29 2010-02-04 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
US20100263002A1 (en) 2009-04-09 2010-10-14 At&T Intellectual Property I, L.P. Distribution of modified or selectively chosen media on a procured channel
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
UA100353C2 (uk) * 2009-12-07 2012-12-10 Долбі Лабораторіс Лайсензін Корпорейшн Декодування цифрових потоків кодованого багатоканального аудіосигналу з використанням адаптивного гібридного перетворення
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN104025192B (zh) 2012-01-06 2018-12-18 索尼移动通信株式会社 智能自动音频录制调平器
US9991861B2 (en) 2012-08-10 2018-06-05 Bellevue Investments Gmbh & Co. Kgaa System and method for controlled dynamics adaptation for musical content
EP4207817A1 (en) * 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
KR101637897B1 (ko) * 2013-01-21 2016-07-08 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
KR102331129B1 (ko) 2013-01-21 2021-12-01 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
RU2639663C2 (ru) 2013-01-28 2017-12-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах
EP2833549B1 (en) * 2013-08-01 2016-04-06 EchoStar UK Holdings Limited Loudness level control for audio reception and decoding equipment
WO2015038522A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
CN109040946B (zh) * 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
WO2016050740A1 (en) * 2014-10-01 2016-04-07 Dolby International Ab Efficient drc profile transmission
US9525392B2 (en) * 2015-01-21 2016-12-20 Apple Inc. System and method for dynamically adapting playback device volume on an electronic device
US9431982B1 (en) * 2015-03-30 2016-08-30 Amazon Technologies, Inc. Loudness learning and balancing system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015517688A (ja) * 2012-05-18 2015-06-22 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
US20140297291A1 (en) * 2013-03-29 2014-10-02 Apple Inc. Metadata driven dynamic range control
US20140294200A1 (en) * 2013-03-29 2014-10-02 Apple Inc. Metadata for loudness and dynamic range control
WO2015038475A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
WO2015059087A1 (en) * 2013-10-22 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for combined dynamic range compression and guided clipping prevention for audio devices

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022009694A1 (ja) * 2020-07-09 2022-01-13 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2022077033A (ja) * 2020-11-10 2022-05-20 アップル インコーポレイテッド ダイナミックレンジ制御のための延期されたラウドネス調整
US11907611B2 (en) 2020-11-10 2024-02-20 Apple Inc. Deferred loudness adjustment for dynamic range control
JP7465858B2 (ja) 2020-11-10 2024-04-11 アップル インコーポレイテッド ダイナミックレンジ制御のための延期されたラウドネス調整

Also Published As

Publication number Publication date
JP6778781B2 (ja) 2020-11-04
US10276173B2 (en) 2019-04-30
EP3329487A1 (en) 2018-06-06
US20170032793A1 (en) 2017-02-02
CN107851440B (zh) 2021-12-10
KR20180019715A (ko) 2018-02-26
KR102122137B1 (ko) 2020-06-11
EP3329487B1 (en) 2019-12-11
ES2777600T3 (es) 2020-08-05
CN107851440A (zh) 2018-03-27
US9837086B2 (en) 2017-12-05
WO2017023601A1 (en) 2017-02-09
US20180218742A1 (en) 2018-08-02
JP6574046B2 (ja) 2019-09-11
JP2019148807A (ja) 2019-09-05

Similar Documents

Publication Publication Date Title
JP6574046B2 (ja) エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
JP6750061B2 (ja) エンコードされたオーディオメタデータベースのイコライゼーション
US11563411B2 (en) Metadata for loudness and dynamic range control
CN106796799B (zh) 高效drc配置文件传输

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190814

R150 Certificate of patent or registration of utility model

Ref document number: 6574046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250