JP5129888B2 - トランスコード方法、トランスコーディングシステム及びセットトップボックス - Google Patents

トランスコード方法、トランスコーディングシステム及びセットトップボックス Download PDF

Info

Publication number
JP5129888B2
JP5129888B2 JP2011530099A JP2011530099A JP5129888B2 JP 5129888 B2 JP5129888 B2 JP 5129888B2 JP 2011530099 A JP2011530099 A JP 2011530099A JP 2011530099 A JP2011530099 A JP 2011530099A JP 5129888 B2 JP5129888 B2 JP 5129888B2
Authority
JP
Japan
Prior art keywords
gain
metadata
audio
value
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011530099A
Other languages
English (en)
Other versions
JP2012504260A (ja
Inventor
シルトバッハ、ヴォルフガング・アー
クラウス、クルト・エム
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2012504260A publication Critical patent/JP2012504260A/ja
Application granted granted Critical
Publication of JP5129888B2 publication Critical patent/JP5129888B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

関連出願への相互参照
本願は、2008年9月30日に出願され、その全体が本願明細書において参照により援用されている米国特許仮出願第61/101,497号に対する優先権を主張する。
発明の分野
本発明はオーディオエンコーディングの分野に関する。特に、本発明は異なるオーディオ符号化方式の間のオーディオメタデータのトランスコーディングに関する。
デジタルテレビおよびラジオシステムの普及が拡大するのに伴い、プログラムのラウドネスおよびダイナミックレンジの受信器側制御ならびにステレオダウンミックスの制御を誘導することを目的としたメタデータ、すなわち「データに関するデータ」、が重要性を増している。オーディオデータの発行用フォーマットまたは送信用フォーマットは、制作または提供用フォーマット、すなわちオーディオ信号の作成または後処理の最中に用いられる符号化方式、とは必ずしも同じであるわけではないので、メタデータを或るフォーマットから別のフォーマットへトランスコードする手段が見いだされなければならない。aacPlusとしても知られるオーディオコーデックHE AACの、いくつかの新しい放送システムへの導入に伴い、どのようにして新しいメタデータを最もうまくエンコードするか、ならびにどのようにして既存のメタデータをHE AACにトランスコードするかおよびそれからトランスコードするかという課題に取り組むことが必要になっている。
HE AAC(High Efficiency Advanced Audio Coding、高効率高度オーディオ符号化)は、48kbpsステレオにおける、全帯域幅の、CDに近いオーディオ品質を提供する最新の低ビットレートコーデックである。HE AACはMPEG−4においてHE AACプロファイルの下で標準化された。プロファイルは、元のMPEG−2 AAC定義に存在する多数の弱点を改善するように、デコーダにおけるメタデータの任意の適用に関して強化された方法を用意している。特に、HE AACは、元のプログラム素材の、特定の聴取環境における適切な再現を達成するために放送において広く用いられている、DRC(Dynamic Range Control、ダイナミックレンジ制御)、DN(Dialog normalization、ダイアログノーマライゼーション)、または多重チャンネルからステレオへのダウンミックス等のメタデータの指定を可能にする。
放送においてはHE AAC等のコーデックが広く用いられているが、制作側および受信器側では異なる符号化方式が普及している。例えば、ドルビーE符号化方式がコンテンツ制作者によってしばしば用いられるのに対して、シアターおよびホームシアターの復号システムでは、AC−3またはドルビーD符号化方式とも呼ばれるドルビーデジタル符号化方式がしばしば用いられる。それ故、制作側において初めに定義されたメタデータが、劣化せずに最後の復号システムに到達することを確実にする、異なる符号化方式の間の、オーディオメタデータのトランスコーディングが必要である。一般的に、目標は、初めに定義されたメタデータに従う元のエンコードされたオーディオストリームを、トランスコードされたメタデータに従う受信オーディオストリームと比較したとき、知覚的な差が聴取者によって全くまたはほとんど検出されることができないことを確かなものにすることである。以下の発明はこの問題に対処するものであり、特に2つのフォーマットのフレーミングに互換性がない場合に、メタデータを1つの圧縮ビットストリームフォーマットから異なる圧縮ビットストリームフォーマットに変換する方法を定義する。
本発明は、ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であり、第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い、各符号化ブロックは少なくとも1つの関連ゲイン値を有する、方法を記載する。この方法では、第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした或る期間内において、第1のゲインメタデータの最小ゲイン値が選択されるように、第1のゲインメタデータの複数のゲイン値に基づいて第2のゲインメタデータのゲイン値を選択するステップを含む。
このような第1および第2の符号化方式の例が、ドルビーE、AAC、HE AAC、ならびに/あるいはドルビーデジタル(Dolby Digital、ドルビーD)、およびドルビーデジタルプラス等のその変形例類となろう。第1のオーディオ符号化方式はメタデータトランスコーダの入力におけるソース符号化方式と呼ぶこともできよう。それに対して、第2のオーディオ符号化方式はメタデータトランスコーダの出力におけるターゲット符号化方式と呼ぶこともできよう。両符号化方式とも、エンコードされるオーディオ信号に関連付けられるメタデータを定義する。通例、基礎をなす符号化方式は、エンコードされるオーディオ信号を複数の符号化ブロックにセグメント化する。符号化方式に応じて、このような符号化ブロックが包含するエンコードされる信号サンプルの数が異なる場合がある。さらに、符号化ブロックは、エンコードされるオーディオ信号の異なる時間の長さにそれぞれわたる場合もある。通常、各符号化ブロックは、特定の符号化ブロックのオーディオ信号に適用されるゲイン値も含む関連メタデータを有する。一方、多くのオーディオ符号化方式は、更新ゲイン値が受信される瞬間まで現在のゲイン値を維持することに存する、いわゆるサンプルホールド動作を適用する。それ故、このような場合、現在のゲイン値は、更新ゲイン値が受信されるまで符号化ブロックに関連付けられる。
本発明の別の態様によれば、第2のメタデータのゲイン値を選択する期間は上限および下限によって定義される。この上限および下限は、第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスにそれぞれ加減算される時間定数によって決定される。換言すると、好ましい実施形態では、期間は、第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心として対称的になっている。
この時間定数は、第1のオーディオ符号化方式の符号化ブロックの時間の長さおよび第2のオーディオ符号化方式の符号化ブロックの時間の長さのうちの最大値以上となるように選択されればよい。このように時間定数が選択されれば、記載されている方法が生じさせるトランスコードされたゲイン値はゲインオーバーシュートおよびクリッピングに対して抵抗性があるものになる。或る条件下では、トランスコードされたゲインメタデータはソースゲインメタデータを決して超えないことが保証されることができる。
一方、時間定数は、第1のオーディオ符号化方式の符号化ブロックの時間の長さおよび第2のオーディオ符号化方式の符号化ブロックの時間の長さのうちの最大値未満となるように選択されてもよい。これは、ソースゲインメタデータとターゲットゲインメタデータとの間の良好な一致を達成するために都合よい場合がある。
或る状況では、第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした期間内に第1のゲインメタデータのゲイン値が1つもないということが起きる可能性がある。例えば、これは、時間定数がかなり小さく選択されるか、または第2のオーディオ符号化方式の符号化ブロックの時間の長さが第1のオーディオ符号化方式の符号化ブロックの時間の長さ未満である場合に起きる可能性がある。このような場合、この方法では、第2のゲインメタデータのゲイン値を、第2のゲインメタデータのゲイン値に関連付けられる符号化ブロックに先行する符号化ブロックに関連付けられる第2のゲインメタデータのゲイン値とするように選択することができる。代替的に、この方法では、期間に先行する第1のゲインメタデータのゲイン値を第2のゲインメタデータのゲイン値として選択することができる。換言すると、トランスコーダは、更新ゲイン値が受信されるまで、オーディオ符号化方式のサンプルホールド動作を用いて現在のゲイン値を維持すればよい。
本発明の別の態様によれば、方法は、第2のオーディオ符号化方式が、第2のゲインメタデータの隣接するゲイン値を補間して第2のゲイン曲線を形成する種々の補間曲線の選択を可能にする場合のためにさらに適合されてよい。このようなオーディオ符号化方式の例が、ゲインリリースに非常に適した線形補間曲線、およびゲインアタックに非常に適した複数の急激な補間曲線の選択を可能にするHE AACである。第2のオーディオ符号化方式がこのような機能性を提供する場合、この方法では、第1のゲインメタデータの複数のゲイン値に基づいて第2のゲインメタデータの2つの隣接するゲイン値の間の適当な補間曲線を選択するステップをさらに含むことができる。
適当な補間曲線は、例えば、第1のゲインメタデータの2つの隣接するゲイン値の間の差に基づいて選択すればよい。例えば、第1のソースゲイン値が(非常に)高く且つ次のソースゲイン値が(非常に)低ければ、「アタック」に似た補間曲線を選択すればよい。一方、第1のソースゲイン値と次のソースゲイン値がどちらかというと同様であれば、「リリース」に似た補間曲線を選択すればよい。
代替的に、第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ、この第1のゲイン曲線は第1のゲインメタデータの隣接するゲイン値を補間することによって得られればよい場合、適当な補間曲線を第1のゲイン曲線の勾配に基づいて選択してよい。特に、第1のゲイン曲線の負の勾配が所定の閾値を超えていれば、ゲインアタックを検出すればよい。換言すると、第1のゲイン曲線が急峻に降下すれば、ゲインアタックを検出すればよい。一方、第1のゲイン曲線の負の勾配が所定の閾値未満であれば、ゲインリリースが検出される。第1のゲイン曲線の、検出されたゲインアタックまたはゲインリリースに基づいて、この方法では次に、第2のゲインメタデータの2つの隣接するゲイン値の間の適当な補間曲線を選択する。
すでに言及したように、第2の符号化方式は、補間曲線パターンとも呼ばれる複数の「アタック」補間曲線の選択を可能にする場合がある。これらの種々の補間曲線パターンは通例、互いに時間的に遅延させ、それによって、異なる「アタック」時刻の定義を可能にする。第2の符号化方式のこの機能性を用いるために、この方法では、第1のゲイン曲線の勾配の絶対値が最大となる位置に基づいて第2のゲインメタデータの2つの隣接するゲイン値の間の適当な補間曲線を選択すればよい。換言すると、この方法では第1のゲイン曲線の最も急峻な点を判定し、この最も急峻な点に最も近い、第2の符号化方式の補間曲線パターンを選択する。
本発明のさらなる態様によれば、第2のゲインメタデータのゲイン値の選択は、第1のゲインメタデータのゲイン値のセットだけでなく、第1のゲイン曲線全体に基づくこととしてもよい。このような場合、この方法では、期間内の第1のゲイン曲線の最小値を第2のゲインメタデータのゲイン値として選択するステップを含む。これは、第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした期間内に第1のゲインメタデータのゲイン値が1つもないときに非常に有用である場合がある。
第1のゲイン曲線の最小値の計算に対する、複雑さの低い代替例として、期間内の第1のゲイン曲線のサンプルのセットの最小値を第2のゲインメタデータの所与のゲイン値として選択することが都合よい場合がある。第1のゲイン曲線のこのセットのサンプルは、期間内にある第2のゲイン値の符号化ブロックの時刻インスタンスにおける第1のゲイン曲線のサンプルを含むものであればよい。
加えて、本発明は、ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であって、第1および第2のオーディオ符号化方式は符号化ブロックごとに異なる数のオーディオサンプルを有し、各符号化ブロックは関連ゲイン値を有することを特徴とする、方法を記載する。さらに、隣接する符号化ブロックの一連のゲイン値を補間してゲイン曲線を定義する。この方法は、第2のゲイン曲線が第1のゲイン曲線を常に下回るように、第1のゲインメタデータの複数のゲイン値に基づいて第2のゲインメタデータのゲイン値を選択するステップを含む。この条件を用いることで、クリッピングがないソースオーディオ信号が、同様にクリッピングがないターゲットオーディオ信号にトランスコードされることが保証されることができる。
さらに、本発明は、ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であって、第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い、各符号化ブロックは関連ゲイン値を有することを特徴とする、方法を記載する。加えて、第2のゲインメタデータのゲイン値に第2のゲイン曲線が関連付けられる。この方法は、第1のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、第2のゲイン曲線が第1のゲインメタデータのゲイン値以下となるように第2のゲインメタデータのゲイン値を選択するステップを含む。
本発明の別の態様によれば、第2のゲインメタデータのゲイン値の選択は、第1のゲインメタデータのゲイン値のセットだけでなく、第1のゲイン曲線全体に基づくこととしてもよい。このような場合、この方法では、第1のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、および/または第2のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、第2のゲイン曲線が第1のゲイン曲線以下となるように第2のゲインメタデータのゲイン値を選択すればよい。これは、第2のオーディオ符号化方式の符号化ブロックの時間の長さが第1のオーディオ符号化方式の符号化ブロックの時間の長さ未満であるときに特に都合よい場合がある。
符号化方式よっては、ゲイン曲線は、隣接するゲイン値および窓関数に関連付けられるセグメント群から成る。典型的には、曲線セグメントは、隣接するゲイン値の間を、符号化方式の窓関数を用いて補間することによって得られる。このような場合、特定の時刻インスタンスにおけるゲイン曲線の上述のサンプルは、ゲイン値、および窓関数のサンプルのセットによって決定すればよい。符号化方式によっては、窓関数は、曲線セグメントの全てまたはサブセットについて同一であり、それ故、ゲイン曲線はゲイン値、および窓関数のサンプルの限定されたセットによって記述することができる。これにより、ゲイン値の選択をソースゲイン曲線に基づかせる場合でも、記載されている方法を低い複雑さで実装することが可能となる。
本発明は、上述のトランスコーディング方法を実装するトランスコーディングシステムをさらに記載する。これらのトランスコーディングシステムは送信システムまたは消費者セットトップボックスの一部であってよい。トランスコーディングシステムは周囲のシステムによって提供される処理およびメモリ手段を利用してよいが、トランスコーディングシステムはCPU等の独自の処理手段、ならびにROMまたはRAM等のメモリ手段を含んでもよい。
例えば、オーディオトランスコーディングシステムの実装では、デジタルプロセッサ、およびプロセッサによる実行のための命令を記憶するメモリを含むことができる。メモリは、さらに、入ってくるメタデータおよび生成されて出て行くメタデータを送信前に記憶してよい。特に、符号化ブロックのゲイン値を処理のためにメモリ内に記憶することができる。さらに、窓関数のサンプルあるいは第1および/または第2のオーディオ符号化方式の複数の窓関数をメモリ内に記憶させることが望ましい。
オーディオトランスコーディングシステムの一例は、送信用オーディオフォーマットから消費者の家庭における再生または記録に用いられるオーディオ符号化方式へのトランスコーディング用のセットトップボックス内に実装することができる。例えば、送信用オーディオ符号化方式としてのHE AACと、再生に用いられる発行用オーディオ符号化方式としてのドルビーデジタル(プラス)との間のトランスコーディングをセットトップボックス内に提供することができる。
オーディオトランスコーディングシステムのための別の例は、制作または提供用オーディオ符号化フォーマットから送信用オーディオフォーマットへのトランスコーディング用のヘッドエンドとして実装されればよいというものである。例えば、制作用オーディオ方式としてのドルビーEと送信用オーディオ方式としてのHE AACとの間のトランスコーディングがこのようなヘッドエンドシステム内に提供することができる。
本文書において記載されている方法およびシステムは、ドルビーE、ドルビーDまたはAC−3としても知られるドルビーデジタル(プラス)、AAC(Advanced Audio Coding、高度オーディオ符号化)、ならびに/あるいはaacPlusとしても知られるHE AAC(High Efficiency AAC、高効率AAC)等の種々の第1および第2のオーディオ符号化方式に適用されてよいことに留意されたい。
さらに、本文書において記載されている方法およびシステムの特徴が、互いに組み合わせて用いることができることに留意されたい。特に、1つのトランスコーディング方向に1つの方法を用い、逆のトランスコーディング方向には別の方法を用いることが都合よい場合がある。
以下において、選択された、本発明の実施形態を、添付の図面を参照しながら記載する。
典型的なトランスコーディング連鎖を示す図である。 オーディオコーデックの構造の典型的なエンコーディングおよび復号を示す図である。 種々のオーディオコーデックのための種々の補間ゲイン曲線を示す図である。 オーディオコーデックの補間関数を示す図である。 図4aの補間関数に関連付けられる窓関数を示す図である。 非対称的な窓関数およびその関連補間関数のための例を示す図である。 一連の連結された補間されたゲイン曲線を示す図である。 第1のトランスコーディングアルゴリズムのゲイン一致特性を図解する第1の例を示す図である。 第1のトランスコーディングアルゴリズムのゲイン一致特性を図解する第2の例を示す図である。 第1のトランスコーディングアルゴリズムのゲイン一致特性を図解する第2の例を示す図である。 第1のトランスコーディングアルゴリズムを用いた、ゲインメタデータのトランスコーディングについての実験結果を示す図である。 第2のトランスコーディングアルゴリズムのゲイン一致特性を示す図である。 第2のトランスコーディングアルゴリズムのゲイン一致特性を示す図である。 第3のトランスコーディングアルゴリズムを用いた、ゲインメタデータのトランスコーディングについての実験結果を示す図である。
メタデータとは、例えば、ドルビーデジタル、ドルビーE、AAC、HE AACまたは他のオーディオコーデックにおいて、多重チャンネルオーディオビットストリームとともに伝達される「オーディオデータに関するデータ」である。それにより、放送事業者は、送信用オーディオストリームに応じてオーディオレベルを絶え間なく調節し圧縮する必要がなくなる。それはオーディオミキサにオーディオストリームの音響ダイナミクスに関する芸術上の高い自由度も提供する。過去には、多重チャンネルオーディオを扱う放送事業者は、平均レベルが他のプログラムのものを上回るかまたは下回るサウンドトラックによる問題を抱えることがしばしばあった。同様に、サラウンド音声コンテンツがテレビでステレオまたはモノラルオーディオ出力を用いて再生されるときにも課題が生じた。オーディオメタデータを用いれば、音声技術者は、種々の再生システムのためにオーディオコンテンツを種々の様式でミキシングし再生レベルを設定することを、全てポストプロダクション段階においてできるので、放送事業者は、より一貫性のあるオーディオ信号を配信し、確実に最も重要なオーディオ要素を届けることができる。
メタデータは、消費者の固有の聴取環境に配信されるプログラムの音声を変化させることを特に目的とした多数のパラメータを提供する。これらのメタデータパラメータは、ダイアログレベル(ダイアログノーマライゼーション(dialogue normalization)またはdialnormとしても知られる)、ダイナミックレンジ制御ならびにダウンミックスとして知られる。技術的には個別のメタデータパラメータではないが、消費者のデコーダ内のダウンミックスは特定のメタデータパラメータによって影響を受けるため、dialnormおよびダイナミックレンジ制御と同様に、ダウンミックス条件に影響を与えるメタデータパラメータの監視および選択においては注意が払われなければならない。制作側の音声技術者は、最適な聴取環境における最良の再現のための多重チャンネルミキシング最適化に最終的な責任を負う。しかし、最適性がより低い聴取環境に同様に応じることを確実にするためにも注意が払われなければならない。これが、製作段階の間に設計されたメタデータの質を維持するために、トランスコーディングの間にメタデータが歪みを受けないまたは限定的な歪みしか受けないようにすることが重要である理由である。
ダイアログレベルパラメータは家庭のデコーダに正規化値を提供する。この値はオーディオの音量をプリセットレベルに調節するもので、これはプログラムコンテンツからプログラムコンテンツへおよび媒体から媒体へのレベル一致に役立つ。ダイアログレベルはプログラム素材に対する何らかの圧縮または伸長をアサートするものではなく、オーディオの音量を標準レベルに下げるものである。ダイアログレベルはダイナミックレンジ制御プロファイルと連携して機能する。ダイアログレベルパラメータはプログラムの穏やかな部分と騒々しい部分との間の一種の「空白帯域」を設定する。
ダイナミックレンジ圧縮またはミッドナイトモードと呼ばれることがあるダイナミックレンジ制御(Dynamic range control、DRC)は、ダイナミックレンジを低減させてプログラムオーディオを聴く柔軟性を消費者に与えるものである。ダイナミックレンジの圧縮のおかげで、視聴者は近所に迷惑をかけずにテレビを見ることができる。ドルビーデジタルデコーダ等のほとんどのオーディオデコーダにおいて、この制御は大抵、任意のものであり、オフにすることができる。ダイナミックレンジ制御は、消費者用デコーダ上によくある「ミッドナイトモード」機能のためにも用いられる。
より低い音量においては、プログラムのより穏やかな部分(囁きおよび穏やかな話し方の会話)はより聞こえにくくなる。しかし、視聴者が音量を上げると、より騒々しい部分(爆発、画面上の言い争い、発砲等)がうるさくなりすぎて快適に聴けなくなる。あるいは、高レベルの背景雑音がある環境では、プログラムのより静かな部分は周囲雑音によってかき消されてしまうことになる。デコーダ内でダイナミックレンジプロファイルがアサートされると、デコーダはプログラムの穏やかな方の部分のレベルを上げる一方、騒々しい方の部分のレベルを下げ、これにより、ユーザは音量調節器にしょっちゅう手を伸ばす必要なく映画を楽しむことができる。
ダイナミックレンジ制御は通例、2つのパラメータすなわち「プロファイル」:RFモードおよびラインモード、から成る。これらの2つのパラメータは、ビットストリーム内のエンコードされたオーディオのコンテンツを変化させるものではないことに留意されたい。それらは、低減されたダイナミックレンジでプログラムを聴くことが望ましいかまたは必要である場合に応じるべく、聴取環境内でプログラム素材の極値を調節するために用いられる。
RFモードとは、セットトップボックスのアンテナ出力を経由するなど、復号されたプログラムがテレビのRF入力経由の配信用のものとされる、ピーク制限を行う状況のために設計されるものである。それは典型的には±48.16dBのレンジ内のダイナミックレンジ圧縮を可能とし、低レートDRCとも呼ばれる。
ラインモードとは、より簡易な形式の圧縮を提供するもので、家庭のデコーダにおける低レベルブーストおよび高レベルカットパラメータのユーザ調節を可能にするものでもある。それは典型的には±24.08dBのレンジ内のダイナミックレンジ圧縮を可能とし、高レートDRCとも呼ばれる。ブーストおよびカット領域の調節または「スケーリング」により、消費者はオーディオ再現を自分たちの特定の聴取環境のためにカスタマイズすることができる。
ダウンミックスとは、ドルビーデジタル等のオーディオエンコーダ内の、多重チャンネルプログラムをより少ないスピーカチャンネルによって再現させることを可能とする機能である。簡単に言えば、ダウンミックスは、完全な5.1チャンネルホームシアター装置を必要とせずとも消費者がデジタルテレビ放送を楽しむことを可能とする。互換性を維持するためにミックスがモノラルで時々監視されるステレオミキシングと同様に、多重チャンネルオーディオミキシングは、技術者に、より少ないスピーカチャンネルを用いるミックスを参照してダウンミックス状況のための互換性を保証することを求める。
或るメタデータパラメータ群は適当なダウンミックスを達成するのに役立ち、音声技術者/コンテンツ制作者の意図がこれらの環境の間で伝わることになることを確実にするための助けとなる。具体的には、メタデータは、或るスピーカチャンネル群を、生じるダウンミックスにどのように「折り込ませるか」ということの制御を提供する。音声技術者は普通、理想的な聴取環境における再現のために多重チャンネルミックスを最適化するが、ダウンミックスメタデータパラメータを選択する際は、異なる再生システムとの互換性を確実にするために、ダウンミックス条件においてミックスを試聴することも重要である。
先に概説したように、メタデータは、とりわけ、デコーダ内で時間変化ゲイン要素を制御するために用いられ、これをオーディオ信号のダイナミックレンジ制御および/または限定手段として用いてクリッピングを防ぐ。エンコーダ側での圧縮と対照的に、デコーダ側で圧縮を適用するポイントは、こうすることで、エンドユーザはダイナミックレンジ圧縮の量の制御を保持するということである。深夜の視聴のために、エンドユーザは最大の圧縮を用いたいと思う場合がある一方、自分専用のホームシアターを持っている「オーディオ愛好家」は元の劇場用ミックスの完全なダイナミックレンジを楽しむことを好む場合がある。
現代のデジタル放送の連鎖では、制作、提供および送信段階においていくつかのオーディオフォーマットが用いられる。元のオーディオミックスは今もなお非圧縮リニアPCMフォーマットストリームである場合があるのに対して、制作の仕上がりはドルビーEフォーマットストリームであることが多い。ドルビーEをコンテンツ制作プロセスにおけるオーディオコーデックとして用いると、なかんずく、全体的なプログラムラウドネス(DialNorm)、DRC係数の生成に用いられるコンプレッサプロファイル、およびダウンミックスを記述するメタデータパラメータを制作者が埋め込む可能性がある。
図1は制作センターから消費者の家庭までのオーディオトランスコーディングの例示的な連鎖100を示す。制作センター101では、オーディオストリームは通常、ドルビーE等の、制作および後処理の目的に最も適したオーディオフォーマットとされる。この制作用オーディオストリームは次に、ドルビーDまたはAC−3とも呼ばれるドルビーデジタル等の、発行の目的に最も適したフォーマット102にトランスコードされる。オーディオストリームの送信または放送が必要であれば、この発行用オーディオストリームは、HE−AAC等の好適な送信または放送用フォーマット103へのトランスコーディングを必要とする場合がある。この送信用オーディオストリームは次に、消費者の家庭にある複数のセットトップボックス105にネットワーク104を通じて送信されればよい。ほとんどの消費者の設備106はオーディオストリームを正しくレンダリングするためにドルビーデジタル等の特定の消費者用オーディオフォーマットを必要とするという事実のために、送信用オーディオストリームから消費者用オーディオストリームへのさらなるトランスコーディングがセットトップボックス105内で必要とされる。制作、発行、送信および消費者用オーディオストリームフォーマットの一部は同一とすることができることに留意されたい。特に、発行および消費者用オーディオストリームフォーマットはどちらもドルビーデジタルとすることができる。
換言すると、ドルビーEフォーマットストリームは、映画館、ホームシアターまたは伝統的なホームステレオにおけるコンテンツのレンダリングに適したオーディオデータストリームにトランスコードすることができる。このような発行用オーディオデータストリームのための例がドルビーデジタルストリームである。オーディオデータストリームフォーマットの間のこのトランスコーディング、すなわち制作用オーディオストリームと発行用オーディオストリームとの間のトランスコーディング、もメタデータトランスコーディングの必要性を生む。
オーディオストリームの送信または放送が必要であれば、発行用オーディオストリーム、例えばドルビーデジタルストリーム、は、低ビットレートのリンクを通じたオーディオ送信のために最適化されたMPEG HE−AACオーディオストリーム等の送信用オーディオストリームへのトランスコーディングを必要とする場合がある。同様に、発行用オーディオストリームと送信用オーディオストリームとの間のこのようなトランスコーディングのために、関連メタデータがトランスコードされる必要がある。
送信後、オーディオデータストリームは大抵、消費者の自宅にあるセットトップボックス(set top box、STB)かもしれないような受信器で復号される。特に、オーディオデータストリームがサラウンド音声オーディオストリーム等の多重チャンネルオーディオストリームであれば、送信用オーディオストリームをドルビーデジタル等の消費者用オーディオストリームにトランスコードするのが都合よい場合がある。これによって、多重チャンネル信号は光学的または同軸S/P DIFリンクを介して消費者のホームシアターまたはテレビセット内の多重チャンネル受信器に送ることができる。同様に、送信用オーディオストリームと消費者用オーディオストリームとの間のこのトランスコーディングは関連メタデータの間のトランスコーディングを必要とする。
1つのフォーマットのオーディオデータストリームが別のフォーマットのオーディオデータストリームにトランスコードされる際、それと一緒にメタデータも伝達する必要がある。DialNormメタデータのトランスコーディングは大抵、プログラムの境界でしか著しく変化することはなく、その他の場合はほぼ一定であるので、通常、大きな問題を呈することはない。しかし、DRC制御信号は異なるオーディオフォーマットの異なるフレーミングを有するので、DRCメタデータのトランスコーディングは簡単ではない。表1は例示的なオーディオフォーマットおよびコーデックの、種々のフレーム長を列挙している。
Figure 0005129888
AACベースのフォーマット群について、「フレーム長」の列内の左の数は短いブロック/フレームの長さを示し、右の数は長いブロック/フレーム分解能を示す。ドルビーデジタル/AC−3フォーマットについて、「フレーム長」の列内の左の数は高レートDRCワードの分解能、すなわちラインモードのためのフレームサイズを示し、右の数は低レートDRCワードの分解能、すなわちRFモードのためのフレームサイズ、を示す。
表より分かるように、構成に応じて、DRCメタデータのトランスコーディングは、より高いレートにおけるメタデータからより低いレートへ向かうかまたはその逆のいずれかとなる場合がある。さらに複雑なことに、AACベースのフォーマットは時間分解能、すなわちフレーム長、をオンザフライで変化させることができるため、両方の状況、すなわちより高いレートからより低いレートへのトランスコーディングおよびより低いレートからより高いレートへのトランスコーディング、が同じストリーム内で且つ同じトランスコーディング操作中に起きうる。さらに、AACベースのフォーマットはメタデータの有無をフレームごとに信号で知らせることができる。通例、復号セマンティクスはサンプルホールド動作を定義する。すなわち、デコーダは、新しいデータが届くまでは最新の受信ゲイン制御信号を常に用いるように命令される。その結果、AACフレーム内にメタデータがなければ、デコーダには、さらなる通知までは最新のゲイン制御信号を印加するよう指示がなされる。
コンプレッサによって適用されるゲインは、長い準定常部分と、それが鋭い「アタック」によって中断され、ゲインを急速に低下させることによって特徴付けることができる。これらの「アタック」は通例、映画における爆発等の、音響強度の突然の増大を緩和するために適用される。これらの一時的な低下からコンプレッサゲインは、「リリース」と呼ばれる長い時間定数をもって回復する。換言すると、音響強度の突然の増大は、ゲイン値を非常に短い期間で強く減少させる鋭いゲイン「アタック」によって相殺され、ゲインの増大は通例、ゲイン「リリース」期の間になだらかに遂行される。
DRCゲインを適用する際、アタック時のオーディオ信号の若干の変調歪みは避けられないものの、このようなアタックの減衰時間定数は、変調歪みが聞き取れないように選ばれる。適当なDRCメタデータを設計する際、ゲインアタックのための適当な減衰時間の選択は音声技術者の重要な課題であり、DRCメタデータを制作用オーディオフォーマットから発行用オーディオフォーマットにトランスコードし、さらにAAC等の送信用オーディオフォーマットにトランスコードする際にこうした特性を損なわないようにするため、メタデータトランスコーディングの間は注意が払われなければならない。
さらに、コンプレッサは、0dBFSを超える信号を生成しないように最大コンプレッサゲインを常時制限するリミッタに結合してもよい。このようなリミッタは通例、クリッピングを防ぐために用いられる。同様に、このようなリミッタの機能性も、メタデータをトランスコードする際に考慮する必要がある。
AAC、HE AACおよびドルビーデジタル/AC−3等のオーディオコーデックは通例、MDCT、すなわち変形離散コサイン変換(modified discrete cosine transform)、等のプリンセン−ブラッドリー(Princen−Bradley)時間領域エイリアスキャンセレーション(time domain alias cancellation、TDAC)技法に基づく、周波数が線形のクリティカルサンプリングされるフィルタバンクを用いる、適応性のある変換ベースのコーデックである。フィルタ境界点においてMDCTおよび逆MDCT関数が滑らかにゼロに向かうようにすることによって変換境界における不連続性を避けるために、MDCT変換は追加の窓関数としばしば結合される。
このことは、オーディオエンコーダ200およびオーディオデコーダ210が図示される図2に概略的に示される。図2は、変換ベースのエンコーダ201および変換ベースのデコーダ211を、AACおよびドルビーデジタル/AC−3等のオーディオ符号化方式で用いられる状況で示す。先に概説したように、このような符号化方式は、エンコーディング側にTDAC変換フィルタバンク204、および復号側に逆TDAC変換フィルタバンク214を含む。さらに、窓関数203および213が、それぞれエンコーディングおよび復号側において、フィルタ境界におけるTDAC変換204、214の不連続性を取り除く。加えて、変換ベースのエンコーダ201およびデコーダ211は、ドット205および215でそれぞれ表される、過渡状態検出器、量子化手段、ビット配分手段等などの追加のコンポーネント群を含む。
送信データ転送速度をさらに低下させるために、HE−AAC等の或るオーディオコーデックは、スペクトル帯域複製(spectral band replication、SBR)と呼ばれる技法を用いる。SBRの基本原理は、オーディオ信号の高い方の周波数部分の音響心理学的な重要性は相対的に低いという事実である。従って、SBRを用いるオーディオコーデックは、上述されたような変換ベースの符号化器を用いて信号スペクトルの下半分だけをエンコードする。信号スペクトルの上半分は、主として従来の変換ベースのデコーダに続くポストプロセスであるSBRデコーダまたは合成によって生成される。高周波スペクトルを送信する代わりに、SBRは、基底の符号化器内で送信された低い方の周波数の分析に基づいてデコーダ内の高い方の周波数を再構築する。正確な再構築を確実にするために、何らかの誘導情報が、エンコードされたビットストリーム内において、非常に低いデータ転送速度で送信される。エンコーディング側においてQMF(Quadrature Mirror Filter、直交ミラーフィルタ)分析を用いるこのようなSBR分析が図2にボックス202として示されている。典型的には、このようなQMF分析は、例えば64個の信号サブバンドを分析することによって、必須のスペクトル信号情報を求める。復号側では、64個のサブバンドを含むQMF合成フィルタバンクを用いたSBR合成212内で信号情報が用いられる。
先に概説された変換ベースの符号化方式の第一の利点は、信号成分と、対応する量子化雑音成分(マスキングされるよう意図される)とを臨界帯域幅の範囲内に保持し、人間の耳のマスキング特性の恩恵を最大限利用して、その結果、知覚的には雑音のない符号化に必要なデータ転送速度を最小限に抑えることである。
DRCメタデータのトランスコーディングに進む前に、オーディオデコーダにおけるこのようなDRCメタデータの利用について手短に概観する。フレームまたはブロックごとに、オーディオデコーダは特定のフレームのために新しいゲイン値が送信されているかどうかを示す受信ビットストリームを解析することになる。新しいゲイン値が提供されない場合、デコーダは最後に送信されたゲイン値を用いることになる。一方、新しいゲイン値が受信されていれば、この新しいゲイン値が読み込まれて適用されることになる。
AACおよびAC−3等の或るグループのオーディオコーデックの場合、フレームから復号されたスペクトルオーディオデータを増幅するまたは減衰させるために、新しく受信されたゲイン値が用いられることになる。換言すると、ゲインは逆TDAC変換の適用前にスペクトルオーディオサブバンドに適用される。この変換の適用、および変換との関係で通例、適用されるサンプルの重複のおかげで、さらに、関連する窓掛けのおかげで、ゲイン値は、連続するフレームの間で効果的に補間されることになる。この状況において、補間関数は重み関数と見なすことができる。図3に、このような補間されたゲイン曲線が図示され、そこにはAACコーデックのS字状の補間関数301が示される。図4aに、典型的な補間関数がグラフ401として示される。図4bに、対応する窓関数402が示される。加えて、非対称的な窓関数および関連補間関数が同様に用いられてもよいことに留意されたい。このような非対称的な窓関数は、例えば、1つの信号ブロックから次のブロックへ窓関数が変更されるときに生じる場合がある。図4cに、このような非対称的な窓関数411および412ならびにそれらの関連補間関数421および422が示される。
さらに、図5は、3つの連続ブロックまたはフレームのための補間されたゲイン曲線を示す。図より分かるように、ゼロブロックから第1のブロックまでの、6dBから0dBへのゲイン遷移がAAC窓関数によって補間されて典型的なS字状の補間曲線501をもたらしている。第1のブロックから第2のブロックまでは、ゲイン値は0dBで不変のままであるため、ゲイン曲線502は平坦な状態が継続する。次に、第3のブロックにおいて−3.5dBまでさらなるゲイン遷移が起き、典型的なS字状の補間曲線50を再び生じさせる。
HE AACコーデック等の別のグループのオーディオコーデックの場合は、MDCTスペクトルにゲインが適用されることはない。その代わり、ゲインは、逆MDCT変換の後に通例続くQMF(Quadrature Mirror Filter、直交ミラーフィルタ)合成の前に適用されることになる。デフォルトでは、ゲイン値は、図3において補間曲線302として示される通り、隣接するフレームまたはスロットの間で線形補間される。加えて、HE AACビットストリーム構文は、8つの別々の補間曲線303のうちの1つを選ぶための3つのさらなるビットを確保する。これらの方式は本質的に補間を行うものではなく、古いゲイン値を異なる期間、保持した後、所定の遷移曲線に従って新しいゲインに「急激に」跳ぶというものである。図3は、フレーム幅にわたって配された遷移曲線303のセットを示す。このような急激なゲイン遷移曲線の方が、ゲインアタック等の、突然のゲイン変更が要求される状況によく合う。HE AAC符号化方式についても同様に、一連のゲイン値は効果的に補間され、図3に示される通りのゲイン曲線302および303を形成する。この補間はQMF合成のインパルス応答に関連する。
ゲイン値は現実には離散的な格子上でしかサンプリングされないが、解説を容易にするために、ゲイン曲線とも呼ばれるゲイン制御信号は、無限に高い分解能を有すると仮定されることができる。一方の表現からもう一方へ行くために、サンプリングされたゲイン値を時間的に連続なものに補間する補間段階が仮定されればよい。この段階は通例、先に説明された、デコーダのサンプルホールドセマンティクスに従う。フレームごとにゲイン制御係数を搬送する代わりに、ドルビーE等の一部のオーディオデータフォーマットは、選択されたメタデータプロファイルおよび特にコンプレッサプロファイルの信号伝達を可能にする。トランスコーディングの目的のために、このようなコンプレッサプロファイルはゲイン制御信号と見なされることができる。実際、コンプレッサプロファイルは一つ一つのオーディオ信号サンプルに特定のゲイン値を暗黙的に割り当てる。それ故、コンプレッサプロファイルはゲイン制御信号を実質的に定義する。補間段階を用いると、これらのゲイン制御信号も同様に時間的に連続した信号表現を有するものとなる。
以下において、メタデータのトランスコーディングの問題がさらに分析される。これに関連して、W.シルトバッハ(W.Schildbach)他、「ダイナミックレンジ制御係数および他のメタデータの、MPEG−4 HE AACへのトランスコーディング(Transcoding of dynamic range control coefficients and other Metadata into MPEG−4 HE AAC)」、オーディオ技術者協会(Audio Engineering Society)、第123回大会、2007年10月5〜8日、ニューヨーク、ニューヨーク州、が参照され、参照により援用されている。
すでに述べられたように、トランスコーディングの目標は、トランスコードされたメタデータ、および特にトランスコードされたゲイン値に従うオーディオ信号が、元のゲインが適用されたオーディオ信号と同じかまたはできる限り同様に聞こえるものとなることである。この規定目標から、トランスコーディングアルゴリズムに対するいくつかの制約が導き出されることができる:
・元のゲイン値の処理を受けた信号がクリッピングしなかったところでは、トランスコードされたゲイン値の処理を受けた信号も同様にクリッピングしてはならない。すなわち、信号はクリッピングからの保護を維持しなければならない。これは、トランスコードされた信号に適用されるゲインが、受信したゲインを決して超えないようにゲインサンプルを選定することによって達成されることができる。
・静的なゲイン曲線については、トランスコードされたゲイン曲線は同じものにならなければならない。すなわち、準静的な信号については元のゲイン曲線とトランスコードされたゲイン曲線との間に不一致があってはならない。
・動的なゲイン変更が起きたときは、トランスコードされた信号に適用されるゲインは、受信したゲインをできるだけよく模倣するものとならなければならない。すなわち、リリースおよびアタック時刻がよく似たものとならなければならない。
これらの制約を考慮すると、いくつかのトランスコーディングアルゴリズムを定式化することができる。これらのトランスコーディングアルゴリズムを以下に概説する。最初のオーディオ符号化フォーマットのゲイン値をソースゲイン値と呼ぶこととし、対応するオーディオ符号化フォーマットをソース符号化方式のソースフォーマットと呼ぶこととする。トランスコードされたゲイン値をターゲットゲイン値と呼び、関連するオーディオ符号化フォーマットをターゲット符号化方式のターゲットフォーマットと呼ぶこととする。
特定のトランスコーディング状況に応じて、制約の異なるセットまたはサブセットは、置かれる重点が異なる場合があることに留意されたい。或る状況では、ターゲットゲイン曲線が常にソースゲイン曲線以下となっていることを確実にすることが有益である場合がある。ターゲット側でのオーディオ信号のクリッピングを避けようとするならば、これが好ましい選択肢となる場合がある。一方、サンプル点の或るセットにおいてのみターゲットゲイン曲線がソースゲイン曲線以下となっていることを確実にすれば十分である場合もある。例えば、ターゲットゲイン値のみがソースゲイン値以下となっていることを規定すれば十分である場合がある。そのような場合、ソース側および/またはターゲット側における補間のせいで、或る点でターゲットゲイン曲線がソースゲイン曲線を超えてしまうということが起きる可能性がある。しかし、これにより、許容範囲内で過変調の影響を受けることになるが、全体としてはソースゲイン曲線およびターゲットゲイン曲線のよりよい一致が得られる場合がある。さらに、トランスコーディング状況によっては、ターゲットゲイン曲線またはターゲットゲイン値をソースゲイン曲線またはソースゲイン値以下とすることに関する制約をさらに弱めることが適当である場合がある。このような場合は、ゲイン曲線同士の全体的な一致に重点を置けばよい。
以下のアルゴリズムは、ゲインメタデータをソース符号化方式からターゲット符号化方式に漸進的にトランスコードするために用いられることができるということにも留意されたい。このことは、エンコードされたオーディオ信号のリアルタイム性の故に重要である。従って、典型的なトランスコーディングシナリオでは、任意の数のソース符号化ブロックをバッファし、これらのバッファされたソース符号化ブロックに対して全体的なトランスコーディング操作を遂行するということは不可能である。それ故、適当なトランスコーディングアルゴリズムが、漸進的なトランスコーディングをブロックごとに遂行する必要がある。このような漸進的なブロック単位のトランスコーディングは以下のトランスコーディングアルゴリズムを用いて達成すればよい。
さらに、以下のアルゴリズムは、整合していないフレーミングに適用可能であることに留意されたい。これは、ソース符号化方式のフレーミングおよびターゲット符号化方式のフレーミングは、フレームサイズ、すなわちフレーム毎のサンプル数またはフレーム毎に包含されるオーディオ信号の長さ、に関しても、フレーム同士の同期、すなわちそれらのそれぞれの開始および終了時刻、に関しても、任意に異なる場合があることを意味する。実際、ソース符号化方式およびターゲット符号化方式のサンプリングレートまでも異なる場合がある。
さらに、以下のアルゴリズムはオーディオゲインデータのトランスコーディングにのみ限定されるものではなく、信号を1つの圧縮ビットストリームフォーマットから、フォーマットのフレーミングに互換性がない別のフォーマットにトランスコードする任意のデバイスに適用できる。オーディオ符号化に関するいくつかの例が、ドルビーEからHE−AACへ/HE−AACからドルビーEへのトランスコーダ類、またはドルビーデジタルからHE−AACへ/HE−AACからドルビーデジタルへのトランスコーダ類である。例えば、たとえドルビーデジタルビットストリームがメタデータ用のスペースを配分しても、AAC/HE−AACおよびドルビーデジタルビットストリームは異なるフレーミングを有するという事実のせいで、メタデータをAAC/HE−AACビットストリームからドルビーデジタルビットストリームに直接マップすることは不可能である。従って、AAC/HE−AACビットストリーム内で搬送されるメタデータを維持するためには、メタデータ変換の遂行に、以下に記載されるもののような方法およびアルゴリズムが必要とされる。
アルゴリズム1:順位フィルタ
上述の制約を満たすまたはそれに近づける1つの可能性は、ソースゲイン値に順位フィルタを適用することである。g’,i=0,...,N−1、をターゲットフォーマットのN個のフレームためのターゲットゲイン値とし、g,j=1,...,M−1、をソースフォーマットのM個のフレームためのソースゲイン値とする。さらに、t’を関連ターゲットゲイン値g’が適用される時刻とし、tをソースゲイン値gが適用される時刻とする。
ソースフォーマットのデコーダ内で用いられる、フィルタバンクの補間関数、および/または窓関数によって、ソースゲイン値群gは、G(t)と呼ばれる、2つの隣接するソースゲイン値gおよびgj+1の間の曲線セグメント群G(t)の連結から成る連続的なソースゲイン曲線を定義する。W(t)が2つのソースゲイン値の間の補間または重み関数であれば、曲線セグメントG(t)は次式のように書ける:
Figure 0005129888
図6は、j=0,...,7とする曲線セグメント群G(t)の連結から成る、このような補間されたソースゲイン曲線G(t)、601を示す。換言すると、ソースゲイン曲線G(t)、601は時刻t,j=0,...,8、における9つのソースゲイン値g,j=0,...,8に基づく。図示の例において、基底をなすソース符号化方式は、線形補間方法を選択したHE AACとなっている。この線形補間方法が、隣接するソースゲイン値gの間の線形的な遷移を明らかにしている。他の符号化方式が、同様の補間されたソースゲイン曲線を与えることに留意されたい。
Figure 0005129888
上式を用いて時刻t’におけるターゲットゲイン値g’を選択すると、或る補助的な条件の下で上述のトランスコーディング制約が満たすことができることを実証できる。一般的に、βが
Figure 0005129888
となるように選択されれば、補間されたターゲットゲイン曲線は、補間されたソースゲイン曲線を常に下回ることになると言える。特に、これは、基底をなす符号化方式が線形補間方式を用いる場合に当てはまる。
図7aおよび図7bにこのことが概略的に示されている。図7aは、(t’i+1−t’)≦(tj+1−t)、すなわちターゲットの符号化フォーマットのフレームサイズがソースの符号化フォーマットのフレームサイズ以下である場合を示す。例えば、このような状況は、メタデータをHE AACの長いフレーム分解能からドルビーデジタルにトランスコードするときに生じる場合がある。ソースゲイン曲線701は、丸印によって表される、時刻インスタンスt、t、tおよびtにおけるソースゲイン値gによって定義される。わかりやすくするために、HE AACから知られる通りの線形補間が適用されている。図7aから分かるように、βが(tj+1−t)以上となるように選ばれれば、時刻インスタンスt’ないしt’18における一連のターゲットゲイン値g’は式(2)を用いて決定されることができる。これらのターゲットゲイン値g’は図7a内の×印として表されており、ソースゲイン曲線701を常に下回るターゲットゲイン曲線702を生じさせる。(tj+1−t)時刻インスタンス後方および前方に及ぶ、時刻インスタンスt’を中心とした期間を示す両矢印703により、g’についての式の操作の様式を見ることができる。換言すると、βは(tj+1−t)に等しい。この期間内において、
Figure 0005129888
として、最小ソースゲイン値gがターゲットゲイン値g’として選ばれる。時刻インスタンスt’においては、ターゲットゲイン値g’は時刻インスタンスtにおけるソースゲイン値gと決定される。
図7bは、(t’i+1−t’)≧(tj+1−t)、すなわちターゲットの符号化フォーマットのフレームサイズがソースの符号化フォーマットのフレームサイズ以上である場合を示す。例えば、この状況は、ドルビーデジタルをHE AACの長いフレーム分解能にトランスコードするときに生じる場合がある。時刻インスタンスtないしt18におけるソースゲイン値gは丸印によって表され、ソースゲイン曲線G(t)、711を生じさせている。βを(t’i+1−t’)以上となるように選択すると、時刻インスタンスt’ないしt’における一連のターゲットゲイン値g’は式(2)を用いて決定されることができる。これらのターゲットゲイン値は図7b内の×印として表されている。図より分かるように、これらのターゲットゲイン値g’は、ソースゲイン曲線G(t)、711を常に下回るターゲットゲイン曲線712を生じさせる。図7aと同様に、両矢印713は、β=(t’i+1−t’)の場合の、時刻インスタンスt’を中心とした期間を示す。
ここで、(t’i+1−t’)=(tj+1−t)の場合についてのトランスコーディングの例が示される図6に注目する。β=(t’i+1−t’)の場合は、点線のターゲットゲイン曲線602が得られることが分かる。さらに、時刻インスタンスt’=4を中心とした関連期間が両矢印604によって示されている。ターゲットゲイン曲線のコンプレッサリリースはソースゲイン曲線601のコンプレッサリリースに比べて遅れていることに留意されたい。厳密に言うと、ソースゲイン曲線のコンプレッサリリースは時刻インスタンスt=3から開始するのに対して、ターゲットゲイン曲線のコンプレッサリリースは時刻インスタンスt’=4になってようやく開始する。一方、ターゲットゲイン曲線のアタックはソースゲイン曲線のアタックに比べて進んでいることも分かる。厳密に言うと、ソースゲイン曲線のコンプレッサアタックは時刻インスタンスt=2から開始するのに対して、ターゲットゲイン曲線のコンプレッサアタックは時刻インスタンスt’=1からすでに開始している。
図6は、パラメータβ=0.5×(t’i+1−t’)、すなわち式(3)において規定される限界を下回るパラメータ値、を選択することによって得られた第2のターゲットゲイン曲線603も示している。パラメータβを、
Figure 0005129888
であるように選ぶと、ターゲットゲイン曲線がソースゲイン曲線を常に下回ることを保証することはもはやできなくなる。しかし、パラメータβの変化は、コンプレッサリリースの遅れの量および/またはコンプレッサアタックの進みの量の制御を与える。図6におけるターゲットゲイン曲線603は、β=0.5×(t’i+1−t’)を選択すると、コンプレッサアタックおよびリリース曲線をターゲットゲイン曲線602よりもソースゲイン曲線601に近づけられることができることを示している。ターゲットゲイン値を決定するために妥当な期間のサイズが時刻インスタンスt’=4における両矢印605として示されている。しかし、βの値が低すぎるとソースゲイン曲線を大幅に超えるターゲットゲインをもたらしうるため、β<max{(t’i+1−t’),(tj+1−t)}であるパラメータβは注意深く選定されなければならないことに留意されたい。このような過度のゲインオーバーシュートは、クリッピング等の可聴のオーディオ不良をもたらす場合がある。従って、適当なパラメータβの選択は、複数の種々の側面の考慮の下で作られるメタデータトランスコーダの設計者によってなされる妥協の結果となる。例えば、このような側面として、適用されるオーディオ符号化フォーマット、エンコードされるコンテンツ、ソース符号化方式からターゲット符号化方式へのトランスコーディングの方向、およびその他が挙げられる。
このアルゴリズムは、特に、異なる時刻インスタンスtに関連付けられるメタデータが、予め順序付けられた様式で入ってくる場合、計算の複雑さを低くして実装することができることに留意されたい。これは、ターゲットゲイン値g’の計算のために用いられるソースゲイン値gの数が少ないという事実のおかげである。通例、最小値を判定するにはごくわずかの比較演算しか必要とされない。さらに、提案されている順位フィルタアルゴリズムは、ターゲットゲイン値g’を決定するために複数のソースゲイン値gおよびそれらの関連時刻インスタンスtを利用するのみであることに留意されたい。このデータはトランスコーディングユニットにおいてメタデータビットストリームから直接、容易に入手することができ、いかなる追加の処理も要しない。この特性のおかげで、提案されている順位フィルタアルゴリズムの計算の複雑さがさらに低くなる。
図8は、上述の順位フィルタアルゴリズムを用いた、ソースゲイン曲線801のトランスコーディングのさらなる例を示す。図示の例では、ソースの符号化フォーマットのフレームサイズは256個のサンプルであるのに対して、ターゲットの符号化フォーマットのフレームサイズは2048個のサンプルである。パラメータβは、β=max{(t’i+1−t’),(tj+1−t)}とするように選択されている。このようなトランスコーディング状況は、より低い帯域幅の送信を提供するために、ドルビーデジタル等の符号化方式が、相対的に長いフレームサイズを定義する可能性があるHE AACにトランスコードされるときに生じる場合がある。図8はトランスコードされたターゲットゲイン曲線802も示しており、パラメータβに関する規定条件に沿って、トランスコードされたゲイン曲線802はソースゲイン曲線801を下回っていることが分かる。さらに、アタックが早められ、一方、コンプレッサリリースは遅れていることが観察できる。β<max{(t’i+1−t’),(tj+1−t)}であるパラメータβを選択することによって、この影響が低減される場合がある。ただし、これは、ソースゲイン曲線と比較して、ターゲットゲイン曲線のオーバーシュートが起こる可能性を生じさせる。
さらに、β<max{(t’i+1−t’),(tj+1−t)}を選択するときは、特に、(t’i+1−t’)≦(tj+1−t)、すなわちターゲットの符号化フォーマットのフレームサイズがソースの符号化フォーマットのフレームサイズ以下である場合、時刻インスタンスt’を中心とした期間[t’−β,t’+β]内にソースゲイン値gが1つも特定されることができないということが起きる可能性があることに留意されたい。このような場合、次式:
Figure 0005129888
はターゲットゲイン値g’のための値を与えることができなくなるであろう。それ故、上述の式(2)を用いて新しい値のターゲットゲイン値が特定されるまでは、デコーダのサンプルホールド動作を利用し、ターゲットゲイン値g’は不変のままであると仮定することが都合よい場合がある。換言すると、ターゲットゲイン値の式は次のように書くことができる:
Figure 0005129888
代替的に、ソース符号化方式上でデコーダのサンプルホールド動作を利用してもよい。これは、時刻インスタンスt’を中心とした期間[t’−β,t’+β]内に、更新されたソースゲイン値gが1つも特定されることができなければ、最後に検出されたソースゲイン値を現在のソースゲイン値gと仮定することを意味する。このとき、ターゲットゲイン値g’を決定するための式は次のように書き直すことができる:
Figure 0005129888
両「サンプルホールド」アプローチの利点は、ターゲットゲイン値g’が、ソースゲイン値gのみに基づいて決定されることである。先に概説したように、順位フィルタアルゴリズムのこの特性はその計算の複雑さを低くする。
代替的に、ソースゲイン曲線G(t)の正確な推移をさらに考慮し、次の変更された式を用いてターゲットゲイン値g’を決定することが都合よい場合がある:
Figure 0005129888
これは、(t’i+1−t’)≦(tj+1−t)、すなわちターゲットの符号化フォーマットのフレームサイズがソースの符号化フォーマットのフレームサイズ以下である場合、非常に都合がよい可能性がある。ターゲットゲイン値g’を選択するための適当なソースゲイン値のセットが空になることは決してなかろうからである。関連アルゴリズムを一般化順位フィルタアルゴリズムと呼ぶこととする。
一方、この変更選択式はメタデータトランスコーダにおいてソースゲイン曲線の知識を必要とすることに留意されたい。特に、メタデータトランスコーダは、補間関数W(t)の知識、または場合によっては、ソース符号化方式によって用いられる補間関数のセットの知識までも有する必要がある。これらの補間関数W(t)およびソースゲイン値gに基づき、ソースゲイン曲線セグメントG(t)を決定し、これによりソースゲイン曲線G(t)を決定することができる。全体としては、変更された選択式を用いることによって、ソースゲイン値gのみを用いる形式の順位フィルタアルゴリズムに比べてトランスコーディングアルゴリズムの計算の複雑さは増大することになろうということが予想される。
上述の式(8)は、ソースゲイン曲線G(t)のサンプルのセットを考慮するだけで変更されることができるということにも留意されたい。例えば、ターゲットゲイン値の時刻インスタンスt’および/またはソースゲイン値の時刻インスタンスtにおけるソースゲイン曲線の値のみを考慮することが都合よい場合がある。このとき、式は次のように書き直すことができよう:
Figure 0005129888
ソースゲイン曲線G(t)をサンプル値のセットに限定することで一般化順位フィルタアルゴリズムの計算の複雑さを低減できよう。さらに、ソースゲイン曲線G(t)のセグメントは2つの隣接するソースゲイン値g、gj+1および補間用重み関数W(t)によって記述されることができることに留意されたい。それ故、ソースゲイン曲線G(t)のサンプルのセットのみが要求される場合は、サンプルのこの完全なセットはソースゲイン値g、および補間関数W(t)のサンプルの限定セットから決定されればよい。補間関数W(t)のサンプルのこの限定セットは、例えばメタデータトランスコーダのメモリ内に記憶することができる。
両方の選択式の組み合わせ、すなわち順位フィルタアルゴリズムおよび一般化順位フィルタアルゴリズムの組み合わせ、を用いることを考えることもできよう。例えば、ターゲットのブロックサイズがソースのブロックサイズ以上である状況では、ソースゲイン値gのみを用いる複雑さの低い順位フィルタアルゴリズムを用いることが都合よい場合があり、一方、ターゲットのブロックサイズがソースのブロックサイズ以下である状況では、ソースゲイン曲線G(t)、またはサンプルのセットを用いる複雑さがより高い一般化順位フィルタアルゴリズムが用いられる。
アルゴリズム2:「最良一致」ゲイン
トランスコーディングについての上述の制約を満たすまたは少なくともそれに近づける第2のアルゴリズムを決定するために、ソースゲイン曲線G(t)とターゲットゲイン曲線G’(t)を比較することになる。W’(t)をターゲットの復号方式の補間関数とする。例えば、AACコーデックのための補間関数は、窓サイズの半分を単位として、W’(t)=(sin(tπ/2))と書くことができる。この補間または重み関数は典型的には窓関数の自乗である。コーデックによっては窓の切り替えの可能性も見越すため、補間関数W’(t)は1つの符号化ブロックから別のブロックへ変化する場合があることに留意されたい。さらに、コーデックのブロックサイズが変化する場合があり、これも窓関数の変化を生じさせる。これらの影響および事情は、ゲイン曲線セグメントごとに適当な補間関数W’(t)を選択することによって配慮することができる。
ターゲットの復号方式の補間関数W’(t)を用いると、2つのターゲットゲイン値g’とg’i+1との間の補間されたターゲットゲイン曲線G’(t)は次のように書くことができる:
Figure 0005129888
全体的なターゲットゲイン曲線G’(t)は、隣接するターゲットゲイン曲線セグメント群G’(t)を連結するによって得ることができる。
j,iは、t’<tj,i≦t’i+1である時刻tj,iにおける全てのソースゲイン、すなわち2つの連続するターゲットゲイン値g’およびg’i+1の間の期間内のソースゲイン値のグループ、を表すものとする。ソース符号化方式およびターゲット符号化方式の両方の上におけるフレームサイズの「オンザフライの」変化の故に、期間内のソースゲイン値のグループ、および同様に期間の長さそのものがその場その場で変化する場合があることに留意されたい。それ故、tj,iにおけるiおよびjの可能な組み合わせも同様にブロックごとに変わる場合がある。
ターゲットゲイン値g’、およびより厳密には、期間[t’,t’i+1]内で一連のソースゲイン値gj,i以下となるターゲットゲイン曲線セグメントG’(t)を選択する条件は次のように書ける:
Figure 0005129888
換言すると、時刻インスタンスtj,iにおけるターゲットゲイン曲線G’(t)は時刻インスタンスtj,iにおけるソースゲイン値以下となる必要がる。
時刻インスタンス(tj,i−t’)におけるターゲットの復号方式の補間関数は値W’j,i=W’(tj,i−t’)をとるものと定義し、ターゲットゲイン曲線セグメントG’(t)についての式を考慮すると、条件は次式:
g’(1−W’j,i)+g’i+1W’j,i≦gj,i
のように書くことができ、これは次式のように書き直すことができる:
Figure 0005129888
この不等式の結合セットは、全てのターゲットゲイン値g’,∀i、について妥当である必要がある。さらに、ターゲットゲイン値g’は全てゼロ以上、すなわちg’≧0,∀i、である必要がある。正規化された補間関数について、すなわち|W’(t)|≦1である補間関数については、これは
Figure 0005129888
となることが観察される結果ももたらし、それ故、不等式は次のように書き直すことができる:
Figure 0005129888
同様にして、ターゲットゲイン曲線セグメントG’(t)に続いて隣接するターゲットゲイン曲線セグメントG’i+1(t)についての不等式は次のように書ける:
Figure 0005129888
ここで、t’i+1<tj,i+1≦t’i+2として、W’j,i+1=W(tj,i+1−t’i+1)である。この不等式は、g’>0,∀i且つ、補間関数W’(t)は正規化されている、すなわちW’j,i≦1,∀i,j、である事実の故に、g’i+1についてのもう1つの条件、すなわち:
Figure 0005129888
を与える。すでに上述されたように、iおよびjの可能な組み合わせはソース符号化方式のブロックサイズとターゲット符号化方式のブロックサイズとの間の現在の関係によって与えられる。これらの可能な組み合わせはブロックごとに展開しブロックごとに異なっていてもよい。
g’=0とセットすると、残りのg’,i>0は、不等式のセットによって与えられるレンジから選択することができる。
図9aに、ターゲット符号化方式の期間[t’,t’i+1]がソース符号化方式の期間[t,tj+1]以上である例のための選択のプロセスが示される。図9aは、時刻インスタンスtないしt18におけるソースゲイン値gないしg18のそれぞれの補間によって得られるソースゲイン曲線901を示している。このソースゲイン曲線901について、トランスコードされたターゲットゲイン曲線G’(t)を決定する。図示の例では、このターゲットゲイン曲線は、図9においてグラフセグメント902、903および904としてそれぞれ示される3つのターゲットゲイン曲線セグメントG’(t)、G’(t)およびG’(t)を含む。期間[t’,t’i+1]内においてG’(tj,i)≦gj,i、である条件は、図示の例の場合、G’(t)について:
G’(t)≦g,G’(t)≦g,G’(t)≦g,G’(t)≦g,G’(t)≦g,G’(t)≦g,G’(t)≦g
と書くことができ、G’(t)およびG’(t)についても同様に書くことができる。ターゲットデコーダの補間関数W’(t)を用いる場合、j=0,...,6についての値W’j,0=W’(tj,0−t’)を計算することができる。先に与えられた等式内でこれらの補間値を用いることによって、先に選択されたターゲットゲイン値g’の関数としてのターゲットゲイン値g’についての不等式のセットを得ることができる。期間[t’,t’]内でターゲットゲイン曲線セグメントG’(t)、すなわちグラフ902、をソースゲイン曲線901に一致させる好ましい方法は、全ての不等式が同時に満たされる最大ターゲットゲイン値g’を選択することである。
ターゲットゲイン値g’は、導出された不等式によって許されるレンジから注意深く選定される必要があることに留意されたい。ターゲットゲイン値g’のための局所的最適値が選択されると、上述の不等式は次のターゲットゲイン値g’i+1のために可能な値の選択を著しく制限する場合がある。これにより、一般に好ましくない振動的なターゲットゲイン曲線G’(t)を最終的に生じさせてしまう場合がある。このような振動的な挙動の一例が、g’=0を選択したときに見ることができ、g’=0を選択すると、上述の式(12)および(14)による、g’のための最適且つ最大値の選択に大きな自由度を残すことになる。しかし、これは、大きな修正部分
Figure 0005129888
のせいで、g’の選択を小さくするように、またはゼロにするようにとまで要請する場合がある。次のステップでは、不等式のセットに従って次のターゲットゲイン値g’を自由に最大化させることができる。以上より分かるように、1度に1つのターゲットゲイン値g’しか扱わないこのような局所的な最適化および選択プロセスは、ターゲットゲイン曲線G’(t)内に好ましくない振動を生じさせる場合がある。
それ故、データに局所的に適合させすぎないで、より大域的な最適化プロセス内でターゲットゲイン値を選択することが都合よい場合がある。例えば、ターゲットゲイン値を、先に概説された順位フィルタアルゴリズムに従って決定されるターゲットゲイン値g’以上に限定するなど、ターゲットゲイン値g’を追加の制約に従わせることによって振動を回避できる場合がある。その結果、最良一致ゲインアルゴリズムに関連して概説された不等式に加えて、これらの条件が満たされることになろう。
さらに、t’<tj,i≦t’i+1でソースゲイン値gj,iが1つも存在しないターゲット期間[t’,t’i+1]の場合は、上述のアルゴリズムは不等式G’(tj,i)≦gj,iを与えないことになろうということに留意されたい。その結果、対応するターゲットゲイン値g’の選択を制限する条件が存在しなくなるであろう。このような状況は、ターゲット符号化方式のブロック/フレームサイズがソース符号化方式のブロックサイズよりも小さいときに生じる場合がある。この問題は、例えばオーディオデコーダのサンプルホールド動作を適用することによって克服される場合がある。例えば、このような場合には、gj,iを、最新の既知のソースゲイン値gとするように選べばよい。
代替的に、「最良一致」ゲインアルゴリズムがいかなる条件も与えないこのような場合には、先に概説された順位フィルタアルゴリズムに従ってターゲットゲイン値g’を選択することが都合よい場合もある。さらに、別の実施形態では、期間[t’−β,t’+β]から可能なソースゲイン値gを選択することが都合よい場合もある。ここで、パラメータβは、順位フィルタアルゴリズムに関連して概説された式に従って選択すればよい。これらの可能なソースゲイン値gを用いることで、概説された「最良一致」ゲインアルゴリズムによる不等式が定式化されればよく、その結果、適当なターゲットゲイン値を決定すればよい。
記載されている「最良一致」ゲインアルゴリズムは、複数のソースゲイン値gに基づいて適当なターゲットゲイン値g’を選択する。加えて、それは、先に示された式による補間関数W’(t)を利用した、ターゲットゲイン値g’の補間の結果生じるターゲットゲイン曲線G’(t)の推移を考慮する。このようなメタデータトランスコーダは、ソース符号化方式内で用いられる補間方式を意識する必要がなく、メタデータビットストリーム内で容易に入手できるソースゲイン値に純粋に依存する。その結果、「最良一致」ゲインアルゴリズムは、低い計算の複雑さで実装することができる。さらに、メタデータトランスコーダはターゲット符号化方式の補間関数W’(t)の正確な知識を有する必要がないことに留意されたい。実際、メタデータトランスコーダが知る必要があるのは、この補間関数の特定のサンプルW’j,iだけである。これらのサンプルはメタデータトランスコーダのメモリ内に表として記憶することができよう。
順位フィルタアルゴリズムと同様に、「最良一致」ゲインアルゴリズムは一般化されることができ、そのため、ソースゲイン値だけでなく、ソースゲイン曲線もトランスコーディングの目的のために考慮されることにも留意されたい。「最良一致」ゲインアルゴリズムは、ソースゲイン値の時刻インスタンスにおいて、ターゲットゲイン曲線はソースゲイン値以下、すなわちG’(tj,i)≦gj,i、でなければならないことを前提とする。ソースゲイン曲線がメタデータトランスコーダに知られる場合は、この条件はソースゲイン値の時刻インスタンスにおいて、ターゲットゲイン曲線はソースゲイン曲線以下、すなわち、t’<tj,i≦t’i+1およびt<tj,i≦tj+1として、G’(tj,i)≦G(tj,i)、でなければならないことを示すように再定式化されることができよう。先に与えられたターゲットゲインセグメントG’(t)およびソースゲインセグメントG(t)のための補間曲線を用いると、この不等式は次のように書くことができる:
Figure 0005129888
W’j,i=W’(tj,i−t’)を、時刻インスタンスtj,i、すなわちターゲットゲイン曲線のi番目の曲線セグメント内且つソースゲイン曲線のj番目の曲線セグメント内にある時刻インスタンス、における、ターゲット符号化方式の補間関数の値と定義する。同様にWj,i=W(tj,i−t)を定義することができる。ソース符号化方式およびターゲット符号化方式の補間関数のこれらのサンプル値を用いると、上述の不等式は次のように書くことができる:
Figure 0005129888
ソースゲイン値のみを用いる「最良一致」ゲインアルゴリズムのために与えられた式と同様に、この式は、ターゲットゲイン値g’i+1をその先行ターゲットゲイン値g’に基づいて計算する再帰的方法を提供する。結果として生じるアルゴリズムは一般化「最良一致」ゲインアルゴリズムと呼ばれる。これは、(t’i+1−t’)≦(tj+1−t)である状況、すなわち2つの隣接するソースゲイン値の間の期間が2つの隣接するターゲットゲイン値の間の期間以上である場合に非常に都合がよい。先に概説したように、このような場合、条件t’<tj,i≦t’i+1を満たすことができるソースゲイン値gj,iが1つも存在しないということが起きる可能性がある。このような状況では、一般化「最良一致」ゲインアルゴリズムは、適当な補間されたゲインをソースゲイン曲線上に与え、ターゲットゲイン値g’i+1の、その先行ターゲットゲイン値g’および補間されたソースゲイン値に基づいた決定を可能にする。
図9bに、(t’i+1−t’)<(tj+1−t)である場合のための一般化「最良一致」ゲインアルゴリズムの機能性を見ることができる。そこでは、線形補間されたゲイン曲線921が、S字型曲線の補間されたゲイン曲線922にトランスコードされている。このような状況は、HE−AACゲインメタデータをAACまたはAC−3ゲインメタデータにトランスコードするときに生じる場合がある。
この特定の例では、ソース符号化方式のブロックサイズはターゲット符号化方式のブロックサイズのちょうど6倍であり、さらに、ブロックの境界はちょうど重なり合っている、すなわち第1のターゲット符号化ブロックの時刻インスタンスt’は第1のソース符号化ブロックの時刻インスタンスtと一致し、t’はtと一致し、その他も同様となっている。図9bに示されている特定の場合については、W’j,i=1であり、上述の再帰式は
Figure 0005129888
となる。この場合は、時刻インスタンスt’i+1におけるソースゲイン曲線の値に対応する最大可能ターゲットゲイン値を選ぶことが1つの好ましい選択肢である。図9bにこのことが示されており、時刻インスタンスt’10におけるターゲットゲイン値g’10が×印931として示されている。全体として、ターゲットゲイン曲線922はソースゲイン曲線921に非常によく一致していることが分かる。式(15)によって要求される通り、ターゲットゲイン曲線922は時刻インスタンスtj,iにおいてソースゲイン曲線921以下となっていることも分かる。一方、ターゲット符号化方式の、S字型曲線による補間の故に、ターゲットゲイン曲線はソースゲイン曲線よりも大きくなることもある。先に強調されたように、ターゲットゲイン曲線は常にソースゲイン曲線以下でなければならないという一般的制約をこのように弱めることは、或るトランスコーディング状況において、特に、2つのゲイン曲線の全体的な一致により大きな重点が置かれるときに、都合よい場合がある。
「最良一致」ゲインアルゴリズムおよび一般化「最良一致」ゲインアルゴリズムの組み合わせを用いることが都合よい場合があることに留意されたい。例えば、「最良一致」ゲインアルゴリズムは、ターゲット符号化方式のブロックサイズがソース符号化方式のブロックサイズ以上である状況のために、すなわち、とりわけ、AC−3からHE AACへのトランスコーディングのために、用いられればよい。一方、一般化「最良一致」ゲインアルゴリズムは、ターゲット符号化方式のブロックサイズがソース符号化方式のブロックサイズよりも小さいという状況のために、すなわち、とりわけ、HE AACからAC−3へのトランスコーディングのために、用いられればよい。アルゴリズムを組み合わせることによって、計算の複雑さと一致性能との間のトレードオフを行うことができる。
アルゴリズム3:補間の選定
さらなるアルゴリズムは、いわゆるゲイン補間方式である、MPEG−4HE AACによって提供される追加のDRCゲイン制御機能性を利用する。先に概説したように、HE AACは種々の補間方式の選択を可能にし、2つの隣接するゲイン値の間の線形補間、または2つの隣接する符号化ブロックの間の8つの時刻インスタンスのうちの1つにおける急激な、「アタック」に似た補間のいずれかから選ぶことを可能にする。従って、ゲイン補間方式は2つのゲイン制御点またはゲイン値の間のゲイン補間曲線の形状の制御を可能とする。このことは図3のグラフ302および303に関連して記載されている。緩慢な補間302は滑らかな指数関数的ゲインリリースを模擬するのによく適しているのに対して、補間方式303は鋭いゲインアタックを模擬することができることが分かる。
この観察より、ソースゲイン曲線をターゲットゲイン曲線にトランスコードするアルゴリズムであって、ターゲット符号化方式が種々の補間方式または種々の補間曲線パターンの選択を可能にする、HE AAC等の場合のための以下のアルゴリズムが生じる。ターゲット符号化方式は、恐らく滑らかな「リリース」用の補間曲線パターン、およびありうる急激な「アタック」用の補間曲線パターンの選択を少なくとも可能にするものでなければならない。アルゴリズムは次のステップから成る:
1.ソースゲイン曲線の勾配を推定する。これは、例えば、その一次導関数を分析することによって、または適当な隣接するソースゲイン値の間の差を計算することによって行われることができる。もし負の勾配が特定の閾値を超えれば、現在のフレームを「アタック」(A)として分類し、さもなければ現在のフレームを「リリース」(R)として分類する。
2.現在のフレームが(R)として分類された場合、先に概説された順位フィルタアルゴリズムに従って次のターゲットゲイン値を決定する。さらに、ターゲット符号化方式の、滑らかなすなわち「リリース」補間曲線が選択される。
3.現在のフレームが(A)として分類された場合、先に概説された順位フィルタアルゴリズムに従って次のターゲットゲイン値を決定する。ソース符号化方式がAACまたはAC−3等の変換ベースのコーデックであれば、次のターゲットゲイン値は、AAC窓の中心を中心とした、ターゲットゲインの最小値として選択することもできる。適当な次のターゲットゲイン値の決定後、ターゲット符号化方式の「アタック」補間曲線パターンを選択する。さらに、ターゲット符号化方式が、異なる時刻インスタンスにおいて複数の「アタック」補間曲線パターンのうちの1つの選択を可能にする場合は、ソースゲイン曲線の一次導関数の絶対値が最高になる点、すなわち勾配が最も急峻になる点、に勾配が最も近い「アタック」補間曲線パターンを選択する。ソース符号化方式に応じて、ソースゲイン曲線上のこの点は異なる手段によって決定されてもよい。例えば、AACのS字状の補間曲線については、2つの隣接するソースゲイン値の間の最も急峻な勾配の点は2つのソースゲイン値の間の中点になる。
図10は、ゲインメタデータの、AACまたはAC−3等の変換ベースの符号化方式からHE AACへのトランスコーディングについてのシミュレーション結果を示す。グラフ1001はソースゲイン曲線を示し、グラフ1002はターゲットゲイン曲線を示す。記載されている補間選定アルゴリズムを用いると、非常に良好なゲイン一致結果が達成されることができることが分かる。実際、観察された結果は、記載されている順位フィルタアルゴリズムを用いて得られた結果よりも良好であった。とりわけ、これは、補間選定アルゴリズムが、ターゲット符号化方式の、種々の補間曲線の中から選ぶ機能性を追加的に用いる事実のおかげである。この選択は、「アタック」セグメントおよび「リリース」セグメントにおけるソースゲイン曲線の分類に基づいて遂行される。換言すると、補間選定アルゴリズムはソースゲイン値、ならびにターゲットの符号化システムの窓および/または補間関数を考慮するだけでなく、適当なターゲットゲイン値および最終的に適当なターゲットゲイン曲線パターンを決定するために、ソースゲイン曲線の推移も分析する。より一般的には、補間選定アルゴリズムは、ソースゲイン値ならびにソースデコーダの窓および/または補間関数と、ターゲットゲイン値ならびにターゲットデコーダの窓および/または補間関数の両方を考慮すると言ってよい。
本文書は、ソース符号化方式とターゲット符号化方式との間のゲインメタデータのトランスコーディングのためのアルゴリズムをいくつか提供している。ゲインメタデータのこのようなトランスコーディングは、オーディオストリームの制作センターとオーディオストリームの発行の最終点との間のいくつかの場面で遂行する必要がある。記載しているアルゴリズムは、符号化ブロックまたはフレームの長さが異なる、ならびに隣接するゲイン値の間の期間が異なる符号化方式の間の柔軟なトランスコーディングを可能とする。さらに、符号化ブロックのこれらの長さは任意の時点で変化する場合があり、同様に、隣接するゲイン値の間の期間もオーディオストリーム内の任意の時点で変化する場合がある。記載されているアルゴリズムはソースおよびターゲット符号化方式のこの柔軟性を考慮し、変化するブロック長および変化する期間の符号化方式の間の柔軟なトランスコーディングを可能とする。加えて、記載されているアルゴリズムはソースゲイン曲線とターゲットゲイン曲線との間の最良一致をもたらす。さらに、クリッピング等の望ましくない影響を回避するためにターゲットゲイン曲線はソースゲイン曲線を常に下回っていなければならない等の制約を考慮すればよい。
最後に、計算の複雑さ、およびメタデータトランスコーダ内で処理されるデータの量に関する種々の要件を満たす複数のアルゴリズムが記載されていることに留意されたい。メタデータビットストリーム内で入手できるソースゲイン値に純粋に基づいてメタデータトランスコーディングを遂行することが都合よい場合がある。これは、プロセッサおよびメモリ要件が低減された非常に複雑さの低いトランスコーディングアルゴリズムを提供することになる。これは例えば順位フィルタアルゴリズムの場合に該当する。ターゲット符号化方式の補間方式および窓関数を追加的に考慮すると、トランスコーディングの性能を向上させる可能性がある。これは例えば「最良一致」ゲインアルゴリズムおよび補間選定アルゴリズムの場合に該当する。同様にこの場合には、メタデータトランスコーダが、メタデータビットストリームから入手できる情報に直接基づいてトランスコーディングを遂行してもよい。実際、ソース符号化方式に関する詳細な知識はメタデータトランスコーダにおいて必要とされることはなかろう。最後に、同様にソース符号化方式の補間方式および窓関数も考慮すれば、メタデータトランスコーディングをさらに向上させる場合がある。これは一般化順位フィルタアルゴリズムおよび一般化「最良一致」ゲインアルゴリズムの場合に該当する。ただし、これらのアルゴリズムはメタデータトランスコーダにおいてソース符号化方式に関する追加の情報を必要とする。このようなデータは、例えばメタデータトランスコーダのメモリ内に記憶すればよく、窓関数の、選択されたサンプルに限定することができよう。例えば、メタデータトランスコーディングが消費者のセットトップボックス内で遂行される場合は、このようなデータはセットトップボックスのメモリ内に記憶すればよい。
上述のアルゴリズムは多様な方法で組み合わせられてよいことに留意されたい。例えば、特定のトランスコーディング状況のために1つのアルゴリズムを用い、トランスコーディング状況が変化すれば別のアルゴリズムに交換することが都合よい場合がある。このような変化するトランスコーディング状況は、符号化方式のブロックサイズが、例えば長いブロックから短いブロックに、変わるときに生じる場合がある。さらに、異なる窓関数が適用されると補間条件が変わる場合がある。従って、記載されているアルゴリズムの様々な組み合わせが本発明の一部と見なされることを理解されたい。特定のトランスコーディング状況のために適当なトランスコーディングアルゴリズムを選択することに加えて、順位フィルタアルゴリズムのパラメータβ等の、入手できるパラメータを特定のトランスコーディング状況に適合させることが都合よい場合もある。例えば、ソース符号化方式またはターゲット符号化方式上で符号化ブロックの長さが長いフレームから短いフレームに変われば、順位アルゴリズム内で適用される期間を変更することが適切である場合がある。
概して、本文書において記載されているアルゴリズムもそれらの関連パラメータも任意の組み合わせで適用することができ、現在のトランスコーディング状況、および連続的に変化するトランスコーディング状況に適合するためにブロックごとに「オンザフライで」変更すればよいことはいうまでもない。

Claims (26)

  1. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であって、
    前記第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記方法は:
    前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした或る期間内において、前記第1のゲインメタデータの最小ゲイン値が選択されるように、前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータのゲイン値を選択するステップと;
    前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした期間内に前記第1のゲインメタデータのゲイン値が1つもなければ、前記第2のゲインメタデータのゲイン値を、
    前記第2のゲインメタデータのゲイン値に関連付けられる符号化ブロックに先行する符号化ブロックに関連付けられる前記第2のゲインメタデータのゲイン値;または
    前記期間の直前に先行する前記第1のゲインメタデータのゲイン値;
    とするように選択するステップと;
    を含むことを特徴とする、方法。
  2. 前記第1および第2のオーディオ符号化方式の符号化ブロックは、それぞれ、エンコードされるオーディオ信号の異なる時間の長さにわたるものであることを特徴とする、請求項1に記載の方法。
  3. 前記期間の上限および下限が、前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスにそれぞれ加減算される時間定数によって決定されることを特徴とする、請求項1に記載の方法。
  4. 前記第1および第2のオーディオ符号化方式の符号化ブロックは、それぞれ、エンコードされるオーディオ信号の特定の時間の長さにわたるものであり、前記時間定数は、
    前記第1のオーディオ符号化方式の符号化ブロックの時間の長さ;および
    前記第2のオーディオ符号化方式の符号化ブロックの時間の長さ;
    のうちの最大値以上であることを特徴とする、請求項3に記載の方法。
  5. 前記第1および第2のオーディオ符号化方式の符号化ブロックは、それぞれ、エンコードされるオーディオ信号の特定の時間の長さにわたるものであり、前記時間定数は、
    前記第1のオーディオ符号化方式の符号化ブロックの時間の長さ;および
    前記第2のオーディオ符号化方式の符号化ブロックの時間の長さ;
    のうちの最大値未満であることを特徴とする、請求項3に記載の方法。
  6. 前記第2のオーディオ符号化方式は、前記第2のゲインメタデータの隣接するゲイン値を補間して第2のゲイン曲線を形成する種々の補間曲線の選択を可能にし;
    前記方法は:
    前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータの2つの隣接するゲイン値の間の適当な補間曲線を選択するステップ;
    をさらに含むことを特徴とする、請求項1に記載の方法。
  7. 前記適当な補間曲線は、前記第1のゲインメタデータの2つの隣接するゲイン値の間の差に基づいて選択されることを特徴とする、請求項6に記載の方法。
  8. 前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記第1のゲイン曲線は第1のゲインメタデータの隣接するゲイン値を補間することによって得られ;
    前記方法は:
    前記第1のゲイン曲線の勾配に基づいて前記第2のゲインメタデータの2つの隣接するゲイン値の間の前記適当な補間曲線を選択するステップ;
    をさらに含む;
    ことを特徴とする請求項6に記載の方法。
  9. 前記方法は:
    前記第1のゲイン曲線の負の勾配が所定の閾値を超えていれば、ゲインアタックを検出するステップと;
    前記第1のゲイン曲線の負の勾配が所定の閾値未満であれば、ゲインリリースを検出するステップと;
    前記第1のゲイン曲線の、検出したゲインアタックまたはゲインリリースに基づいて前記第2のゲインメタデータの2つの隣接するゲイン値の間の適当な補間曲線を選択するステップと;
    をさらに含むことを特徴とする、請求項8に記載の方法。
  10. 前記方法は:
    前記第1のゲイン曲線の前記勾配の絶対値が最大となる位置に基づいて前記第2のゲインメタデータの2つの隣接するゲイン値の間の適当な補間曲線を選択するステップ;
    をさらに含むことを特徴とする、請求項9に記載の方法。
  11. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であって、
    前記第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記方法は:
    前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした或る期間内の前記第1のゲイン曲線の最小値を前記第2のゲインメタデータのゲイン値として選択するステップ;
    を含むことを特徴とする、方法。
  12. 前記第1のゲイン曲線の最小値を選択するステップは、前記期間内の前記第1のゲイン曲線のサンプルのセットの最小値を選択するステップを含むことを特徴とする、請求項11に記載の方法。
  13. 前記第1のゲイン曲線のセットのサンプルは、前記期間の範囲内にある第2のゲインメタデータのゲイン値の符号化ブロックに関連付けられる時刻インスタンスにおける前記第1のゲイン曲線のサンプルに対応することを特徴とする、請求項12に記載の方法。
  14. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であって、
    前記第1および第2のオーディオ符号化方式は符号化ブロックごとに異なる数のオーディオサンプルを有し;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    隣接する符号化ブロックの一連のゲイン値が補間されてゲイン曲線を定義し;
    前記方法は:
    前記第2のゲインメタデータのゲイン値に関連付けられる第2のゲイン曲線が前記第1のゲインメタデータのゲイン値に関連付けられる第1のゲイン曲線を下回るように、前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータのゲイン値を選択するステップ;
    を含むことを特徴とする、方法。
  15. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードする方法であって、
    前記第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記第2のゲインメタデータのゲイン値に第2のゲイン曲線が関連付けられ;
    前記方法は:
    前記第1のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、および前記第2のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、前記第2のゲイン曲線が前記第1のゲイン曲線以下となるように、前記第2のゲインメタデータのゲイン値を選択するステップ;
    を含むことを特徴とする、方法。
  16. 前記第1のゲイン曲線は、隣接する第1のゲイン値と第1の窓関数とに関連付けられるセグメント群から成り;
    前記第2のゲイン曲線は、隣接する第2のゲイン値と第2の窓関数とに関連付けられるセグメント群から成る;
    ことを特徴とする請求項15に記載の方法。
  17. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードするトランスコーディングシステムであって、
    前記第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記トランスコーディングシステムは:
    前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした或る期間内に、前記第1のゲインメタデータの最小ゲイン値が選択されるように、前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータのゲイン値を選択し;前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした期間内に前記第1のゲインメタデータのゲイン値が1つもなければ、前記第2のゲインメタデータのゲイン値を、
    前記第2のゲインメタデータのゲイン値に関連付けられる前記符号化ブロックに先行する符号化ブロックに関連付けられる前記第2のゲインメタデータのゲイン値;または
    前記期間の直前に先行する前記第1のゲインメタデータのゲイン値;
    とするように選択する選択手段;
    を含むことを特徴とする、トランスコーディングシステム。
  18. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードするトランスコーディングシステムであって、
    前記第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記トランスコーディングシステムは:
    前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした期間内の前記第1のゲイン曲線の最小値を前記第2のゲインメタデータのゲイン値として選択する選択手段;
    を含むことを特徴とする、トランスコーディングシステム。
  19. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードするトランスコーディングシステムであり、
    前記第1および第2のオーディオ符号化方式は符号化ブロックごとに異なる数のオーディオサンプルを有し;
    各符号化ブロックは関連ゲイン値を有し;
    隣接する符号化ブロック同士の一連のゲイン値が補間されてゲイン曲線を定義し;
    前記トランスコーディングシステムは:
    前記第2のゲインメタデータのゲイン値に関連付けられる第2のゲイン曲線が前記第1のゲインメタデータのゲイン値に関連付けられる第1のゲイン曲線を下回るように、前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータのゲイン値を選択する選択手段;
    を含むことを特徴とする、トランスコーディングシステム。
  20. ダイナミックレンジ制御に関連するオーディオゲインメタデータを第1のオーディオ符号化方式の第1のゲインメタデータから第2のオーディオ符号化方式の第2のゲインメタデータにトランスコードするトランスコーディングシステムであって、
    前記第1および第2のオーディオ符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは関連ゲイン値を有し;
    前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記第2のゲインメタデータのゲイン値に第2のゲイン曲線が関連付けられ;
    前記トランスコーディングシステムは:
    前記第1のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、および前記第2のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、前記第2のゲイン曲線が前記第1のゲイン曲線以下となるように、前記第2のゲインメタデータのゲイン値を選択する選択手段;
    を含むことを特徴とする、トランスコーディングシステム。
  21. 求項1ないし16のうちのいずれか1項に記載の方法をコンピュータに実行させる実行可能命令を含むことを特徴とするコンピュータプログラム。
  22. 受信されたマルチメディア信号を復号するセットトップボックスであって、前記セットトップボックスは:
    第1の符号化方式のマルチメディア信号を受信する受信器と;
    前記第1の符号化方式のマルチメディア信号を第2の符号化方式のマルチメディア信号にトランスコードするトランスコーディングユニットと;
    前記トランスコードされたマルチメディア信号を送信する送信器と;
    を含み、前記トランスコーディングユニットは、ダイナミックレンジ制御に関連するオーディオゲインメタデータを前記第1の符号化方式の第1のゲインメタデータから前記第2の符号化方式の第2のゲインメタデータにトランスコードし、
    前記第1および第2の符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記トランスコーディングユニットは、前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした或る期間内に、前記第1のゲインメタデータの最小ゲイン値が選択されるように、前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータのゲイン値を選択し;前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした期間内に前記第1のゲインメタデータのゲイン値が1つもなければ、前記第2のゲインメタデータのゲイン値は、
    前記第2のゲインメタデータのゲイン値に関連付けられる符号化ブロックに先行する符号化ブロックに関連付けられる前記第2のゲインメタデータのゲイン値;または
    前記期間の直前に先行する前記第1のゲインメタデータのゲイン値;
    とするように選択されることを特徴とする、セットトップボックス。
  23. 受信されたマルチメディア信号を復号するセットトップボックスであって、前記セットトップボックスは:
    第1の符号化方式のマルチメディア信号を受信する受信器と;
    前記第1の符号化方式のマルチメディア信号を第2の符号化方式のマルチメディア信号にトランスコードするトランスコーディングユニットと;
    前記トランスコードされたマルチメディア信号を送信する送信器と;
    を含み、前記トランスコーディングユニットは、ダイナミックレンジ制御に関連するオーディオゲインメタデータを前記第1の符号化方式の第1のゲインメタデータから前記第2の符号化方式の第2のゲインメタデータにトランスコードし、
    前記第1および第2の符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは少なくとも1つの関連ゲイン値を有し;
    前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記トランスコーディングユニットは、前記第2のゲインメタデータのゲイン値に関連付けられる時刻インスタンスを中心とした或る期間内の前記第1のゲイン曲線の最小値を前記第2のゲインメタデータのゲイン値として選択することを特徴とする、セットトップボックス。
  24. 受信されたマルチメディア信号を復号するセットトップボックスであって、前記セットトップボックスは:
    第1の符号化方式のマルチメディア信号を受信する受信器と;
    前記第1の符号化方式のマルチメディア信号を第2の符号化方式のマルチメディア信号にトランスコードするトランスコーディングユニットと;
    前記トランスコードされたマルチメディア信号を送信する送信器と;
    を含み、前記トランスコーディングユニットは、ダイナミックレンジ制御に関連するオーディオゲインメタデータを前記第1の符号化方式の第1のゲインメタデータから前記第2の符号化方式の第2のゲインメタデータにトランスコードし、
    前記第1および第2の符号化方式は符号化ブロックごとに異なる数のオーディオサンプルを有し;
    各符号化ブロックは関連ゲイン値を有し;
    隣接する符号化ブロックの一連のゲイン値が補間されてゲイン曲線を定義し;
    前記トランスコーディングユニットは、前記第2のゲインメタデータのゲイン値に関連付けられる第2のゲイン曲線が前記第1のゲインメタデータのゲイン値に関連付けられる第1のゲイン曲線を下回るように、前記第1のゲインメタデータの複数のゲイン値に基づいて前記第2のゲインメタデータのゲイン値を選択することを特徴とする、セットトップボックス。
  25. 受信されたマルチメディア信号を復号するセットトップボックスであって、前記セットトップボックスは:
    第1の符号化方式のマルチメディア信号を受信する受信器と;
    前記第1の符号化方式の前記マルチメディア信号を第2の符号化方式のマルチメディア信号にトランスコードするトランスコーディングユニットと;
    前記トランスコードされたマルチメディア信号を送信する送信器と;
    を含み、前記トランスコーディングユニットは、ダイナミックレンジ制御に関連するオーディオゲインメタデータを前記第1の符号化方式の第1のゲインメタデータから前記第2の符号化方式の第2のゲインメタデータにトランスコードし、
    前記第1および第2の符号化方式は複数の符号化ブロックを用い;
    各符号化ブロックは関連ゲイン値を有し;
    前記第1のゲインメタデータのゲイン値に第1のゲイン曲線が関連付けられ;
    前記第2のゲインメタデータのゲイン値に第2のゲイン曲線が関連付けられ;
    前記トランスコーディングユニットは、前記第1のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、および前記第2のオーディオ符号化方式の符号化ブロックに関連付けられる時刻インスタンスにおいて、前記第2のゲイン曲線が前記第1のゲイン曲線以下となるように、前記第2のゲインメタデータのゲイン値を選択することを特徴とする、セットトップボックス。
  26. 前記第1および第2のオーディオ符号化方式はドルビーE、ドルビーデジタル、AAC、HE AAC、のうちの1つであることを特徴とする、請求項1ないし16のうちのいずれか1項に記載の方法。
JP2011530099A 2008-09-30 2009-09-17 トランスコード方法、トランスコーディングシステム及びセットトップボックス Active JP5129888B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10149708P 2008-09-30 2008-09-30
US61/101,497 2008-09-30
PCT/US2009/057251 WO2010039441A1 (en) 2008-09-30 2009-09-17 Transcoding of audio metadata

Publications (2)

Publication Number Publication Date
JP2012504260A JP2012504260A (ja) 2012-02-16
JP5129888B2 true JP5129888B2 (ja) 2013-01-30

Family

ID=41264281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011530099A Active JP5129888B2 (ja) 2008-09-30 2009-09-17 トランスコード方法、トランスコーディングシステム及びセットトップボックス

Country Status (7)

Country Link
US (1) US8798776B2 (ja)
EP (1) EP2332140B1 (ja)
JP (1) JP5129888B2 (ja)
CN (2) CN102171755B (ja)
AR (1) AR073676A1 (ja)
TW (1) TWI457913B (ja)
WO (1) WO2010039441A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016525714A (ja) * 2013-07-22 2016-08-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延オブジェクト・メタデータ符号化の装置と方法

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
EP4293665A3 (en) * 2008-10-29 2024-01-10 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
ATE552651T1 (de) * 2008-12-24 2012-04-15 Dolby Lab Licensing Corp Audiosignallautheitbestimmung und modifikation im frequenzbereich
TWI538394B (zh) 2009-04-10 2016-06-11 杜比實驗室特許公司 利用順逆向濾波方式獲取所欲非零相移之技術
AR077680A1 (es) 2009-08-07 2011-09-14 Dolby Int Ab Autenticacion de flujos de datos
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI413110B (zh) 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
WO2011048010A1 (en) 2009-10-19 2011-04-28 Dolby International Ab Metadata time marking information for indicating a section of an audio object
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5650227B2 (ja) * 2010-08-23 2015-01-07 パナソニック株式会社 音声信号処理装置及び音声信号処理方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8521541B2 (en) * 2010-11-02 2013-08-27 Google Inc. Adaptive audio transcoding
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
CN102959620B (zh) 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
AU2012217153B2 (en) 2011-02-14 2015-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
EP2695161B1 (en) 2011-04-08 2014-12-17 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
KR102003191B1 (ko) 2011-07-01 2019-07-24 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
TWI451746B (zh) * 2011-11-04 2014-09-01 Quanta Comp Inc 視訊會議系統及視訊會議方法
US9183842B2 (en) * 2011-11-08 2015-11-10 Vixs Systems Inc. Transcoder with dynamic audio channel changing
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
JP6174129B2 (ja) * 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
US9349384B2 (en) * 2012-09-19 2016-05-24 Dolby Laboratories Licensing Corporation Method and system for object-dependent adjustment of levels of audio objects
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9344828B2 (en) * 2012-12-21 2016-05-17 Bongiovi Acoustics Llc. System and method for digital signal processing
CN117219100A (zh) 2013-01-21 2023-12-12 杜比实验室特许公司 用于处理编码音频比特流的系统和方法、计算机可读介质
IN2015MN01766A (ja) * 2013-01-21 2015-08-28 Dolby Lab Licensing Corp
RU2639663C2 (ru) * 2013-01-28 2017-12-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9858932B2 (en) * 2013-07-08 2018-01-02 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
TWI560699B (en) * 2013-07-22 2016-12-01 Fraunhofer Ges Forschung Apparatus and method for efficient object metadata coding
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2833549B1 (en) * 2013-08-01 2016-04-06 EchoStar UK Holdings Limited Loudness level control for audio reception and decoding equipment
EP2838196B1 (en) * 2013-08-12 2023-04-26 Bellevue Investments GmbH & Co. KGaA System and method for controlled dynamics adaptation for musical content
US9380383B2 (en) * 2013-09-06 2016-06-28 Gracenote, Inc. Modifying playback of content using pre-processed profile information
CN110675884B (zh) * 2013-09-12 2023-08-08 杜比实验室特许公司 用于下混合音频内容的响度调整
CN109903776B (zh) * 2013-09-12 2024-03-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
EP3291233B1 (en) 2013-09-12 2019-10-16 Dolby International AB Time-alignment of qmf based processing data
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
ES2716756T3 (es) * 2013-10-18 2019-06-14 Ericsson Telefon Ab L M Codificación de las posiciones de los picos espectrales
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
AU2014339086B2 (en) * 2013-10-22 2017-12-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combined dynamic range compression and guided clipping prevention for audio devices
US9276544B2 (en) * 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
AU2014371411A1 (en) * 2013-12-27 2016-06-23 Sony Corporation Decoding device, method, and program
US9608588B2 (en) * 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
KR102201027B1 (ko) * 2014-03-24 2021-01-11 돌비 인터네셔널 에이비 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스
SG11201607940WA (en) 2014-03-25 2016-10-28 Fraunhofer Ges Forschung Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
KR101967810B1 (ko) 2014-05-28 2019-04-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 데이터 프로세서 및 사용자 제어 데이터의 오디오 디코더들과 렌더러들로의 전송
EP3467827B1 (en) 2014-10-01 2020-07-29 Dolby International AB Decoding an encoded audio signal using drc profiles
US10089991B2 (en) 2014-10-03 2018-10-02 Dolby International Ab Smart access to personalized audio
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US10097594B1 (en) * 2017-08-31 2018-10-09 T-Mobile Usa, Inc. Resource-managed codec selection
CA3078858A1 (en) * 2017-10-12 2019-04-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Optimizing audio delivery for virtual reality applications
JP2021521700A (ja) 2018-04-11 2021-08-26 ボンジョビ アコースティックス リミテッド ライアビリティー カンパニー オーディオ強化聴力保護システム
WO2020028833A1 (en) 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
EP3893475B1 (en) * 2018-12-27 2023-11-29 Huawei Technologies Co., Ltd. Method for automatically switching bluetooth audio encoding method and electronic apparatus
US10743170B1 (en) 2019-11-28 2020-08-11 Motorola Solutions, Inc. Device, system and method for emergency audio transmission

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5814506A (en) * 1995-08-02 1998-09-29 New England Biolabs, Inc. Over-expression and purification of a truncated thermostable DNA polymerase by protein fusion
JP2001282261A (ja) 2000-03-30 2001-10-12 Canon Inc 音声データ設定装置及び方法、音声データ生成装置及び方法、記録媒体
EP1586045A1 (en) * 2002-12-27 2005-10-19 Nielsen Media Research, Inc. Methods and apparatus for transcoding metadata
EP1513137A1 (en) 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN100542198C (zh) 2006-01-11 2009-09-16 华为技术有限公司 一种离散多音频调制数据传输方法及系统
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
CN101067931B (zh) 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
JP5406276B2 (ja) * 2008-04-16 2014-02-05 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US8175295B2 (en) * 2008-04-16 2012-05-08 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101061129B1 (ko) * 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016525714A (ja) * 2013-07-22 2016-08-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延オブジェクト・メタデータ符号化の装置と方法
JP2016528541A (ja) * 2013-07-22 2016-09-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 効率的なオブジェクト・メタデータ符号化の装置と方法

Also Published As

Publication number Publication date
CN102682780A (zh) 2012-09-19
US8798776B2 (en) 2014-08-05
TWI457913B (zh) 2014-10-21
US20100083344A1 (en) 2010-04-01
CN102682780B (zh) 2014-07-16
EP2332140B1 (en) 2013-02-20
WO2010039441A1 (en) 2010-04-08
CN102171755B (zh) 2012-09-19
CN102171755A (zh) 2011-08-31
AR073676A1 (es) 2010-11-24
JP2012504260A (ja) 2012-02-16
EP2332140A1 (en) 2011-06-15
TW201027517A (en) 2010-07-16

Similar Documents

Publication Publication Date Title
JP5129888B2 (ja) トランスコード方法、トランスコーディングシステム及びセットトップボックス
US10276173B2 (en) Encoded audio extended metadata-based dynamic range control
US8892450B2 (en) Signal clipping protection using pre-existing audio gain metadata
CN105103222B (zh) 用于响度和动态范围控制的元数据
KR102077308B1 (ko) 메타데이터 구동된 동적 범위 제어
US5845251A (en) Method, system and product for modifying the bandwidth of subband encoded audio data
US11545166B2 (en) Using metadata to aggregate signal processing operations
US6516299B1 (en) Method, system and product for modifying the dynamic range of encoded audio signals
JP2021124719A (ja) 音声符号化装置および音声復号装置、ならびにプログラム
JP2011118215A (ja) 符号化装置、符号化方法、プログラムおよび電子機器

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5129888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250