JP6113294B2 - 軽減された計算量の変換器snr計算 - Google Patents

軽減された計算量の変換器snr計算 Download PDF

Info

Publication number
JP6113294B2
JP6113294B2 JP2015538514A JP2015538514A JP6113294B2 JP 6113294 B2 JP6113294 B2 JP 6113294B2 JP 2015538514 A JP2015538514 A JP 2015538514A JP 2015538514 A JP2015538514 A JP 2015538514A JP 6113294 B2 JP6113294 B2 JP 6113294B2
Authority
JP
Japan
Prior art keywords
control parameter
bitstream
audio
bits
data rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015538514A
Other languages
English (en)
Other versions
JP2015532981A (ja
Inventor
シュフーグ,ミヒャエル
ウイリアムズ,フィリップ
Original Assignee
ドルビー・インターナショナル・アーベー
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2015532981A publication Critical patent/JP2015532981A/ja
Application granted granted Critical
Publication of JP6113294B2 publication Critical patent/JP6113294B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願への相互参照
本願は2012年11月7日に出願された米国仮特許出願第61/723,687号の優先権を主張する。同出願の内容はここに参照によりその全体において組み込まれる。
技術分野
本稿は、オーディオ・エンコード/デコードに関する。特に、本稿はオーディオ・エンコード/デコードのコンテキストにおいて使用されるビット割り当てプロセスの複雑さを軽減するための方法およびシステムに関する。
5.1、7.1または9.1マルチチャネル・オーディオ・レンダリング・システムのようなさまざまな単一チャネルおよび/またはマルチチャネルのオーディオ・レンダリング・システムが現在使われている。オーディオ・レンダリング・システムはたとえば、5+1、7+1または9+1スピーカー位置から発するサラウンドサウンドの生成を許容する。対応する単一チャネルまたはマルチチャネルのオーディオ信号の効率的な伝送または効率的な記憶のために、ドルビー・デジタル(DD)またはドルビー・デジタル・プラス(DD+)のようなオーディオ・コーデック(エンコーダ/デコーダ)システムが使われている。
特定のオーディオ・コーデック・システム(たとえばドルビー・デジタル)を使ってエンコードされたオーディオ信号をデコードするよう構成されているオーディオ・レンダリング装置のかなりの設置済みの基盤がある。この特定のオーディオ・コーデック・システムはたとえば、第二のオーディオ・コーデックと称されてもよい。他方、オーディオ・コーデック・システムの進化は更新されたオーディオ・コーデック・システム(たとえばドルビー・デジタル・プラス)をもたらすことがある。これはたとえば第一のオーディオ・コーデック・システムと称されてもよい。更新されたオーディオ・コーデック・システムは、追加的な機能(たとえば増大した数のチャネル)および/または改善された符号化品質を提供しうる。よって、コンテンツ・プロバイダーは、自らのコンテンツを、更新されたオーディオ・コーデック・システムに基づいて提供する傾向があることがある。
にもかかわらず、第二のオーディオ・コーデック・システムのデコーダをもつオーディオ・レンダリング装置を有するユーザーも、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ・コンテンツをレンダリングできるべきである。これは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ・コンテンツを第二のオーディオ・コーデック・システムに基づいてエンコードされた修正されたオーディオ・コンテンツに変換するよう構成されているいわゆるトランスコーダまたは変換器によって達成されうる。(たとえばセットトップボックス内に実装される)そのようなトランスコーダ/変換器のコストを軽減するために、変換の計算量は比較的低いべきである。この目的のために、第一のオーディオ・コーデック・システムに基づいて動作するエンコーダは、エンコードされたオーディオ・コンテンツをなすビットストリーム中に一つまたは複数の制御パラメータを挿入するよう構成されてもよい。前記一つまたは複数の制御パラメータは、トランスコーダによって、低下した計算量で当該変換を実行するために使用されうる。他方、前記一つまたは複数の制御パラメータの生成は、典型的には、エンコーダの計算量を増す。
Advanced Television Systems Committee (ATSC)、"Digital Audio Compression Standard (AC-3, E-AC-3)", Document A/52:2010, 2010年11月22日 Fielder, L.D. et al.、"Introduction to Dolby Digital Plus, and Enhancement to the Dolby Digital Coding System"、AEC Convention, 28-31 October 2004
本稿では、オーディオ・コンテンツの、(第一のオーディオ・コーデック・システムに基づく)第一のフォーマットから(第二のオーディオ・コーデック・システムに基づく)第二のフォーマットへの変換を低下した計算量で可能にする方法およびシステムが記述される。本稿に記載される方法およびシステムは、エンコーダおよび/またはトランスコーダにおける計算量を減らすために使用されてもよい。
ある側面によれば、第一のオーディオ・コーデック・システムに基づくオーディオ信号のフレームをエンコードするよう構成されているオーディオ・エンコーダが記述される。オーディオ信号はマルチチャネル・オーディオ信号、たとえば5.1、7.1または9.1マルチチャネル・オーディオ信号を含んでいてもよい。オーディオ信号は一連のフレームに分割されてもよい。ここで、フレームはオーディオ信号の所定数のサンプル、たとえば1536サンプルを含んでいてもよい。第一のオーディオ・コーデック・システムは、ドルビー・デジタル・プラス・コーデック・システム、たとえば低計算量ドルビー・デジタル・プラス(Low Complexity Dolby Digital Plus)・システムを含んでいてもよく、あるいはそれに準拠していてもよい。オーディオ・エンコーダはオーディオ信号を第一の目標データレートの第一のビットストリームにエンコードするよう構成されていてもよい。第一の目標データレート(または第一のデータレート)の例は384kbps、448kbpsまたは640kbpsである(特に5.1マルチチャネル・オーディオ信号において)。特に他の型のマルチチャネル・オーディオ信号については、他の第一の目標データレートが可能であることを注意しておくべきである。
オーディオ・エンコーダは、オーディオ信号のフレームに基づいてスペクトル係数の集合を決定するよう構成された変換ユニットを有していてもよい。換言すれば、変換ユニットは、オーディオ信号の一つまたは複数のスペクトル成分を決定するよう構成されていてもよい。変換ユニットは、オーディオ信号のフレームから複数のブロックを決定するよう構成されていてもよい。さらに、変換ユニットは、時間領域からのサンプルのブロックを周波数領域に変換するよう構成されていてもよい。例として、変換ユニットは、オーディオ信号の当該フレームから導出される一つまたは複数のブロックに対して、修正離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を実行するよう構成されていてもよい。
エンコーダは、前記スペクトル係数の集合に基づいて、スケール因子(scale factor)の集合およびスケーリングされた値(scaled value)の集合を決定するよう構成された浮動小数点エンコード・ユニットを有していてもよい。スケール因子は指数eに対応してもよく、スケーリングされた値は仮数mに対応してもよい。浮動小数点エンコード・ユニットは、公式X=m・2-eを使って変換係数Xについて指数eおよび仮数mを決定するよう構成されていてもよい。前記スペクトル係数の集合からのすべてのスペクトル係数についてこれを行なうことによって、前記スケール因子の集合および前記スケーリングされた値の集合が決定されうる。
さらに、浮動小数点エンコード・ユニットは、前記スケール因子の集合をエンコードして、エンコードされたスケール因子の集合を与えるよう構成されていてもよい。前記スケール因子の集合のエンコードはたとえば、オーディオ信号のあるフレームのすべてのブロックについてのスケール因子に基づいていてもよい。エンコードは、結果としてスケール因子の修正につながり、エンコードされたスケール因子が前記スケール因子の値とは異なる値を表わすことがある。
エンコーダは、第一の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合について使われるビット数に基づき、前記スケーリングされた値の集合を量子化するための利用可能なビットの総数を決定するよう構成されているビット割り当ておよび量子化ユニットを有していてもよい。この目的のために、第一の目標データレートはフレーム当たりのビットの総数に変換されてもよく、エンコードされたスケール因子の集合のために使われるビット(および他の目的のためにリザーブされていることがありうるまたは他の目的のためにすでに使用されていることがありうるビット)の数が、ビットの総数から減算されてもよく、それによりスケーリングされた値の集合を量子化するための利用可能なビットの総数を与える。
ビット割り当ておよび量子化ユニットは、スケーリングされた値を量子化するための量子化器の分解能を決定するための逐次反復式のビット割り当てプロセスを実行するよう構成されていてもよい。量子化器の分解能は、スケーリングされた値の集合を量子化するための利用可能なビットの総数を超過しないよう、かつ、知覚的な量子化ノイズが最小化される(または軽減される)よう決定されるべきである。この要件を満たす量子化器は、第一の制御パラメータを使って同定されうる。換言すれば、ビット割り当ておよび量子化ユニットは、スケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの総数の割り当てを示す、すなわちスケーリングされた値の集合のスケーリングされた値を量子化するための量子化器を示す、第一の制御パラメータを決定するよう構成されていてもよい。第一の制御パラメータは、たとえば、ドルビー・デジタル・プラスsnroffset(またはSNRオフセット)値であってもよく、あるいはそれを含んでいてもよい。
例として、ビット割り当ておよび量子化ユニットは、エンコードされたスケール因子の集合に基づいて前記集合の変換係数のパワースペクトル密度(PSD: power spectral density)分布を決定することによって前記第一の制御パラメータを決定するよう構成されていてもよい。エンコードされたスケール因子の集合は典型的には第一のビットストリーム中に挿入され、よって対応するデコーダ(またはトランスコーダ)にとって既知である。よって、PSD分布は対応するデコーダ(またはトランスコーダ)においても決定されうる。さらに、ビット割り当ておよび量子化ユニットは、エンコードされたスケール因子の集合に基づいてマスキング曲線を決定するよう構成されていてもよい。よって、マスキング曲線も典型的には対応するデコーダ(またはトランスコーダ)において導出可能である。マスキング曲線は、オーディオ信号の近隣のスペクトル成分(すなわち隣接周波数におけるスペクトル成分)または変換係数の間のマスキングを示してもよい。さらに、ビット割り当ておよび量子化ユニットは、中間的な第一の制御パラメータを使ってマスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定するよう構成されていてもよい。特に、中間的な第一の制御パラメータは、オフセット・マスキング曲線を上下に動かすために使用されてもよく、それによりマスクされているより少ない/より多いスペクトル成分を与える、すなわちそれにより量子化される必要があるより少ない/より多いスペクトル成分を与える。ビット割り当ておよび量子化ユニットはさらに、PSD分布とオフセット・マスキング曲線の比較に基づいて、スケーリングされた値の集合のスケーリングされた値を量子化するための必要とされるビットの数を決定するよう構成されていてもよい。中間的な第一の制御パラメータは、必要とされるビットの数と利用可能なビットの総数との間の差が小さくなるよう(たとえば最小化されるよう)(逐次反復的に)調整されてもよく、それにより、差を小さくする(たとえば最小化する)中間的な第一の制御パラメータとして、第一の制御パラメータを与える。典型的には、差は、必要とされるビットの数が利用可能なビットの総数を超過しないようなものであるべきである。
上述した逐次反復式のビット割り当てプロセスの結果として、スケーリングされた値の集合を量子化するための量子化器を定義する第一の制御パラメータが得られる。ビット割り当ておよび量子化ユニットは、第一の制御パラメータに基づいて、スケーリングされた値の集合を量子化して、量子化されたスケーリングされた値の集合を与えるよう構成されていてもよい。
エンコーダはさらに、トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするための第二の制御パラメータを導出するよう構成されたトランスコード・シミュレーション・ユニットをさらに有していてもよい。第二のビットストリームは典型的には、第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致する。例として、第二のコーデック・システムはドルビー・デジタル・コーデック・システムに準拠していてもよく、第二の制御パラメータはドルビー・デジタルSNRオフセット値に対応していてもよく、あるいはそれを含んでいてもよい。第二の目標データレートはたとえば640kbps(特に5.1マルチチャネル・オーディオ信号の場合において)であってもよい。第二の目標データレートは第一の目標データレート以上であってもよい。他の型のマルチチャネル・オーディオ信号については、他の第二の目標データレートが可能であることを注意しておくべきである。
トランスコード・シミュレーション・ユニットは、第一の制御パラメータから第二の制御パラメータを導出するよう構成されていてもよい。特に、トランスコード・シミュレーション・ユニットは、第一の制御パラメータのみから第二の制御パラメータを導出するよう構成されていてもよい。ある実施形態では、トランスコード・シミュレーション・ユニットは、第二のオーディオ・コーデック・システムに基づくビット割り当てプロセスを実行することなく、第二の制御パラメータを導出するよう構成される。ある個別的な実施形態では、トランスコード・シミュレーション・ユニットは、第一の制御パラメータの値に等しい第二の制御パラメータの値を設定するよう構成されていてもよい。よって、エンコーダは、低下した計算量で第二の制御パラメータを決定するよう構成されうる。第一の制御パラメータは、粗い(coarse)成分および細かい(fine)成分を含んでいてもよい。例として(DD/DD+オーディオ・コーデック・システムの場合、csnroffsetおよびfsnroffsetパラメータ)。トランスコード・シミュレーション・ユニットは、前記粗い成分および細かい成分を組み合わせて、第二の制御パラメータ(たとえば、convsnroffsetパラメータ)を与えるよう構成されていてもよい。
さらに、エンコーダは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび/または第二の制御パラメータを含む第一のビットストリームを生成するよう構成されたビットストリーム・パッキング・ユニットを有していてもよい。第一のビットストリームは、対応するデコーダに提供されてもよい。代替的または追加的に、第一のビットストリームは、第一のビットストリームを第二のビットストリームに変換するよう構成されたトランスコーダに提供されてもよい。ビットストリーム・パッキング・ユニットは、第一のビットストリームが第一の目標データレートに準拠するよう、一つまたは複数のスキップ・ビット(これは余剰(waste)ビットまたは不使用ビットまたは充填ビットとも称されうる)を第一のビットストリーム中に挿入するよう構成されていてもよい。
第一のビットストリームは第一のフォーマットに準拠してもよく、第二のビットストリームは第二のフォーマットに準拠してもよい。トランスコード・シミュレーション・ユニットは、量子化されたスケーリングされた値の集合およびエンコードされたスケール因子の集合を表現するために第二のフォーマットによって要求される超過ビットの数を決定するよう構成されていてもよい。換言すれば、トランスコード・シミュレーション・ユニットは、第一のフォーマットに基づく表現に比べた第二のフォーマットに基づいて当該オーディオ信号を表現するのに必要とされる追加的なビットの数として、超過ビットの数を決定するよう構成されていてもよい。超過ビットの数は、オーディオ信号の当該フレームについて個別的に決定されてもよく、あるいは超過ビットの数はあらかじめ決定された値、たとえば最悪ケースの値であってもよい。エンコーダのビット割り当ておよび量子化ユニットは、超過ビットの数にも基づいて利用可能なビットの総数を決定するよう構成されていてもよい。特に、ビット割り当ておよび量子化ユニットは、利用可能なビットの総数を、超過ビットの数だけ減らすよう構成されていてもよい。こうすることによって、第二のビットストリームが、第二の目標データレートを超過しないことが保証されることができる(特に、第一の目標データレートが第二の目標データレートに対応するまたはそれに等しい場合)。
トランスコード・シミュレーション・ユニットは、第一の制御パラメータに基づくデフォルトの第二の制御パラメータ、たとえば第一の制御パラメータに対応するまたはそれに等しいデフォルトの第二の制御パラメータを決定するよう構成されていてもよい。さらに、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータに基づいてトランスコードされているデフォルトの第二のビットストリームが第二の目標データレートを超過するかどうかを判定するよう構成されていてもよい。換言すれば、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータを使って、第一のビットストリームを第二のビットストリームに変換するトランスコーダをシミュレートするよう構成されていてもよい。この目的のために、トランスコード・シミュレーション・ユニットは、第一の制御パラメータを使って、量子化されたスケーリングされた値の集合を量子化解除して、量子化解除されたスケーリングされた値の集合を与え、デフォルトの第二の制御パラメータを使って量子化解除されたスケーリングされた値の集合を再量子化して再量子化されたスケーリングされた値の集合を与えるよう構成されていてもよい。
デフォルトの第二のビットストリームが第二の目標データレートを超過しない場合、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータに基づいて第二の制御パラメータを決定するよう構成されていてもよい。例として、第二の制御パラメータは、デフォルトの第二の制御パラメータに等しく設定されてもよい。よって、第二のオーディオ・コーデック・システムに基づく明示的なおよび/または逐次反復的なビット割り当てプロセスを実行する必要なしに、第二のビットストリームが第二の目標データレートを超過しないことが保証される。
他方、デフォルトの第二のビットストリームが第二の目標データレートを超過する場合、トランスコード・シミュレーション・ユニットは、第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化を実行して、第二の制御パラメータに基づいてトランスコードされる第二のビットストリームが第二の目標データレートを超過しないよう第二の制御パラメータを決定するよう構成されていてもよい。換言すれば、デフォルトの第二のビットストリームが第二の目標データレートを超過すると判定される場合にのみ、第二のオーディオ・コーデック・システムに基づいてビット割り当ておよび量子化プロセスを実行することが必要となりうる。
第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化プロセスは、第二の目標データレートに基づき、かつエンコードされたスケール因子の集合を第二のオーディオ・コーデック・システムに基づいて再エンコードするために使われるビットの数に基づいて、量子化解除されたスケーリングされた値の集合を量子化するための利用可能なビットの第二の総数を決定することを含んでいてもよい。さらに、ビット割り当ておよび量子化プロセスは、量子化解除されたスケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの第二の総数の割り当てを示す第二の制御パラメータを決定することを含んでいてもよい。
第二の制御パラメータの決定は、逐次反復式のビット割り当てプロセスとの関連で実行されてもよい。逐次反復式のビット割り当てプロセスは、エンコードされたスケール因子の集合に基づいて(たとえば、第二のオーディオ・コーデック・システムに基づいてエンコードされているエンコードされたスケール因子の集合に基づいて)パワースペクトル密度(PSD)分布を決定することを含んでいてもよい。さらに、逐次反復式のビット割り当てプロセスは、エンコードされたスケール因子の集合に基づいてマスキング曲線を決定することを含んでいてもよい。中間的な第二の制御パラメータを使ってマスキング曲線をオフセットすることによってオフセット・マスキング曲線が決定されてもよい。さらに、PSD分布とオフセット・マスキング曲線の比較に基づいて、量子化解除されたスケーリングされた値の集合の量子化解除されたスケーリングされた値を量子化するための必要とされるビットの数が決定されてもよい。中間的な第二の制御パラメータは、必要とされるビットの数と利用可能なビットの第二の総数との間の差が小さくなるよう(たとえば最小化されるよう)逐次反復プロセスにおいて調整されてもよく、それにより、第二の制御パラメータを与える。換言すれば、トランスコード・シミュレーション・ユニットは、第一のオーディオ・コーデック・システムに基づくビット割り当てプロセスと同様の(たとえばそれに等しい)第二のオーディオ・コーデック・システムに基づいて逐次反復式のビット割り当てプロセスを実行するよう構成されていてもよい。
トランスコード・シミュレーション・ユニットは、中間的な第二の制御パラメータを、第一の制御パラメータで初期化するよう構成されていてもよい。それにより、第二の目標データ・レートに関するおよび/または量子化ノイズに関する要求を満たす第二の制御パラメータを決定するために必要とされる逐次反復数を潜在的に減らすことになる。代替的にまたは追加的に、トランスコード・シミュレーション・ユニットは、PSD分布とオフセット・マスキング曲線の比較に基づいて決定された量子化ノイズが所定のノイズ閾値を下回る場合に、逐次反復手順を停止するよう構成されていてもよい。それにより、必要とされる反復工程の数を潜在的に減らすことになる。
代替的または追加的に、デフォルトの第二のビットストリームが第二の目標データレートを超過すると判定される場合、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータを所定の制御パラメータ・オフセット値だけオフセットすることによって、第二の制御パラメータを決定するよう構成されていてもよい。所定の制御パラメータ・オフセット値は、たとえば、第一のオーディオ・コーデック・システムに基づいて実行されるビット割り当ておよび量子化プロセスに基づいて決定されてもよい。ビット割り当ておよび量子化ユニットによって実行されるこのビット割り当ておよび量子化プロセスは、第二のビットストリームが第二の目標データレートを満足させる(たとえば第二の目標データレートを超過しない)よう、第二の制御パラメータがどのくらいオフセットされるべきかについての指示を提供してもよい。
あるさらなる側面によれば、第一のデータ・レート(たとえば第一の目標データ・レート)の第一のビットストリームを受領するよう構成されているオーディオ・トランスコーダ(オーディオ変換器とも称される)が記述される。上記で概説されているように、第一のビットストリームは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号のフレームを示していてもよい。第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含んでいてもよい。量子化されたスケーリングされた値の集合およびエンコードされたスケール因子の集合は、オーディオ信号のそのフレームのスペクトル成分を示していてもよく、第一の制御パラメータは量子化されたスケーリングされた値の集合を量子化するために使われた量子化器の分解能を示していてもよい。第二の制御パラメータは、第二の目標データレートの第二のビットストリームについての量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使用されるべき量子化器を示していてもよい。ここで、第二のビットストリームは第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致する。
トランスコーダは、第一のデータレートが第二の目標データレートに等しいかどうかを判定し、第一の制御パラメータが第二の制御パラメータに対応するかどうかを判定するよう構成されていてもよい。第一のデータレートが第二の目標データレート等しく、第一の制御パラメータが第二の制御パラメータに等しい場合、トランスコーダは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合および第二の制御パラメータを第二のビットストリームにコピーすることによって、第二のビットストリームを決定するよう構成されていてもよい。よって、トランスコーダは、量子化されたスケーリングされた値の集合を(第一の制御パラメータを使って)量子化解除する必要なしに、かつ(第二の制御パラメータを使って)量子化解除されたスケーリングされた値を再量子化する必要なしに、第二のビットストリームを生成するよう構成されていてもよい。結果として、トランスコーダの計算量が軽減されうる。
第一のデータレートが第二の目標データレートより小さく、第一の制御パラメータが第二の制御パラメータに対応する場合、トランスコーダは、第一のビットストリームが結合チャネル(a coupling channel)および/またはフル・チャネル(a full channel)を含むかどうかを判定するよう構成されていてもよい(たとえば、マルチチャネル・オーディオ信号の場合)。トランスコーダは、量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値およびエンコードされたスケール因子の集合のエンコードされたスケール因子であってフル・チャネルに関連付けられているものを、第二のビットストリームにコピーするよう構成されていてもよい。よって、フル・チャネルについては、トランスコーダは、(フル・チャネルに関連付けられている)量子化されたスケーリングされた値の集合を量子化解除し、(フル・チャネルに関連付けられている)量子化解除されたスケーリングされた値を再量子化する必要がない。それにより、トランスコーダの計算量が軽減される。
さらに、オーディオ・トランスコーダは、量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値およびエンコードされたスケール因子の集合のエンコードされたスケール因子であって結合チャネルに関連付けられているものを分離し、それにより量子化されたスケーリングされた値の第一の集合およびエンコードされたスケール因子の第一の集合を与えるよう構成されていてもよい。さらに、トランスコーダは、第一の制御パラメータを使って量子化されたスケーリングされた値の第一の集合を量子化解除して量子化解除されたスケーリングされた値の第一の集合を与え、第二の制御パラメータを使って量子化解除されたスケーリングされた値の第一の集合を再量子化し、それにより再量子化されたスケーリングされた値の第一の集合を与えるよう構成されていてもよい。再量子化されたスケーリングされた値の第一の集合は、第二のビットストリーム中に挿入されてもよい。よって、第二のオーディオ・コーデック・システムのデコーダは、結合チャネルを含まない、すなわちフル・チャネルのみを含む第二のビットストリームを提供される。
もう一つの側面によれば、第一のオーディオ・コーデック・システムに基づいてオーディオ信号を第一のビットストリームにエンコードする方法(および対応するエンコーダ)が記述される。本方法は、オーディオ信号のスペクトル成分に基づいて(たとえば変換係数の集合に基づいて)スケール因子の集合およびスケーリングされた値の集合を決定することを含む。本方法は、第一のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを使ってスケーリングされた値の集合を量子化するための量子化器の分解能を示す第一の制御パラメータを決定することに進む。量子化器の分解能は、第一のビットストリームの第一の目標データレートに依存してもよい。さらに、本方法は、第一のビットストリームの、第二の目標データレートの第二のビットストリームへの変換を可能にするための第二の制御パラメータを決定することを含んでいてもよい。上記で概説したように、第二のビットストリームは、第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致してもよい。第二の制御パラメータを決定する段階は、第一の制御パラメータに基づいて、たとえば第二のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを実行することなく、第二の制御パラメータを決定することを含んでいてもよい。上記で概説したように、第一の制御パラメータに基づく第二の制御パラメータの決定は、(たとえば第二のビットストリームが第二の目標データレートを満足させることに関する)一つまたは複数の条件を課されてもよい。第一のビットストリームは、第一および第二の制御パラメータを示してもよい。
あるさらなる側面によれば、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号を示す第一のビットストリームを、第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに基づく第二のビットストリームにトランスコードする方法(および対応するトランスコーダ)が記述される。本方法は、第一のデータレートの第一のビットストリームを受領することを含む。第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含んでいてもよい。量子化されたスケーリングされた値の集合およびエンコードされたスケール因子の集合は、オーディオ信号のスペクトル成分を示していてもよく、第一の制御パラメータは、量子化されたスケーリングされた値の集合を量子化するために使われた量子化器を示していてもよい。第二の制御パラメータは、第二の目標データレートの第二のビットストリームのために量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使われるべき量子化器を示していてもよい。本方法はさらに、第一のデータレートが第二の目標データレートに等しいかどうかを判定し、第一の制御パラメータが第二の制御パラメータに対応するかどうかを判定することを含んでいてもよい。第一のデータレートが第二の目標データレートに等しく、第一の制御パラメータが第二の制御パラメータに対応する(たとえば、値において等しい)場合、本方法は、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合および第二の制御パラメータを第二のビットストリームにコピーすることによって、第二のビットストリームを決定することに進んでもよい。
もう一つの側面によれば、ドルビー・デジタル・プラス・コーデック・システムに基づくオーディオ信号をエンコードし、それにより第一の目標データレートの第一のビットストリームを与えるよう構成されたオーディオ・エンコーダ(および対応する方法)が記述される。オーディオ・エンコーダは、ドルビー・デジタル・プラス・コーデック・システムに基づいて第一の目標データレートについてのsnroffsetパラメータを決定するよう構成されていてもよい。さらに、エンコーダは、トランスコーダが第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするため、snroffsetパラメータからconvsnroffsetパラメータを導出するよう構成されていてもよい。第二のビットストリームは、ドルビー・デジタル・コーデック・システムに一致していてもよく、第一のビットストリームはsnroffsetパラメータおよびconvsnroffsetパラメータを含んでいてもよい。
あるさらなる側面によれば、第一のフォーマットに対応する第一のビットストリームの、第二のフォーマットに対応する第二のビットストリームへの変換を可能にする方法が記述される。さらに、該変換を可能にする方法を実行するよう構成されている対応する装置(特に対応するオーディオ・エンコーダ)が記述される。第一のビットストリームの第二のビットストリームへの実際の変換は、異なるエンティティによって(たとえばトランスコーダによって)実行されてもよい。
第一および第二のフォーマットは、本稿において記述される第一および第二のオーディオ・コーデック・システムのフォーマットに対応していてもよい。第一および第二のビットストリームは典型的には、エンコードされたオーディオ信号の少なくとも一つの同一のフレームに関係している。換言すれば、第一および第二のビットストリームは典型的には、オーディオ信号の対応する一つまたは複数のフレームを記述する。第一のビットストリームは、該第一のビットストリームに関連付けられた第一のビット割り当てプロセスを示す第一の制御パラメータを含む。第一のビット割り当てプロセスは第一のオーディオ・コーデック・システムに従って実行されてもよい。本稿で概説されているように、第一の制御パラメータは粗い成分および細かい成分を含んでいてもよい。
第二のビットストリームは、該第二のビットストリームに関連付けられた第二のビット割り当てプロセスを示す第二の制御パラメータを含む。第二のビット割り当てプロセスは第二のオーディオ・コーデック・システムに従って実行されてもよい。さらに、第二のビットストリームは、第二の制御パラメータを使って第一のビットストリームから生成されてもよい。特に、第二の制御パラメータは、第一のビットストリームを第二のビットストリームに変換するためにトランスコーダ(これはエンコーダに対してリモートであってもよい)によって使用されてもよい。
本方法は、第一の制御パラメータのみに基づいて第二の制御パラメータを決定することを含んでいてもよい。特に、第二の制御パラメータは、単に第一の制御パラメータの粗いおよび細かい成分の組み合わせに基づいて決定されてもよい。さらに、本方法は、第二の制御パラメータを第一のビットストリーム中に挿入することを含んでいてもよい。よって、(第一および第二の制御パラメータを含む)第一のビットストリームは、トランスコーダに送信されて、トランスコーダが、低下した計算量で(かつ第二のビットストリームを送信する必要なしに)第一のビットストリームから第二のビットストリームを決定できるようにしてもよい。
あるさらなる側面によれば、オーディオ・トランスコーダ(および対応するトランスコード方法)が記述される。オーディオ・トランスコーダは、第一のデータレートの第一のビットストリームを受領するよう構成されている。第一のビットストリームは、ドルビー・デジタル・プラス・コーデック・システムに基づいてエンコードされたオーディオ信号を示していてもよい。第一のビットストリームは、量子化されたスケーリングされた値の集合、snroffsetパラメータおよびconvsnroffsetパラメータを含んでいてもよい。convsnroffsetパラメータは、第二の目標データレートの第二のビットストリームを生成するためにトランスコーダによって使用される量子化器を示していてもよい。ここで、第二のビットストリームは、ドルビー・デジタル・オーディオ・コーデック・システムに一致する。トランスコーダは、第一のデータレートが第二の目標データレートに等しいかどうかを判定し、snroffsetパラメータがconvsnroffsetパラメータに対応するかどうかを判定するよう構成されていてもよい。第一のデータレートが第二の目標データレートに等しく、snroffsetパラメータがconvsnroffsetパラメータに対応する場合、トランスコーダは、量子化されたスケーリングされた値の集合およびconvsnroffsetパラメータを第二のビットストリームにコピーすることによって第二のビットストリームを決定するよう構成されていてもよい。
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために適応されていてもよく、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されていてもよい。
もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のために適応され、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されているソフトウェア・プログラムを有していてもよい。
あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿において概説される方法段階を実行するための実行可能命令を含んでいてもよい。
本特許出願において概説されている好ましい実施形態を含む方法およびシステムは、単体で使用されてもよく、あるいは本稿に開示される他の方法およびシステムとの組み合わせにおいて使用されてもよいことを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、任意に組み合わされてもよい。特に、請求項の事項は、任意の仕方で互いと組み合わされてもよい。
本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
aは、例示的なマルチチャネル・オーディオ・エンコーダの高レベルのブロック図である。bは、エンコードされたフレームの例示的なシーケンスを示す図である。 aは、例示的なマルチチャネル・オーディオ・デコーダの高レベルのブロック図である。bは、7.1マルチチャネル・オーディオ信号についての例示的なラウドスピーカー配置を示す図である。 マルチチャネル・オーディオ・エンコーダの例示的な構成要素を示すブロック図である。 例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。 例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。 例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。 例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。 例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。 複数の例示的なフレームについて、DD+ビットストリーム・フォーマットのためおよびDDビットストリーム・フォーマットのために使用される固定されたビットの数を示す図である。 聴取試験の例示的な実験結果を示す図である。
特定のマルチチャネル・オーディオ・デコーダによってデコードされるチャネルの数に関して下方互換なビットストリームを生成するマルチチャネル・オーディオ・コーデック・システムを提供することが望ましい。特に、N<Mであるとして、N.1マルチチャネル・オーディオ・デコーダによってデコードされることができるよう、M.1マルチチャネル・オーディオ信号をエンコードすることが望ましい。例として、5.1オーディオ・デコーダによってデコードできるように7.1オーディオ信号をエンコードすることが望ましい。下方互換性を許容するために、マルチチャネル・オーディオ・コーデック・システムは典型的にはM.1マルチチャネル・オーディオ信号を、低下した数のチャネル(たとえばN.1チャネル)を含む独立(サブ)ストリーム(「IS」)およびフルM.1オーディオ信号をデコードおよびレンダリングするための置換および/または拡張チャネルを含む一つまたは複数の従属(サブ)ストリーム(「DS」)にエンコードする。
さらに、オーディオ・デコーダの前のバージョンが、オーディオ・エンコーダの更新されたバージョンによって生成されたビットストリームをデコードできるようにするビットストリームを提供することが望ましい。換言すれば、(同じN.1個のチャネルを表わすビットストリームについてでさえ)ビットストリームのデコードに関して下方互換性を許容することが望ましい。これは、オーディオ・エンコーダの更新されたバージョンを使ってエンコードされたビットストリームを、オーディオ・デコーダの前のバージョンによってデコードされることができるビットストリームに変換するいわゆるトランスコーダまたは変換器の使用によって達成されてもよい。そのようなトランスコーダは、たとえば、(オーディオ・エンコーダの更新されたバージョンを使ってエンコードされた)ビットストリームを受領するよう構成されており、オーディオ・デコーダの前のバージョンによってデコードされることができる修正されたビットストリームを提供するよう構成されているセットトップボックスにおいて提供される。例として、トランスコーダは、ドルビー・デジタル・プラス(DD+)ビットストリームを受領し、受領されたビットストリームを、ドルビー・デジタル・オーディオ・デコーダによってデコードされることができるドルビー・デジタル(DD)ビットストリームにトランスコードするよう構成されていてもよい。よって、オーディオ・デコーダの(たとえばテレビジョン受信機内のドルビー・デジタル・オーディオ・デコーダの)設置済みの基盤が保護されることができる。一方、同時に、(ドルビー・デジタル・プラス・コーデック・システムのような)改善されたオーディオ・エンコード/デコード・システムへの発展を妨げない。
このコンテキストにおいて、ビットストリームのエンコードに結びついたおよび/またはビットストリームのトランスコードに結びついた計算量を軽減することが望ましい。本稿では、低下した計算量でビットストリームの生成を可能にする方法およびシステムが記述される。方法およびシステムはドルビー・デジタル・プラス(DD+)コーデック・システム(エンハンストAC-3とも称される)に基づいて記述される。DD+コーデック・システムは、その内容が参照によって組み込まれる非特許文献1において規定されている。しかしながら、本稿に記載される方法およびシステムは、一般に適用可能であり、オーディオ信号をエンコードし、ビットストリームが該ビットストリームの低計算量トランスコードを可能にするよう、ビットストリームをトランスコーダに提供する他のオーディオ・コーデック・システムに適用されてもよい。
よく使われるマルチチャネル構成(およびマルチチャネル・オーディオ信号)は7.1構成および5.1構成である。5.1マルチチャネル構成は典型的には、L(左前方)、C(中央前方)、R(右前方)、Ls(左サラウンド)、Rs(右サラウンド)およびLFE(低域効果)チャネルを含む。7.1マルチチャネル構成はさらにLb(左サラウンド後方)およびRb(右サラウンド後方)チャネルを含む。例示的な7.1マルチチャネル構成が図2のbに示されている。DD+において7.1チャネルを送信するために、二つのサブストリームが使用される。第一のサブストリーム(独立サブストリーム「IS」と称される)は5.1チャネル・ミックスを含み、第二のサブストリーム(従属サブストリーム「DS」と称される)は拡張チャネルおよび置換チャネルを含む。たとえば、7.1マルチチャネル・オーディオ信号をサラウンド後方チャネルLbおよびRbと一緒にエンコードして送信するために、独立サブストリームはチャネルL(左前方)、C(中央前方)、R(右前方)、Lst(左サラウンド下方混合)、Rst(ミグサラウンド下方混合)、LFE(低域効果)を担持し、従属チャネルは拡張チャネルLb(左サラウンド後方)、Rb(右サラウンド後方)および置換チャネルLs(左サラウンド)、Rs(右サラウンド)を担持する。完全な7.1信号デコードが実行されるときには、従属サブストリームからのLsおよびRsチャネルが独立サブストリームからのLstおよびRstチャネルを置き換える。
図1のaは、5.1チャネルと7.1チャネルの間の関係を示す例示的なDD+ 7.1マルチチャネル・オーディオ・エンコーダ100の高レベルのブロック図を示している。マルチチャネル・オーディオ信号の7プラス1のオーディオ・チャネル101(L、C、R、Ls、Lb、RsおよびRbプラスLFE)は二つのグループのオーディオ・チャネルに分割される。基本群121のチャネルはオーディオ・チャネルL、C、RおよびLFEおよび下方混合されたサラウンド・チャネルLst 102およびRst 103を含む。該下方混合されたサラウンド・チャネルは典型的には7.1サラウンド・チャネルLs、Rsおよび7.1後方チャネルLb、Rbから導出される。例として、下方混合されたサラウンド・チャネル102、103は、LbおよびRbチャネルおよび7.1サラウンド・チャネルLs、Rsの一部または全部を下方混合ユニット109において加算することによって導出される。下方混合されたサラウンド・チャネルLst 102およびRst 103は他の仕方で決定されてもよいことを注意しておくべきである。例として、下方混合されたサラウンド・チャネルLst 102およびRst 103は、7.1チャネルの二つ、たとえば7.1サラウンド・チャネルLs、Rsから直接決定されてもよい。
基本群121のチャネルはDD+ 5.1オーディオ・エンコーダ105においてエンコードされ、それによりDD+コア・フレーム151(図1のb参照)において伝送される独立サブストリーム(「IS」)110を与える。コア・フレーム151はISフレームとも称される。第二群122のオーディオ・チャネルは7.1サラウンド・チャネルLs、Rsおよび7.1サラウンド後方チャネルLb、Rbを含む。第二群122のチャネルはDD+ 4.0オーディオ・エンコーダ106においてエンコードされ、それにより一つまたは複数のDD+拡張フレーム152、153(図1のb参照)において伝送される従属サブストリーム(「DS」)120を与える。チャネルの第二群122は本稿ではチャネルの拡張群122と称され、拡張フレーム152、153はDSフレーム152、153と称される。
図1のbは、エンコードされたオーディオ・フレーム151、152、153、161、162の例示的なシーケンス150を示している。図示した例は、それぞれISフレーム151および161を含む二つの独立サブストリームIS0およびIS1を含んでいる。複数のIS(およびそれぞれのDS)が(たとえば映画の異なる言語のためのまたは異なるプログラムのための)複数の関連したオーディオ信号を提供するために使用されてもよい。各独立サブストリームは、それぞれ一つまたは複数の従属サブストリームDS0、DS1を含む。各従属サブストリームはそれぞれのDSフレーム152、153および162を含む。さらに、図1のbは、マルチチャネル・オーディオ信号の完全なオーディオ・フレームの時間的長さ170を示している。オーディオ・フレームの時間的長さ170は、(たとえばサンプリング・レートfs=48kHzにおける)32msであってもよい。換言すれば、図1のbは、一つまたは複数のISフレーム151、161およびそれぞれのDSフレーム152、153、162にエンコードされるオーディオ・フレームの時間的長さ170を示している。
エンコーダ100は、サブストリームの、異なる符号化フォーマットへの効率的なトランスコードを許容するデータを、サブストリーム中に含めるよう構成されていてもよい。例として、サブストリームは、DD+独立サブストリームIS0をDDビットストリームにトランスコードすることを許容するデータを含んでいてもよい。より一般的な表現では、エンコーダ100は、第一のオーディオ・コーデック(たとえばDD+)と互換である第一のビットストリームを生成するよう構成されていてもよい。第一のビットストリームは、トランスコーダが低下した計算量で第二のオーディオ・コーデック(たとえばDD)と互換な第二のビットストリームを生成することを許容するデータを含んでいてもよい。この目的のために、エンコーダ100は、第二のオーディオ・コーデック(たとえばDD)に基づいてオーディオ・チャネル101の一部または全部をエンコードし、トランスコーダが効率的な仕方で第一のビットストリームから第二のビットストリームを生成できるようにする一つまたは複数の制御パラメータを決定するよう構成されていてもよい。帯域幅効率に鑑み、第一のビットストリームは、第一のオーディオ・コーデックに基づいてエンコードされているオーディオ・データのみを含み、第二のオーディオ・コーデックに基づいてエンコードされたオーディオ・データは含まないべきであることを注意しておく。換言すれば、前記一つまたは複数のパラメータは、オーディオ・データのトランスコードに関係するだけであるべきである。
図2のaは、例示的なマルチチャネル・デコーダ・システム200、210の高レベルのブロック図を示している。特に、図2のaは、エンコードされた基本群121のチャネルを含むエンコードされたIS 201を受領する例示的な5.1マルチチャネル・デコーダ・システム200を示している。エンコードされたIS 201は受領されたビットストリームのISフレーム151から(たとえば図示しないデマルチプレクサを使って)取られる。ISフレーム151は、エンコードされた基本群121のチャネルを含み、5.1マルチチャネル・デコーダ205を使ってデコードされ、それにより、デコードされた基本群221のチャネルを含むデコードされた5.1マルチチャネル・オーディオ信号を与える。さらに、図2のaは、エンコードされた基本群121のチャネルを含むエンコードされたIS 201およびエンコードされた拡張群122のチャネルを含むエンコードされたDS 202を受領する例示的な7.1マルチチャネル・デコーダ・システム210を示している。上記で概説したように、エンコードされたIS 201はISフレーム151から取られてもよく、エンコードされたDS 202は受領されたビットストリームのDSフレーム152、153から(たとえば図示しないデマルチプレクサを使って)取られてもよい。デコード後、デコードされた基本群221のチャネルおよびデコードされた拡張群222のチャネルを含むデコードされた7.1マルチチャネル・オーディオ信号が得られる。下方混合されたサラウンド・チャネルLst、Rst 211は落とされてもよいことを注意しておくべきである。7.1マルチチャネル・デコーダ215はその代わりにデコードされた拡張群222のチャネルを利用するからである。7.1マルチチャネル・オーディオ信号の典型的なレンダリング位置232が図2のbのマルチチャネル構成230に示されている。図2のbは、聴取者の例示的な位置231およびビデオ・レンダリングのための画面の例示的な位置233も示している。
現在のところ、DD+での7.1チャネル・オーディオ信号のエンコードは、第一のコア5.1チャネルDD+エンコーダ105および第二のDD+エンコーダ106によって実行される。第一のDD+エンコーダ105は基本群121の5.1チャネルをエンコードし(よって5.1チャネル・エンコーダと称されてもよい)、第二のDD+エンコーダ106は拡張群122の4.0チャネルをエンコードする(よって、4.0チャネル・エンコーダと称されてもよい)。基本群121および拡張群122のチャネルのためのエンコーダ105、106は典型的には、互いについて何も知らない。二つのエンコーダ105、106のそれぞれは、全利用可能データレートの固定された部分に対応するデータレートを与えられる。換言すれば、ISのためのエンコーダ105およびDSのためのエンコーダ106は、全利用可能データレートのある固定割合を与えられる(たとえば、ISエンコーダ105のための全利用可能データレートのZ%(「ISデータレート」と称される)およびDSエンコーダ106のための全利用可能データレートの100%−Z%(「DSデータレート」と称される)、たとえばZ=50)。それぞれ割り当てられたデータレート(すなわちISデータレートおよびDSデータレート)を使って、ISエンコーダ105およびDSエンコーダ106は基本群121のチャネルおよび拡張群122のチャネルの独立なエンコードをそれぞれ実行する。
以下では、ISエンコーダ105およびDSエンコーダ106のコンポーネントに関するさらなる詳細が図3のコンテキストにおいて記述される。図3は、例示的なDD+マルチチャネル・エンコーダ300のブロック図を示している。ISエンコーダ105および/またはDSエンコーダ106は図3のDD+マルチチャネル・エンコーダ300によって具現されうる。エンコーダ300のコンポーネントを記述したあとに、マルチチャネル・エンコーダ300がどのようにして、第一のビットストリーム(第一のオーディオ・コーデック・システムを使ってエンコードされている)から第二のビットストリーム(第二のオーディオ・コーデック・システムを使ってエンコードされている)への効率的なトランスコードを可能にするよう適応されうるかが記述される。
マルチチャネル・エンコーダ300は、(たとえば5.1入力信号の)マルチチャネル入力信号の種々のチャネルに対応するPCMサンプルのストリーム311を受領する。PCMサンプルのストリーム311はPCMサンプルの諸フレームに配置されてもよい。各フレームは、マルチチャネル・オーディオ信号の特定のチャネルの所定数のPCMサンプル(たとえば1536個のサンプル)を含んでいてもよい。よって、マルチチャネル・オーディオ信号の各時間セグメントについて、マルチチャネル・オーディオ信号の異なるチャネルのそれぞれについて、異なるオーディオ・フレームが与えられる。マルチチャネル・オーディオ・エンコーダ300は、マルチチャネル・オーディオ信号の特定のチャネルについて、下記で記述される。しかしながら、結果として得られるAC-3フレーム318は典型的には、マルチチャネル・オーディオ信号のすべてのチャネルのエンコードされたデータを含む。
PCMサンプル311を含むオーディオ・フレームは、入力信号整形(conditioning)ユニット301においてフィルタリングされてもよい。その後、(フィルタリングされた)サンプル311は、時間から周波数への変換ユニット302において、時間領域から周波数領域に変換されてもよい。この目的のために、オーディオ・フレームは、サンプルの複数のブロックに細分されてもよい。それらのブロックは、所定の長さL(たとえばブロック当たり256個のサンプル)を有していてもよい。さらに、隣り合うブロックが、オーディオ・フレームからのサンプルのある程度の重なり(たとえば50%の重なり)をもっていてもよい。オーディオ・フレーム当たりのブロック数は、そのオーディオ・フレームの特性(たとえば過渡成分の存在)に依存してもよい。典型的には、時間から周波数への変換ユニット302は、時間から周波数への変換(たとえばMDCT(修正離散コサイン変換)変換)を、オーディオ・フレームから導出されたPCMサンプルの各ブロックに適用する。よって、サンプルの各ブロックについて、時間から周波数への変換ユニット302の出力において、変換係数312のブロックが得られる。
マルチチャネル入力信号の各チャネルは別個に処理されて、それによりマルチチャネル入力信号の異なるチャネルについて変換係数312のブロックの別個のシーケンスを提供してもよい。マルチチャネル入力信号のチャネルのいくつかの間の相関(たとえばサラウンド信号LsとRsの間の相関)に鑑み、統合チャネル処理ユニット303において統合的なチャネル処理が実行されてもよい。ある例示的な実施形態では、統合チャネル処理ユニット303はチャネル結合を実行し、それにより結合されたチャネルの群を単一の合成チャネルおよび結合サイド情報に変換する。該結合サイド情報は、単一の合成チャネルから個々のチャネルを再構成するために、対応するデコーダ・システム202、210によって使用されうる。例として、5.1オーディオ信号のLsおよびRsチャネルが結合されてもよく、あるいはL、C、R、LsおよびRsチャネルが結合されてもよい。ユニット303において結合が使われる場合、単一の合成チャネルのみが、図3に示されるさらなる処理ユニットに提出される。そうでない場合には、個々のチャネル(すなわち、変換係数312のブロックの個々のシーケンス)が、エンコーダ300のさらなる処理ユニットに渡される。
以下では、エンコーダのさらなる処理ユニットが、変換係数312のブロックの例示的なシーケンスについて記述される。該記述は、エンコードされるべきチャネルのそれぞれに(たとえば、マルチチャネル入力信号の個々のチャネルに、あるいはチャネル結合から帰結する一つまたは複数の合成チャネルに)当てはまる。
ブロック浮動小数点エンコード・ユニット304は、あるチャネル(フル帯域幅チャネル(たとえばL、CおよびRチャネル)、LFE(低域効果)チャネルおよび結合チャネルを含むすべてのチャネルに適用可能)の変換係数312を指数/仮数フォーマットに変換するよう構成されている。変換係数312を指数/仮数フォーマットに変換することによって、変換係数312の量子化から帰結する量子化ノイズが、絶対的な入力信号レベルから独立にされることができる。
典型的には、ユニット304において実行されるブロック浮動小数点エンコードは、変換係数312のそれぞれを指数および仮数に変換しうる。指数は、エンコードされた指数313を伝送するために必要とされるデータレート・オーバーヘッドを減らすために、できるだけ効率的にエンコードされるべきものである。同時に、指数は、変換係数312のスペクトル分解能を失うのを避けるために、できるだけ精確にエンコードされるべきである。以下では、DD+において(そしてDDにおいて)上述した目標を達成するために使われる例示的なブロック浮動小数点エンコード方式について簡単に述べる。DD+エンコード方式(および特にDD+において使用されるブロック浮動小数点エンコード方式)に関するさらなる詳細については、非特許文献2が参照される。その内容は参照によって組み込まれる。
ブロック浮動小数点エンコードの第一段階では、変換係数312のブロックについて生の指数が決定されうる。これは図4aにおいて示されている。ここでは、例示的な変換係数402のブロックについて、生の指数401のブロックが示されている。変換係数402は値Xをもち、変換係数402はXが1以下であるよう正規化されうることが想定される。値Xは仮数/指数フォーマットX=m・2−eで表現されうる。ここで、mが仮数(m≦1)(スケーリングされた値とも称される)であり、eは指数(スケール因子とも称される)である。ある実施形態では、生の指数401は0から24までの間の値を取ってもよく、それにより144dB(すなわち、2(-0)から2(-24))にわたるダイナミックレンジをカバーする。
(生の)指数401をエンコードするために必要とされるビット数をさらに減らすために、完全なオーディオ・フレーム(典型的にはオーディオ・フレーム当たり6個のブロック)の変換係数312のブロックを横断しての指数の時間共有(time sharing)など、さまざまな方式が適用されうる。さらに、指数は周波数を横断して(すなわち、変換/周波数領域における隣り合う周波数ビンを横断して)共有されてもよい。例として、指数は、二つまたは四つの周波数ビンを横断して共有されてもよい。さらに、変換係数312のあるブロックの諸指数は、隣り合う指数の間の差があらかじめ決定された最大値、たとえば±2を超えないことを保証するために、テンティングされ(tented)てもよい。これは、変換係数312のブロックの指数の効率的な差分エンコードを許容する(たとえば五つの差分を使う)。指数をエンコードするために必要とされるデータレートを低下させるための上述した諸方式(すなわち、時間共有、周波数共有(frequency sharing)、テンティングおよび差分エンコード)は、種々の仕方で組み合わされてもよく、そうして定義される種々の指数符号化モードの結果として指数をエンコードするために使われる種々のデータレートが得られる。上述した指数符号化の結果として、オーディオ・フレームの変換係数312のブロック(たとえばオーディオ・フレーム当たり6個のブロック)について、エンコードされた指数313のシーケンスが得られる。
ユニット304において実行されるブロック浮動小数点エンコード方式のさらなる段階として、もとの変換係数402の仮数m'は、対応する、結果として得られるエンコードされた指数e'によって正規化される。該結果として得られるエンコードされた指数e'は、上述した生の指数eとは異なることがある(時間共有、周波数共有および/またはテンティング段階のため)。図4aの各変換係数402について、正規化された仮数m'が、X=m'・2-e'として決定されてもよい。ここで、Xはもとの変換係数402の値である。オーディオ・フレームのブロックについての正規化された仮数m' 314は、仮数314の量子化のために量子化ユニット306に渡される。仮数314の量子化、すなわち量子化された仮数317の精度は、仮数量子化のために利用可能なデータレートに依存する。利用可能なデータレートは、ビット割り当てユニット305において決定される。
ユニット305において実行されるビット割り当てプロセスは、音響心理学的原理に基づいて、正規化された仮数314のそれぞれに割り当てられることのできるビット数を決定する。ビット割り当てプロセスは、オーディオ・フレームの正規化された仮数を量子化するための利用可能なビット・カウントを決定する段階を含む。さらに、ビット割り当てプロセスは、パワースペクトル密度(PSD)分布および周波数領域マスキング曲線を(音響心理学的モデルに基づいて)、各チャネルについて決定する。PSD分布および周波数領域マスキング曲線は、オーディオ・フレームの種々の正規化された仮数314への、利用可能なビットの実質的に最適な分配を決定するために使われる。
ビット割り当てプロセスにおける第一段階は、正規化された仮数314をエンコードするために利用可能な仮数ビットが何ビットあるかを決定することである。目標データレートは、現在のオーディオ・フレームをエンコードするために利用可能な全ビット数に変換される。特に、目標データレートは、エンコードされたマルチチャネル・オーディオ信号についてk個のビット毎秒を指定する。T秒のフレーム長を考えると、総ビット数はT*kとして決定されてもよい。利用可能な仮数ビット数は、総ビット数から、メタデータ、ブロック切り換えフラグ(検出された過渡成分および選択されたブロック長を信号伝達するため)、結合スケール因子、指数などといったオーディオ・フレームをエンコードするためにすでに使用済みのビットを引き去ることによって決定されてもよい。メタデータはたとえば、トランスコード目的のために使用されうる情報を含んでいてもよい。ビット割り当てプロセスは、ビット割り当てパラメータ315(後述)のような他の側面にまだ割り当てられる必要がありうるビットをも引き去ってもよい。結果として、利用可能な仮数ビットの総数が決定されうる。次いで、利用可能な仮数ビットの総数が、オーディオ・フレームのすべての(たとえば1個、2個、3個または6個の)ブロックにわたってすべてのチャネル(たとえば、諸メイン・チャネル、LFEチャネルおよび結合チャネル)の間で分配されてもよい。
さらなる段階として、変換係数312のブロックのパワースペクトル密度(「PSD」)分布が決定されてもよい。PSDは、入力信号の各変換係数周波数ビン内の信号エネルギーの尺度である。PSDは、エンコードされた指数313に基づいて決定されてもよく、それにより対応するマルチチャネル・オーディオ・デコーダ・システム200、210がマルチチャネル・オーディオ・エンコーダ300と同じ仕方でPSDを決定できるようにする。図4bは、エンコードされた指数313から導出された変換係数312のブロックのPSD分布410を示す。PSD分布410は、変換係数312のそのブロックについて周波数領域マスキング曲線431(図4d参照)を計算するために使用されてもよい。周波数領域マスキング曲線431は、マスカー周波数が該マスカー周波数の直近の周波数をマスクするという現象を記述する音響心理学的なマスキング効果を考慮に入れ、それによりマスカー周波数の直近の周波数を、そのエネルギーがあるマスキング閾値未満であれば、聞こえないようにする。図4cは、マスカー周波数421および近隣の周波数についてのマスキング閾値曲線422を示している。実際のマスキング閾値曲線422は、DD+エンコーダにおいて使用される(二セグメント)(区分線形)マスキング・テンプレート423によってモデル化されてもよい。
マスキング閾値曲線422の形が(および結果としてマスキング・テンプレート423も)、たとえばZwickerによって定義されるような臨界帯域スケール上で(または対数スケール上で)種々のマスカー周波数について実質的に不変のままであることが観察された。この観察に基づいて、DD+エンコーダはマスキング・テンプレート423を帯域分割された(banded)PSD分布に適用する(ここで、帯域分割されたPSD分布は、諸帯域がほぼ臨界帯域の半分の幅である臨界帯域スケール上のPSD分布に対応する)。帯域分割されたPSD分布の場合、単一のPSD値が臨界帯域スケール上の(または対数スケール上の)複数の帯域のそれぞれについて決定される。図4dは、図4bの線形離間された(linear-spaced)PSD分布410についての例示的な帯域分割されたPSD分布430を示している。帯域分割されたPSD分布430は、線形離間されたPSD分布410からの、臨界帯域スケール上で(または対数スケール上で)同じ帯域内にはいるPSD値を(たとえば対数‐加算演算を使って)組み合わせることによって、線形離間されたPSD分布410から決定されてもよい。マスキング・テンプレート423は、帯域分割されたPSD分布430の各PSD値に適用されてもよい。それにより、臨界帯域スケール上で(または対数スケール上で)変換係数402のブロックについて全体的な周波数領域マスキング曲線431が与えられる(図4d参照)。
図4dの全体的な周波数領域マスキング曲線431は、線形周波数分解能に展開し戻されてもよく、図4bに示した変換係数402のブロックの線形PSD分布410と比較されてもよい。これは図4eに示されている。この図は、線形分解能上での周波数領域マスキング曲線441とともに線形分解能上でのPSD分布410を示している。周波数領域マスキング曲線441は聴力曲線の絶対的な閾値をも考慮に入れてもよいことを注意しておくべきである。
特定の周波数ビンの変換係数402の仮数をエンコードするためのビット数は、PSD分布410に基づいて、かつマスキング曲線441に基づいて決定されてもよい。特に、PSD分布410のうちマスキング曲線441を下回るPSD値は、知覚的に有意でない仮数に対応する(そのような周波数ビンにおけるオーディオ信号の周波数成分はその近傍におけるマスカー周波数によってマスクされるから)。結果として、そのような変換係数402の仮数は全くビットを割り当てられる必要がない。他方、PSD分布410のうちマスキング曲線441より上のPSD値は、これらの周波数ビンにおける変換係数402の仮数がエンコードのためのビットを割り当てられるべきであることを示す。そのような仮数に割り当てられるビット数は、PSD分布410のPSD値とマスキング曲線441の値との間の差が増すにつれて増えるべきである。上述したビット割り当てプロセスの結果として、図4eに示されるような種々の変換係数402へのビットの割り当て442が得られる。
上述したビット割り当てプロセスは、すべてのチャネル(たとえば直接チャネル、LFEチャネルおよび結合チャネル)について、かつ当該オーディオ・フレームのすべてのブロックについて実行され、それにより全体的な(予備的な)割り当てられたビット数を与える。この全体的な予備的な割り当てられたビット数が利用可能な仮数ビットの総数に一致する(たとえば等しくなる)可能性は低い。いくつかの場合には(たとえば複雑なオーディオ信号について)、全体的な予備的な割り当てられたビット数は、利用可能な仮数ビットの数を超えることがありうる(ビット飢餓)。他の場合には(たとえば、単純なオーディオ信号の場合)、全体的な予備的な割り当てられたビット数は利用可能な仮数ビット数より少ないことがありうる(ビット余剰)。エンコーダ300は典型的には、全体的な(最終的な)割り当てられるビット数を利用可能な仮数ビット数にできるだけ近く一致させようとする。この目的のために、エンコーダ300は、いわゆるSNRオフセット・パラメータを利用してもよい。SNRオフセットは、マスキング曲線441をPSD分布410に対して上または下に移動させることによって、マスキング曲線441の調整を許容する。マスキング曲線441を上または下に移動させることによって、割り当てられるビットの(予備的な)数はそれぞれ減少または増加させられることができる。よって、SNRオフセットは、終了基準(たとえば、予備的な割り当てられるビット数が利用可能なビット数に可能な限り近い(ただし利用可能なビット数より少ない)という基準;または所定の最大の逐次反復回数が実行されたという基準)が満たされるまで逐次反復的な仕方で調整されてもよい。
上記で示したように、割り当てられるビットの最終的な数と利用可能なビット数との間の最良一致を許容するSNRオフセットの逐次反復的な探索は、二分探索を利用してもよい。各反復工程において、予備的な割り当てられるビット数が利用可能なビット数を超えるか否かが判定される。この判定段階に基づいて、SNRオフセットが修正され、さらなる反復工程が実行される。二分探索は、(log2(K)+1)回の反復工程を使って最良一致(および対応するSNRオフセット)を決定するよう構成される。ここで、Kは可能なSNRオフセットの数である。逐次反復的な探索の終了後、最終的な割り当てられるビット数が得られる(これは典型的には、以前に決定された予備的な割り当てられるビット数の一つに対応する)。最終的な割り当てられるビット数は利用可能なビット数より(やや)少なくてもよいことを注意しておくべきである。そのような場合、最終的な割り当てられるビット数を利用可能なビット数と完全に整列させるためにスキップ・ビットまたは充填ビットが使用されてもよい。
SNRオフセットは、SNRオフセット0が、もとのオーディオ信号とエンコードされた信号との間の「最小可知差異(just-noticeable difference)」として知られるエンコード条件につながるエンコードされた仮数につながるよう、定義されてもよい。換言すれば、SNRオフセット0では、エンコーダ300は知覚的モデルに従って動作する。SNRオフセットの正の値はマスキング曲線441を下に動かして、それにより(典型的には気づかれるほどの品質改善なしに)割り当てられるビット数を増やしてもよい。SNRオフセットの負の値はマスキング曲線441を上に動かして、それにより割り当てられるビット数を減らし(それにより典型的には耳に聞こえる量子化ノイズを増大させ)てもよい。SNRオフセットはたとえば、−48ないし+144dBの有効範囲をもつ10ビットのパラメータであってもよい。最適なSNRオフセット値を見出すために、エンコーダ300は逐次反復的な二分探索を実行してもよい。逐次反復的な二分探索は、PSD分布410/マスキング曲線441比較の(10ビット・パラメータの場合)最大11回の逐次反復を必要とすることがありうる。実際に使われるSNRオフセット値は、ビット割り当てパラメータ315として、対応するデコーダに伝送されてもよい。さらに、仮数は、(最終的な)割り当てられるビットに従ってエンコードされ、それにより量子化された仮数317の集合を与える。
DDおよびDD+オーディオ・コーデック・システムの場合、各ブロックについて、csnroffsetと呼ばれる6ビットの粗いSNRオフセットがあってもよく、各チャネルについて、fsnroffsetと呼ばれる4ビットの細かいSNRオフセット値があってもよい。csnroffset値は、フレームのすべてのブロックについて同じであってもよく、fsnroffset値はフレームのすべてのブロックおよびチャネルについて同じであってもよい。DD+オーディオ・コーデック・システムでは、その値は、パラメータcsnroffsetおよびfsnroffsetをフレーム(frame)当たり一度だけ、6ビットのfrmcsnroffsetおよび4ビットのfrmfsnroffsetパラメータとして送信するために選択されてもよい。
本稿で概説されるように、DD+オーディオ・コーデック・システムでは、convsnroffsetパラメータが提供されてもよい。convsnroffsetパラメータは典型的には、二つの部分に分割されず、convsnroffsetは典型的にはDD+ビットストリーム内の各オーディオ・ブロックについての10ビット値である。よって、(本稿に記載されるように)convsnroffsetパラメータがcsnroffsetおよびfsnroffsetパラメータに基づいて決定される場合、convsnroffsetパラメータは、6ビットのcsnroffsetおよび4ビットのfsnroffsetを単一の値に組み合わせることによって決定されてもよい。
このように、SNR(信号対雑音比)オフセット・パラメータは、エンコードされたマルチチャネル・オーディオ信号の符号化品質の指標として使われてもよい。SNRオフセットの上述した取り決めによれば、SNRオフセット0は、もとのマルチチャネル・オーディオ信号に対する「最小可知差異」を有するエンコードされたマルチチャネル・オーディオ信号を示す。正のSNRオフセットは、もとのマルチチャネル・オーディオ信号に対する、少なくとも「最小可知差異」の品質を有するエンコードされたマルチチャネル・オーディオ信号を示す。負のSNRオフセットは、もとのマルチチャネル・オーディオ信号に対する「最小可知差異」より低い品質を有するエンコードされたマルチチャネル・オーディオ信号を示す。SNRオフセット・パラメータの他の取り決めも可能でありうることを注意しておくべきである(たとえば逆の取り決め)。
エンコーダ300はさらに、エンコードされた指数313、量子化された仮数317、ビット割り当てパラメータ315および他のエンコード・データ(たとえば、ブロック切り換えフラグ、仮数、結合スケール因子など)を所定のフレーム構造(たとえばAC3フレーム構造)中に配列し、それによりマルチチャネル・オーディオ信号のオーディオ・フレームについてのエンコードされたフレーム318を与えるよう構成されているビットストリーム・パッキング・ユニット307を有する。
上記で示したように、エンコーダ100、300は、トランスコーダが、第一のオーディオ・コーデック・システム(たとえばDD+)に基づいてエンコードされたエンコードされたフレーム318を、第二のオーディオ・コーデック・システム(たとえばDD)のデコーダによってデコードされうる修正されたフレームにトランスコードできるようにする一つまたは複数の制御パラメータを決定するよう構成されていてもよい。この目的のために、エンコーダ100、300は、第二のオーディオ・コーデック・システムに基づいて動作するオーディオ・エンコーダをシミュレートし、それにより前記制御パラメータを決定するよう構成されていてもよい。
このことは、トランスコード・シミュレーション・ユニット320を有する図3のエンコーダ300に示されている。トランスコード・シミュレーション・ユニット320は、エンコードされた指数313と、量子化された仮数317と、第一のオーディオ・コーデック・システムに基づいてオーディオ信号のフレームをエンコードするためにエンコーダ300によって使用された一つまたは複数のビット割り当てパラメータ315とを受領してもよい。さらに、トランスコード・シミュレーション・ユニット320は、トランスコーダの機能(たとえば、量子化された仮数317を量子化解除し、仮数317を第二のオーディオ・コーデック・システムに従って量子化する)をシミュレートするよう構成されていてもよい。特に、トランスコード・シミュレーション・ユニット320は、トランスコードの計算量を軽減するためにトランスコーダに伝送されうる第二の制御パラメータ321(たとえば、一つまたは複数の第二のビット割り当てパラメータ)を決定するよう構成されていてもよい。
例として、DD+エンコーダは典型的には、トランスコーダがDD+ビットストリーム(複数のエンコードされたフレーム318を含む)を640kbps DDビットストリームに変換できるようにするいわゆるconvsnroffsetパラメータ(すなわち、制御パラメータ)を決定するよう構成されている。convsnroffsetパラメータは、変換SNRオフセット・パラメータまたはより一般に制御パラメータとも称されうる。convsnroffsetパラメータの計算は、トランスコーダ(デコーダ変換器または変換器とも称される)におけるDDフォーマットへの変換の計算量を減らすのを助けるために、DD+エンコード・プロセスのコンテキストにおいて実行されてもよい。convsnroffsetパラメータの計算は典型的には、エンコーダ100、300による、DD+ビットストリームの部分的なデコードおよび640kbps DDエンコードのシミュレーションを要求する。エンコーダ100、300がDD+エンコーダのためだけでなくDDエンコーダのためにも図3および図4aないし4eのコンテキストにおいて記述されたエンコード・プロセスを実行しなければならないので、これはかなりの計算量につながる。convsnroffsetパラメータは典型的には、640kb/sの目標ビットレートで動作するDDエンコーダのために導出された上述したSNRオフセットに対応する。本稿では、convsnroffsetパラメータを決定するための計算量を軽減することを許容する方法およびシステムが記述される。さらに、記述される方法およびシステムは、DD+ビットストリームからDDビットストリームへのトランスコードを実行する計算量を減らすことを許容しうる。
DD+エンコーダ300は、(所与の品質の)エンコードされたオーディオ信号のビットレートを減らすまたは(所与のビットレートの)エンコードされたオーディオ信号の品質を上げるための一つまたは複数の符号化ツールを利用してもよい。そのような符号化ツールは、たとえば、AHT(Adaptive Hybrid Transform[適応ハイブリッド変換])の使用、ECPS(Enhanced Coupling[向上結合])の使用、SPX(Spectral Extension[スペクトル拡張])の使用および/またはTPNP(Temporal Pre-Noise Processing[時間的プレノイズ処理])の使用である。(たとえばモバイル装置のような限られた計算量をもつコンピューティング装置との関連で使われる)低計算量DD+エンコーダとして知られる変形は、典型的には、上述したDD+符号化ツールを利用しない。よって、DD+ LCエンコーダは、エンコードされた指数、量子化された仮数、ビット割り当てパラメータなどを、典型的にはDDビットストリーム・フォーマットとは異なるDD+ビットストリーム・フォーマットにエンコードするDDエンコーダと同様であるまたはそのようなDDエンコーダに対応する。よって、(低計算量)DD+エンコーダとDDエンコーダとの間にはかなりの重複があることが観察された。この重複または類似性は、convsnroffsetパラメータを決定するための計算量を軽減するために使用できる。
上記で示したように、典型的なDD+エンコーダ300は、トランスコーダにおけるDD+ビットストリームの640kbps DDビットストリームへの効率的な変換を可能にするためにconvsnroffsetパラメータを決定する。convsnroffsetパラメータをDD+ビットストリームに挿入することによって、トランスコーダは、convsnroffsetパラメータによって与えられる分解能をもつ量子化器を使って仮数を直接再量子化できるので、上述した逐次反復的なビット割り当てプロセス(たとえば11回の反復工程を含む)を実行する必要がなくなる。よって、DDビットストリームについての複雑なSNRオフセット計算が、変換器/トランスコーダからエンコーダに移され、その結果がconvsnroffsetパラメータとしてDD+ビットストリーム内で伝送される。エンコーダ300において(いわゆる詰め物器〔スタッファー〕(stuffer)内で実行される)convsnroffsetパラメータの計算は、全DD+エンコーダ計算量の約25〜40%を要求する。よって、convsnroffsetパラメータを計算するための複雑さを軽減することが望ましい。
本稿では、低下した計算量でconvsnroffsetパラメータを決定することを許容する単純化された詰め物器が記載される。上記で概説したように、典型的にはDD+エンコーダとDDエンコーダの間には大きな重複がある。特に、図3および図4aないし4eのコンテキストで述べた浮動小数点エンコードに関して大きな重複がある。これは、低計算量(LC: low complexity)DD+エンコーダについて特に正しい。その場合、DDエンコーダとLC DD+エンコーダとの間の唯一の違いはビットストリーム・フォーマットでありうる。指数および仮数を決定する方式および指数をエンコードし仮数を量子化する方式は典型的には同じである。よって、詰め物器のためにDD+ SNRオフセットを再利用し、同じSNRオフセット・パラメータを使ってDD+ビットストリームをDDビットストリームに変換することが可能でありうる。換言すれば、(DD+コーデックのコンテキストにおいて使用される)SNRオフセット・パラメータをconvsnroffsetパラメータとして再利用し、それにより、明示的なconvsnroffsetパラメータ計算を無用にし、それにより(LC)DD+エンコーダの計算量を有意に軽減することが可能でありうる。
さらに、SNRオフセット・パラメータのconvsnroffsetパラメータとしての再利用は、トランスコードされたDDエンコードされたオーディオ信号のオーディオ品質の点でも有益でありうる。特に、もとのDD+表現が維持されるので、トランスコーダはオーディオ品質に影響しないことがありうる。特に、DD+目標ビットレートがDD目標ビットレートに対応する場合、すなわち、DD+ビットストリームとDDビットストリームの目標ビットレートが同じ(たとえば640kbps)である場合、トランスコーダは、DD+ビットストリームからの指数および/または量子化された仮数を、DDビットストリームを生成するために再利用するよう構成されていてもよい。結果として、DD+ビットストリーム内に含まれるオーディオ信号のオーディオ品質およびDDビットストリーム内に含まれるオーディオ信号のオーディオ品質は、同じになる。さらに、トランスコーダは、DDビットストリームを生成するときに仮数を量子化解除して再量子化する必要がないので、トランスコーダの複雑さが軽減される。
上記で示したように、LC DD+エンコーダは、エンコードされた指数、量子化された仮数などをDD+ビットストリーム・フォーマットにエンコードするDDエンコーダと見ることができる。DD+ビットストリーム・フォーマットは典型的にはDDビットストリーム・フォーマットとは異なる。特に、DDビットストリーム・フォーマットについての(同期情報(si);ビットストリーム情報(bsi);オーディオ・フレーム(audfrm);補助データ(auxdata);誤り検査;指数;などについての)固定されたビットの量は典型的にはDD+ビットストリーム・フォーマットに比べて大きい。このことは図5で見て取れる。ここで、DD+ビットストリーム・フォーマットとDDビットストリーム・フォーマットにおいて使われる固定されたビットの数の間の差500が複数のフレームについて示されている。DDビットストリーム・フォーマットがDD+ビットストリーム・フォーマットより平均で約80ないし100の固定されたビットだけ多く必要とすることが見て取れる。結果として、DDビットストリームを生成するためにDD+ SNRオフセットを使うことは、640kbpsフレーム・サイズ(640kbps=20480ビット/フレーム)で利用可能なよりも多くのビットを要求するビットストリームを与える。換言すれば、DD+のために決定されたSNRオフセット・パラメータをconvsnroffsetパラメータとして使うとき、このことは、目標ビットレート640kbit/sをわずかに超えるDDビットストリームにつながる。しかしながら、これは、通例は、受け容れ可能ではない。トランスコーダは典型的には20480ビット/フレームの固定したフレーム・サイズ、すなわち目標ビットレートに対応する固定したフレーム・サイズを提供するからである。
この問題を克服するために、DD+目標ビットレートに依存する種々のアプローチが使用されうる。640kbits/sのDD+目標ビットレートの場合、すなわちDD目標ビットレートに対応するDD+目標ビットレートの場合、上述した問題は、DD+エンコーダ300のビット割り当てプロセスのコンテキストにおいてDD/DD+の固定されたビットの差を考慮に入れることによって克服されうる。上記で概説したように、逐次反復式のビット割り当てプロセスは、利用可能な仮数ビットの総数、すなわち仮数の量子化に割り当てられてもよいビットの総数を決定することで始まる。本稿では、利用可能な仮数ビットのDD+固有の総数から、DD/DD+の固定されたビットの差を減算し、それにより可能性のあるDDへのトランスコードを考慮に入れた、利用可能な仮数ビットの低下した総数を与えることが提案される。減算されるDD/DD+の固定されたビットの差は、フレーム固有の仕方で決定されてもよいし、あるいは平均または最悪ケースの値に対応していてもよい。次いで、DD+ SNRオフセット計算は、利用可能な仮数ビットの低下した総数を使って実行されてもよい。
結果として、DD+エンコードされたオーディオ信号の品質は、わずかに低下する。しかしながら、オーディオ品質への影響は低い。観察される最悪ケースのペナルティーが、フレーム当たりのDD/DD+の固定されたビットの差の102ビットの範囲内であり、これは3kbpsのビットレート、あるいは総DD+目標ビットレートの0.5%に対応するという事実のためである。上記で示したように、利用可能な仮数ビットの低下した総数のためDD+ビットストリーム内で使用されないビットは、スキップ・ビットまたは充填ビットで満たされて、それにより640kbits/sというDD+目標ビットレートにおけるDD+互換フレームを与えてもよい。
さらなる結果として、DD+エンコード・プロセスのコンテキストにおいて計算されたSNRオフセットは、今や、convsnroffsetパラメータとして使用されることができる。今や、トランスコードされたDDビットストリームが640kbpsのDD目標ビットレートを満たすことが保証される。
さらなる恩恵として、トランスコーダ(または変換器)の複雑さが軽減されることができることを注意しておくべきである。トランスコーダは、部分的なDD+デコードおよびDD再エンコードを実行する必要なしに、DD+エンコードされた指数およびDD+量子化された仮数をDDビットストリーム中にコピーしてもよい。
DD+目標ビットレートがDD目標ビットレートより小さい状況では別のアプローチを取ることができる。例として、DD+目標ビットレートは448kbpsまたは384kbpsであってもよい。変換器は典型的には、一つだけのDD目標ビットレート(たとえば640kbps)に限定されており、そのため前記の低下した諸DD+目標ビットレートは利用可能ではない。にもかかわらず、DD+エンコードのコンテキストにおいて決定されたSNRオフセットは、convsnroffsetパラメータとして再利用されてもよい。これは、いずれにせよDD+エンコードされたオーディオ信号の品質はDD+目標ビットレートによって制限されるという事実のため、可能である。DD目標ビットレートより低いDD+目標ビットレートでエンコードされたDD+エンコードされたオーディオ信号のトランスコードは、そのDD+エンコードされたオーディオ信号より高いオーディオ品質をもつDDエンコードされたオーディオ信号を提供することはできない。
しかしながら、比較的低いDD+目標ビットレートで動作させられるDD+エンコーダは、DDエンコーダによって使われない符号化ツールを利用することがある。よって、これらの符号化ツールの影響が考慮に入れられるべきである。DD+エンコーダがフル・チャネルのエンコードされた指数および量子化された仮数を提供する場合、これらのフル・チャネル(すなわちエンコードされた指数および量子化された仮数)はDDビットストリーム中にコピーされ、それにより、通常のトランスコーダに比べてオーディオ品質(すなわち信号対雑音比)を改善することができる。DD+デコードおよびDD再エンコードの段階が無用になるからである。
DD+エンコーダが一つまたは複数の結合チャネルを提供する場合(典型的には、DDおよびDD+エンコーダは単一の結合チャネルしか提供しない)、結合チャネルは典型的には、DDビットストリーム内のフル・チャネル(full channels)として個々にデコードされ、再エンコードされる必要がある。(640kbpsの)DD目標ビットレートでのDDエンコーダは典型的には結合を利用しないからである。このトランスコードは、DD+エンコードされたオーディオ信号に比べてのDDエンコードされたオーディオ信号の品質損失につながりうる(DD+デコードおよびDD再エンコード動作のため)。さらに、複数のフル・チャネルのDDエンコードは、典型的には、低下した数の結合チャネルのDD+エンコードに比べて増加した量のビットを必要とする。例として、5.1マルチチャネル・オーディオ信号の全五つの信号は結合されていてもよく、そうすれば単一のもとの結合チャネルがDDエンコーダによって五回エンコードされる必要がある状況になる。もとの結合チャネルを複数回(たとえば五回)エンコードするために必要とされる追加的なビットは、(結合チャネルについてのビット需要に比べての)フル・チャネルについてのより小さなビット需要によって補償されうる。
図6は、複数の異なるオーディオ信号のオーディオ品質が解析される例示的なMUSHRA(MUltiple Stimuli with Hidden Reference and Anchor[隠された参照およびアンカーのある複数刺激])試験を示している。特に、明示的に計算されたconvsnroffsetパラメータを使ってトランスコードされたトランスコード信号のオーディオ品質601が、DD+エンコードされたオーディオ信号のSNRオフセットに対応するconvsnroffsetパラメータを使ってトランスコードされたトランスコード信号のオーディオ品質602と比較される。図示した例では、DD+目標ビットレートは384kbpsであり、DD目標ビットレートは640kbpsである。図示した例では、DD+エンコーダ300は結合を利用する(結合開始周波数は約10kHz)。図示した複数の異なるオーディオ信号について、有意な品質劣化は観察できないことが観察できる。他方、エンコーダ300における計算量および可能性としてはトランスコーダにおける計算量は有意に低下している。
変換された(すなわちトランスコードされた)ビットストリームのビットレートは(たとえば640kbpsの)DD目標ビットレートを超過することがあることを注意しておくべきである。これは、640kbpsのDD+の場合について(すなわち、DD+目標ビットレートがDD目標ビットレートに対応する場合について)最悪ケースのDD+/DDの固定されたビットの差が正しく決定されない(すなわち、低すぎると想定される)場合に起こりうる。代替的または追加的に、このことは、より低いデータレートについて(すなわち、DD+目標ビットレートがDD目標ビットレートより低い場合について)、前記一つまたは複数の展開された結合チャネルが前記変換において利用可能なよりも多くのビットを必要とする場合に、起こりうる。
エンコーダ300は、DD+ SNRオフセットがconvsnroffsetパラメータとして使われるとしたら変換されたDDビットストリームがDD目標ビットレートを超過することになる上述した状況を検出するよう構成されていてもよい。特に、DD+エンコーダ300は、(convsnroffsetパラメータの明示的な決定のために必要とされる11回の反復工程に比べ)単一のビット割り当て反復工程をもって、変換されたDDビットストリームについてのDD+ SNRオフセットを有効確認するよう構成されていてもよい。これは、フレームごとに検証されることができる。
(ある特定のフレームについて)DD+ SNRオフセットをconvsnroffsetパラメータとして使うことがDD目標ビットレートを超過するビット数につながると判定される場合、エンコーダ300は、一つまたは複数の回復戦略を適用することができる:例として、エンコーダ300は、予備の備えとして、明示的なconvsnroffset計算を実行するよう構成されることができる。DD+ SNRオフセットは、改善された出発点として使用されることができる。それにより、必要とされる反復工程の数を潜在的に減らす。代替的または追加的に、経験的な解析が、DD+ SNRオフセットに基づいて初期SNRオフセットを決定するために使われることができる。ここで、初期SNRオフセットはビット割り当て反復工程の数を減らす(たとえば最小化する)。代替的または追加的に、明示的なconvsnroffset計算が使用されてもよいが、逐次反復プロセスは、十分良好と考えられる(たとえば、マスキング閾値より6dB低い量子化ノイズにつながる)中間結果が得られたときに停止されてもよい。
本稿では、DD+のSNRオフセット値をトランスコーダ/変換器においてDDエンコードのために使用されるconvsnroffset値にコピーすることが提案されている。このアプローチは、640kbpsで動作するLC DD+エンコーダにとって特に重要である。LC DD+エンコーダはこの目標ビットレートについては上記のDD+ツールまたは結合のいずれも使用しないからである。より低いビットレートについては、LC DD+エンコーダは典型的には結合を使う。にもかかわらず、DD+ SNRオフセット値はconvsnroffset値のために使用されることができ、オーディオ品質は小さな潜在的な劣化があるだけである。
上記で概説したように、640kbps DDフォーマットは典型的には、640kbps DD+フォーマットよりもサイド情報を記憶するためにより多くのビットを必要とする。本稿では、DD+エンコード・プロセスの間のビット差を考えることが提案される。DD+についての失われたビットレートの最大量は、3kbpsまたは総ビットレートの0.5%であると測定された。これはDD+ビットストリームの可聴な劣化につながるものではない。しかしながら、DD+エンコードの間にビット差を考慮に入れることによって、DD+エンコードについてとDD+からDDへのトランスコードについてとで、同じSNRオフセットを使うことが可能になる。DD+ビットストリームおよびトランスコードされたDDビットストリームの結果として得られるデコーダ出力は、典型的には、DD+デコーダおよびDDデコーダによって適用される異なるディザリングを除いて、同じである。
LC DD+エンコーダのより低いビットレート(たとえば448kbpsおよび384kbps)については、結合は典型的にはLC DD+エンコーダによって使用される。変換器は典型的には、結合なしに、DD+ビットストリームを640kbps DDビットストリームに変換する。聴取試験は、変換器についてDD+ SNRオフセットを使うこと(すなわち、convsnroffsetをDD+ SNRオフセットに等しく設定すること)は、明示的に計算されたconvsnroffsetパラメータを使って変換器によって導出されたトランスコード信号のオーディオ品質に匹敵するトランスコード信号のオーディオ品質を与えることを示している。実験結果は、結合チャネルのフル・チャネルとしてのエンコードによって引き起こされるビットの増加は、典型的には、(たとえば640kbpsの)DD目標ビットレートによって設定される限界を超過しないことをも示している。
DD+エンコーダは、DD+ SNRオフセットが変換されたDDビットストリームについて無効であるかどうか(すなわち、DDビットストリームを生成するために変換器内でDD+ SNRオフセットを使うときに、過多な数のビットがあるかどうか)を判定するよう構成されていてもよい。もしそうであれば、そのようなビットあふれが起こる特定のフレームについて予備の備えとして、明示的な変換器snroffset(すなわちconvsnroffset)パラメータ計算を使うことが可能である。にもかかわらず、DD+ snroffset値をconvsnroffsetパラメータ計算のためのよりよい出発点として使うことによって、および/または最適結果を見出す前に、たとえば中間結果がすでにあらかじめ決定された品質基準を満たすときに、逐次反復を停止することによって、計算量を減らすことが可能でありうる。
本稿で記載した方法、およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載された方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたはインターネットのような有線ネットワークのようなネットワークを介して転送されてもよい。本稿で記述された方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。
いくつかの態様を記載しておく。
〔態様1〕
第一のオーディオ・コーデック・システムに基づくオーディオ信号のフレームをエンコードして、それにより第一の目標データレートの第一のビットストリームを与えるよう構成されているオーディオ・エンコーダであって、当該オーディオ・エンコーダは:
・前記オーディオ信号のフレームに基づいてスペクトル係数の集合を決定するよう構成された変換ユニットと;
・前記スペクトル係数の集合に基づいて、スケール因子の集合およびスケーリングされた値の集合を決定し、
前記スケール因子の集合をエンコードしてエンコードされたスケール因子の集合を与えるよう構成された
浮動小数点エンコード・ユニットと;
・前記第一の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合について使われるビット数に基づき、前記スケーリングされた値の集合を量子化するための利用可能なビットの総数を決定し、
前記スケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの総数の割り当てを示す第一の制御パラメータを決定し、
前記第一の制御パラメータに基づいて、前記スケーリングされた値の集合を量子化して、量子化されたスケーリングされた値の集合を与えるよう構成されている、
ビット割り当ておよび量子化ユニットと;
・トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするための第二の制御パラメータを導出するよう構成されたトランスコード・シミュレーション・ユニットであって、前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致し、前記トランスコード・シミュレーション・ユニットは、前記第一の制御パラメータから前記第二の制御パラメータを導出するよう構成されている、トランスコード・シミュレーション・ユニットと;
・量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、前記第一の制御パラメータおよび前記第二の制御パラメータを含む前記第一のビットストリームを生成するよう構成されたビットストリーム・パッキング・ユニットを有する、
オーディオ・エンコーダ。
〔態様2〕
前記トランスコード・シミュレーション・ユニットが、前記第一の制御パラメータだけから前記第二の制御パラメータを導出するよう構成されている、態様1記載のオーディオ・エンコーダ。
〔態様3〕
前記トランスコード・シミュレーション・ユニットは、第一の制御パラメータに等しい前記第二の制御パラメータの値を設定するよう構成されている、態様1または2記載のオーディオ・エンコーダ。
〔態様4〕
前記トランスコード・シミュレーション・ユニットは、前記第二のオーディオ・コーデック・システムに基づくビット割り当てプロセスを実行することなく前記第二の制御パラメータを導出するよう構成されている、態様1ないし3のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様5〕
・前記第一の制御パラメータは粗い成分および細かい成分を含み、
・前記トランスコード・シミュレーション・ユニットは、前記粗い成分および細かい成分を組み合わせて前記第二の制御パラメータを導出するよう構成されている、
態様1ないし4のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様6〕
・前記第一のビットストリームは第一のフォーマットに準拠し;
・前記第二のビットストリームは第二のフォーマットに準拠し;
・前記トランスコード・シミュレーション・ユニットは、前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合を表現するために前記第二のフォーマットによって要求される超過ビットの数を決定するよう構成されており;
・前記ビット割り当ておよび量子化ユニットは、超過ビットの数にも基づいて利用可能なビットの前記総数を決定するよう構成されている、
態様1ないし5のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様7〕
前記ビット割り当ておよび量子化ユニットが、利用可能なビットの前記総数を、前記超過ビットの数だけ減らすよう構成されている、態様6記載のオーディオ・エンコーダ。
〔態様8〕
前記超過ビットの数が、
・前記オーディオ信号の当該フレームについて特定的に決定される、または
・あらかじめ決定された値、たとえば最悪ケースの値である、
態様6または7記載のオーディオ・エンコーダ。
〔態様9〕
前記第一の目標データレートが前記第二の目標データレートに等しい、態様5ないし8のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様10〕
前記トランスコード・シミュレーション・ユニットが、
・前記第一の制御パラメータに基づくデフォルトの第二の制御パラメータ、たとえば前記第一の制御パラメータに対応するデフォルトの第二の制御パラメータを決定し、
・前記デフォルトの第二の制御パラメータに基づいてトランスコードされるデフォルトの第二のビットストリームが前記第二の目標データレートを超過するかどうかを判定し、
・前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過しない場合、前記デフォルトの第二の制御パラメータに基づいて前記第二の制御パラメータを決定するよう構成されている、
態様1ないし9のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様11〕
前記トランスコード・シミュレーション・ユニットは、
・前記第一の制御パラメータを使って、前記量子化されたスケーリングされた値の集合を量子化解除して、量子化解除されたスケーリングされた値の集合を与え、
・前記デフォルトの第二の制御パラメータを使って量子化解除されたスケーリングされた値の集合を再量子化して再量子化されたスケーリングされた値の集合を与えるよう構成されている、
態様10記載のオーディオ・エンコーダ。
〔態様12〕
前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過すると判定される場合、前記トランスコード・シミュレーション・ユニットは、前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化を実行して、前記第二の制御パラメータに基づいてトランスコードされる前記第二のビットストリームが前記第二の目標データレートを超過しないよう前記第二の制御パラメータを決定するよう構成されている、態様11記載のオーディオ・エンコーダ。
〔態様13〕
前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化が、
・前記第二の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合を前記第二のオーディオ・コーデック・システムに基づいて再エンコードするために使われるビットの数に基づいて、量子化解除されたスケーリングされた値の集合を量子化するための利用可能なビットの第二の総数を決定し;
・量子化解除されたスケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの前記第二の総数の割り当てを示す第二の制御パラメータを決定することを含む、
態様12記載のオーディオ・エンコーダ。
〔態様14〕
前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化がさらに、
・前記エンコードされたスケール因子の集合に基づいてパワースペクトル密度(PSD)分布を決定し;
・前記エンコードされたスケール因子の集合に基づいてマスキング曲線を決定し;
・中間的な第二の制御パラメータを使って前記マスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定し;
・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて、量子化解除されたスケーリングされた値の集合の量子化解除されたスケーリングされた値を量子化するための必要とされるビットの数を決定し;
・前記中間的な第二の制御パラメータを、必要とされるビットの数と利用可能なビットの前記第二の総数との間の差が縮小されるよう、かつ、必要とされるビットの数が利用可能なビットの前記第二の総数を超過しないよう、逐次反復プロセスにおいて調整し、それにより前記第二の制御パラメータを与えることを含む、
態様13記載のオーディオ・エンコーダ。
〔態様15〕
前記トランスコード・シミュレーション・ユニットが、
・前記中間的な第二の制御パラメータを、前記第一の制御パラメータで初期化し;
・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて決定される量子化ノイズが所定のノイズ閾値を下回る場合に、前記逐次反復手順を停止するよう構成されている、
態様14記載のオーディオ・エンコーダ。
〔態様16〕
前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過すると判定される場合、前記トランスコード・シミュレーション・ユニットは、前記デフォルトの第二の制御パラメータを所定の制御パラメータ・オフセット値だけオフセットすることによって、前記第二の制御パラメータを決定するよう構成されている、態様11ないし15のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様17〕
前記変換ユニットが、前記オーディオ信号の当該フレームから導出される一つまたは複数のブロックに対して、修正離散コサイン変換を実行するよう構成されている、態様1ないし16のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様18〕
・前記スケール因子が指数eに対応し、
・前記スケーリングされた値が仮数mに対応し、
・前記浮動小数点エンコード・ユニットは、公式X=m・2 -e を使って変換係数Xについて指数eおよび仮数mを決定するよう構成されている、
態様1ないし17のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様19〕
前記ビット割り当ておよび量子化ユニットが、前記第一の制御パラメータを決定することを、
・前記エンコードされたスケール因子の集合に基づいてパワースペクトル密度(PSD)分布を決定し;
・前記エンコードされたスケール因子の集合に基づいてマスキング曲線を決定し;
・中間的な第一の制御パラメータを使って前記マスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定し;
・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて、前記スケーリングされた値の集合のスケーリングされた値を量子化するための必要とされるビットの数を決定し;
・前記中間的な第一の制御パラメータを、必要とされるビットの数と利用可能なビットの前記総数との間の差が縮小されるよう、かつ、必要とされるビットの数が利用可能なビットの前記総数を超過しないよう調整し、それにより前記第一の制御パラメータを与えることによって行なうよう構成されている、
態様1ないし18のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様20〕
前記ビットストリーム・パッキング・ユニットは、前記第一のビットストリームが前記第一の目標データレートに準拠するよう、一つまたは複数の充填ビットを前記第一のビットストリーム中に挿入するよう構成されている、態様1ないし19のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様21〕
前記オーディオ信号がマルチチャネル・オーディオ信号、たとえば5.1チャネル・オーディオ信号である、態様1ないし20のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様22〕
前記フレームが、前記オーディオ信号の所定の数のサンプル、たとえば1536個のサンプルを含む、態様1ないし21のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様23〕
・前記第一のオーディオ・コーデック・システムがドルビー・デジタル・プラス・コーデック・システム、たとえば低計算量ドルビー・デジタル・プラス・システムに準拠する;および/または
・前記第一の制御パラメータがドルビー・デジタル・プラスSNRオフセット値を含む;および/または
・前記第二のコーデック・システムがドルビー・デジタル・コーデック・システムに準拠する;および/または
・前記第二の制御パラメータがドルビー・デジタルSNRオフセット値を含む、
態様1ないし22のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様24〕
・前記第一の目標データレートが384kbps、448kbps、640kbpsのうちの一つである;および/または
・前記第二の目標データレートが640kbpsである、
態様1ないし23のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様25〕
オーディオ・トランスコーダであって、
・第一のデータレートでの第一のビットストリームを受領するよう構成されており、
・前記第一のビットストリームは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号のフレームを示し、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含み、
・前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合は前記オーディオ信号の前記フレームのスペクトル成分を示し、
・前記第一の制御パラメータは、前記量子化されたスケーリングされた値の集合を量子化するために使われた量子化器の分解能を示し、
・前記第二の制御パラメータは、第二の目標データレートでの第二のビットストリームのために前記量子化されたスケーリングされた値を再量子化するために当該トランスコーダによって使用される量子化器を示し、
・前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致し、
当該トランスコーダはさらに、
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定し、
・前記第一の制御パラメータが前記第二の制御パラメータに対応するかどうかを判定し、
・前記第一のデータレートが前記第二の目標データレートに等しく、かつ前記第一の制御パラメータが前記第二の制御パラメータに対応する場合、前記量子化されたスケーリングされた値の集合、前記エンコードされたスケール因子の集合および前記第二の制御パラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定するよう構成されている、
オーディオ・トランスコーダ。
〔態様26〕
前記第一のデータレートが前記第二の目標データレートより小さく、かつ、前記第一の制御パラメータが前記第二の制御パラメータに対応する場合、さらに、
・前記第一のビットストリームが結合チャネルおよび/またはフル・チャネルを含むかどうかを判定し、
・前記量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値および前記エンコードされたスケール因子の集合のエンコードされたスケール因子であって前記フル・チャネルに関連付けられているものを、前記第二のビットストリームにコピーするよう構成されている、
態様25記載のオーディオ・トランスコーダ。
〔態様27〕
・前記量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値および前記エンコードされたスケール因子の集合のエンコードされたスケール因子であって前記結合チャネルに関連付けられているものを分離し、それにより量子化されたスケーリングされた値の第一の集合およびエンコードされたスケール因子の第一の集合を与え、
・前記第一の制御パラメータを使って前記量子化されたスケーリングされた値の第一の集合を量子化解除して量子化解除されたスケーリングされた値の第一の集合を与え、
・前記第二の制御パラメータを使って前記量子化解除されたスケーリングされた値の第一の集合を再量子化し、それにより再量子化されたスケーリングされた値の第一の集合を与え、
・前記再量子化されたスケーリングされた値の第一の集合を、前記第二のビットストリーム中に挿入するようさらに構成されている、
態様26記載のオーディオ・トランスコーダ。
〔態様28〕
第一のオーディオ・コーデック・システムに基づいてオーディオ信号を第一のビットストリームにエンコードする方法であって、
・前記オーディオ信号のスペクトル成分に基づいてスケール因子の集合およびスケーリングされた値の集合を決定する段階と;
・前記第一のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを使って前記スケーリングされた値の集合を量子化するための量子化器の分解能を示す第一の制御パラメータを決定する段階であって、前記分解能は、前記第一のビットストリームの第一の目標データレートに依存する、段階と;
・前記第一のビットストリームの、第二の目標データレートの第二のビットストリームへの変換を可能にするための第二の制御パラメータを決定する段階であって、前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致するものであり、前記第二の制御パラメータを決定する段階は、前記第二のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを実行することなく、前記第一の制御パラメータに基づいて前記第二の制御パラメータを決定することを含み、前記第一のビットストリームは、前記第一および第二の制御パラメータを示す、段階とを含む、
方法。
〔態様29〕
第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号を示す第一のビットストリームを、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに基づく第二のビットストリームにトランスコードする方法であって、
・第一のデータレートでの前記第一のビットストリームを受領する段階であって、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含み、
・前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合は、前記オーディオ信号のスペクトル成分を示し、
・前記第一の制御パラメータは、前記量子化されたスケーリングされた値の集合を量子化するために使われた量子化器を示し、
・前記第二の制御パラメータは、第二の目標データレートの第二のビットストリームのために前記量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使われるべき量子化器を示す、段階と;
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定する段階と;
・前記第一の制御パラメータが前記第二の制御パラメータに対応するかどうかを判定する段階と;
・前記第一のデータレートが前記第二の目標データレートに等しく、前記第一の制御パラメータが前記第二の制御パラメータに対応する場合、前記量子化されたスケーリングされた値の集合、前記エンコードされたスケール因子の集合および前記第二の制御パラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定する段階とを含む、
方法。
〔態様30〕
ドルビー・デジタル・プラス・コーデック・システムに基づくオーディオ信号をエンコードし、それにより第一の目標データレートでの第一のビットストリームを与えるよう構成されたオーディオ・エンコーダであって、当該オーディオ・エンコーダは、
・ドルビー・デジタル・プラス・コーデック・システムに基づいて前記第一の目標データレートについてのsnroffsetパラメータを決定し、トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするため、前記snroffsetパラメータからconvsnroffsetパラメータを導出するよう構成されており、
前記第二のビットストリームは、ドルビー・デジタル・コーデック・システムに一致し、前記第一のビットストリームは前記snroffsetパラメータおよび前記convsnroffsetパラメータを含む、
オーディオ・エンコーダ。
〔態様31〕
第一のフォーマットに対応する第一のビットストリームの、第二のフォーマットに対応する第二のビットストリームへの変換を可能にする方法であって、前記第一および第二のビットストリームは、エンコードされたオーディオ信号の少なくとも一つの同一のフレームに関係し、前記第一のビットストリームは、該第一のビットストリームに関連する第一のビット割り当てプロセスを示す第一の制御パラメータを含み、前記第一の制御パラメータは粗い成分および細かい成分を含み、前記第二のビットストリームは、該第二のビットストリームに関連する第二のビット割り当てプロセスを示す第二の制御パラメータを含み、前記第二のビットストリームは、前記第二の制御パラメータを使って前記第一のビットストリームから生成され、当該方法は:
・前記粗い成分および細かい成分の組み合わせのみに基づいて前記第二の制御パラメータを決定し;
・前記第二の制御パラメータを前記第一のビットストリーム中に挿入することを含む、
方法。
〔態様32〕
オーディオ・トランスコーダであって、
・第一のデータレートでの第一のビットストリームを受領する段階であって、
・前記第一のビットストリームは、ドルビー・デジタル・プラス・コーデック・システムに基づいてエンコードされたオーディオ信号を示し、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、snroffsetパラメータおよびconvsnroffsetパラメータを含み、
・前記convsnroffsetパラメータは、第二の目標データレートの第二のビットストリームを生成するために当該トランスコーダによって使われるべき量子化器を指示し、
・前記第二のビットストリームはドルビー・デジタル・オーディオ・コーデック・システムに従う、段階と;
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定する段階と;
・前記snroffsetパラメータが前記convsnroffsetパラメータに対応するかどうかを判定する段階と;
前記第一のデータレートが前記第二の目標データレートに等しく、前記snroffsetパラメータが前記convsnroffsetパラメータに対応する場合、前記量子化されたスケーリングされた値の集合および前記convsnroffsetパラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定する段階とを実行するよう構成されている、
トランスコーダ。

Claims (26)

  1. 第一のオーディオ・コーデック・システムに基づくオーディオ信号のフレームをエンコードして、それにより第一の目標データレートの第一のビットストリームを与えるよう構成されているオーディオ・エンコーダであって、当該オーディオ・エンコーダは:
    ・前記オーディオ信号のフレームに基づいてスペクトル係数の集合を決定するよう構成された変換ユニットと;
    ・前記スペクトル係数の集合に基づいて、スケール因子の集合およびスケーリングされた値の集合を決定し、
    前記スケール因子の集合をエンコードしてエンコードされたスケール因子の集合を与えるよう構成された
    浮動小数点エンコード・ユニットと;
    ・前記第一の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合について使われるビット数に基づき、前記スケーリングされた値の集合を量子化するための利用可能なビットの総数を決定し、
    前記スケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの総数の割り当てを示す第一の制御パラメータを決定し、
    前記第一の制御パラメータに基づいて、前記スケーリングされた値の集合を量子化して、量子化されたスケーリングされた値の集合を与えるよう構成されている、
    ビット割り当ておよび量子化ユニットと;
    ・トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするための第二の制御パラメータを導出するよう構成されたトランスコード・シミュレーション・ユニットであって、前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致し、前記トランスコード・シミュレーション・ユニットは、前記第一の制御パラメータだけから前記第二の制御パラメータを導出するよう構成されている、トランスコード・シミュレーション・ユニットと;
    ・量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、前記第一の制御パラメータおよび前記第二の制御パラメータを含む前記第一のビットストリームを生成するよう構成されたビットストリーム・パッキング・ユニットを有する、
    オーディオ・エンコーダ。
  2. 前記トランスコード・シミュレーション・ユニットは、第一の制御パラメータに等しい前記第二の制御パラメータの値を設定するよう構成されている、請求項1記載のオーディオ・エンコーダ。
  3. 前記トランスコード・シミュレーション・ユニットは、前記第二のオーディオ・コーデック・システムに基づくビット割り当てプロセスを実行することなく前記第二の制御パラメータを導出するよう構成されている、請求項1または2記載のオーディオ・エンコーダ。
  4. ・前記第一の制御パラメータは粗い成分および細かい成分を含み、
    ・前記トランスコード・シミュレーション・ユニットは、前記粗い成分および細かい成分を組み合わせて前記第二の制御パラメータを導出するよう構成されている、
    請求項1ないしのうちいずれか一項記載のオーディオ・エンコーダ。
  5. ・前記第一のビットストリームは第一のフォーマットに準拠し;
    ・前記第二のビットストリームは第二のフォーマットに準拠し;
    ・前記トランスコード・シミュレーション・ユニットは、前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合を表現するために前記第二のフォーマットによって要求される超過ビットの数を決定するよう構成されており;
    ・前記ビット割り当ておよび量子化ユニットは、超過ビットの数にも基づいて利用可能なビットの前記総数を決定するよう構成されている、
    請求項1ないしのうちいずれか一項記載のオーディオ・エンコーダ。
  6. 前記ビット割り当ておよび量子化ユニットが、利用可能なビットの前記総数を、前記超過ビットの数だけ減らすよう構成されている、請求項記載のオーディオ・エンコーダ。
  7. 前記超過ビットの数が、
    ・前記オーディオ信号の当該フレームについて特定的に決定される、または
    ・あらかじめ決定された値、たとえば最悪ケースの値である、
    請求項または記載のオーディオ・エンコーダ。
  8. 前記第一の目標データレートが前記第二の目標データレートに等しい、請求項ないしのうちいずれか一項記載のオーディオ・エンコーダ。
  9. 前記トランスコード・シミュレーション・ユニットが、
    ・前記第一の制御パラメータに基づくデフォルトの第二の制御パラメータ、たとえば前記第一の制御パラメータに対応するデフォルトの第二の制御パラメータを決定し、
    ・前記デフォルトの第二の制御パラメータに基づいてトランスコードされるデフォルトの第二のビットストリームが前記第二の目標データレートを超過するかどうかを判定し、
    ・前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過しない場合、前記デフォルトの第二の制御パラメータに基づいて前記第二の制御パラメータを決定するよう構成されている、
    請求項1ないしのうちいずれか一項記載のオーディオ・エンコーダ。
  10. 前記トランスコード・シミュレーション・ユニットは、
    ・前記第一の制御パラメータを使って、前記量子化されたスケーリングされた値の集合を量子化解除して、量子化解除されたスケーリングされた値の集合を与え、
    ・前記デフォルトの第二の制御パラメータを使って量子化解除されたスケーリングされた値の集合を再量子化して再量子化されたスケーリングされた値の集合を与えるよう構成されている、
    請求項記載のオーディオ・エンコーダ。
  11. 前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過すると判定される場合、前記トランスコード・シミュレーション・ユニットは、前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化を実行して、前記第二の制御パラメータに基づいてトランスコードされる前記第二のビットストリームが前記第二の目標データレートを超過しないよう前記第二の制御パラメータを決定するよう構成されている、請求項10記載のオーディオ・エンコーダ。
  12. 前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化が、
    ・前記第二の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合を前記第二のオーディオ・コーデック・システムに基づいて再エンコードするために使われるビットの数に基づいて、量子化解除されたスケーリングされた値の集合を量子化するための利用可能なビットの第二の総数を決定し;
    ・量子化解除されたスケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの前記第二の総数の割り当てを示す第二の制御パラメータを決定することを含む、
    請求項11記載のオーディオ・エンコーダ。
  13. 前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化がさらに、
    ・前記エンコードされたスケール因子の集合に基づいてパワースペクトル密度(PSD)分布を決定し;
    ・前記エンコードされたスケール因子の集合に基づいてマスキング曲線を決定し;
    ・中間的な第二の制御パラメータを使って前記マスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定し;
    ・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて、量子化解除されたスケーリングされた値の集合の量子化解除されたスケーリングされた値を量子化するための必要とされるビットの数を決定し;
    ・前記中間的な第二の制御パラメータを、必要とされるビットの数と利用可能なビットの前記第二の総数との間の差が縮小されるよう、かつ、必要とされるビットの数が利用可能なビットの前記第二の総数を超過しないよう、逐次反復プロセスにおいて調整し、それにより前記第二の制御パラメータを与えることを含む、
    請求項12記載のオーディオ・エンコーダ。
  14. 前記トランスコード・シミュレーション・ユニットが、
    ・前記中間的な第二の制御パラメータを、前記第一の制御パラメータで初期化し;
    ・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて決定される量子化ノイズが所定のノイズ閾値を下回る場合に、前記逐次反復プロセスを停止するよう構成されている、
    請求項13記載のオーディオ・エンコーダ。
  15. 前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過すると判定される場合、前記トランスコード・シミュレーション・ユニットは、前記デフォルトの第二の制御パラメータを所定の制御パラメータ・オフセット値だけオフセットすることによって、前記第二の制御パラメータを決定するよう構成されている、請求項10ないし14のうちいずれか一項記載のオーディオ・エンコーダ。
  16. 前記変換ユニットが、前記オーディオ信号の当該フレームから導出される一つまたは複数のブロックに対して、修正離散コサイン変換を実行するよう構成されている、請求項1ないし15のうちいずれか一項記載のオーディオ・エンコーダ。
  17. ・前記スケール因子が指数eに対応し、
    ・前記スケーリングされた値が仮数mに対応し、
    ・前記浮動小数点エンコード・ユニットは、公式X=m・2-eを使って変換係数Xについて指数eおよび仮数mを決定するよう構成されている、
    請求項1ないし16のうちいずれか一項記載のオーディオ・エンコーダ。
  18. 前記ビット割り当ておよび量子化ユニットが、前記第一の制御パラメータを決定することを、
    ・前記エンコードされたスケール因子の集合に基づいてパワースペクトル密度(PSD)分布を決定し;
    ・前記エンコードされたスケール因子の集合に基づいてマスキング曲線を決定し;
    ・中間的な第一の制御パラメータを使って前記マスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定し;
    ・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて、前記スケーリングされた値の集合のスケーリングされた値を量子化するための必要とされるビットの数を決定し;
    ・前記中間的な第一の制御パラメータを、必要とされるビットの数と利用可能なビットの前記総数との間の差が縮小されるよう、かつ、必要とされるビットの数が利用可能なビットの前記総数を超過しないよう調整し、それにより前記第一の制御パラメータを与えることによって行なうよう構成されている、
    請求項1ないし17のうちいずれか一項記載のオーディオ・エンコーダ。
  19. 前記ビットストリーム・パッキング・ユニットは、前記第一のビットストリームが前記第一の目標データレートに準拠するよう、一つまたは複数の充填ビットを前記第一のビットストリーム中に挿入するよう構成されている、請求項1ないし18のうちいずれか一項記載のオーディオ・エンコーダ。
  20. 前記オーディオ信号がマルチチャネル・オーディオ信号、たとえば5.1チャネル・オーディオ信号である、請求項1ないし19のうちいずれか一項記載のオーディオ・エンコーダ。
  21. 前記フレームが、前記オーディオ信号の所定の数のサンプル、たとえば1536個のサンプルを含む、請求項1ないし20のうちいずれか一項記載のオーディオ・エンコーダ。
  22. ・前記第一のオーディオ・コーデック・システムがドルビー・デジタル・プラス・コーデック・システム、たとえば低計算量ドルビー・デジタル・プラス・システムに準拠する;および/または
    ・前記第一の制御パラメータがドルビー・デジタル・プラスSNRオフセット値を含む;および/または
    ・前記第二のコーデック・システムがドルビー・デジタル・コーデック・システムに準拠する;および/または
    ・前記第二の制御パラメータがドルビー・デジタルSNRオフセット値を含む、
    請求項1ないし21のうちいずれか一項記載のオーディオ・エンコーダ。
  23. ・前記第一の目標データレートが384kbps、448kbps、640kbpsのうちの一つである;および/または
    ・前記第二の目標データレートが640kbpsである、
    請求項1ないし22のうちいずれか一項記載のオーディオ・エンコーダ。
  24. 第一のオーディオ・コーデック・システムに基づいてオーディオ信号を第一のビットストリームにエンコードする方法であって、
    ・前記オーディオ信号のスペクトル成分に基づいてスケール因子の集合およびスケーリングされた値の集合を決定する段階と;
    ・前記第一のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを使って前記スケーリングされた値の集合を量子化するための量子化器の分解能を示す第一の制御パラメータを決定する段階であって、前記分解能は、前記第一のビットストリームの第一の目標データレートに依存する、段階と;
    ・前記第一のビットストリームの、第二の目標データレートの第二のビットストリームへの変換を可能にするための第二の制御パラメータを決定する段階であって、前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致するものであり、前記第二の制御パラメータを決定する段階は、前記第二のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを実行することなく、前記第一の制御パラメータに基づいて前記第二の制御パラメータを決定することを含み、前記第一のビットストリームは、前記第一および第二の制御パラメータを示す、段階とを含む、
    方法。
  25. ドルビー・デジタル・プラス・コーデック・システムに基づくオーディオ信号をエンコードし、それにより第一の目標データレートでの第一のビットストリームを与えるよう構成されたオーディオ・エンコーダであって、当該オーディオ・エンコーダは、
    ・ドルビー・デジタル・プラス・コーデック・システムに基づいて前記第一の目標データレートについてのsnroffsetパラメータを決定し、トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするため、前記snroffsetパラメータだけからconvsnroffsetパラメータを導出するよう構成されており、
    前記第二のビットストリームは、ドルビー・デジタル・コーデック・システムに一致し、前記第一のビットストリームは前記snroffsetパラメータおよび前記convsnroffsetパラメータを含む、
    オーディオ・エンコーダ。
  26. 第一のフォーマットに対応する第一のビットストリームの、第二のフォーマットに対応する第二のビットストリームへの変換を可能にする方法であって、前記第一および第二のビットストリームは、エンコードされたオーディオ信号の少なくとも一つの同一のフレームに関係し、前記第一のビットストリームは、該第一のビットストリームに関連する第一のビット割り当てプロセスを示す第一の制御パラメータを含み、前記第一の制御パラメータは粗い成分および細かい成分を含み、前記第二のビットストリームは、該第二のビットストリームに関連する第二のビット割り当てプロセスを示す第二の制御パラメータを含み、前記第二のビットストリームは、前記第二の制御パラメータを使って前記第一のビットストリームから生成され、当該方法は:
    ・前記粗い成分および細かい成分の組み合わせのみに基づいて前記第二の制御パラメータを決定し;
    ・前記第二の制御パラメータを前記第一のビットストリーム中に挿入することを含む、
    方法。
JP2015538514A 2012-11-07 2013-11-04 軽減された計算量の変換器snr計算 Active JP6113294B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261723687P 2012-11-07 2012-11-07
US61/723,687 2012-11-07
PCT/EP2013/072961 WO2014072260A2 (en) 2012-11-07 2013-11-04 Reduced complexity converter snr calculation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017048191A Division JP6474845B2 (ja) 2012-11-07 2017-03-14 軽減された計算量の変換器snr計算

Publications (2)

Publication Number Publication Date
JP2015532981A JP2015532981A (ja) 2015-11-16
JP6113294B2 true JP6113294B2 (ja) 2017-04-12

Family

ID=49517525

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015538514A Active JP6113294B2 (ja) 2012-11-07 2013-11-04 軽減された計算量の変換器snr計算
JP2017048191A Active JP6474845B2 (ja) 2012-11-07 2017-03-14 軽減された計算量の変換器snr計算

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017048191A Active JP6474845B2 (ja) 2012-11-07 2017-03-14 軽減された計算量の変換器snr計算

Country Status (9)

Country Link
US (2) US9378748B2 (ja)
EP (1) EP2917909B1 (ja)
JP (2) JP6113294B2 (ja)
KR (1) KR101726205B1 (ja)
CN (1) CN104781878B (ja)
BR (1) BR112015010023B1 (ja)
IN (1) IN2015DN04001A (ja)
RU (1) RU2610588C2 (ja)
WO (1) WO2014072260A2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9819984B1 (en) 2007-03-26 2017-11-14 CSC Holdings, LLC Digital video recording with remote storage
MY164393A (en) * 2010-04-09 2017-12-15 Dolby Int Ab Mdct-based complex prediction stereo coding
US9786286B2 (en) * 2013-03-29 2017-10-10 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US10200519B2 (en) * 2016-08-11 2019-02-05 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods for dynamic switching of codec modes of operation used by a terminal
US10904329B1 (en) * 2016-12-30 2021-01-26 CSC Holdings, LLC Virtualized transcoder
CN112970063B (zh) * 2018-10-29 2024-10-18 杜比国际公司 用于利用生成模型的码率质量可分级编码的方法及设备
WO2020164752A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transmitter processor, audio receiver processor and related methods and computer programs
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
US11284165B1 (en) 2021-02-26 2022-03-22 CSC Holdings, LLC Copyright compliant trick playback modes in a service provider network

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU677688B2 (en) 1993-07-16 1997-05-01 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5623577A (en) 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5970461A (en) 1996-12-23 1999-10-19 Apple Computer, Inc. System, method and computer readable medium of efficiently decoding an AC-3 bitstream by precalculating computationally expensive values to be used in the decoding algorithm
WO1999053479A1 (en) * 1998-04-15 1999-10-21 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Fast frame optimisation in an audio encoder
JP2000059790A (ja) * 1998-08-05 2000-02-25 Victor Co Of Japan Ltd 動画像符号列変換装置及びその方法
US6430529B1 (en) 1999-02-26 2002-08-06 Sony Corporation System and method for efficient time-domain aliasing cancellation
JP2000347679A (ja) * 1999-06-07 2000-12-15 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
DE69932861T2 (de) 1999-10-30 2007-03-15 Stmicroelectronics Asia Pacific Pte Ltd. Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
WO2002015587A2 (en) 2000-08-16 2002-02-21 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7133521B2 (en) * 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
KR100837451B1 (ko) * 2003-01-09 2008-06-12 딜리시움 네트웍스 피티와이 리미티드 향상된 품질의 음성 변환부호화를 위한 방법 및 장치
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
DE10339498B4 (de) * 2003-07-21 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodateiformatumwandlung
JP4405510B2 (ja) * 2003-07-21 2010-01-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオファイルフォーマット変換
DE602005017358D1 (de) * 2004-01-28 2009-12-10 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur zeitskalierung eines signals
JP2007524124A (ja) * 2004-02-16 2007-08-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ トランスコーダ及びそのための符号変換方法
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US7676360B2 (en) * 2005-12-01 2010-03-09 Sasken Communication Technologies Ltd. Method for scale-factor estimation in an audio encoder
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
EP1903559A1 (en) 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US7873513B2 (en) * 2007-07-06 2011-01-18 Mindspeed Technologies, Inc. Speech transcoding in GSM networks
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
JP5551695B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
CN101425293B (zh) 2008-09-24 2011-06-08 天津大学 一种高效感知音频比特分配方法
KR20100115215A (ko) 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
US8194862B2 (en) 2009-07-31 2012-06-05 Activevideo Networks, Inc. Video game system with mixing of independent pre-encoded digital audio bitstreams
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
MY164393A (en) * 2010-04-09 2017-12-15 Dolby Int Ab Mdct-based complex prediction stereo coding
KR101688946B1 (ko) * 2010-11-26 2016-12-22 엘지전자 주식회사 신호 처리 장치 및 그 방법
TWI505262B (zh) 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼

Also Published As

Publication number Publication date
RU2610588C2 (ru) 2017-02-13
JP2017138610A (ja) 2017-08-10
CN104781878B (zh) 2018-03-02
US20150269950A1 (en) 2015-09-24
WO2014072260A3 (en) 2014-07-10
US20140188488A1 (en) 2014-07-03
JP6474845B2 (ja) 2019-02-27
US9378748B2 (en) 2016-06-28
KR20150066565A (ko) 2015-06-16
JP2015532981A (ja) 2015-11-16
BR112015010023B1 (pt) 2021-10-19
KR101726205B1 (ko) 2017-04-12
CN104781878A (zh) 2015-07-15
EP2917909B1 (en) 2018-10-31
EP2917909A2 (en) 2015-09-16
RU2015116854A (ru) 2016-11-27
WO2014072260A2 (en) 2014-05-15
BR112015010023A2 (pt) 2017-07-11
IN2015DN04001A (ja) 2015-10-02
US9208789B2 (en) 2015-12-08

Similar Documents

Publication Publication Date Title
JP6474845B2 (ja) 軽減された計算量の変換器snr計算
US12080306B2 (en) Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and a computer program
JP6407928B2 (ja) オーディオ処理システム
JP5922684B2 (ja) マルチチャネルの復号化装置
TWI505262B (zh) 具多重子流之多通道音頻信號的有效編碼與解碼
EP2346029B1 (en) Audio encoder, method for encoding an audio signal and corresponding computer program
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
US8831960B2 (en) Audio encoding device, audio encoding method, and computer-readable recording medium storing audio encoding computer program for encoding audio using a weighted residual signal
KR20090007396A (ko) 손실 인코딩된 데이터 스트림 및 무손실 확장 데이터 스트림을 이용하여 소스 신호를 무손실 인코딩하기 위한 방법 및 장치
IL295809B1 (en) Decoding bitstreams with a spectral band duplication meta-method enhanced by at least one filler element
US20220238127A1 (en) Method and system for coding metadata in audio streams and for flexible intra-object and inter-object bitrate adaptation
KR101103004B1 (ko) 오디오 인코딩 시의 레이트-왜곡 제어 구조
JP2008261999A (ja) オーディオ復号装置
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
WO2024052450A1 (en) Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051955A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170314

R150 Certificate of patent or registration of utility model

Ref document number: 6113294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250