JP2023532809A - マルチチャネルオーディオ信号のチャネルのためのスケールパラメータのジョイントコーディングを使用するオーディオデコーダ、オーディオエンコーダ、および関連する方法 - Google Patents

マルチチャネルオーディオ信号のチャネルのためのスケールパラメータのジョイントコーディングを使用するオーディオデコーダ、オーディオエンコーダ、および関連する方法 Download PDF

Info

Publication number
JP2023532809A
JP2023532809A JP2023501298A JP2023501298A JP2023532809A JP 2023532809 A JP2023532809 A JP 2023532809A JP 2023501298 A JP2023501298 A JP 2023501298A JP 2023501298 A JP2023501298 A JP 2023501298A JP 2023532809 A JP2023532809 A JP 2023532809A
Authority
JP
Japan
Prior art keywords
scale
scale parameters
channel
parameters
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023501298A
Other languages
English (en)
Inventor
ラヴェリ,エマニュエル
マルコヴィック,ゴラン
フレデリック キーネ,ヤン
ロイテルフーバー,フランツ
デーラ,シュテファン
フォトポウロウ,エレニ
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2023532809A publication Critical patent/JP2023532809A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

2つ以上のオーディオチャネルについてのデータを含むマルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータに関する情報とを含む符号化オーディオ信号を復号するためのオーディオデコーダは、復号オーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットと、復号オーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットとを取得するために、ジョイント符号化スケールパラメータに関する情報を復号するためのスケール・パラメータ・デコーダ(220)と、復号オーディオ信号の第1のチャネルおよび第2のチャネルを取得するために、マルチチャネル・オーディオ・データから導出された第1のチャネル表現にスケールパラメータの第1のセットを適用し、マルチチャネル・オーディオ・データから導出された第2のチャネル表現にスケールパラメータの第2のセットを適用するための信号プロセッサ(210)とを含み、ジョイント符号化スケールパラメータが、ジョイント符号化スケールパラメータの第1のグループに関する情報およびジョイント符号化スケールパラメータの第2のグループに関する情報を含み、スケール・パラメータ・デコーダ(220)が、スケールパラメータの第1のセットのうちのスケールパラメータを取得するために第1の結合規則を使用して、およびスケールパラメータの第2のセットのうちのスケールパラメータを取得するために第1の結合規則とは異なる第2の結合規則を使用して、第1のグループのうちのジョイント符号化スケールパラメータと第2のグループのうちのジョイント符号化スケールパラメータとを結合するように構成される。【選択図】図8a

Description

仕様および好ましい実施形態
本発明は、オーディオ信号処理に関し、例えば、例えばIVASのMDCTステレオ処理において適用され得る。
さらに、本発明は、ステレオスペクトル雑音整形パラメータのジョイントコーディングにおいて適用され得る。
スペクトル雑音整形は、量子化雑音が人間の耳によって最小限に知覚され、したがって、復号出力信号の知覚品質が最大化され得るように、周波数領域において量子化雑音を整形する。
スペクトル雑音整形は、ほとんどの最先端の変換ベース・オーディオ・コーデックにおいて使用される技法である。
アドバンスト・オーディオ・コーディング(AAC)
この手法[1][2]では、MDCTスペクトルは、いくつかの不均一なスケールファクタ帯域に区分される。例えば、48kHzでは、MDCTは、1024個の係数を有し、49個のスケールファクタ帯域に区分される。各帯域において、その帯域のMDCT係数をスケーリングするためにスケールファクタが使用される。次いで、スケーリングされたMDCT係数を量子化するために、一定のステップサイズを有するスカラ量子化器が用いられる。デコーダ側で、各帯域において逆スケーリングが実行され、これは、スカラ量子化器によってもたらされる量子化雑音を整形する。
49個のスケールファクタは、サイド情報としてビットストリームに符号化される。スケールファクタの数が比較的多く、高精度が必要とされることにより、これらのスケールファクタを符号化するためには、通常、著しく多数のビットが必要である。これは、低ビットレートおよび/または低遅延において問題になり得る。
MDCTベースTCX
MPEG-D USAC[3]および3GPP(登録商標) EVS[4]規格において使用される変換ベース・オーディオ・コーデック、MDCTベースTCXでは、スペクトル雑音整形は、最近のACELPベース音声コーデック(例えばAMR-WB)において使用されるものと同様の知覚フィルタ、LPCベース知覚フィルタの助けを借りて実行される。
この手法では、最初に、16個の線形予測係数(LPC)のセットが、事前強調された入力信号に関して推定される。LPCは、次いで、重み付けおよび量子化される。次いで、重み付けおよび量子化されたLPCの周波数応答が、64個の均一に離間した帯域において算出される。次いで、MDCT係数が、算出された周波数応答を使用して各帯域においてスケーリングされる。スケーリングされたMDCT係数は、次いで、グローバル利得によって制御されるステップサイズを有するスカラ量子化器を使用して量子化される。デコーダにおいて、64個の帯域すべてにおいて逆スケーリングが実行され、これは、スカラ量子化器によってもたらされる量子化雑音を整形する。
この手法は、AAC手法に勝る明確な利点を有し、すなわち、これは、(AACにおける49個のパラメータとは対照的に)サイド情報として16個の(LPC)+1(グローバル利得)パラメータのみの符号化を必要とする。その上、16個のLPCは、LSF表現およびベクトル量子化器を用いることによって少ないビット数で効率的に符号化され得る。結果として、MDCTベースTCXの手法はAACの手法ほどサイド情報ビットを必要とせず、これは、低ビットレートおよび/または低遅延において著しい差をもたらし得る。
改善されたMDCTベースTCX(心理音響LPC)
改善されたMDCTベースTCXシステムは、[5]において公開されている。この新しい手法では、(LPCを推定するための)自己相関は、もはや時間領域において実行されず、代わりに、MDCT係数エネルギーの逆変換を使用してMDCT領域において算出される。これは、MDCT係数を64個の不均一な帯域に単にグループ化し、各帯域のエネルギーを算出することによって、不均一な周波数スケールを使用することを可能にする。これはまた、自己相関を算出するために必要な複雑度を低減する。
新しいスペクトル雑音整形(SNS)
[6]に記載され、低複雑度通信コーデック(LC3/LC3plus)において実装されるスペクトル雑音整形のための改善された技法では、品質を実質的に損なわない低ビットレートが、エンコーダ側でより多数のスケールファクタを用いてスケーリングすることによって、およびエンコーダ側でスケールパラメータを16個のスケールパラメータ(SNSパラメータ)の第2のセットにダウンサンプリングすることによって、取得され得る。したがって、一方では低ビットレートサイド情報が取得されるにもかかわらず、他方では、細かいスケーリングにより、オーディオ信号スペクトルの高品質スペクトル処理が取得される。
ステレオ線形予測(SLP)
[7]に記載されている論文では、線形予測係数のセットが、フレーム間予測を考慮するだけでなく、チャネルごとの予測をも考慮することによって算出される。計算された係数の2次元セットは、次いで、単一チャネルLPの場合と同様の技法を使用して、ただし論文の文脈における残差の量子化を考慮せずに、量子化および符号化される。しかしながら、説明された実装形態は、高遅延および著しい複雑度を伴い、したがって、低遅延を必要とするリアルタイム適用例、例えば通信システムにはやや適していない。
[8]に記載されているMDCTベースシステムのようなステレオシステムでは、周波数領域雑音整形を使用するスペクトルを「白色化領域」にスケーリングするために、離散LRチャネル信号の前処理が実行される。次いで、最適な方法で白色化スペクトルを量子化およびコーディングするために、ジョイントステレオ処理が実行される。
前述したスペクトル雑音整形技法のためのスケーリングパラメータは、各チャネルについて独立して量子化符号化される。これは、ビットストリームを介してデコーダに送られる必要があるサイド情報のダブルビットレートをもたらす。
本発明の目的は、改善されたまたはより効率的なコーディング/復号概念を提供することである。
この目的は、請求項1に記載のオーディオデコーダ、請求項17に記載のオーディオエンコーダ、請求項35に記載の復号する方法、請求項36に記載の符号化する方法、または請求項37に記載のコンピュータプログラムによって達成される。
本発明は、L、R信号、または、概して、マルチチャネル信号の2つ以上のチャネルが相関する場合に、ビットレート節約が取得され得るという発見に基づく。そのような場合、両方のチャネルのための抽出されたパラメータは、かなり類似している。したがって、パラメータのジョイント量子化符号化が適用され、これは、ビットレートの大幅な節約をもたらす。このビットレートの節約は、いくつかの異なる方向性において使用され得る。1つの方向性は、ステレオまたはマルチチャネル信号の全体的な知覚品質が改善されるように、節約されたビットレートをコア信号のコーディングに費やすことであり得る。別の方向性は、コア信号のコーディング、したがって全体的な知覚品質が改善されず、同じ品質のままである場合に、より低い全体的なビットレートに到達することである。
好ましい実施形態では、第1の態様によれば、オーディオエンコーダが、マルチチャネルオーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットおよびマルチチャネルオーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットについて、ジョイント符号化スケールパラメータの第1のグループおよびジョイント符号化スケールパラメータの第2のグループを計算するためのスケールパラメータ計算器を含む。オーディオエンコーダは、さらに、スケールパラメータの第1のセットを第1のチャネルに適用し、スケールパラメータの第2のセットをマルチチャネルオーディオ信号の第2のチャネルに適用するための信号プロセッサを含む。信号プロセッサは、さらに、それぞれスケールパラメータの第1および第2のセットの適用によって取得された第1および第2のチャネルデータからマルチチャネル・オーディオ・データを導出する。オーディオエンコーダは、さらに、符号化マルチチャネルオーディオ信号を取得するために、マルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータの第1のグループに関する情報と、ジョイント符号化スケールパラメータの第2のグループに関する情報とを使用するための符号化信号形成器を有する。
好ましくは、スケールパラメータ計算器は、マルチチャネルオーディオ信号の各フレームまたはサブフレームについて、スケールパラメータのジョイント符号化が実行されるべきであるのかスケールパラメータのセパレート符号化が実行されるべきであるのかの決定が行われるように、適応的であるように構成される。さらなる実施形態では、この決定は、考慮中のマルチチャネルオーディオ信号のチャネル間の類似性分析に基づく。詳細には、類似性分析は、ジョイント符号化パラメータのエネルギー、および詳細には、ジョイント符号化スケールパラメータの第1のグループおよび第2のグループからのスケールパラメータの1つのセットのエネルギーを計算することによって行われる。詳細には、スケールパラメータ計算器は、第1のグループを、対応する第1のスケールパラメータと第2のスケールパラメータとの和として計算し、第2のグループを、対応する第1のスケールパラメータと第2のスケールパラメータとの間の差として計算する。詳細には、第2のグループ、および好ましくは、差を表すスケールパラメータは、スケールパラメータのジョイント符号化が実行されるべきであるのかスケールパラメータのセパレート符号化が実行されるべきであるのかを判定するための類似度の決定のために使用される。この状況は、ステレオまたはマルチチャネルフラグを介してシグナリングされ得る。
さらに、具体的には、2段量子化プロセスでスケールパラメータを量子化することが好ましい。第1段ベクトル量子化器は、第1段ベクトル量子化結果を決定し、第1段ベクトル量子化結果に対応する複数の中間量子化器項目を決定するために、複数のスケールパラメータ、または、概して、オーディオ情報項目を量子化する。さらに、量子化器は、複数の中間量子化項目および複数のオーディオ情報項目から複数の残差項目を計算するための残差項目決定器を含む。さらに、第2段ベクトル量子化結果を取得するために複数の残差項目を量子化するための第2段ベクトル量子化器が提供され、ここにおいて、第1段ベクトル量子化結果および第2段ベクトル量子化結果は、共に、一実施形態ではスケールパラメータである複数のオーディオ情報項目の量子化された表現を表す。詳細には、オーディオ情報項目は、ジョイント符号化スケールパラメータまたはセパレート符号化スケールパラメータのいずれかであり得る。さらに、他のオーディオ情報項目は、ベクトル量子化に有用である任意のオーディオ情報項目であり得る。詳細には、特定のオーディオ情報項目としてのスケールパラメータまたはスケールファクタとは別に、ベクトル量子化に有用な他のオーディオ情報項目は、MDCTまたはFFTラインなどのスペクトル値である。ベクトル量子化され得る、またさらなるオーディオ情報項目は、オーディオサンプリング値、または時間領域オーディオサンプルのグループ、またはスペクトル領域周波数ラインのグループ、またはLPCデータ、あるいは、それがスペクトルエンベロープデータ表現であれ時間エンベロープデータ表現であれ、他のエンベロープデータなど、時間領域オーディオ値である。
好ましい実装形態では、残差項目決定器は、各残差項目について、スケールパラメータなどの対応するオーディオ情報項目と、量子化されたスケールパラメータまたはスケールファクタなどの対応する中間量子化項目との間の差を計算する。さらに、残差項目決定器は、各残差項目について、複数の残差項目が対応する差よりも大きくなるように、対応するオーディオ情報項目と対応する中間量子化項目との間の差を増幅または重み付けするか、あるいは、残差項目を取得するために増幅された項目間の差を計算する前に、複数のオーディオ情報項目および/または複数の中間量子化項目を増幅または重み付けするように構成される。この手順によって、量子化誤差の有用な制御が行われ得る。詳細には、異なるスケールパラメータなどのオーディオ情報項目の第2のグループが非常に小さいとき、残差項目は、典型的には非常に小さく、これは、典型的には、ジョイント量子化が決定されたように第1のチャネルと第2のチャネルとが互いに相関するとき、当てはまる。したがって、残差項目が増幅されたとき、量子化の結果は、この増幅が実行されなかった場合と比較してより多くの0に量子化されない値を含むことになる。したがって、エンコーダまたは量子化側での増幅が有用であり得る。
これは、別の好ましい実施形態の場合のように、差スケールパラメータなどのスケールパラメータのジョイント符号化された第2のグループの量子化が実行されるとき、特に当てはまる。これらのサイド・スケール・パラメータがいずれにしても小さいという事実により、増幅なしで、異なるスケールパラメータのほとんどがいずれにしても0に量子化される状況が生じ得る。したがって、ステレオ印象の損失、したがって心理音響品質の損失をもたらし得るこの状況を回避するために、ごく少量のサイド・スケール・パラメータが0に量子化されるか、またはサイド・スケール・パラメータのほとんどが0に量子化されないように増幅が実行される。これは、当然ながら、ビットレートの節約を低減する。しかしながら、この事実により、量子化された残差データ項目は、いずれにしてもごく小さく、すなわち、小さい値を表す量子化インデックスをもたらし、小さい値についての量子化インデックスがより高い値についての量子化インデックスよりも効率的に符号化されるので、ビットレートの増加は高すぎない。これは、より高い量子化インデックスよりもビットレートに対して小さい量子化インデックスをなお一層優先するエントロピーコーディング演算をさらに実行することによって、一層強化され得る。
別の好ましい実施形態では、第1段ベクトル量子化器は、特定のコードブックを有するベクトル量子化器であり、第2段ベクトル量子化器は、量子化インデックスとして、コードブック番号と、ベースコードブック中のベクトルインデックスと、ボロノイインデックスとをもたらす代数ベクトル量子化器である。好ましくは、ベクトル量子化器と代数ベクトル量子化器の両方が、両方の量子化器が同じスプリットレベル手順を有するスプリット・レベル・ベクトル量子化を実行するように構成される。さらに、第1および第2段ベクトル量子化器は、第1段ベクトル量子化器結果のビット数、したがって精度が、第2段ベクトル量子化器結果のビット数または精度よりも大きいか、あるいは、第1段ベクトル量子化器結果のビット数、したがって精度が、第2段ベクトル量子化器結果のビット数または精度と異なるように構成される。他の実施形態では、第1段ベクトル量子化器は固定ビットレートを有し、第2段ベクトル量子化器は可変ビットレートを有する。したがって、概して、第1段ベクトル量子化器の特性と第2段ベクトル量子化器の特性は、互いに異なる。
第1の態様による、符号化オーディオ信号を復号するためのオーディオデコーダの好ましい実施形態では、オーディオデコーダは、ジョイント符号化スケールパラメータに関する情報を復号するためのスケール・パラメータ・デコーダを含む。さらに、オーディオデコーダは信号プロセッサを有し、ここで、スケール・パラメータ・デコーダは、信号プロセッサによってその後使用されるスケールパラメータの第1のセットのためのスケールパラメータおよびスケールパラメータの第2のセットのためのスケールパラメータを取得するために、異なる結合規則を使用して第1のグループのうちのジョイント符号化スケールパラメータと第2のグループのうちのジョイント符号化スケールパラメータとを結合するように構成される。
本発明のさらなる態様によれば、第1段ベクトル逆量子化器と、第2段ベクトル逆量子化器と、逆量子化された複数のオーディオ情報項目を取得するために第1段ベクトル逆量子化器によって取得された複数の中間量子化器情報項目と第2段ベクトル逆量子化器から取得された複数の残差項目とを結合するための結合器とを含むオーディオ逆量子化器が提供される。
ジョイント・スケール・パラメータ・コーディングの第1の態様は、2段ベクトル量子化に関する第2の態様と組み合わせられ得る。一方、2段ベクトル量子化の態様は、左チャネルのためのスケールパラメータおよび右チャネルのためのスケールパラメータなど、セパレート符号化スケールパラメータに適用され得るか、または、別の種類のオーディオ情報項目としてミッド・スケール・パラメータに適用され得る。したがって、2段ベクトル量子化の第2の態様は、第1の態様から独立して、または第1の態様と共に適用され得る。
続いて、本発明の好ましい実施形態が要約される。
変換ベース(MDCT)コーディングが使用されるステレオシステムでは、エンコーダ側で周波数領域雑音整形を実行するための導入部分において説明された技法のいずれかから抽出されたスケーリングパラメータは、ビットストリームにサイド情報として含まれるように量子化およびコーディングされる必要がある。次いで、デコーダ側で、スケーリングパラメータが復号され、量子化雑音を最小限に知覚されるように整形するように各チャネルのスペクトルをスケーリングするために使用される。
2つのチャネル、すなわち左チャネルおよび右チャネルのスペクトル雑音整形パラメータの独立したコーディングが適用され得る。
スペクトル雑音整形スケーリングパラメータは、2つのチャネル間の相関度に応じて、適応的に、独立してコーディングされるかまたはジョイントコーディングされる。要約すると、
・スケーリングパラメータのミッド/サイド表現が算出される
・サイドパラメータのエネルギーが計算される。
・2つの信号間の相関度を示すエネルギーに応じて、パラメータが、以下のようにコーディングされる。
・独立して-現在の手法のように、各チャネルについて、例えば2段ベクトル量子化(VQ)を使用して
・ジョイント-
oミッドベクトルは、例えば2段ベクトル量子化を使用して符号化される。サイドベクトルは、より粗い量子化方式を使用して、例えば、第1段VQ出力がゼロの量子化された値を含むと仮定し、第2段量子化、例えば代数ベクトル量子化器(AVQ)のみを適用することによって、符号化される
o量子化されたサイドベクトルがゼロであるか否かをシグナリングするために1つの追加ビットが使用される
・2つのチャネルがジョイントコーディングされるのか独立してコーディングされるのかをシグナリングするための追加の1ビットがデコーダに送られる
図24では、[8]に詳細に記載されているように、MDCTステレオ・ベース・エンコーダの実装形態が示されている。[8]に記載されているステレオシステムの不可欠な部分は、「白色化」スペクトルに対してステレオ処理が実行されることである。したがって、各チャネルは前処理を受け、ここで、各フレームについて、ウィンドウ処理の後に、時間領域ブロックはMDCT領域に変換され、次いで、時間雑音整形(TNS)が、信号特性に応じてスペクトル雑音整形(SNS)の前または後のいずれかに、適応的に適用される。スペクトル雑音整形の後に、効率的に白色化スペクトル係数を量子化およびコーディングするために、ジョイントステレオ処理、すなわち、適応的な帯域ごとのM-S、L/R判定が実行される。次のステップとして、ステレオ・インテリジェント・ギャップ充填(IGF)分析が行われ、それぞれの情報ビットがビットストリームに書き込まれる。最後に、処理された係数が量子化およびコーディングされる。図1と同様の参照番号が付されている。スケーリングファクタの計算および処理は、図24中の2つのTNSブロック間のブロックSNSにおいて行われる。ブロックウィンドウは、ウィンドウ処理演算を示す。ブロックMCLTは、修正複素重複変換を表す。ブロックMDCTは、修正離散コサイン変換を表す。ブロックパワースペクトルは、パワースペクトルの計算を表す。ブロック、ブロック切替え判定は、ウィンドウ処理のために使用されるブロック長を決定するための入力信号の分析を表す。ブロックTNSは、時間雑音整形を表し、この特徴は、ブロックSNSにおけるスペクトルのスケーリングの前または後のいずれかに実行される。
[7]に記載されているMDCTステレオコーデック実装形態では、周波数領域雑音整形を使用するスペクトルを「白色化領域」にスケーリングするために、エンコーダ側で離散L-Rチャネルの前処理が実行される。次いで、最適な方法で白色化スペクトルを量子化およびコーディングするために、ジョイントステレオ処理が実行される。
デコーダ側で、図25に示され、[8]に記載されているように、符号化信号が復号され、逆量子化および逆ステレオ処理が実行される。次いで、各チャネルのスペクトルが、ビットストリームから取り出されたスペクトル雑音整形パラメータによって「脱白色化」される。図1と同様の参照番号が付されている。スケールファクタの復号および処理は、図25中のブロック220において行われる。図に示されたブロックは、図24中のエンコーダ中のブロックに関連し、典型的には、対応する逆演算を実行する。ブロック「ウィンドウおよびOLA」は、時間領域出力信号LおよびRを取得するために合成ウィンドウ処理演算ならびに後続の重複および加算演算を実行する。
ここで、[8]におけるシステムにおいて適用される周波数領域雑音整形(FDNS)は、[6]に記載されているようにSNSと置き換えられる。SNSの処理経路のブロック図は、それぞれエンコーダおよびデコーダについての図1および図2のブロック図に示されている。
好ましくは、品質を実質的に損なわない低ビットレートが、エンコーダ側でより多数のスケールファクタを用いてスケーリングすることによって、およびエンコーダ側でスケールパラメータをスケールパラメータまたはスケールファクタの第2のセットにダウンサンプリングすることによって、取得され得、ここで、その後出力インターフェースを介して符号化および送信または記憶される第2のセット中のスケールパラメータは、第1の数のスケールパラメータよりも少ない。したがって、エンコーダ側で、一方で細かいスケーリングが取得され、他方で低ビットレートが取得される。
デコーダ側で、送信された少数のスケールファクタが、スケールファクタの第1のセットを取得するためにスケール・ファクタ・デコーダによって復号され、ここで、第1のセット中のスケールファクタまたはスケールパラメータの数は、第2のセットのうちのスケールファクタまたはスケールパラメータの数よりも大きく、次いで、再び、細かくスケーリングされたスペクトル表現を取得するために、より多数のスケールパラメータを使用する細かいスケーリングがスペクトルプロセッサ内のデコーダ側で実行される。
したがって、一方では低ビットレートが取得されるにもかかわらず、他方では、オーディオ信号スペクトルの高品質スペクトル処理が取得される。
好ましい実施形態において行われるようなスペクトル雑音整形は、極めて低いビットレートのみを使用して実施される。したがって、このスペクトル雑音整形は、低ビットレート変換ベース・オーディオ・コーデックにおいても不可欠なツールであり得る。スペクトル雑音整形は、量子化雑音が人間の耳によって最小限に知覚され、したがって、復号出力信号の知覚品質が最大化され得るように、周波数領域において量子化雑音を整形する。
好ましい実施形態は、スペクトル表現のエネルギーなど、振幅関連測度から計算されたスペクトルパラメータに依拠する。詳細には、帯域ごとのエネルギー、または、概して、帯域ごとの振幅関連測度が、スケールパラメータのための基礎として計算され、ここで、帯域ごとの振幅関連測度を計算する際に使用される帯域幅は、人間の聴覚の特性に可能な限り近づくために、より低い帯域からより高い帯域に増加する。好ましくは、スペクトル表現の帯域への分割は、よく知られているバークスケールに従って行われる。
さらなる実施形態では、線形領域スケールパラメータが計算され、詳細には、多数のスケールパラメータを有するスケールパラメータの第1のセットについて計算され、この多数のスケールパラメータは、対数状領域に変換される。対数状領域は、概して、小さい値が拡大され、高い値が圧縮される領域である。次いで、スケールパラメータのダウンサンプリングまたはデシメーション演算が、10を底とする対数領域または2を底とする対数領域であり得る対数状領域において行われ、ここで、実装目的では後者が好ましい。次いで、スケールファクタの第2のセットが対数状領域において計算され、好ましくは、スケールファクタの第2のセットのベクトル量子化が実行され、ここで、スケールファクタは対数状領域中にある。したがって、ベクトル量子化の結果は、対数状領域スケールパラメータを示す。スケールファクタまたはスケールパラメータの第2のセットは、例えば、第1のセットのうちのスケールファクタの数の1/2、さらには1/3、またさらにより好ましくは1/4の数のスケールファクタを有する。次いで、スケールパラメータの第2のセット中の量子化された少数のスケールパラメータがビットストリーム中に取り込まれ、次いで、エンコーダ側からデコーダ側に送信されるか、または、同じくこれらのパラメータを使用して処理された量子化されたスペクトルと共に符号化オーディオ信号として記憶され、ここで、この処理は、グローバル利得を使用した量子化をさらに含む。しかしながら、好ましくは、エンコーダは、再び、これらの量子化された対数状領域の第2のスケールファクタから、スケールファクタの第3のセットである線形領域スケールファクタのセットを導出し、スケールファクタの第3のセット中のスケールファクタの数は、第2の数よりも大きく、好ましくは、第1のスケールファクタの第1のセット中のスケールファクタの第1の数にさえ等しい。次いで、エンコーダ側で、これらの補間されたスケールファクタはスペクトル表現を処理するために使用され、ここで、処理されたスペクトル表現は最終的に量子化され、ハフマン符号化、算術符号化、またはベクトル量子化ベース符号化など、何らかの方法でエントロピー符号化される。
スペクトル表現の符号化表現と共に少数のスペクトルパラメータを有する符号化信号を受信するデコーダにおいて、少数のスケールパラメータは多数のスケールパラメータに補間され、すなわち、スケールパラメータの第1のセットを取得するために補間され、ここで、スケールファクタまたはスケールパラメータの第2のセットのうちのスケールファクタのスケールパラメータの数が、第1のセットのうちのスケールパラメータの数、すなわち、スケール・ファクタ/パラメータ・デコーダによって計算されたセットよりも小さい。次いで、符号化オーディオ信号を復号するための装置内に位置するスペクトルプロセッサが、スケーリングされたスペクトル表現を取得するためにスケールパラメータのこの第1のセットを使用して復号スペクトル表現を処理する。次いで、スケーリングされたスペクトル表現を変換するための変換器が、好ましくは時間領域中にある復号オーディオ信号を最終的に取得するように動作する。
さらなる実施形態は、以下に記載される追加の利点をもたらす。好ましい実施形態では、スペクトル雑音整形は、[6]または[8]または[1]において使用されるスケールファクタと同様の16個のスケーリングパラメータの助けを借りて実行される。これらのパラメータは、(従来技術3の64個の不均一な帯域と同様の)64個の不均一な帯域におけるMDCTスペクトルのエネルギーを最初に算出し、次いで、64個のエネルギーに何らかの処理(平滑化、プリエンファシス、雑音フロア、対数変換)を適用し、次いで、64個の処理されたエネルギーを4倍でダウンサンプリングして16個のパラメータを取得することによって、エンコーダにおいて取得され、これらのパラメータは、最終的に正規化およびスケーリングされる。これらの16個のパラメータは、次いで、ベクトル量子化を使用して(従来技術2/3において使用されるものと同様のベクトル量子化を使用して)量子化される。量子化されたパラメータは、次いで、64個の補間されたスケーリングパラメータを取得するために補間される。これらの64個のスケーリングパラメータは、次いで、64個の不均一な帯域においてMDCTスペクトルを直接整形するために使用される。従来技術2および3と同様に、スケーリングされたMDCT係数は、次いで、グローバル利得によって制御されるステップサイズを有するスカラ量子化器を使用して量子化される。
さらなる実施形態では、好ましくはサイド・スケール・パラメータに関連する第2のグループなど、2つのグループのうちの1つのためのジョイント符号化スケールパラメータに関する情報は、量子化インデックスまたは他の量子化ビットを含まないが、第2のグループのためのスケールパラメータがオーディオ信号の一部分またはフレームについてすべてゼロであることを示すフラグまたは単一ビットなどの情報のみを含む。この情報は、分析または他の手段によってエンコーダによって決定され、オーディオ信号の時間部分またはフレームについてゼロ・スケール・パラメータを生成することなどによって、この情報に基づいてスケールパラメータの第2のグループを合成するためにデコーダによって使用されるか、あるいは、ジョイント符号化スケールパラメータの第1のグループのみを使用してスケールパラメータの第1のセットおよび第2のセットを計算するためにデコーダによって使用される。
さらなる実施形態では、ジョイント符号化スケールパラメータの第2のグループは、好ましくは可変レート量子化器段である、2段量子化器のうちの第2の量子化段のみを使用して量子化される。この場合、第1段はすべてゼロの量子化された値をもたらすと仮定され、したがって、第2段のみが有効である。またさらなる実施形態では、好ましくは固定レート量子化段である2段量子化器のうちの第1の量子化段のみが適用され、第2段は、オーディオ信号の時間部分またはフレームについてまったく使用されない。このケースは、すべての残差項目がゼロ、あるいは第2の量子化段の最小または第1の量子化ステップサイズよりも小さいと仮定される状況に対応する。
続いて、本発明の好ましい実施形態が添付の図面に関して説明される。
第1の態様によるデコーダを示す図である。 第1の態様によるエンコーダを示す図である。 第1の態様による別のエンコーダを示す図である。 第1の態様によるエンコーダの別の実装形態を示す図である。 第1の態様によるデコーダのさらなる実施形態を示す図である。 デコーダの別の実施形態を示す図である。 エンコーダのさらなる実施形態を示す図である。 エンコーダのさらなる実施形態を示す図である。 第1または第2の態様によるベクトル量子化器の好ましい実装形態を示す図である。 第1または第2の態様によるさらなる量子化器を示す図である。 本発明の第1の態様によるデコーダを示す図である。 本発明の第1の態様によるエンコーダを示す図である。 本発明の第2の態様によるエンコーダを示す図である。 本発明の第2の態様によるデコーダを示す図である。 第1または第2の態様によるデコーダの好ましい実装形態を示す図である。 オーディオ信号を符号化するための装置のブロック図である。 図1のスケールファクタ計算器の好ましい実装形態の概略表現である。 図1のダウンサンプラの好ましい実装形態の概略表現である。 図4のスケール・ファクタ・エンコーダの概略表現である。 図1のスペクトルプロセッサの概略図である。 スペクトル雑音整形(SNS)を実施する、一方のエンコーダおよび他方のデコーダの概略的な表現である。 スペクトル雑音整形(SNS)と共に時間雑音整形(TNS)が実施される、一方のエンコーダ側および他方のデコーダ側のより詳細な表現である。 符号化オーディオ信号を復号するための装置のブロック図である。 図8のスケール・ファクタ・デコーダ、スペクトルプロセッサおよびスペクトルデコーダの詳細を示す概略図である。 64個の帯域へのスペクトルの再分割を示す図である。 一方でのダウンサンプリング演算および他方での補間演算の概略図である。 重複するフレームを有する時間領域オーディオ信号を示す図である。 図1の変換器の一実装形態を示す図である。 図8の変換器の概略図である。 異なる本発明の手順を比較するヒストグラムである。 エンコーダの一実施形態を示す図である。 デコーダの一実施形態を示す図である。
図8は、2つ以上のオーディオチャネルについてのデータを含むマルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータに関する情報とを含む符号化オーディオ信号を復号するためのオーディオデコーダを示す。デコーダは、スケール・パラメータ・デコーダ220と、図8aでは単一のアイテムとして示されている信号プロセッサ210、212、213とを含む。スケール・パラメータ・デコーダ220は、スケールパラメータのジョイント符号化された第1のグループおよび第2のグループに関する情報を受信し、ここで、好ましくは、スケールパラメータの第1のグループはミッド・スケール・パラメータであり、スケールパラメータの第2のグループはサイド・スケール・パラメータである。好ましくは、信号プロセッサは、マルチチャネル・オーディオ・データの第1のチャネル表現およびマルチチャネル・オーディオ・データの第2のチャネル表現を受信し、マルチチャネル・オーディオ・データから導出された第1のチャネル表現にスケールパラメータの第1のセットを適用し、マルチチャネル・オーディオ・データから導出された第2のチャネル表現にスケールパラメータの第2のセットを適用して、図8aのブロック210、212、213の出力において復号オーディオ信号の第1のチャネルおよび第2のチャネルを取得する。好ましくは、ジョイント符号化スケールパラメータは、ミッド・スケール・パラメータなどのジョイント符号化スケールパラメータの第1のグループに関する情報と、サイド・スケール・パラメータなどのジョイント符号化スケールパラメータの第2のグループに関する情報とを含む。さらに、スケール・パラメータ・デコーダ220は、スケールパラメータの第1のセットのうちのスケールパラメータを取得するために第1の結合規則を使用して、第1のグループのうちのジョイント符号化スケールパラメータと第2のグループのうちのジョイント符号化スケールパラメータとを結合し、スケールパラメータの第2のセットのうちのスケールパラメータを取得するために第1の結合規則とは異なる第2の結合規則を使用して、第1のグループおよび第2のグループのうちの同じ両方のジョイント符号化スケールパラメータを結合するように構成される。したがって、スケール・パラメータ・デコーダ220は、2つの異なる結合規則を適用する。
好ましい実施形態では、2つの異なる結合規則は、一方ではプラスまたは加算結合規則であり、他方では減算または差結合規則である。しかしながら、他の実施形態では、第1の結合規則は乗算結合規則であり得、第2の結合規則は商または除算結合規則であり得る。したがって、結合規則のすべての他のペアも、スケールパラメータの第1のグループおよび第2のグループまたは第1のセットおよび第2のセットのうちの対応するスケールパラメータの表現に応じて有用である。
図8bは、2つ以上のチャネルを含むマルチチャネルオーディオ信号を符号化するための対応するオーディオエンコーダを示す。オーディオエンコーダは、スケールパラメータ計算器140と、信号プロセッサ120と、符号化信号形成器1480、1500とを含む。スケールパラメータ計算器140は、マルチチャネルオーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットおよびマルチチャネルオーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットから、ジョイント符号化スケールパラメータの第1のグループおよびジョイント符号化スケールパラメータの第2のグループを計算するために構成される。さらに、信号プロセッサは、スケールパラメータの第1のセットをマルチチャネルオーディオ信号の第1のチャネルに適用し、スケールパラメータの第2のセットをマルチチャネルオーディオ信号の第2のチャネルに適用し、符号化マルチチャネル・オーディオ・データを導出するために構成される。マルチチャネル・オーディオ・データは、スケーリングされた第1および第2のチャネルから導出され、マルチチャネル・オーディオ・データは、図8b中のブロック1500の出力において符号化マルチチャネルオーディオ信号を取得するために、ジョイント符号化スケールパラメータの第1のグループおよび第2のグループに関する情報と共に、符号化信号形成器1480、1500によって使用される。
図1は、図8aのデコーダのさらなる実装形態を示す。詳細には、ビットストリームは信号プロセッサ210に入力され、信号プロセッサ210は、典型的には、スケーリングまたは白色化されたチャネルのインテリジェントギャップ充填手順(IGF手順)および逆ステレオ処理と共にエントロピー復号および逆量子化を実行する。ブロック210の出力は、マルチチャネル信号のスケーリングまたは白色化復号された左および右、または、概して、いくつかの復号チャネルである。ビットストリームは、セパレート符号化の場合の左および右のスケールパラメータのためのサイド情報ビットと、図1においてM、Sスケールパラメータとして示されているスケーリングされたジョイント符号化スケールパラメータのためのサイド情報ビットとを含む。このデータは、スケール・パラメータまたはスケール・ファクタ・デコーダ220に導入され、スケール・パラメータまたはスケール・ファクタ・デコーダ220は、その出力において、復号された左スケールファクタおよび復号された右スケールファクタを生成し、復号された左スケールファクタおよび復号された右スケールファクタは、次いで、スペクトル整形ブロック212、230において適用されて、最終的に、左および右の好ましくはMDCTスペクトルが取得され、このMDCTスペクトルは、次いで、特定の逆MDCT演算を使用して時間領域に変換され得る。
対応するエンコーダ側実装形態が図2において与えられる。図2は、スペクトル整形器120aに入力される左および右チャネルを有するMDCTスペクトルから始まり、スペクトル整形器120aの出力は、例えば、ステレオ処理、エンコーダ側でのインテリジェントギャップ充填演算、ならびに対応する量子化および(エントロピー)コーディング演算を実行するプロセッサ120bに入力される。したがって、ブロック120a、120bは、共に、図8bの信号プロセッサ120を表す。さらに、SNS(スペクトル雑音整形)スケールファクタ算出ブロック120bにおいて実行されるスケールファクタの計算の目的で、MDSTスペクトルも提供され、MDSTスペクトルは、MDCTスペクトルと共に、パワースペクトル計算器110aに転送される。代替的に、パワースペクトル計算器110aは、MDCTまたはMDSTスペクトル手順なしで入力信号に対して直接動作することができる。別の方法は、例えば、MDCTおよびMDST演算ではなく、DFT演算からパワースペクトルを計算することである。さらに、スケールファクタは、スケールファクタの量子化符号化ブロックとして図2に示されている、スケールパラメータ計算器140によって計算される。詳細には、ブロック140は、第1のチャネルと第2のチャネルとの間の類似性に応じて、左および右のセパレート符号化スケールファクタ、または、MおよびSのジョイント符号化スケールファクタのいずれかを出力する。これは、図2においてブロック140の右側に示されている。したがって、この実装形態では、ブロック110bは、左および右のスケールファクタを計算し、次いで、ブロック140は、セパレート符号化、すなわち、左および右スケールファクタについての符号化が、ジョイント符号化スケールファクタ、すなわち、一方での加算および他方での減算など、2つの異なる結合規則によってセパレート・スケール・ファクタから導出されたMおよびSスケールファクタの符号化よりも良いのか悪いのかを決定する。
ブロック140の結果は、L、RまたはM、Sのサイド情報ビットであり、これらは、ブロック120bの結果と共に、図2に示されている出力ビットストリームに導入される。
図3aは、図2または図8bのエンコーダの好ましい実装形態を示す。第1のチャネルは、第1のチャネル、すなわちチャネルLのためのセパレート・スケール・パラメータを決定するブロック1100aに入力される。さらに、第2のチャネルは、第2のチャネル、すなわちRのためのセパレート・スケール・パラメータを決定するブロック1100bに入力される。次いで、左チャネルのためのスケールパラメータおよび右チャネルのためのスケールパラメータは、対応して、第1のチャネルのためのダウンサンプラ130aおよび第2のチャネルのためのダウンサンプラ130bによってダウンサンプリングされる。結果は、左チャネルのためのダウンサンプリングされたパラメータ(DL)および右チャネルのためのダウンサンプリングされたパラメータ(DR)である。
次いで、これらのデータDLおよびDRの両方が、ジョイント・スケール・パラメータ決定器1200に入力される。ジョイント・スケール・パラメータ決定器1200は、ミッドまたはMスケールパラメータなどのジョイント符号化スケールパラメータの第1のグループ、およびサイドまたはSスケールパラメータなどのジョイント符号化スケールパラメータの第2のグループを生成する。両方のグループが、対応するベクトル量子化器140a、140bにおいて入力されて、量子化された値が取得され、量子化された値は、次いで、最終エントロピーエンコーダ140cにあり、ジョイント符号化スケールパラメータに関する情報を取得するために符号化されることになる。
エントロピーエンコーダ140cは、算術エントロピー符号化アルゴリズム、あるいは、一次元の、または一次元以上のハフマン・コード・テーブルを用いたエントロピー符号化アルゴリズムを実行するように実装され得る。
エンコーダの別の実装形態が図3bに示されており、ここで、ダウンサンプリングは、図3a中の130a、130bに示されているような左および右でなど、セパレート・スケール・パラメータで実行されない。代わりに、ジョイント・スケール・パラメータ決定および対応するダウンサンプラ130a、130bによる後続のダウンサンプリングの演算の順序が変更されている。図3aの実装形態が使用されるのか図3bの実装形態が使用されるのかは特定の実装形態に依存し、ここで、図3aの実装形態が選好されるが、それは、ジョイント・スケール・パラメータ決定1200が、ダウンサンプリングされたスケールパラメータに対してすでに実行されている、すなわち、スケールパラメータ計算器140によって実行される2つの異なる結合規則が、典型的には、図3bの場合と比較してより少数の入力に対して実行されるからである。
図4aは、2つ以上のオーディオチャネルについてのデータを含むマルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータに関する情報とを有する符号化オーディオ信号を復号するためのデコーダの実装形態を示す。ただし、信号プロセッサの一部、詳細には、対応するチャネルスケーラ212a、212bのみが図4aに示されているので、図4a中のデコーダは図8aのデコーダ全体の一部にすぎない。スケール・パラメータ・デコーダ220に関して、この要素は、図3a中の対応するブロック140cによって実行される手順を逆にするエントロピーデコーダ2200を含む。さらに、エントロピーデコーダは、量子化されたMスケールパラメータおよび量子化されたSスケールパラメータなど、量子化されたジョイント符号化スケールパラメータを出力する。スケールパラメータの対応するグループは、MおよびSの逆量子化された値を取得するために逆量子化器2202および2204に入力される。これらの逆量子化された値は、次いで、左および右のスケールパラメータ、すなわちセパレート・スケール・パラメータを出力するセパレート・スケール・パラメータ決定器2206に入力される。これらの対応するスケールパラメータは補間器222a、222bに入力されて、左の補間されたスケールパラメータ(IL)および右の補間されたスケールパラメータ(IR)が取得される。これらのデータの両方が、それぞれチャネルスケーラ212a、212bに入力される。さらに、チャネルスケーラは、例えば、図1中のブロック210によって行われた手順全体の後に、対応して第1のチャネル表現を受信する。対応して、チャネルスケーラ212bはまた、図1中のブロック210によって出力されたその対応する第2のチャネル表現を取得する。次いで、図1において「MDCTスペクトル」として示されている左および右の整形スペクトルチャネルを取得するために、最終チャネルスケーリングまたは図1において称するように「スペクトル整形」が行われる。次いで、時間領域表現においてマルチチャネルオーディオ信号の復号された第1のチャネルおよび復号された第2のチャネルを最終的に取得するために、240a、240bに示されている各チャネルについての最終周波数領域-時間領域変換が実行され得る。
詳細には、図4aの左部分に示されているスケール・パラメータ・デコーダ220は、図1に示されているようにまたは図4aにまとめて示されているように、オーディオデコーダ内に含まれ得るが、スケール・パラメータ・エンコーダ140の出力においてローカル・スケール・パラメータ・デコーダ220を明示的に示す図5に関して示されるように、エンコーダ内のローカルデコーダとしても含まれ得る。
図4bは、図4aに関して、補間とセパレート・スケール・パラメータを決定するためのスケールパラメータ決定との順序が交換されるさらなる実装形態を示す。詳細には、補間は、図4bの補間器222a、222bを使用してジョイント符号化スケールパラメータMおよびSで行われ、IMおよびISなど、補間されたジョイント符号化スケールパラメータが、セパレート・スケール・パラメータ決定器2206に入力される。次いで、ブロック2206の出力は、アップサンプリングされたスケールパラメータ、すなわち、例えば図21に示されている64個の帯域の各々についてのスケールパラメータである。
図5は、図8b、図2または図3a、図3bのエンコーダのさらなる好ましい実装形態を示す。第1のチャネルおよび第2のチャネルは、両方とも、図5の100a、100bなど、任意選択の時間領域-周波数領域変換器に導入される。ブロック100a、100bによって出力されたスペクトル表現は、左および右チャネルについてのスペクトル表現を個別にスケーリングするチャネルスケーラ120aに入力される。したがって、チャネルスケーラ120aは、図2の120aに示されているスペクトル整形演算を実行する。チャネルスケーラの出力は、図5のチャネルプロセッサ120bに入力され、ブロック120bの処理されたチャネル出力は、符号化信号形成器1480、1500に入力されて、符号化オーディオ信号が取得される。
さらに、セパレートまたはジョイント符号化スケールパラメータの決定の目的で、時間領域において直接第1のチャネルおよび第2のチャネルを入力として受信する類似性計算器1400が提供される。代替的に、類似性計算器は、時間領域-周波数領域変換器100a、100bの出力、すなわちスペクトル表現において第1のチャネルおよび第2のチャネルを受信することができる。
図6に関して、2つのチャネル間の類似性が、ジョイント符号化スケールパラメータの第2のグループに基づいて、すなわち、サイド・スケール・パラメータに基づいて計算されることが概説されるが、この類似性はまた、ジョイント符号化スケールパラメータの明示的な計算なしに直接、時間領域またはスペクトル領域チャネルに基づいて計算され得ることに留意されたい。代替的に、類似性はまた、ジョイント符号化スケールパラメータの第1のグループに基づいて、すなわち、ミッド・スケール・パラメータに基づいて決定され得る。詳細には、サイド・スケール・パラメータのエネルギーが閾値よりも低いとき、ジョイント符号化が実行され得ると決定される。同様に、フレーム中のミッド・スケール・パラメータのエネルギーも測定され得、例えば、ミッド・スケール・パラメータのエネルギーが別の閾値よりも大きいとき、ジョイント符号化の決定が行われ得る。したがって、スケールパラメータのジョイントコーディングまたはスケールパラメータのセパレートコーディングを判定するために第1のチャネルと第2のチャネルとの間の類似性を決定するための多くの異なる方法が実施され得る。それにもかかわらず、スケールパラメータのジョイントまたはセパレートコーディングの決定は、必ずしもチャネルについてのジョイント・ステレオ・コーディングの決定、すなわち、2つのチャネルがミッド/サイド表現を使用してジョイントコーディングされるのかL、R表現においてセパレートコーディングされるのかの決定と同一である必要はないことに留意されたい。スケールパラメータのジョイント符号化の決定は、実際のチャネルについてのステレオ処理の決定とは無関係に行われるが、それは、図2中のブロック120bにおいて実行される任意の種類のステレオ処理の決定が、ミッドおよびサイドのスケールファクタを使用するスペクトルのスケーリングまたは整形の後に、およびそれに続いて行われるからである。詳細には、図2に示されているように、ブロック140はジョイントコーディングを決定することができる。したがって、ブロック140を指す図2中の矢印によって示されているように、MおよびSのスケールファクタが、このブロック内で生じ得る。図5のエンコーダ内のローカル・スケール・パラメータ・デコーダ220の適用の場合、スペクトルを整形するために実際に使用されるスケールパラメータは、左のスケールパラメータおよび右のスケールパラメータであるが、それにもかかわらず、ミッドおよびサイドの符号化および復号スケールパラメータから導出される。
図5に関して、モード判定器1402が提供される。モード判定器1402は、類似性計算器1400の出力を受信し、チャネルが十分に類似していないとき、スケールパラメータのセパレートコーディングを判定する。しかしながら、チャネルが類似していると決定されたとき、スケールパラメータのジョイントコーディングがブロック1402によって決定され、情報、スケールパラメータのセパレートコーディングが適用されるのか変更ジョイントコーディングが適用されるのかは、図5に示されている対応するサイド情報またはフラグ1403によってシグナリングされ、これは、ブロック1402から符号化信号形成器1480、1500に提供される。さらに、エンコーダは、第1のチャネルのためのスケールパラメータおよび第2のチャネルのためのスケールパラメータを受信し、モード判定器1402によって制御されるようにスケールパラメータをセパレート符号化またはジョイント符号化するスケール・パラメータ・エンコーダ140を含む。スケール・パラメータ・エンコーダ140は、一実施形態では、チャネルスケーラ120aが対応する第1および第2のチャネル・スケール・パラメータを用いたスケーリングを実行するように、破線で示されるように第1および第2のチャネルのためのスケールパラメータを出力し得る。しかしながら、エンコーダ内でローカル・スケール・パラメータ・デコーダ220を適用することが好ましく、それにより、逆量子化されたスケールパラメータがエンコーダにおいてチャネルスケーリングのために適用されるように、ローカルに符号化および復号されたスケールパラメータを用いてチャネルスケーリングが行われる。これは、少なくともチャネルスケーリングまたはスペクトル整形のための使用されるスケールパラメータに関して、エンコーダおよびデコーダ中のチャネルスケーラ内でまったく同じ状況が発生するという利点を有する。
図6は、オーディオエンコーダに関する本発明のさらなる好ましい実施形態を示す。例えば、MDCTアルゴリズムを適用する時間領域-周波数領域変換器であり得るMDCTスペクトル計算器100が提供される。さらに、図2に示されているように、パワースペクトル計算器110aが提供される。セパレート・スケール・パラメータは、対応する計算器1100、ならびにジョイント符号化スケールパラメータを計算する目的で、加算ブロック1200aおよび減算ブロック1200bによって、計算される。次いで、類似性を決定する目的で、サイドパラメータ、すなわち、ジョイント符号化スケールパラメータの第2のグループを用いたフレームごとのエネルギー計算が実行される。ブロック1406において、閾値との比較が実行され、図5のフレームのためのモード判定器1402と同様であるこのブロックは、対応するフレームについてのモードフラグまたはステレオフラグを出力する。さらに、情報は、現在のフレームにおいてセパレートまたはジョイントコーディングを実行する制御可能エンコーダに与えられる。この目的で、制御可能エンコーダ140は、ブロック1100によって計算されたスケールパラメータ、すなわち、セパレート・スケール・パラメータを受信し、さらに、ジョイント符号化スケールパラメータ、すなわち、ブロック1200aおよび1200bによって決定されたスケールパラメータを受信する。
ブロック140は、好ましくは、フレームのすべてのサイドパラメータが0に量子化されるとブロック140が決定したとき、フレームについてゼロフラグを生成する。この結果は、第1のチャネルと第2のチャネルが互いに極めて近く、チャネル間の差、したがってスケールファクタ間の差が、これらの差がブロック140に含まれる量子化器によって適用される最低量子化閾値よりも小さくなるようなものであるときに生じる。ブロック140は、対応するフレームについてジョイント符号化またはセパレート符号化スケールパラメータに関する情報を出力する。
図9aは、複数のオーディオ情報項目を量子化するためのオーディオ量子化器を示す。オーディオ量子化器は、第1段ベクトル量子化結果146を決定するために、スケールファクタまたはスケールパラメータまたはスペクトル値など、複数のオーディオ情報項目を量子化するための第1段ベクトル量子化器141、143を含む。さらに、ブロック141、143は、第1段ベクトル量子化結果に対応する複数の中間量子化項目を生成する。中間量子化項目は、例えば、第1段結果に関連する値である。第1段結果が、例えば16個の特定の(量子化された)値を有する特定のコードブックを識別したとき、中間量子化項目は、第1段結果146であるコードブック・ベクトル・インデックスに関連する16個の値である。第1段ベクトル量子化器141、143への入力における中間量子化項目およびオーディオ情報項目は、複数の中間量子化項目および複数のオーディオ情報項目から複数の残差項目を計算するための残差項目決定器に入力されるこれは、例えば、元の項目と量子化された項目との間の各項目についての差を計算することによって行われる。残差項目は、第2段ベクトル量子化結果を取得するために複数の残差項目を量子化するための第2段ベクトル量子化器145に入力される。次いで、ブロック141、143の出力における第1段ベクトル量子化結果およびブロック145の出力における第2段結果は、共に、複数のオーディオ情報項目の量子化された表現を表し、量子化された表現は任意選択の符号化信号形成器1480、1500によって符号化され、符号化信号形成器1480、1500は量子化されたオーディオ情報項目を出力し、量子化されたオーディオ情報項目は、好ましい実施形態では、量子化されるだけでなく、さらにエントロピー符号化される。
対応するオーディオ逆量子化器が図9bに示されている。オーディオ逆量子化器は、複数の中間量子化オーディオ情報項目を取得するために、量子化された複数のオーディオ情報項目に含まれる第1段量子化結果を逆量子化するための第1段ベクトル逆量子化器2220を含む。さらに、第2段ベクトル逆量子化器2260が提供され、複数の残差項目を取得するために、量子化された複数のオーディオ情報項目に含まれる第2段ベクトル量子化結果を逆量子化するために構成される。ブロック2220からの中間項目とブロック2260からの残差項目の両方が、逆量子化された複数のオーディオ情報項目を取得するために複数の中間量子化オーディオ項目と複数の残差項目とを結合するための結合器2240によって結合される。詳細には、ブロック2220の出力における中間量子化項目は、LおよびRなど、セパレート符号化スケールパラメータ、または、例えばMのジョイント符号化スケールパラメータの第1のグループであり、残差項目は、ジョイント符号化サイド・スケール・パラメータ、例えば、すなわち、ジョイント符号化スケールパラメータの第2のグループを表し得る。
図7aは、図9aの第1段ベクトル量子化器141、143の好ましい実装形態を示す。ステップ701において、第1の量子化インデックスを取得するために、スケールパラメータの第1のサブセットのベクトル量子化が実行される。ステップ702において、第2の量子化インデックスを取得するために、スケールパラメータの第2のサブセットのベクトル量子化が実行される。さらに、実装形態に応じて、任意選択のインデックスである第3の量子化インデックスを取得するために、ブロック703に示されているように、スケールパラメータの第3のサブセットのベクトル量子化が実行される。図7aの手順は、スプリットレベル量子化があるときに適用される。例示的に、オーディオ入力信号は、図21に示されている64個の帯域に分離される。これらの64個の帯域は、16個の帯域/スケールファクタにダウンサンプリングされ、それにより、帯域全体が16個のスケールファクタによってカバーされる。これらの16個のスケールファクタは、図7aに示されているスプリットレベルモードで第1段ベクトル量子化器141、143によって量子化される。元の64個のスケールファクタをダウンサンプリングすることによって取得された図21の16個のスケールファクタのうちの最初の8つのスケールファクタは、ステップ701によってベクトル量子化され、したがって、スケールパラメータの第1のサブセットを表す。8つの上側帯域のための残りの8つのスケールパラメータは、ステップ702においてベクトル量子化されるスケールパラメータの第2のサブセットを表す。実装形態に応じて、スケールパラメータまたはオーディオ情報項目のセット全体の分離は、必ずしも正確に2つのサブセットで行われる必要がなく、3つのサブセットまたはさらに多くのサブセットでも行われ得る。
いくつのスプリットが実行されるかとは無関係に、各レベルについてのインデックスは、共に、第1段結果を表す。図14に関して説明されるように、これらのインデックスは、単一の第1段インデックスを有するように図14中のインデックス結合器を介して結合され得る。代替的に、第1段結果は、第1のインデックス、第2のインデックス、および潜在的な第3のインデックス、ならびに、おそらく、さらに多くのインデックスから構成され得、これらのインデックスは、結合されないがそのままエントロピー符号化される。
第1段結果を形成する対応するインデックスに加えて、ステップ701、702、703は、フレームのための残差スケールパラメータを計算する目的でブロック704において使用される中間スケールパラメータをも提供する。したがって、例えば図9aのブロック142によって実行されるステップ705は、残差スケールパラメータをもたらし、残差スケールパラメータは、次いで、第2段結果を生成するためにステップ705によって実行される(代数)ベクトル量子化によって処理される。したがって、第1段結果および第2段結果は、セパレート・スケール・パラメータL、セパレート・スケール・パラメータR、およびジョイント・スケール・パラメータMの第1のグループについて生成される。しかしながら、図7bに示されているように、ジョイントコーディングされたスケールパラメータまたはサイド・スケール・パラメータの第2のグループの(代数)ベクトル量子化は、好ましい実装形態ではステップ705と同一であるステップ706によってのみ実行され、図9aのブロック142によって再び実行される。
さらなる実施形態では、好ましくはサイド・スケール・パラメータに関連する第2のグループなど、2つのグループのうちの1つのためのジョイント符号化スケールパラメータに関する情報は、量子化インデックスも他の量子化ビットも含まないが、第2のグループのためのスケールパラメータがオーディオ信号の一部分またはフレームについてすべてゼロであるか、あるいは、すべて、小さい値などの特定の値にあることを示すフラグまたは単一ビットなどの情報のみを含む。この情報は、分析または他の手段によってエンコーダによって決定され、オーディオ信号の時間部分もしくはフレームについてゼロ・スケール・パラメータを生成すること、または、特定の値のスケールパラメータを生成すること、または、例えばすべてが最小もしくは第1の量子化段よりも小さい、小さいランダム・スケール・パラメータを生成することなどによって、この情報に基づいてスケールパラメータの第2のグループを合成するためにデコーダによって使用されるか、あるいは、ジョイント符号化スケールパラメータの第1のグループのみを使用してスケールパラメータの第1のセットおよび第2のセットを計算するためにデコーダによって使用される。したがって、図7a中の段705を実行する代わりに、ジョイント符号化スケールパラメータの第2のグループについてのすべてゼロのフラグのみが第2段結果として書き込まれる。ブロック704中の計算は、この場合も省略され得、すべてゼロのフラグがアクティブ化され、送信されることになるか否かを判定するための判定器に置き換えられ得る。この判定器は、Sパラメータ全体のコーディングのスキップを示すユーザ入力またはビットレート情報によって制御され得るか、あるいは、残差項目の分析を実際に実行することができる。したがって、すべてゼロのビットを有するフレームについて、スケール・パラメータ・デコーダは、いかなる結合も実行せず、第1のグループのうちの符号化スケールパラメータを2で除算することによって、または別の所定の値を使用して重み付けすることによってなど、ジョイント符号化スケールパラメータの第1のグループのみを使用してスケールパラメータの第2のセットを計算する。
さらなる実施形態では、ジョイント符号化スケールパラメータの第2のグループは、好ましくは可変レート量子化器段である、2段量子化器のうちの第2の量子化段のみを使用して量子化される。この場合、第1段はすべてゼロの量子化された値をもたらすと仮定され、したがって、第2段のみが有効である。このケースは図7bに示されている。
またさらなる実施形態では、好ましくは固定レート量子化段である、図7a中の2段量子化器のうちの701、702、703などの第1の量子化段のみが適用され、第2段705は、オーディオ信号の時間部分またはフレームについてまったく使用されない。このケースは、すべての残差項目がゼロ、あるいは第2の量子化段の最小または第1の量子化ステップサイズよりも小さいと仮定される状況に対応する。次いで、図7b、項目706は、図7aの項目701、702、703に対応し、項目704も同様に省略され得、第1段量子化のみが使用されることまたは使用されないことを判定するための判定器に置き換えられ得る。この判定器は、ユーザ入力またはビットレート情報によって制御され得るか、あるいは、残差項目の分析を実際に実行して、残差項目が非常に小さく、単一段のみによって量子化されたジョイント符号化スケールパラメータの第2のグループの精度が十分であると決定することができる。
図14にさらに示されている本発明の好ましい実装形態では、代数ベクトル量子化器145は、スプリットレベル計算をさらに実行し、好ましくは、ベクトル量子化器によって実行されるのと同じスプリットレベル演算を実行する。したがって、残差値のサブセットは、帯域番号に関して、スケールパラメータのサブセットに対応する。2つのスプリットレベルを有する場合、すなわち、図21の最初の8つのダウンサンプリングされた帯域について、代数ベクトル量子化器145は第1レベル結果を生成する。さらに、代数ベクトル量子化器145は、上位8つのダウンサンプリングされたスケールファクタまたはスケールパラメータ、あるいは、概して、オーディオ情報項目について、第2レベル結果を生成する。
好ましくは、代数ベクトル量子化器145は、参照(4)として言及されるETSI TS126 445 V13.2.0(2016-08)のセクション5.2.3.1.6.9において定義される代数ベクトル量子化器として実装され、ここで、対応するスプリットマルチレート格子ベクトル量子化の結果は、各8つの項目についてのコードブック番号、ベースコードブック中のベクトルインデックス、および8次元ボロノイインデックスである。しかしながら、単一のコードブックのみを有する場合、コードブック番号は回避され得、ベースコードブック中のベクトルインデックスおよび対応するn次元ボロノイインデックスのみで十分である。したがって、代数ベクトル量子化結果のための各レベルについて、項目a、項目bおよび項目c、または項目bおよび項目cのみであるこれらの項目は、第2段量子化結果を表す。
続いて、本発明の第1または第2の態様による、あるいは両方の態様による、図7a、図7bの符号化または図14の符号化と一致する対応する復号演算を示す図10を参照する。
図10のステップ2221において、量子化されたミッド・スケール・ファクタ、すなわち、ジョイント符号化スケールファクタの第2のグループが取り出される。これは、図5のステレオ・モード・フラグまたは項目1403が真の値を示すときに行われる。次いで、図14のエンコーダによって、詳細には、図14に関して説明されたかまたは図7aに関して説明された代数ベクトル量子化器145によって行われた手順を再実行するために、第1段復号2223および第2段復号2261が実行される。ステップ2225において、サイド・スケール・ファクタはすべて0であると仮定される。ステップ2261において、0フラグ値によって、フレームについて非ゼロ量子化スケールファクタが実際にもたらされるかどうかがチェックされる。0フラグ値が、フレームについて非ゼロ・サイド・スケール・ファクタがあることを示す場合、量子化されたサイド・スケール・ファクタは、第2段復号2261を使用して、または図7bのブロック706のみを実行して取り出され、復号される。ブロック2207において、ジョイント符号化スケールパラメータは、量子化された左および右スケールパラメータをその後出力するためにセパレート符号化スケールパラメータに変換され、量子化された左および右スケールパラメータは、次いで、デコーダにおけるスペクトルの逆スケーリングのために使用され得る。
ステレオ・モード・フラグ値がゼロの値を示すとき、またはセパレートコーディングがフレーム内で使用されたと決定されたとき、左および右スケールファクタについて第1段復号2223および第2段復号2261のみが実行され、左および右スケールファクタはすでにセパレート符号化表現中にあるので、ブロック2207などの変換は必要とされない。エンコーダ側でのステレオ処理の前およびデコーダ側での逆ステレオ処理の後にスペクトルをスケーリングするために必要とされるSNSスケールファクタを効率的にコーディングおよび復号するプロセスは、コメント付きの例示的な擬似コードとして本発明の好ましい実装形態を示すために、以下で説明される。
スケールファクタのジョイント量子化およびコーディング


パラメータを表すために、任意の種類の量子化、例えば、均一または非均一なスカラ量子化およびエントロピーまたは算術コーディングが使用され得る。説明された実装形態では、アルゴリズム説明から分かるように、2段ベクトル量子化方式が実施される。
・第1段-各々5ビットを用いる2つのスプリット(各々8次元)、したがって、10ビットを用いてコーディングされる
・第2段-代数ベクトル量子化(AVQ)、同じく2スプリットで、残差のスケーリングを伴い、ここで、コードブックインデックスがエントロピーコーディングされ、したがって、可変ビットレートを使用する。
高度に相関するチャネルのためのサイド信号は小さいと見なされ得るので、対応するSNSパラメータを表すには、例えば縮小スケールの第2段AVQのみを使用することで十分である。これらの信号について第1段VQをスキップすることによって、SNSパラメータのコーディングについての著しい複雑度およびビット節約が達成され得る。
実施される量子化の各段の擬似コード記述が以下で与えられる。各スプリットについて5ビットを使用する2スプリットベクトル量子化を伴う第1段。


第2段代数ベクトル量子化。

コーディングプロセスから出力されたインデックスは、最終的に、ビットストリームにパックされ、デコーダに送られる。
第2段について上記で開示されたAVQ手順は、MDCTベースTCXの章において高レートLPC(サブクローズ5.3.3.2.1.3)に関してEVSにおいて概説されるように実施されるのが好ましい。具体的には、5.3.3.2.1.3.4代数ベクトル量子化器と記載されている、使用される第2段代数ベクトル量子化器、および量子化のために使用される代数VQについて、改良点がサブクローズ5.2.3.1.6.9に記載されている。一実施形態では、各インデックスについて、ベース・コードブック・インデックスのためのコードワードのセットと、ボロノイインデックスのためのコードワードのセットとを有し、これはすべてエントロピーコーディングされ、したがって可変ビットレートのものである。したがって、各サブバンドjにおけるAVQのパラメータは、コードブック番号、ベースコードブック中のベクトルインデックス、およびn次元(8次元など)ボロノイインデックスから構成される。
スケールファクタの復号
デコーダ側において、インデックスがビットストリームから抽出され、スケールファクタの量子化された値を復号し、導出するために使用される。手順の擬似コード例が以下で与えられる。
2段復号の手順は、以下の擬似コードにおいて詳細に説明される。
2段復号の手順は、以下の擬似コードにおいて詳細に説明される
第1段から取り出された量子化されたSNSスケールファクタは、第2段において残差を復号することによって改良される。手順は、以下の擬似コードにおいて与えられる。
エンコーダ側での残差のスケーリングまたは増幅/重み付けと、デコーダ側でのスケーリングまたは減衰/重み付けとに関して、重み付けファクタは、各値について別々に計算されないか、またはスプリットされず、(複雑度を回避するための近似として)単一の重みまたは少数の異なる重みが、すべてのパラメータをスケーリングするために使用される。このスケーリングは、例えば、粗い量子化(ゼロへのさらなる量子化)のビットレート節約と量子化精度(それぞれのスペクトル歪みを伴う)とのトレードオフを決定する要因であり、この所定の値がデコーダに送信される必要がなく、送信ビットを節約するためにデコーダにおいて固定的に設定または初期化され得るように、エンコーダにおいて予め決定され得る。したがって、残差のより高いスケーリングは、より多くのビットを必要とするが、最小のスペクトル歪みを有し、スケールを縮小すると、追加ビットが節約され、スペクトル歪みが許容可能な範囲に保たれる場合、それは、追加のビットレート節約の手段として機能し得る。
好ましい実施形態の利点
・2つのチャネルが相関し、SNSパラメータがジョイントコーディングされるときの大幅なビット節約。
前のセクションにおいて説明されたシステムにおいて達成されるビット毎フレーム節約の一例が以下に示される。
o独立-平均88.1ビット
o新規の独立-平均72.0ビット
o新規のジョイント-平均52.1ビット
ここで、
o「独立」は、2つのチャネルを2段VQで独立してのみコーディングする、FDNSのためにSNS[6]を使用する[8]に記載されているMDCTステレオ実装形態である
・第1段-8ビットトレーニング済みコードブック(16次元)
・第2段-4倍でスケーリングされた残差のAVQ(可変ビットレート)
o「新規の独立」は、本発明の前に説明された実施形態を指し、ここで、2つのチャネルの相関が十分に高くなく、それらが、上記で説明されたように新規のVQ2段手法を使用してセパレートコーディングされ、残差が2.5の低減されたファクタでスケーリングされる。
o「新規のジョイント」は、(同じく上記で説明された)ジョイントコーディングされたケースを指し、この場合も、第2段において、残差は2.5の低減されたファクタでスケーリングされる。
・提案された方法の別の利点は、計算複雑度の節約である。[6]に示されているように、新しいSNSは、LPCを推定するために必要とされる自己相関計算のために、[5]に記載されているLPCベースFDNSからの計算複雑度に関して、より最適である。したがって、改善されたLPCベースFDNS[5]が使用される[8]からのMDCTベース・ステレオ・システムの計算複雑度を、新しいSNS[6]がLPCベース手法を置き換える実装形態と比較すると、32kHzのサンプリングレートで約6WMOPSの節約がある。
さらに、第1段についてVQを用い、第2段について縮小スケールを有するAVQを用いる新しい2段量子化は、計算複雑度のいくらかのさらなる低減を達成する。前のセクションにおいて説明された実施形態では、計算複雑度は、32kHzのサンプリングレートで約1WMOPSだけさらに低減され、許容可能なスペクトル歪みのトレードオフを伴う。
好ましい実施形態または態様の概要
1.スペクトル雑音整形パラメータのジョイントコーディング、ここで、パラメータのミッド/サイド表現が計算され、ミッドは量子化およびエントロピーコーディングを使用してコーディングされ、サイドはより粗い量子化方式を使用してコーディングされる。
2.チャネル相関またはコヒーレンスに基づいて、雑音整形パラメータが独立してコーディングされるべきかジョイントコーディングされるべきかを適応的に決定する。
3.パラメータが独立してコーディングされるのかジョイントコーディングされるのかを決定するために送られるシグナリングビット。
4.MDCTステレオ実装形態に基づく適用例。
・サイド係数がゼロである、ビットを用いたシグナリング
・SNSが使用される
・パワースペクトルがSNSを計算するために使用される
・第1段において、5ビットを用いた2つのスプリットが使用される。
・第2段AVQの残差のスケーリングを調整することにより、第2段量子化のためのビット数をさらに低減し得る。
図23は、(上記で「独立」として説明された)現在の従来技術の実装形態と、本発明の第2の態様による新規の独立実装形態と、本発明の第1の態様による新規のジョイント実装形態とに従って、両方のチャネルについてのビット数の比較を示す。図23は、縦軸が発生頻度を表し、横軸が両方のチャネルのためのパラメータをコーディングするための全ビット数のビンを示すヒストグラムを示す。
続いて、各オーディオチャネルについてのスケールファクタの計算に特定の強調が与えられ、さらに、図3a、図3bに関して示されたようにジョイント符号化スケールパラメータの計算の前または後のいずれかに適用されるスケールパラメータのダウンサンプリングおよびアップサンプリングの特定の適用に特定の強調が与えられる、さらなる好ましい実施形態が示される。
図11は、オーディオ信号160を符号化するための装置を示す。オーディオ信号160は、好ましくは時間領域において利用可能であるが、予測領域または任意の他の領域など、オーディオ信号の他の表現も主に有用である。装置は、変換器100と、スケールファクタ計算器110と、スペクトルプロセッサ120と、ダウンサンプラ130と、スケール・ファクタ・エンコーダ140と、出力インターフェース150とを含む。変換器100は、オーディオ信号160をスペクトル表現に変換するために構成される。スケールファクタ計算器110は、スペクトル表現からスケールパラメータまたはスケールファクタの第1のセットを計算するために構成される。他のチャネルはブロック120において受信され、他のチャネルからのスケールパラメータはブロック140によって受信される。
本明細書を通して、「スケールファクタ」または「スケールパラメータ」という用語は、同じパラメータまたは値、すなわち、何らかの処理の後に、何らかのスペクトル値を重み付けするために使用される値またはパラメータを指すために使用される。この重み付けは、線形領域において実行されるとき、実際には、スケーリングファクタを用いた乗算演算である。しかしながら、重み付けが対数領域において実行されるとき、スケールファクタを用いた重み付け演算は、実際の加算または減算演算によって行われる。したがって、本出願の観点では、スケーリングは、乗算または除算を意味するだけでなく、特定の領域に応じて、加算または減算をも意味するか、あるいは、概して、スペクトル値が、例えば、スケールファクタまたはスケールパラメータを使用して重み付けまたは修正される各演算を意味する。
ダウンサンプラ130は、スケールパラメータの第2のセットを取得するためにスケールパラメータの第1のセットをダウンサンプリングするために構成され、ここにおいて、スケールパラメータの第2のセット中のスケールパラメータの第2の数は、スケールパラメータの第1のセット中のスケールパラメータの第1の数よりも少ない。これはまた、第2の数が第1の数よりも少ないことを述べる図11中のボックスにおいて概説されている。図11に示されているように、スケール・ファクタ・エンコーダは、スケールファクタの第2のセットの符号化表現を生成するために構成され、この符号化表現は、出力インターフェース150に転送される。スケールファクタの第2のセットがスケールファクタの第1のセットよりも少ない数のスケールファクタを有するという事実により、スケールファクタの第2のセットの符号化表現を送信または記憶するためのビットレートは、ダウンサンプラ130において実行されるスケールファクタのダウンサンプリングが実行されなかったであろう状況と比較して低い。
さらに、スペクトルプロセッサ120は、スケールパラメータの第3のセットを使用して図11中の変換器100によって出力されたスペクトル表現を処理するために構成され、スケールパラメータまたはスケールファクタの第3のセットは、スケールファクタの第2の数よりも大きいスケールファクタの第3の数を有し、ここにおいて、スペクトルプロセッサ120は、スペクトル処理の目的で、ライン171を介してブロック110からすでに利用可能なものとしてスケールファクタの第1のセットを使用するように構成される。代替的に、スペクトルプロセッサ120は、ライン172によって示されているように、スケールファクタの第3のセットの計算のために、ダウンサンプラ130によって出力されたスケールファクタの第2のセットを使用するように構成される。さらなる実装形態では、スペクトルプロセッサ120は、図11中のライン173によって示されているように、スケールファクタの第3のセットを計算する目的で、スケール・ファクタ/パラメータ・エンコーダ140によって出力された符号化表現を使用する。好ましくは、スペクトルプロセッサ120は、スケールファクタの第1のセットを使用せず、ダウンサンプラによって計算されたスケールファクタの第2のセットを使用するか、またはさらにより好ましくは符号化表現を使用するか、あるいは、概して、スケールファクタの量子化された第2のセットを使用し、次いで、スペクトルパラメータの量子化された第2のセットを補間するための補間演算を実行して、補間演算のためにより多数のスケールパラメータを有するスケールパラメータの第3のセットを取得する。
したがって、ブロック140によって出力されるスケールファクタの第2のセットの符号化表現は、好ましくは使用されるスケール・パラメータ・コードブックのためのコードブックインデックスまたは対応するコードブックインデックスのセットのいずれかを含む。他の実施形態では、符号化表現は、コードブックインデックスまたはコードブックインデックスのセット、あるいは概して符号化表現が、デコーダ側ベクトルデコーダまたは任意の他のデコーダに入力されたときに取得される、量子化されたスケールファクタの量子化されたスケールパラメータを含む。
好ましくは、スペクトルプロセッサ120は、デコーダ側でも利用可能であるスケールファクタの同じセットを使用し、すなわち、補間演算と共にスケールパラメータの量子化された第2のセットを使用して、最終的にスケールファクタの第3のセットを取得する。
好ましい実施形態では、スケールファクタの第3のセット中のスケールファクタの第3の数は、スケールファクタの第1の数に等しい。しかしながら、より少数のスケールファクタも有用である。例示的に、例えば、ブロック110において64個のスケールファクタを導出することができ、次いで、送信のために64個のスケールファクタを16個のスケールファクタにダウンサンプリングすることができる。次いで、スペクトルプロセッサ120において、必ずしも64個のスケールファクタへの補間ではなく、32個のスケールファクタへの補間を実行することができる。代替的に、符号化出力信号170において送信されるスケールファクタの数が、ブロック110において計算されたかまたは図11のブロック120において計算および使用されたスケールファクタの数よりも小さい限り、場合によっては64個超など、さらに多数のスケールファクタへの補間を実行することができる。
好ましくは、スケールファクタ計算器110は、図12に示されているいくつかの演算を実行するように構成される。これらの演算は、帯域ごとの振幅関連測度の計算111を指す。ここで、1つのチャネルのためのスペクトル表現がブロック111に入力される。他のチャネルについての計算も同様に行われる。帯域ごとの好ましい振幅関連測度は帯域ごとのエネルギーであるが、他の振幅関連測度、例えば、帯域ごとの振幅の大きさの合計、またはエネルギーに対応する二乗振幅の合計も同様に使用され得る。しかしながら、帯域ごとのエネルギーを計算するために使用される2のべき乗とは別に、信号のラウドネスを反映する3のべき乗など、他のべき乗も使用され得、帯域ごとの振幅関連測度を計算するために、1.5または2.5のべき乗など、整数とは異なるべき乗も同様に使用され得る。1.0未満のべき乗も、そのようなべき乗によって処理される値が正の値であることが保証される限り、使用され得る。
スケールファクタ計算器によって実行されるさらなる演算は、帯域間平滑化112であり得る。この帯域間平滑化は、好ましくは、ステップ111によって取得された振幅関連測度のベクトルにおいて現れ得る、考えられる不安定性を平滑化するために使用される。この平滑化を実行しない場合、これらの不安定性は、特にエネルギーが0に近いスペクトル値において、115において示されているように後で対数領域に変換されるとき、増幅される。しかしながら、他の実施形態では、帯域間平滑化は実行されない。
スケールファクタ計算器110によって実行されるさらなる好ましい演算は、プリエンファシス演算113である。このプリエンファシス演算は、従来技術に関して前に説明されたように、MDCTベースTCX処理のLPCベース知覚フィルタにおいて使用されるプリエンファシス演算と同様の目的を有する。この手順は、低周波において整形スペクトルの振幅を増加させ、これは、低周波における量子化雑音の低減をもたらす。
ただし、実装形態に応じて、他の特定の演算としてプリエンファシス演算が必ずしも実行される必要はない。
さらなる任意選択の処理演算は、雑音フロア加算処理114である。この手順は、谷部における整形スペクトルの振幅増幅を制限することによって、例えばグロッケンシュピールなど、極めて高いスペクトルダイナミクスを含む信号の品質を改善し、このことは、谷部における量子化雑音の増加を犠牲にしてピークにおいて量子化雑音を低減する間接的な効果を有する。ここで、量子化雑音は、いずれにしても、絶対聴取閾値、プリマスキング、ポストマスキング、または一般的なマスキング閾値など、人間の耳のマスキング特性のために知覚できず、これは、典型的には、高ボリュームトーンに周波数が比較的近い非常に低いボリュームトーンはまったく知覚できず、すなわち、完全にマスクされているかまたは人間の聴覚機構によって大まかにしか知覚されないため、このスペクトル寄与が非常に粗く量子化され得ることを示す。
ただし、雑音フロア加算演算114は、必ずしも実行される必要はない。
さらに、ブロック115は、対数状領域変換を示す。好ましくは、図12中のブロック111、112、113、114のうちの1つの出力の変換が、対数状領域において実行される。対数状領域は、0に近い値が拡大され、高い値が圧縮される領域である。好ましくは、対数領域は、2を底とする領域であるが、他の対数領域も同様に使用され得る。ただし、2を底とする対数領域は、固定小数点信号プロセッサ上の実装のためにより優れている。
スケールファクタ計算器110の出力は、スケールファクタの第1のセットである。
図12に示されているように、ブロック112から115の各々はブリッジされ得、すなわち、例えば、ブロック111の出力は、すでにスケールファクタの第1のセットであり得る。ただし、すべての処理演算、詳細には、対数状領域変換が選好される。したがって、例えば、ステップ112から114中の手順なしで、ステップ111および115を実行することのみによって、スケールファクタ計算器を実装することさえできる。ブロック115の出力において、チャネル(Lなど)のためのスケールパラメータのセットが取得され、他のチャネル(Rなど)のためのスケールパラメータのセットも、同様の計算によって取得され得る。
したがって、スケールファクタ計算器は、いくつかのブロックを接続する入出力ラインによって示されているように、図12に示されている手順のうちの1つまたは2つ以上を実行するために構成される。
図13は、単一チャネルについて、図11のダウンサンプラ130の好ましい実装形態を再び示す。他のチャネルについてのデータも同様に計算される。好ましくは、ローパスフィルタリング、または、概して、特定のウィンドウw(k)を用いたフィルタリングがステップ131において実行され、次いで、フィルタリングの結果のダウンサンプリング/デシメーション演算が実行される。ローパスフィルタリング131、および好ましい実施形態ではダウンサンプリング/デシメーション演算132が、両方とも算術演算であるという事実により、フィルタリング131およびダウンサンプリング132は、後で概説されるように単一の演算内で実行され得る。好ましくは、ダウンサンプリング/デシメーション演算は、スケールパラメータの第1のセットのうちのスケールパラメータの個々のグループの間の重複が実行されるように実行される。好ましくは、2つのデシメート計算されたパラメータ間のフィルタリング演算における1つのスケールファクタの重複が実行される。したがって、ステップ131は、デシメーションの前にスケールパラメータのベクトルに対してローパスフィルタを実行する。このローパスフィルタは、心理音響モデルにおいて使用される広がり関数と同様の効果を有する。それは、ピーク付近の量子化雑音の増加を犠牲にしてピークにおける量子化雑音を低減し、ここで、それは、いずれにしても、少なくともピークにおける量子化雑音に対してより高度に知覚的にマスクされる。
さらに、ダウンサンプラは、平均値除去133および追加のスケーリングステップ134をさらに実行する。ただし、ローパスフィルタリング演算131、平均値除去ステップ133、およびスケーリングステップ134は、任意選択のステップにすぎない。したがって、図13に示されているまたは図11に示されているダウンサンプラは、ステップ132のみを実行するように、または、ステップ132ならびにステップ131、133および134のうちの1つなど、図13に示されている2つのステップを実行するように、実装され得る。代替的に、ダウンサンプラは、ダウンサンプリング/デシメーション演算132が実行される限り、図13に示されている4つのステップすべてを実行するか、または4つのステップのうち3つのステップのみを実行することができる。
図13に概説されるように、ダウンサンプラによって実行される図13中のオーディオ演算は、より良い結果を取得するために対数状領域において実行される。
図15は、スペクトルプロセッサの好ましい実装形態を示す。図11のエンコーダ内に含まれるスペクトルプロセッサ120は、各チャネルについて、または代替的にジョイント符号化スケールパラメータのグループについて、スケールパラメータの量子化された第2のセットを受信し、ジョイント符号化スケールパラメータのグループについて、チャネルのためのスケールパラメータの第3のセットを出力する、補間器121を含み、ここで、第3の数は、第2の数よりも大きく、好ましくは、第1の数に等しい。さらに、スペクトルプロセッサは、線形領域変換器120を含む。次いで、ブロック123において、一方では線形スケールパラメータを使用し、他方では変換器100によって取得されたスペクトル表現を使用して、スペクトル整形が実行される。好ましくは、ブロック124の出力においてスペクトル残差値を取得するために、後続の時間雑音整形演算、すなわち周波数にわたる予測が実行され、TNSサイド情報は、矢印129によって示されているように出力インターフェースに転送される。
最後に、スペクトルプロセッサ125、120bは、スペクトル表現全体、すなわちフレーム全体についての単一のグローバル利得を受信するために構成されたスカラ量子化器/エンコーダ、ステレオ処理機能、およびIGF処理機能などのうちの少なくとも1つを有する。好ましくは、グローバル利得は、特定のビットレート考慮事項に応じて導出される。したがって、グローバル利得は、ブロック125、120bによって生成されたスペクトル表現の符号化表現が、ビットレート要件、品質要件、またはその両方など、特定の要件を満たすように設定される。グローバル利得は、反復的に計算され得るか、または、場合によってはフィードフォワード測度において計算され得る。概して、グローバル利得は量子化器と共に使用され、高いグローバル利得は、典型的には、より粗い量子化をもたらし、ここで、低いグローバル利得は、より細かい量子化をもたらす。したがって、言い換えれば、固定量子化器が取得されるとき、高いグローバル利得はより高い量子化ステップサイズをもたらし、低いグローバル利得はより小さい量子化ステップサイズをもたらす。ただし、例えば、より高い値がより低い値よりも圧縮されるように、高い値についての何らかの圧縮機能、すなわち、何らかの非線形圧縮機能を有する量子化器など、他の量子化器も、グローバル利得機能と共に使用され得る。グローバル利得と量子化の粗さとの間の上記の依存性は、グローバル利得が、対数領域における加算に対応して線形領域において量子化の前の値まで乗算されるとき、有効である。ただし、グローバル利得が線形領域における除算によって、または対数領域における減算によって適用される場合、依存性は逆になる。「グローバル利得」が逆の値を表すときも同様である。
続いて、図11~図15に関して説明された個々の手順の好ましい実装形態が与えられる。
好ましい実施形態の詳細な段階的説明
エンコーダ。
・ステップ1-帯域ごとのエネルギー(111)
帯域ごとのエネルギーE(n)は、以下のように算出される。
Figure 2023532809000010
上式で、X(k)はMDCT係数であり、N=64は帯域の数であり、Ind(n)は帯域インデックスである。帯域は不均一であり、知覚的に関連するバークスケール(低周波ではより小さく、高周波ではより大きい)に従う。
・ステップ2-平滑化(112)
帯域ごとのエネルギーE(n)は、以下を使用して平滑化される。

Figure 2023532809000011
注-このステップは、主に、ベクトルE(b)において現れ得る、考えられる不安定性を平滑化するために使用される。平滑化されない場合、これらの不安定性は、特にエネルギーが0に近い谷部において、対数領域に変換されるとき、増幅される(ステップ5参照)。
・ステップ3-プリエンファシス(113)
次いで、帯域ごとの平滑化されたエネルギーE(b)は、以下を使用して事前強調される。
Figure 2023532809000012
上式で、gtiltは、プリエンファシスの傾きを制御し、サンプリング周波数に依存する。それは、例えば、16kHzでは18、48kHzでは30である。このステップにおいて使用されるプリエンファシスは、従来技術2のLPCベース知覚フィルタにおいて使用されるプリエンファシスと同じ目的を有し、それは、低周波において整形スペクトルの振幅を増加させ、低周波において量子化雑音の低減をもたらす。
・ステップ4-雑音フロア(114)
-40dBにおける雑音フロアが、以下を使用してE(b)に加算される。
Figure 2023532809000013
上式で、雑音フロアは、以下によって計算される。
Figure 2023532809000014
このステップは、谷部における整形スペクトルの振幅増幅を制限することによって、例えばグロッケンシュピールなど、極めて高いスペクトルダイナミクスを含む信号の品質を改善し、これは、谷部における量子化雑音の増加を犠牲にしてピークにおける量子化雑音を低減する間接的な効果を有し、ここで、量子化雑音はいずれにしても知覚できない。
・ステップ5-対数(115)
次いで、対数領域への変換が、以下を使用して実行される。
Figure 2023532809000015
・ステップ6-ダウンサンプリング(131、132)
次いで、ベクトルE(b)は、以下を使用して4倍でダウンサンプリングされる。
Figure 2023532809000016
上式で、
Figure 2023532809000017

Figure 2023532809000018
デシメーションの前のベクトルE(b)に対してローパスフィルタ(w(k))を適用する。このローパスフィルタは、心理音響モデルにおいて使用される広がり関数と同様の効果を有し、すなわち、それは、ピーク付近の量子化雑音の増加を犠牲にしてピークにおける量子化雑音を低減し、ここで、量子化雑音はいずれにしても知覚的にマスクされる。
・ステップ7-平均除去およびスケーリング(133、134)
最終的なスケールファクタは、平均除去および0.85倍でのスケーリングの後に取得される。
Figure 2023532809000019
コーデックは追加のグローバル利得を有するので、情報を失うことなく平均が除去され得る。平均の除去は、より効率的なベクトル量子化をも可能にする。
0.85のスケーリングは、雑音整形曲線の振幅をわずかに圧縮する。これは、ステップ6において述べた広がり関数と同様の知覚効果を有し、すなわち、ピークにおける量子化雑音が低減し、谷部における量子化雑音が増加する。
・ステップ8-量子化(141、142)
スケールファクタは、ベクトル量子化を使用して量子化され、これは、その後ビットストリームにパックされてデコーダに送られるインデックスと、量子化されたスケールファクタscfQ(n)とを生成する。
・ステップ9-補間(121、122)
量子化されたスケールファクタscfQ(n)は、

Figure 2023532809000020
を使用して補間され、以下を使用して線形領域に変換される。
Figure 2023532809000021
補間は、滑らかな雑音整形曲線を得るために、したがって、隣接する帯域間の大きな振幅ジャンプを回避するために使用される。
・ステップ10-スペクトル整形(123)
SNSスケールファクタgSNS(b)は、整形スペクトルX(k)を生成するために各帯域について別々にMDCT周波数ラインに対して適用される。
Figure 2023532809000022
図18は、符号化スペクトル表現に関する情報と、(セパレートまたはジョイント符号化された)スケールパラメータの第2のセットの符号化表現に関する情報とを含む符号化オーディオ信号250(L、RまたはM、Sとして符号化されたステレオ信号)を復号するための装置の好ましい実装形態を示す。デコーダは、入力インターフェース200と、(例えば、IGF処理または逆ステレオ処理または逆量子化処理を実行する)スペクトルデコーダ210と、スケール・ファクタ/パラメータ・デコーダ220と、(例えば、R、Lについての)スペクトルプロセッサ230と、(例えば、R、Lについての)変換器240とを含む。入力インターフェース200は、符号化オーディオ信号250を受信し、スペクトルデコーダ210に転送される符号化スペクトル表現を抽出し、スケール・ファクタ・デコーダ220に転送されるスケールファクタの第2のセットの符号化表現を抽出するために構成される。さらに、スペクトルデコーダ210は、スペクトルプロセッサ230に転送される復号スペクトル表現を取得するために符号化スペクトル表現を復号するように構成される。スケール・ファクタ・デコーダ220は、スペクトルプロセッサ230に転送されるスケールパラメータの第1のセットを取得するためにスケールパラメータの符号化された第2のセットを復号するように構成される。スケールファクタの第1のセットは、第2のセット中のスケールファクタまたはスケールパラメータの数よりも大きい数のスケールファクタまたはスケールパラメータを有する。スペクトルプロセッサ230は、スケーリングされたスペクトル表現を取得するためにスケールパラメータの第1のセットを使用して復号スペクトル表現を処理するように構成される。スケーリングされたスペクトル表現は、次いで、変換器240によって変換され、最終的に、ステレオ信号または2よりも多いチャネルを有するマルチチャネル信号である復号オーディオ信号260が取得される。
好ましくは、スケール・ファクタ・デコーダ220は、ブロック141または142に関連して、詳細には図15のブロック121、122に関して説明された、スケールファクタまたはスケールパラメータの第3のセットの計算に関連する図11のスペクトルプロセッサ120に関して説明されたものと実質的に同じ様式で動作するように構成される。詳細には、スケール・ファクタ・デコーダは、補間および線形領域への変換のために、ステップ9に関して前に説明されたものと実質的に同じ手順を実行するように構成される。したがって、図19に示されているように、スケール・ファクタ・デコーダ220は、符号化スケールパラメータ表現を表すフレームごとの1つ以上のインデックスにデコーダコードブック221を適用するために構成される。次いで、図15中のブロック121に関して説明されたものと実質的に同じ補間である補間が、ブロック222において実行される。次いで、図15に関して説明されたものと実質的に同じ線形領域変換器122である線形領域変換器223が使用される。ただし、他の実装形態では、ブロック221、222、223は、エンコーダ側の対応するブロックに関して説明されたものとは異なって動作することができる。
さらに、図18または図19に示されているスペクトルデコーダ210は、逆量子化器/デコーダブロックを含み、逆量子化器/デコーダブロックは、符号化スペクトルを入力として受信し、好ましくは、符号化形式で符号化オーディオ信号内でエンコーダ側からデコーダ側にさらに送信されたグローバル利得を使用して逆量子化された逆量子化スペクトルを出力する。ブロック210はまた、IGF処理、またはMS復号などの逆ステレオ処理を実行し得る。逆量子化器/デコーダ210は、例えば、何らかのコードを入力として受信し、スペクトル値を表す量子化インデックスを出力する算術またはハフマンデコーダ機能を含むことができる。次いで、これらの量子化インデックスは、グローバル利得と共に逆量子化器に入力され、出力は、逆量子化されたスペクトル値であり、逆量子化されたスペクトル値は、次いで、TNSデコーダ処理ブロック211において周波数にわたる逆予測などのTNS処理を受けることができるが、これは任意選択である。詳細には、TNSデコーダ処理ブロックは、さらに、ライン129によって示されているように、図15のブロック124によって生成されたTNSサイド情報を受信する。TNSデコーダ処理ステップ211の出力は、別々のスケールファクタを使用して各チャネルについて別々に動作するスペクトル整形ブロック212に入力され、ここで、スケール・ファクタ・デコーダによって計算されたスケールファクタの第1のセットは、場合によってはTNS処理されることもされないこともある復号スペクトル表現に適用され、出力は、その後図18の変換器240に入力される、各チャネルについてのスケーリングされたスペクトル表現である。
続いて、デコーダの好ましい実施形態のさらなる手順が説明される。
デコーダ。
・ステップ1-量子化(221)
エンコーダステップ8において生成されたベクトル量子化器インデックスは、ビットストリームから読み出され、量子化されたスケールファクタscfQ(n)を復号するために使用される。
・ステップ2-補間(222、223)
エンコーダステップ9と同じ。
・ステップ3-スペクトル整形(212)
SNSスケールファクタgSNS(b)は、以下のコードによって概説されるように復号スペクトル
Figure 2023532809000023
を生成するために、各帯域について別々に、量子化されたMDCT周波数ラインに対して適用される。
Figure 2023532809000024
図16および図17は、一般的なエンコーダ/デコーダ設定を示し、ここで、図16はTNS処理のない実装形態を表し、図17はTNS処理を含む実装形態を示す。図16および図17に示されている同様の機能は、同一の参照番号が示されている場合、他の図における同様の機能に対応する。詳細には、図16に示されているように、入力信号160、例えばステレオ信号またはマルチチャネル信号は、変換段110に入力され、その後、スペクトル処理120が実行される。詳細には、スペクトル処理は、参照番号123、110、130、140によって示されているSNSエンコーダによって反映され、これは、ブロックSNSエンコーダがこれらの参照番号によって示されている機能を実装することを示す。SNSエンコーダブロックに続いて、量子化符号化演算120b、125が実行され、図16中の180に示されているように、符号化信号がビットストリームに入力される。ビットストリーム180は、次いで、デコーダ側で生じ、参照番号210によって示されている逆量子化および復号に続いて、図18のブロック210、220、230によって示されているSNSデコーダ演算が実行され、それにより、最終的に、逆変換240に続いて、復号出力信号260が取得される。
図17は、図16の場合と同様の表現を示すが、好ましくは、エンコーダ側でのSNS処理に続いてTNS処理が実行され、対応して、デコーダ側での処理シーケンスに関してSNS処理212の前にTNS処理211が実行されることが示されている。
好ましくは、スペクトル雑音整形(SNS)と量子化/コーディング(以下のブロック図参照)との間の追加ツールTNSが使用される。TNS(時間雑音整形)も量子化雑音を整形するが、(SNSの周波数領域整形とは対照的に)時間領域整形も行う。TNSは、シャープアタックを含む信号および音声信号に有用である。
TNSは、通常、変換とSNSとの間で(例えばAACにおいて)適用される。しかしながら、好ましくは、整形スペクトルに対してTNSを適用することが好ましい。これは、コーデックを低ビットレートで動作させるときにTNSデコーダによって生成されたいくつかのアーティファクトを回避する。
図20は、エンコーダ側のブロック100によって取得されたスペクトル係数またはスペクトル線の帯域への好ましい再分割を示す。詳細には、低い帯域は高い帯域よりも少ない数のスペクトル線を有することが示されている。
詳細には、図20中のx軸は、帯域のインデックスに対応し、64個の帯域の好ましい実施形態を示し、y軸は、1つのフレーム中の320個のスペクトル係数を示すスペクトル線のインデックスに対応する。詳細には、図20は、32kHzのサンプリング周波数がある超広帯域(SWB)の場合の状況を例示的に示す。
広帯域の場合、個々の帯域に関する状況は、1つのフレームが160個のスペクトル線をもたらし、サンプリング周波数が16kHzであり、したがって、どちらの場合も、1つのフレームが10ミリ秒の時間の長さを有するような状況である。
図21は、図11のダウンサンプラ130において実行される好ましいダウンサンプリング、あるいは、図18のスケール・ファクタ・デコーダ220において実行されるかまたは図19のブロック222に示されている対応するアップサンプリングまたは補間に関するさらなる詳細を示す。
x軸に沿って、帯域0~63についてのインデックスが与えられる。詳細には、0から63までの64個の帯域がある。
scfQ(i)に対応する16個のダウンサンプル点は、垂直線1100として示されている。詳細には、図21は、ダウンサンプリング点1100を最終的に取得するためにスケールパラメータの特定のグループ化がどのように実行されるかを示す。例示的に、4つの帯域の第1のブロックは(0,1,2,3)からなり、この第1のブロックの中間点は1.5にあり、これは、x軸に沿ったインデックス1.5において項目1100によって示されている。
対応して、4つの帯域の第2のブロックは(4,5,6,7)であり、第2のブロックの中間点は5.5である。
ウィンドウ1110は、前述したステップ6ダウンサンプリングに関して説明されたウィンドウw(k)に対応する。これらのウィンドウは、ダウンサンプリング点を中心とし、前に説明されたように各側に1つのブロックの重複があることが分かる。
図19の補間ステップ222は、16個のダウンサンプリング点から64個の帯域を復元する。これは、特定の線1120の周りに1100で示されている2つのダウンサンプリング点の関数として線1120のいずれかの位置を算出することによって、図21において分かる。以下の例がそれを例示する。
第2の帯域の位置は、その周りの2つの垂直線の関数として計算される(1.5および5.5):2=1.5+1/8×(5.5-1.5)。
対応して、第3の帯域の位置は、その周りの2つの垂直線1100の関数として計算される(1.5および5.5):3=1.5+3/8×(5.5-1.5)。
第1の2つの帯域および最後の2つの帯域について特定の手順が実行される。これらの帯域では、垂直線が存在しないかまたは垂直線1100に対応する値が0から63までの範囲外であるため、補間を実行することができない。したがって、この問題に対処するために、一方では2つの帯域0、1について、他方では62および63について、前に概説したステップ9-補間に関して説明されたように、外挿が実行される。
続いて、一方では図11の変換器100、他方では図18の変換器240の好ましい実装形態が説明される。
詳細には、図22aは、変換器100内のエンコーダ側で実行されるフレーミングを示すためのスケジュールを示す。図22bは、エンコーダ側の図11の変換器100の好ましい実装形態を示し、図22cは、デコーダ側の変換器240の好ましい実装形態を示す。
エンコーダ側の変換器100は、フレーム2がフレーム1と重複し、フレーム3がフレーム2およびフレーム4と重複するように、50%重複など、重複するフレームでフレーミングを実行するように実装されることが好ましい。ただし、他の重複または非重複処理も実行され得るが、MDCTアルゴリズムと共に50%重複を実行することが好ましい。この目的で、変換器100は、分析ウィンドウ101と、変換器100に続くブロックへの図11中の入力としてのスペクトル表現のシーケンスに対応するフレームのシーケンスを取得するためにFFT処理、MDCT処理、または任意の他の種類の時間-スペクトル変換処理を実行するための後で接続されるスペクトル変換器102とを含む。
対応して、スケーリングされたスペクトル表現が図18の変換器240に入力される。詳細には、変換器は、逆FFT演算、逆MDCT演算、または対応するスペクトル-時間変換演算を実施する時間変換器241を含む。出力は合成ウィンドウ242に挿入され、合成ウィンドウ242の出力は、重複加算演算を実行するための重複加算プロセッサ243に入力されて、最終的に復号オーディオ信号が取得される。詳細には、ブロック243中の重複加算処理は、例えば、図22a中の項目1200によって示されているようなフレーム3とフレーム4との間の重複についてのオーディオサンプリング値が取得されるように、例えばフレーム3の後半およびフレーム4の前半の対応するサンプル間で、サンプルごとの加算を実行する。復号オーディオ出力信号の残りのオーディオサンプリング値を取得するために、サンプルごとに同様の重複加算演算が実行される。
本明細書では、前に説明されたすべての代替形態または態様、および以下の特許請求の範囲における独立請求項によって定義されるすべての態様は、個別に、すなわち、企図される代替形態、目的または独立請求項以外の代替形態または目的なしに使用され得ることに留意されたい。しかしながら、他の実施形態では、代替形態または態様または独立請求項のうちの2つ以上が互いに組み合わせられ得、他の実施形態では、すべての態様または代替形態およびすべての独立請求項が互いに組み合わせられ得る。
さらなる態様が上記で説明されたが、添付の特許請求の範囲は、2つの異なる態様、すなわち、マルチチャネルオーディオ信号のチャネルのためのスケールパラメータのジョイントコーディングを使用するオーディオデコーダ、オーディオエンコーダ、および関連する方法、あるいは、オーディオ量子化器、オーディオ逆量子化器、または関連する方法を示す。これら2つの態様は、場合によっては、組み合わせられるかまたは別々に使用され得、これらの態様による発明は、上記で説明された特定の適用例とは異なるオーディオ処理の他の適用例に適用可能である。
さらに、第1の態様を示す追加の図3a、図3b、図4a、図4b、図5、図6、図8a、図8b、および第2の態様を示す図9a、図9b、ならびに第1の態様内で適用される第2の態様を示す図7a、図7bを参照する。
本発明の符号化信号は、デジタル記憶媒体または非一時的記憶媒体に記憶され得るか、あるいは、無線伝送媒体またはインターネットなどの有線伝送媒体など、伝送媒体上で送信され得る。
いくつかの態様は装置の文脈で説明されたが、これらの態様が対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。実装は、電子的に読取り可能な制御信号を記憶したデジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行され得、これらは、それぞれの方法が実行されるようにプログラマブル・コンピュータ・システムと協働する(または協働することができる)。
本発明によるいくつかの実施形態は、本明細書で説明された方法のうちの1つが実行されるように、プログラマブル・コンピュータ・システムと協働することができる、電子的に読取り可能な制御信号を有するデータキャリアを含む。
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装され得、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると方法のうちの1つを実行するように動作可能である。プログラムコードは、例えば、機械可読キャリアに記憶され得る。
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書で説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。
言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作すると本明細書で説明された方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、したがって、本明細書で説明された方法のうちの1つを実行するためのコンピュータプログラムを記録して含むデータキャリア(あるいは、デジタル記憶媒体またはコンピュータ可読媒体)である。
本発明の方法のさらなる実施形態は、したがって、本明細書で説明された方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成され得る。
さらなる実施形態は、本明細書で説明された方法のうちの1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書で説明された方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施形態では、本明細書で説明された方法の機能の一部または全部を実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)が使用され得る。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明された方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。概して、方法は、任意のハードウェア装置によって実行されることが好ましい。
上記で説明された実施形態は、本発明の原理の例示にすぎない。本明細書で説明された構成および詳細の修正および変形が、当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の記述および説明として提示された特定の詳細によってではなく、すぐ後の特許請求の範囲によってのみ限定されることが意図される。
続いて、さらなる実施形態/実施例が要約される。
1.複数のオーディオ情報項目を量子化するためのオーディオ量子化器であって、
第1段ベクトル量子化結果と、第1段ベクトル量子化結果に対応する複数の中間量子化項目とを決定するために、複数のオーディオ情報項目を量子化するための第1段ベクトル量子化器(141、143)と、
複数の中間量子化項目および複数のオーディオ情報項目から複数の残差項目を計算するための残差項目決定器(142)と、
第2段ベクトル量子化結果を取得するために複数の残差項目を量子化するための第2段ベクトル量子化器(145)であって、第1段ベクトル量子化結果および第2段ベクトル量子化結果が複数のオーディオ情報項目の量子化された表現である、第2段ベクトル量子化器(145)と
を含む、オーディオ量子化器。
2.残差項目決定器(142)が、各残差項目について、対応するオーディオ情報項目と対応する中間量子化項目との間の差を計算するように構成される、実施例1に記載のオーディオ量子化器。
3.残差項目決定器(142)は、各残差項目について、複数の残差項目が対応する差よりも大きくなるように、対応するオーディオ情報項目と対応する中間量子化項目との間の差を増幅または重み付けするか、あるいは、残差項目を取得するために増幅された項目間の差を計算する前に、複数のオーディオ情報項目および/または複数の中間量子化項目を増幅または重み付けするように構成される、実施例1または2に記載のオーディオ量子化器。
4.残差項目決定器(142)が、複数の中間量子化項目とオーディオ情報項目との間の対応する差を1よりも小さい所定のファクタで除算するか、または、複数の中間量子化項目とオーディオ情報項目との間の対応する差に1よりも大きい所定のファクタを乗算するように構成される、
実施例1から3のいずれか1つに記載のオーディオ量子化器。
5.第1段ベクトル量子化器(141、143)が第1の量子化精度で量子化を実行するように構成され、第2段ベクトル量子化器(145)が第2の量子化精度で量子化を実行するように構成され、第2の量子化精度が第1の量子化精度よりも低いかまたは高いか、あるいは
第1段ベクトル量子化器(141、143)が固定レート量子化を実行するように構成され、第2段ベクトル量子化器(145)が可変レート量子化を実行するように構成される、
実施例1から4のいずれか1つに記載のオーディオ量子化器。
6.第1段ベクトル量子化器(141、143)が、第1の数のエントリを有する第1段コードブックを使用するように構成され、第2段ベクトル量子化器(145)が、第2の数のエントリを有する第2段コードブックを使用するように構成され、第2の数のエントリが第1の数のエントリよりも少ないかまたは多い、実施例1から5のいずれか1つに記載のオーディオ量子化器。
7.オーディオ情報項目が、時間領域においてオーディオ信号の時間領域オーディオサンプルをスケーリングするために使用可能な、またはスペクトル領域においてオーディオ信号のスペクトル領域オーディオサンプルをスケーリングするために使用可能な、オーディオ信号のフレームのためのスケールパラメータであり、各スケールパラメータが、少なくとも2つの時間領域またはスペクトル領域オーディオサンプルをスケーリングするために使用可能であり、フレームが第1の数のスケールパラメータを含み、
第1段ベクトル量子化器(141、143)が、第1の数のスケールパラメータの、スケールパラメータの2つ以上のセットへのスプリットを実行するように構成され、第1段ベクトル量子化器(141、143)が、第1の量子化結果を表す複数の量子化インデックスを取得するためにスケールパラメータの各セットについて量子化インデックスを決定するように構成される、
実施例1から6のいずれか1つに記載のオーディオ量子化器。
8.第1段ベクトル量子化器(141、143)が、第1の量子化結果として単一のインデックスを取得するために第1のセットについての第1の量子化インデックスと第2のセットについての第2の量子化インデックスとを結合するように構成される、実施例7に記載のオーディオ量子化器。
9.第1段ベクトル量子化器(141、143)が、単一のインデックスを取得するために、第1のインデックスおよび第2のインデックスのうちの1つに第1のインデックスおよび第2のインデックスのビット数に対応する数を乗算し、乗算されたインデックスと乗算されていないインデックスとを加算するように構成される、
実施例8に記載のオーディオ量子化器。
10.第2段ベクトル量子化器(145)が代数ベクトル量子化器であり、各インデックスがベース・コードブック・インデックスとボロノイ拡張インデックスとを含む、
実施例1から9のいずれか1つに記載のオーディオ量子化器。
11.第1段ベクトル量子化器(141、143)が、複数のオーディオ情報項目の第1のスプリットを実行するように構成され、
第2段ベクトル量子化器(145)が、複数の残差項目の第2のスプリットを実行するように構成され、
第1のスプリットがオーディオ情報項目の第1の数のサブセットをもたらし、第2のスプリットが残差項目の第2の数のサブセットをもたらし、第1の数のサブセットが第2の数のサブセットに等しい、
実施例1から10のいずれか1つに記載のオーディオ量子化器。
12.第1のベクトル量子化器が、第1のコードブック探索から、第1のビット数を有する第1のインデックスを出力するように構成され、
第2のベクトル量子化器が、第2のコードブック探索のために、第2のビット数を有する第2のインデックスを出力するように構成され、第2のビット数が第1のビット数よりも少ないかまたは多い、
実施例1から11のいずれか1つに記載のオーディオ量子化器。
13.第1のビット数が4から7の間のビット数であり、第2のビット数が3から6の間のビット数である、
実施例12に記載のオーディオ量子化器。
14.オーディオ情報項目が、マルチチャネルオーディオ信号の第1のフレームについて、マルチチャネルオーディオ信号の第1のチャネルのための第1の複数のスケールパラメータ、およびマルチチャネルオーディオ信号の第2のチャネルのための第2の複数のスケールパラメータを含み、
オーディオ量子化器が、第1段ベクトル量子化器および第2段ベクトル量子化器を、第1の複数の第1のフレームおよび第2の複数の第1のフレームに適用するように構成され、
オーディオ情報項目が、マルチチャネルオーディオ信号の第2のフレームについて、第3の複数のミッド・スケール・パラメータおよび第4の複数のサイド・スケール・パラメータを含み、
オーディオ量子化器が、第1段ベクトル量子化器および第2段ベクトル量子化器を第3の複数のミッド・スケール・パラメータに適用し、第2のベクトル量子化器段を第4の複数のサイド・スケール・パラメータに適用し、第1段ベクトル量子化器(141、143)を第4の複数のサイド・スケール・パラメータに適用しないように構成される、
実施例1から13のいずれか1つに記載のオーディオ量子化器。
15.残差項目決定器(142)が、第2のフレームについて、第4の複数のサイド・スケール・パラメータを増幅または重み付けするように構成され、第2段ベクトル量子化器(145)が、マルチチャネルオーディオ信号の第2のフレームについて、増幅または重み付けされたサイド・スケール・パラメータを処理するように構成される、
実施例14に記載のオーディオ量子化器。
16.量子化された複数のオーディオ情報項目を逆量子化するためのオーディオ逆量子化器であって、
複数の中間量子化オーディオ情報項目を取得するために、量子化された複数のオーディオ情報項目に含まれる第1段ベクトル量子化結果を逆量子化するための第1段ベクトル逆量子化器(2220)と、
複数の残差項目を取得するために、量子化された複数のオーディオ情報項目に含まれる第2段ベクトル量子化結果を逆量子化するための第2段ベクトル逆量子化器(2260)と、
逆量子化された複数のオーディオ情報項目を取得するために、複数の中間量子化情報項目と複数の残差項目とを結合するための結合器(2240)と
含む、オーディオ逆量子化器。
17.結合器(2240)が、逆量子化された各情報項目について、対応する中間量子化オーディオ情報項目と対応する残差項目との和を計算するように構成される、実施例16に記載のオーディオ逆量子化器。
18.結合器(2240)が、減衰された残差項目が、減衰を実行する前の対応する残差項目よりも小さくなるように、複数の残差項目を減衰または重み付けするように構成され、
結合器(2240)が、減衰された残差項目を対応する中間量子化オーディオ情報項目に加算するように構成されるか、
あるいは
結合器(2240)が、結合を実行する前に複数の残差項目もしくはジョイント符号化スケーリングパラメータを減衰させるために1よりも小さい減衰もしくは重み付け値を使用するように構成され、結合が、減衰された残差値を使用して実行され、および/または
例示的に、重み付けもしくは減衰値が、スケーリングパラメータに重み付けもしくは増幅値を乗算するために使用され、重み付け値が、好ましくは0.1から0.9の間、もしくはより好ましくは0.2から0.6の間、もしくはさらにより好ましくは0.25から0.4の間であり、および/または
複数の残差項目のすべてのスケーリングパラメータもしくは任意のジョイント符号化スケーリングパラメータのために同じ減衰もしくは重み付け値が使用される、
実施例16または17に記載のオーディオ逆量子化器。
19.結合器(2240)が、対応する残差項目に1よりも小さい重み付けファクタを乗算するか、または、対応する残差項目を1よりも大きい重み付けファクタで除算するように構成される、実施例18に記載のオーディオ逆量子化器。
20.第1段逆量子化器が、第1の精度で逆量子化を実行するように構成され、
第2段逆量子化器が、第2の精度で逆量子化を実行するように構成され、第2の精度が第1の精度よりも低いかまたは高い、
実施例16から19のいずれか1つに記載のオーディオ逆量子化器。
21.第1段逆量子化器が、第1の数のエントリを有する第1段コードブックを使用するように構成され、第2段逆量子化器が、第2の数のエントリを有する第2段コードブックを使用するように構成され、第2の数のエントリが、第1の数のエントリよりも少ないかまたは多いか、あるいは
第1段逆量子化器が、第1のコードブック取出しのために、第1のビット数を有する第1のインデックスを受信するように構成され、
第2段ベクトル逆量子化器(2260)が、第2のコードブック取出しのために、第2のビット数を有する第2のインデックスを受信するように構成され、第2のビット数が第1のビット数よりも少ないかもしくは多いか、または、例示的に、第1のビット数が4から7の間のビット数であり、例示的に、第2のビット数が3から6の間のビット数である、
実施例16から20のいずれか1つに記載のオーディオ逆量子化器。
22.逆量子化された複数のオーディオ情報項目が、時間領域においてオーディオ信号の時間領域オーディオサンプルをスケーリングするために使用可能な、またはスペクトル領域においてオーディオ信号のスペクトル領域オーディオサンプルをスケーリングするために使用可能な、オーディオ信号のフレームのためのスケールパラメータであり、各スケールパラメータが、少なくとも2つの時間領域またはスペクトル領域オーディオサンプルをスケーリングするために使用可能であり、フレームが第1の数のスケールパラメータを含み、
第1段逆量子化器が、第1段ベクトル量子化結果についての2つ以上の結果インデックスから、スケールパラメータの第1のセットおよび第2のセットを決定するように構成され、
第1段ベクトル逆量子化器(2220)または結合器(2240)が、第1の数の中間量子化スケールパラメータを取得するために、スケールパラメータの第1のセットおよびスケールパラメータの第2のセットをベクトルに統合するように構成される、
実施例16から21のいずれか1つに記載のオーディオ逆量子化器。
23.第1段ベクトル逆量子化器(2220)が、第1段逆量子化結果として、単一の結合されたインデックスを取り出し、2つ以上の結果インデックスを取得するために単一の結合されたインデックスを処理するように構成される、
実施例22に記載のオーディオ逆量子化器。
24.第1段逆量子化器が、除算から余りを決定することによって第1の結果インデックスを取り出し、除算から整数結果を決定することによって第2の結果インデックスを取り出すように構成される、
実施例23に記載のオーディオ逆量子化器。
25.第2段ベクトル逆量子化器(2260)が代数ベクトル逆量子化器であり、各インデックスがベース・コードブック・インデックスとボロノイ拡張インデックスとを含む、実施例16から24のいずれか1つに記載のオーディオ逆量子化器。
26.第1段ベクトル逆量子化器(2220)または結合器(2240)が、オーディオ信号のフレームにおける量子化スプリットからのスケールパラメータの第1のセットおよびスケールパラメータの第2のセットを統合するように構成され、
第2段ベクトル逆量子化器(2260)が、残差パラメータのスプリットからの残差パラメータの第1のセットおよび残差パラメータの第2のセットを統合するように構成され、
第1のベクトル逆量子化器によって対処されるスプリットの数と、第2段ベクトル逆量子化器(2260)によって対処されるスプリットの別の数とが同じである、
実施例16から25のいずれか1つに記載のオーディオ逆量子化器。
27.第1段ベクトル逆量子化器(2220)が、複数の中間量子化オーディオ情報項目を生成するために、第1のビット数を有する第1のインデックスを使用するように構成され、
第2段ベクトル逆量子化器(2260)が、複数の残差項目を取得するために、第2のビット数を有する第2のインデックスをインデックスとして使用するように構成され、第2のビット数が第1のビット数よりも少ないかまたは多い、
実施例16から26のいずれか1つに記載のオーディオ逆量子化器。
28.第1のビット数が4から7の間であり、第2のビット数が3から6の間である、実施例27に記載のオーディオ逆量子化器。
29.量子化された複数のオーディオ情報項目が、マルチチャネルオーディオ信号の第1のフレームについて、マルチチャネルオーディオ信号の第1のチャネルのための第1の複数のスケールパラメータ、およびマルチチャネルオーディオ信号の第2のチャネルのための第2の複数のスケールパラメータを含み、
オーディオ逆量子化器が、第1段ベクトル逆量子化器(2220)および第2段ベクトル逆量子化器(2260)を、第1の複数の第1のフレームおよび第2の複数の第1のフレームに適用するように構成され、
量子化された複数のオーディオ情報項目が、マルチチャネルオーディオ信号の第2のフレームについて、第3の複数のミッド・スケール・パラメータおよび第4の複数のサイド・スケール・パラメータを含み、
オーディオ逆量子化器が、第1段ベクトル逆量子化器(2220)および第2段ベクトル逆量子化器(2260)を第3の複数のミッド・スケール・パラメータに適用し、第2段ベクトル逆量子化器(2260)を第4の複数のサイド・スケール・パラメータに適用し、第1段ベクトル逆量子化器(2220)を第4の複数のサイド・スケール・パラメータに適用しないように構成される、
実施例16から28のいずれか1つに記載のオーディオ逆量子化器。
30.結合器(2240)が、第4の複数のサイド・スケール・パラメータをさらに使用するかまたはさらに処理する前に、第2のフレームについて、第4の複数のサイド・スケール・パラメータを減衰させるように構成される、
実施例29に記載のオーディオ逆量子化器。
31.複数のオーディオ情報項目を量子化する方法であって、
第1段ベクトル量子化結果と、第1段ベクトル量子化結果に対応する複数の中間量子化項目とを決定するために、複数のオーディオ情報項目を第1段ベクトル量子化することと、
複数の中間量子化項目および複数のオーディオ情報項目から複数の残差項目を計算することと、
第2段ベクトル量子化結果を取得するために複数の残差項目を第2段ベクトル量子化することであって、第1段ベクトル量子化結果および第2段ベクトル量子化結果が複数のオーディオ情報項目の量子化された表現である、第2段ベクトル量子化することと
を含む、方法。
32.量子化された複数のオーディオ情報項目を逆量子化する方法であって、
複数の中間量子化オーディオ情報項目を取得するために、量子化された複数のオーディオ情報項目に含まれる第1段ベクトル量子化結果を第1段ベクトル逆量子化することと、
複数の残差項目を取得するために、量子化された複数のオーディオ情報項目に含まれる第2段ベクトル量子化結果を第2段ベクトル逆量子化することと、
逆量子化された複数のオーディオ情報項目を取得するために、複数の中間量子化情報項目と複数の残差項目とを結合することと
を含む、方法。
33.コンピュータまたはプロセッサ上で動作しているとき、実施例31に記載の方法または実施例32に記載の方法を実行するためのコンピュータプログラム。
参考文献
[1]ISO/IEC11172-3、Information technology-Coding of moving pictures and associated audio for digital storage media at up to about 1,5Mbit/s-Part3:Audio、1993
[2]ISO/IEC13818-7、Information technology-Generic coding of moving pictures and associated audio information-Part7:Advanced Audio Coding(AAC)、2003
[3]ISO/IEC23003-3、Information technology-MPEG audio technologies-Part3:Unified speech and audio coding
[4]3GPP TS26.445、Codec for Enhanced Voice Services(EVS);Detailed algorithmic description
[5]G.Markovic、G.Fuchs、N.Rettelbach、C.HelmrichおよびB.Schubert、「LINEAR PREDICTION BASED CODING SCHEME USING SPECTRAL DOMAIN NOISE SHAPNG」 米国特許第9,595,262(B2)号、2017年3月14日
[6]E.Ravelli、M.Schnell、C.Benndorf、M.LutzkyおよびM.Dietz、「Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters」 国際公開第2019091904(A1)号、2018年11月5日
[7]A.Biswas、Advances Advances in Perceptual Stereo Audio Coding Using Linear Prediction Techniques、Eindhoven:Technical University of Eindhoven、2017
[8]G.Markovic、E.Ravelli、M.Schnell、S.Dohla、W.Jaegars、M.Dietz、C.Heimrich、E.Fotopoulou、M.Multrus、S.Bayer,G.FuchsおよびJ.Herre、「APPARATUS AND METHOD FOR MDCT M/S STEREO WITH GLOBAL ILD WITH IMPROVED MID/SIDE DECISION」 国際公開第2017EP5117号

Claims (37)

  1. 2つ以上のオーディオチャネルについてのデータを含むマルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータに関する情報とを含む符号化オーディオ信号を復号するためのオーディオデコーダであって、
    復号オーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットと、前記復号オーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットとを取得するために、前記ジョイント符号化スケールパラメータに関する前記情報を復号するためのスケール・パラメータ・デコーダ(220)と、
    前記復号オーディオ信号の前記第1のチャネルおよび前記第2のチャネルを取得するために、前記マルチチャネル・オーディオ・データから導出された第1のチャネル表現にスケールパラメータの前記第1のセットを適用し、前記マルチチャネル・オーディオ・データから導出された第2のチャネル表現にスケールパラメータの前記第2のセットを適用するための信号プロセッサ(210、212、230)とを含み、
    前記ジョイント符号化スケールパラメータが、ジョイント符号化スケールパラメータの第1のグループに関する情報およびジョイント符号化スケールパラメータの第2のグループに関する情報を含み、
    前記スケール・パラメータ・デコーダ(220)が、スケールパラメータの前記第1のセットのうちのスケールパラメータを取得するために第1の結合規則を使用して、およびスケールパラメータの前記第2のセットのうちのスケールパラメータを取得するために前記第1の結合規則とは異なる第2の結合規則を使用して、前記第1のグループのうちのジョイント符号化スケールパラメータと前記第2のグループのうちのジョイント符号化スケールパラメータとを結合するように構成される、オーディオデコーダ。
  2. ジョイント符号化スケールパラメータの前記第1のグループがミッド・スケール・パラメータを含み、ジョイント符号化スケールパラメータの前記第2のグループがサイド・スケール・パラメータを含み、前記スケール・パラメータ・デコーダ(220)が、前記第1の結合規則において加算を使用し、前記第2の結合規則において減算を使用するように構成される、請求項1に記載のオーディオデコーダ。
  3. 前記符号化オーディオ信号がフレームのシーケンスに編成され、第1のフレームが、前記マルチチャネル・オーディオ・データと、前記ジョイント符号化スケールパラメータに関する前記情報とを含み、第2のフレームがセパレート符号化スケールパラメータ情報を含み、
    前記スケール・パラメータ・デコーダ(220)は、前記第2のフレームが前記セパレート符号化スケールパラメータ情報を含むことを検出し、スケールパラメータの前記第1のセットおよびスケールパラメータの前記第2のセットを計算するように構成される、請求項1または2に記載のオーディオデコーダ。
  4. 前記第1のフレームおよび前記第2のフレームは、各々、第1の状態において、前記第1のフレームが前記ジョイント符号化スケールパラメータに関する前記情報を含むこと、および第2の状態において、前記第2のフレームが前記セパレート符号化スケールパラメータ情報を含むことを示す状態サイド情報を含み、
    前記スケール・パラメータ・デコーダ(220)は、前記第2のフレームの前記状態サイド情報を読み出し、読出した前記状態サイド情報に基づいて前記第2のフレームが前記セパレート符号化スケールパラメータ情報を含むことを検出するか、または、前記第1のフレームの前記状態サイド情報を読み出し、読出した前記状態サイド情報を使用して、前記第1のフレームが前記ジョイント符号化スケールパラメータに関する前記情報を含むことを検出するように構成される、請求項3に記載のオーディオデコーダ。
  5. 前記信号プロセッサ(210、212、230)が、前記第1のチャネル表現および前記第2のチャネル表現を導出するために前記マルチチャネル・オーディオ・データを復号するように構成され、前記第1のチャネル表現および前記第2のチャネル表現が、スペクトルサンプリング値を有するスペクトル領域表現であり、
    前記信号プロセッサ(210、212、230)が、前記第1のチャネルの整形スペクトル表現および前記第2のチャネルの整形スペクトル表現を取得するために、前記第1のセットおよび前記第2のセットのうちの各スケールパラメータを、対応する複数の前記スペクトルサンプリング値に適用するように構成される、
    請求項1から4のいずれか一項に記載のオーディオデコーダ。
  6. 前記信号プロセッサ(210、212、230)が、前記復号オーディオ信号の、前記第1のチャネルの時間領域表現および前記第2のチャネルの時間領域表現を取得するために、前記第1のチャネルの前記整形スペクトル表現および前記第2のチャネルの前記整形スペクトル表現を時間領域に変換するように構成される、請求項5に記載のオーディオデコーダ。
  7. 前記第1のチャネル表現が第1の数の帯域を含み、スケールパラメータの前記第1のセットが第2の数のスケールパラメータを含み、前記第2の数が前記第1の数よりも少なく、
    前記信号プロセッサ(210、212、230)が、帯域の前記第1の数以上であるいくつかの補間されたスケールパラメータを取得するために前記第2の数のスケールパラメータを補間するように構成され、前記信号プロセッサ(210、212、230)が、前記補間されたスケールパラメータを使用して前記第1のチャネル表現をスケーリングするように構成されるか、
    または
    前記第1のチャネル表現が第1の数の帯域を含み、ジョイント符号化スケールパラメータの前記第1のグループに関する前記情報が、第2の数のジョイント符号化スケールパラメータを含み、前記第2の数が前記第1の数よりも少なく、
    前記スケール・パラメータ・デコーダ(220)が、帯域の前記第1の数以上であるいくつかの補間されたジョイント符号化スケールパラメータを取得するために前記第2の数のジョイント符号化スケールパラメータを補間するように構成され、
    前記スケール・パラメータ・デコーダ(220)が、スケールパラメータの前記第1のセットおよびスケールパラメータの前記第2のセットを決定するために、前記補間されたジョイント符号化スケールパラメータを処理するように構成される、請求項1から6のいずれか一項に記載のオーディオデコーダ。
  8. 前記符号化オーディオ信号がフレームのシーケンスに編成され、ジョイント符号化スケールパラメータの前記第2のグループに関する前記情報が、特定のフレームにおいて、ゼロサイド情報を含み、前記スケール・パラメータ・デコーダ(220)が、ジョイント符号化スケールパラメータの前記第2のグループが前記特定のフレームについてすべてゼロであると決定するために前記ゼロサイド情報を検出するように構成され、
    前記スケール・パラメータ・デコーダ(220)が、スケールパラメータの前記第1のセットおよびスケールパラメータの前記第2のセットのうちの前記スケールパラメータを、ジョイント符号化スケールパラメータの前記第1のグループからのみ導出するか、あるいは、前記第1のグループのうちの前記ジョイント符号化スケールパラメータと前記第2のグループのうちの前記ジョイント符号化スケールパラメータとの前記結合において、ゼロ値または雑音閾値よりも小さい値に設定するように構成される、請求項1から7のいずれか一項に記載のオーディオデコーダ。
  9. 前記スケール・パラメータ・デコーダ(220)が、
    第1の逆量子化モードを使用してジョイント符号化スケールパラメータの前記第1のグループに関する前記情報を逆量子化することと、
    第2の逆量子化モードを使用してジョイント符号化スケールパラメータの前記第2のグループに関する前記情報を逆量子化することであって、前記第2の逆量子化モードが前記第1の逆量子化モードとは異なる、逆量子化することと
    を行うように構成される、
    請求項1から8のいずれか一項に記載のオーディオデコーダ。
  10. 前記スケール・パラメータ・デコーダ(220)が、前記第1の逆量子化モードよりも低いまたは高い量子化精度に関連付けられた前記第2の逆量子化モードを使用するように構成される、請求項9に記載のオーディオデコーダ。
  11. 前記スケール・パラメータ・デコーダ(220)が、前記第1の逆量子化モードとして、第1の逆量子化段(2220)および第2の逆量子化段(2260)および結合器(2240)を使用することであって、前記結合器(2240)が、前記第1の逆量子化段(2220)の結果および前記第2の逆量子化段(2260)の結果を入力として受信する、使用することと、
    ジョイント符号化スケールパラメータの前記第2のグループに関する前記情報を入力として受信する、前記第1の逆量子化モードの前記第2の逆量子化段(2220)を、前記第2の逆量子化モードとして使用することと、を行うように構成される、請求項9または10に記載のオーディオデコーダ。
  12. 前記第1の逆量子化段(2220)がベクトル逆量子化段であり、前記第2の逆量子化段(2260)が代数ベクトル逆量子化段であるか、または、前記第1の逆量子化段(2220)が固定レート逆量子化段であり、前記第2の逆量子化段(2260)が可変レート逆量子化段である、請求項11に記載のオーディオデコーダ。
  13. ジョイント符号化スケールパラメータの前記第1のグループに関する前記情報が、前記符号化オーディオ信号のフレームについて、2つ以上のインデックスを含み、ジョイント符号化スケールパラメータの前記第2のグループに関する前記情報が、単一のインデックスまたは前記第1のグループ中のものと比べて少数のインデックスもしくは同じ数のインデックスを含み、
    前記スケール・パラメータ・デコーダ(220)が、前記第1の逆量子化段(2220)において、例えば前記2つ以上のインデックスの各インデックスについて、前記第1のグループの中間ジョイント符号化スケールパラメータを決定するように構成され、前記スケール・パラメータ・デコーダ(220)が、前記第2の逆量子化段(2260)において、例えばジョイント符号化スケールパラメータの前記第1のグループに関する前記情報の前記単一のまたはより少数もしくは同じ数のインデックスから、前記第1のグループの残差ジョイント符号化スケールパラメータを計算し、前記結合器(2240)によって、前記第1のグループの前記中間ジョイント符号化スケールパラメータおよび前記第1のグループの前記残差ジョイント符号化スケールパラメータからジョイント符号化スケールパラメータの前記第1のグループを計算するように構成される、請求項11または12に記載のオーディオデコーダ。
  14. 前記第1の逆量子化段(2220)が、第1の数のエントリを有する第1のコードブックのためのインデックスを使用すること、または、第1の精度を表すインデックスを使用することを含み、前記第2の逆量子化段(2260)が、第2の数のエントリを有する第2のコードブックのためのインデックスを使用すること、または、第2の精度を表すインデックスを使用することを含み、前記第2の数が前記第1の数よりも少ないかまたは多い、あるいは、前記第2の精度が前記第1の精度よりも低いかまたは高い、請求項11から13のいずれか一項に記載のオーディオデコーダ。
  15. ジョイント符号化スケールパラメータの前記第2のグループに関する前記情報は、ジョイント符号化スケールパラメータの前記第2のグループが、前記符号化オーディオ信号のフレームについてすべてゼロまたは特定の値であることを示し、前記スケール・パラメータ・デコーダ(220)が、前記第1の規則または前記第2の規則を使用した前記結合において、ゼロであるかまたは前記特定の値であるかまたは合成されたジョイント符号化スケールパラメータであるジョイント符号化スケールパラメータを使用するように構成され、あるいは
    前記すべてゼロまたは特定の値の情報を含む前記フレームについて、前記スケール・パラメータ・デコーダ(220)が、結合演算を用いずにジョイント符号化スケールパラメータの前記第1のグループのみを使用してスケールパラメータの前記第2のセットを決定するように構成される、請求項1から14のいずれか一項に記載のオーディオデコーダ。
  16. 前記スケール・パラメータ・デコーダ(220)が、前記第1の逆量子化モードとして、前記第1の逆量子化段(2220)および前記第2の逆量子化段(2260)および前記結合器(2240)を使用することであって、前記結合器(2240)が、前記第1の逆量子化段(2220)の結果および前記第2の逆量子化段(2260)の結果を入力として受信する、使用することと、前記第1の逆量子化モードの前記第1の逆量子化段(2220)を、前記第2の逆量子化煙として使用することと、を行うように構成される、請求項9または10に記載のオーディオデコーダ。
  17. 2つ以上のチャネルを含むマルチチャネルオーディオ信号を符号化するためのオーディオエンコーダであって、
    前記マルチチャネルオーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットと、前記マルチチャネルオーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットとから、ジョイント符号化スケールパラメータの第1のグループおよびジョイント符号化スケールパラメータの第2のグループを計算するためのスケールパラメータ計算器(140)と、
    スケールパラメータの前記第1のセットを前記マルチチャネルオーディオ信号の前記第1のチャネルに適用し、スケールパラメータの前記第2のセットを前記マルチチャネルオーディオ信号の前記第2のチャネルに適用し、マルチチャネル・オーディオ・データを導出するための信号プロセッサ(120)と、
    符号化マルチチャネルオーディオ信号を取得するために、前記マルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータの前記第1のグループに関する情報と、ジョイント符号化スケールパラメータの前記第2のグループに関する情報とを使用するための符号化信号形成器(1480、1500)と
    を含む、オーディオエンコーダ。
  18. 前記信号プロセッサ(120)が、前記適用において、
    ジョイント符号化スケールパラメータの前記第1のグループに関する前記情報およびジョイント符号化スケールパラメータの前記第2のグループに関する前記情報を取得するために、ジョイント符号化スケールパラメータの前記第1のグループおよびジョイント符号化スケールパラメータの前記第2のグループを符号化することと、
    スケールパラメータのローカルに復号された第1のセットおよびスケールパラメータのローカルに復号された第2のセットを取得するために、ジョイント符号化スケールパラメータの前記第1のグループおよび前記第2のグループに関する前記情報をローカルに復号することと、
    スケールパラメータの前記ローカルに復号された第1のセットを使用して前記第1のチャネルをスケーリングし、スケールパラメータの前記ローカルに復号された第2のセットを使用して前記第2のチャネルをスケーリングすることと
    を行うように構成されるか、または
    前記信号プロセッサ(120)が、前記適用において、
    ジョイント符号化スケールパラメータの量子化された第1のグループおよびジョイント符号化スケールパラメータの量子化された第2のグループを取得するために、ジョイント符号化スケールパラメータの前記第1のグループおよびジョイント符号化スケールパラメータの前記第2のグループを量子化することと、
    スケールパラメータのローカルに復号された第1のセットおよびスケールパラメータのローカルに復号された第2のセットを取得するために、ジョイント符号化スケールパラメータの前記量子化された第1のグループおよび前記第2のグループをローカルに復号することと、
    スケールパラメータの前記ローカルに復号された第1のセットを使用して前記第1のチャネルをスケーリングし、スケールパラメータの前記ローカルに復号された第2のセットを使用して前記第2のチャネルをスケーリングすることと
    を行うように構成される、請求項17に記載のオーディオエンコーダ。
  19. 前記スケールパラメータ計算器(140)が、ジョイント符号化スケールパラメータの前記第1のグループのうちのジョイント符号化スケールパラメータを取得するために第1の結合規則を使用して、およびジョイント符号化スケールパラメータの前記第2のグループのうちのジョイント符号化スケールパラメータを取得するために前記第1の結合規則とは異なる第2の結合規則を使用して、スケールパラメータの前記第1のセットのうちのスケールパラメータとスケールパラメータの前記第2のセットのうちのスケールパラメータとを結合するように構成される、
    請求項17または18に記載のオーディオエンコーダ。
  20. ジョイント符号化スケールパラメータの前記第1のグループがミッド・スケール・パラメータを含み、ジョイント符号化スケールパラメータの前記第2のグループがサイド・スケール・パラメータを含み、前記スケールパラメータ計算器(140)が、前記第1の結合規則において加算を使用し、前記第2の結合規則において減算を使用するように構成される、請求項19に記載のオーディオエンコーダ。
  21. 前記スケールパラメータ計算器が、前記マルチチャネルオーディオ信号のフレームのシーケンスを処理するように構成され、
    前記スケールパラメータ計算器(140)が、
    前記フレームのシーケンスのうちの第1のフレームについてジョイント符号化スケールパラメータの第1のグループおよび第2のグループを計算することと、
    第2のフレームのためのセパレート・コーディング・モードを決定するために前記フレームのシーケンスのうちの前記第2のフレームを分析することと、を行うように構成され、
    前記符号化信号形成器(1480、1500)が、前記符号化オーディオ信号に、前記第2のフレームのためのセパレート符号化モードまたは前記第1のフレームのためのジョイント符号化モードを示す状態サイド情報と、前記第2のフレームのためのセパレート符号化スケールパラメータの前記第1のセットおよび前記第2のセットに関する情報とを導入するように構成される、請求項17から20のいずれか一項に記載のオーディオエンコーダ。
  22. 前記スケールパラメータ計算器(140)が、
    前記第1のチャネルのためのスケールパラメータの前記第1のセットおよび前記第2のチャネルのためのスケールパラメータの前記第2のセットを計算することと、
    ダウンサンプリングされた第1のセットおよびダウンサンプリングされた第2のセットを取得するために、スケールパラメータの前記第1のセットおよび前記第2のセットをダウンサンプリングすることと、
    前記第1のグループのうちのジョイント符号化スケールパラメータおよび前記第2のグループのうちのジョイント符号化スケールパラメータを取得するために異なる結合規則を使用して、前記ダウンサンプリングされた第1のセットからのスケールパラメータと前記ダウンサンプリングされた第2のセットとを結合することとを行うように構成されるか、
    または
    前記スケールパラメータ計算器(140)が、
    前記第1のチャネルのための販売パラメータの前記第1のセットおよび前記第2のチャネルのためのスケールパラメータの前記第2のセットを計算することと、
    前記第1のグループのうちのジョイント符号化スケールパラメータおよび前記第2のグループのうちのジョイント符号化スケールパラメータを取得するために異なる結合規則を使用して、前記第1のセットからのスケールパラメータと前記第2のセットからのスケールパラメータとを結合することと、
    ジョイント符号化スケールパラメータのダウンサンプリングされた第1のグループを取得するためにジョイント符号化スケールパラメータの前記第1のグループをダウンサンプリングし、ジョイント符号化スケールパラメータのダウンサンプリングされた第2のグループを取得するためにジョイント符号化スケールパラメータの前記第2のグループをダウンサンプリングすることと、を行うように構成され、
    前記ダウンサンプリングされた第1のグループおよび前記ダウンサンプリングされた第2のグループが、ジョイント符号化スケールパラメータの前記第1のグループに関する前記情報およびジョイント符号化スケールパラメータの前記第2のグループに関する前記情報を表す、請求項17から21のいずれか一項に記載のオーディオエンコーダ。
  23. 前記スケールパラメータ計算器(140)は、前記第2のフレームにおける前記第1のチャネルと前記第2のチャネルとの類似性を計算し、計算された類似性が閾値との第1の関係にある場合に前記セパレート符号化モードを決定するか、または、前記計算された類似性が前記閾値との異なる第2の関係にある場合に前記ジョイント符号化モードを決定するように構成される、
    請求項21または22に記載のオーディオエンコーダ。
  24. 前記スケールパラメータ計算器(140)は、
    前記第2のフレームについて、各帯域について前記第1のセットのうちの前記スケールパラメータと前記第2のセットのうちの前記スケールパラメータとの間の差を計算することと、
    前記第2のフレームの処理された差を取得するために、負号が外れるように前記第2のフレームの各差を処理することと、
    類似度を取得するために、前記処理された差を結合することと、
    前記類似度を前記閾値と比較することと、
    前記類似度が前記閾値よりも大きいときは、前記セパレート・コーディング・モードを優先して判定し、または、前記類似度が前記閾値よりも小さいときは、前記ジョイント・コーディング・モードを優先して判定することと
    を行うように構成される、請求項23に記載のオーディオエンコーダ。
  25. 前記信号プロセッサ(120)が、
    第1段結果として1つ以上の第1の量子化インデックスを取得し、ジョイント符号化スケールパラメータの中間の第1のグループを取得するために、第1段量子化関数(141、143)を使用してジョイント符号化スケールパラメータの前記第1のグループを量子化することと、
    ジョイント符号化スケールパラメータの前記第1のグループおよびジョイント符号化スケールパラメータの前記中間の第1のグループからジョイント符号化スケールパラメータの残差の第1のグループを計算すること(142)と、
    第2段結果として1つ以上の量子化インデックスを取得するために、第2段量子化関数(145)を使用してジョイント符号化スケールパラメータの前記残差の第1のグループを量子化することと
    を行うように構成される、請求項17から24のいずれか一項に記載のオーディオエンコーダ。
  26. 前記信号プロセッサ(120)が、単一段結果として1つ以上の量子化インデックスを取得するために、単一段量子化関数を使用してジョイント符号化スケールパラメータの前記第2のグループを量子化するように構成されるか、または
    前記信号プロセッサ(120)が、少なくとも第1段量子化関数および第2段量子化関数を使用してジョイント符号化スケールパラメータの前記第1のグループを量子化するために構成され、前記信号プロセッサ(120)が、単一段量子化関数を使用してジョイント符号化スケールパラメータの前記第2のグループを量子化するために構成され、前記単一段量子化関数が、前記第1段量子化関数および前記第2段量子化関数から選択される、
    請求項17から25のいずれか一項に記載のオーディオエンコーダ。
  27. 前記スケールパラメータ計算器(140)が、
    第1段結果として1つ以上の第1の量子化インデックスを取得し、スケールパラメータの中間の第1のセットを取得するために、第1段量子化関数(141、143)を使用してスケールパラメータの前記第1のセットを量子化することと、
    スケールパラメータの前記第1のセットおよびスケールパラメータの前記中間の第1のセットからスケールパラメータの残差の第1のセットを計算すること(142)と、
    第2段結果として1つ以上の量子化インデックスを取得するために、第2段量子化関数(145)を使用してスケールパラメータの前記残差の第1のセットを量子化することと
    を行うように構成されるか、または
    前記スケールパラメータ計算器(140)が、
    第1段結果として1つ以上の第1の量子化インデックスを取得し、スケールパラメータの中間の第2のセットを取得するために、第1段量子化関数(141、143)を使用してスケールパラメータの前記第2のセットを量子化することと、
    スケールパラメータの前記第2のセットおよびスケールパラメータの前記中間の第2のセットからスケールパラメータの残差の第2のセットを計算すること(142)と、
    第2段結果として1つ以上の量子化インデックスを取得するために、第2段量子化関数(145)を使用してスケールパラメータの前記残差の第2のセットを量子化することと
    を行うように構成される、請求項21から26のいずれか一項に記載のオーディオエンコーダ。
  28. 前記第2段量子化関数(145)が、ベクトル量子化を実行する前にジョイント符号化スケーリングパラメータの前記残差の第1のグループまたはスケールパラメータの前記残差の第1のセットもしくは第2のセットを増加させるために、1よりも小さい増幅または重み付け値を使用し、前記ベクトル量子化が、増加した残差値を使用して実行され、および/あるいは
    例示的に、前記重み付けまたは増幅値が、スケーリングパラメータを前記重み付けまたは増幅値で除算するために使用され、前記重み付け値が、好ましくは0.1から0.9の間、またはより好ましくは0.2から0.6の間、またはさらにより好ましくは0.25から0.4の間であり、および/あるいは
    ジョイント符号化スケーリングパラメータの前記残差の第1のグループまたはスケールパラメータの前記残差の第1のセットもしくは第2のセットのすべてのスケーリングパラメータについて同じ増幅値が使用される、
    請求項25または27に記載のオーディオエンコーダ。
  29. 前記第1段量子化関数(141、143)が、前記1つ以上の量子化インデックスの第1のサイズに対応する第1の数のエントリを有する少なくとも1つのコードブックを含み、
    前記第2段量子化関数(145)または前記単一段量子化関数が、前記1つ以上の量子化インデックスの第2のサイズに対応する第2の数のエントリを有する少なくとも1つのコードブックを含み、
    前記第1の数が前記第2の数よりも大きいもしくは小さい、または、前記第1のサイズが前記第2のサイズよりも大きいもしくは小さい、あるいは
    前記第1段量子化関数(141、143)が固定レート量子化関数であり、前記第2段量子化関数(145)が可変レート量子化関数である、
    請求項25から28のいずれか一項に記載のオーディオエンコーダ。
  30. 前記スケールパラメータ計算器(140)が、
    前記第1のチャネルのための第1のMDCT表現および前記第2のチャネルのための第2のMDCT表現を受信することと、
    前記第1のチャネルのための第1のMDST表現および前記第2のチャネルのための第2のMDST表現を受信することと、
    前記第1のMDCT表現および前記第1のMDST表現から前記第1のチャネルについての第1のパワースペクトルを計算し、前記第2のMDCT表現および前記第2のMDST表現から前記第2のチャネルについての第2のパワースペクトルを計算することと、
    前記第1のパワースペクトルから前記第1のチャネルのためのスケールパラメータの前記第1のセットを計算し、前記第2のパワースペクトルから前記第2のチャネルのためのスケールパラメータの前記第2のセットを計算することと
    を行うように構成される、請求項15から29のいずれか一項に記載のオーディオエンコーダ。
  31. 前記信号プロセッサ(120)が、スケールパラメータの前記第1のセットから導出された情報を使用して前記第1のMDCT表現をスケーリングし、スケールパラメータの前記第2のセットから導出された情報を使用して前記第2のMDCT表現をスケーリングするように構成される、
    請求項30に記載のオーディオエンコーダ。
  32. 前記信号プロセッサ(120)が、前記マルチチャネルオーディオ信号のマルチチャネル処理された表現を導出するために、ジョイントマルチチャネル処理を使用して、スケーリングされた第1のチャネル表現およびスケーリングされた第2のチャネル表現をさらに処理し、任意選択的に、スペクトル帯域複製処理またはインテリジェントギャップ充填処理または帯域幅拡張処理を使用してさらに処理し、前記マルチチャネル・オーディオ・データを取得するために前記マルチチャネルオーディオ信号の前記チャネルの表現を量子化および符号化するように構成される、
    請求項17から31のいずれか一項に記載のオーディオエンコーダ。
  33. 前記マルチチャネルオーディオ信号のフレームについて、ジョイント符号化スケールパラメータの前記第2のグループに関する前記情報を、前記フレームのすべてのジョイント符号化スケールパラメータについて同じ値またはゼロ値を示す、すべてゼロまたはすべて特定の値の情報として決定するように構成され、前記符号化信号形成器(1480、1500)が、前記符号化マルチチャネルオーディオ信号を取得するために前記すべてゼロまたはすべて特定の値の情報を使用するように構成される、請求項17から34のいずれか一項に記載のオーディオエンコーダ。
  34. 前記スケールパラメータ計算器(140)が、
    第1のフレームについてジョイント符号化スケールパラメータの前記第1のグループおよびジョイント符号化スケールパラメータの前記第2のグループを計算することと、
    第2のフレームについてジョイント符号化スケールパラメータの前記第1のグループを計算することとを行うように構成され、
    前記第2のフレームにおいて、前記ジョイント符号化スケールパラメータが計算または符号化されず、
    前記符号化信号形成器(1480、1500)は、前記第2のフレームにおいて、前記第2のグループのどのジョイント符号化スケールパラメータも前記符号化マルチチャネルオーディオ信号に含まれないことを指示する、ジョイント符号化スケールパラメータの前記第2のグループに関する前記情報としてフラグを使用するように構成される、請求項17から34のいずれか一項に記載のオーディオエンコーダ。
  35. 2つ以上のオーディオチャネルについてのデータを含むマルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータに関する情報とを含む符号化オーディオ信号を復号する方法であって、
    復号オーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットと、前記復号オーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットとを取得するために、前記ジョイント符号化スケールパラメータに関する前記情報を復号することと、
    前記復号オーディオ信号の前記第1のチャネルおよび前記第2のチャネルを取得するために、前記マルチチャネル・オーディオ・データから導出された第1のチャネル表現にスケールパラメータの前記第1のセットを適用し、前記マルチチャネル・オーディオ・データから導出された第2のチャネル表現にスケールパラメータの前記第2のセットを適用することとを含み、
    前記ジョイント符号化スケールパラメータが、ジョイント符号化スケールパラメータの第1のグループに関する情報およびジョイント符号化スケールパラメータの第2のグループに関する情報を含み、
    前記復号することが、スケールパラメータの前記第1のセットのうちのスケールパラメータを取得するために第1の結合規則を使用して、およびスケールパラメータの前記第2のセットのうちのスケールパラメータを取得するために前記第1の結合規則とは異なる第2の結合規則を使用して、前記第1のグループのうちのジョイント符号化スケールパラメータと前記第2のグループのうちのジョイント符号化スケールパラメータとを結合することを含む、方法。
  36. 2つ以上のチャネルを含むマルチチャネルオーディオ信号を符号化する方法であって、
    前記マルチチャネルオーディオ信号の第1のチャネルのためのスケールパラメータの第1のセットと、前記マルチチャネルオーディオ信号の第2のチャネルのためのスケールパラメータの第2のセットとから、ジョイント符号化スケールパラメータの第1のグループおよびジョイント符号化スケールパラメータの第2のグループを計算することと、
    スケールパラメータの前記第1のセットを前記マルチチャネルオーディオ信号の前記第1のチャネルに適用し、スケールパラメータの前記第2のセットを前記マルチチャネルオーディオ信号の前記第2のチャネルに適用し、マルチチャネル・オーディオ・データを導出することと、
    符号化マルチチャネルオーディオ信号を取得するために、前記マルチチャネル・オーディオ・データと、ジョイント符号化スケールパラメータの前記第1のグループに関する情報と、ジョイント符号化スケールパラメータの前記第2のグループに関する情報とを使用することと
    を含む、方法。
  37. コンピュータまたはプロセッサ上で動作しているとき、請求項31または請求項32に記載の方法を実行するためのコンピュータプログラム。
    マルチチャネルオーディオ信号のチャネルのためのスケールパラメータのジョイントコーディングを使用するオーディオデコーダ、オーディオエンコーダ、および関連する方法。
JP2023501298A 2020-07-07 2021-07-05 マルチチャネルオーディオ信号のチャネルのためのスケールパラメータのジョイントコーディングを使用するオーディオデコーダ、オーディオエンコーダ、および関連する方法 Pending JP2023532809A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20184555 2020-07-07
EP20184555.9 2020-07-07
PCT/EP2021/068520 WO2022008448A1 (en) 2020-07-07 2021-07-05 Audio decoder, audio encoder, and related methods using joint coding of scale parameters for channels of a multi-channel audio signal

Publications (1)

Publication Number Publication Date
JP2023532809A true JP2023532809A (ja) 2023-07-31

Family

ID=71661617

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023501298A Pending JP2023532809A (ja) 2020-07-07 2021-07-05 マルチチャネルオーディオ信号のチャネルのためのスケールパラメータのジョイントコーディングを使用するオーディオデコーダ、オーディオエンコーダ、および関連する方法
JP2023501297A Pending JP2023532808A (ja) 2020-07-07 2021-07-05 オーディオ量子化器、オーディオ逆量子化器、および関連する方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023501297A Pending JP2023532808A (ja) 2020-07-07 2021-07-05 オーディオ量子化器、オーディオ逆量子化器、および関連する方法

Country Status (12)

Country Link
US (2) US20230133513A1 (ja)
EP (2) EP4179529A1 (ja)
JP (2) JP2023532809A (ja)
KR (2) KR20230043876A (ja)
CN (2) CN116114016A (ja)
AU (2) AU2021306852B2 (ja)
BR (2) BR112022026703A2 (ja)
CA (2) CA3184522A1 (ja)
MX (2) MX2023000340A (ja)
TW (1) TWI793666B (ja)
WO (2) WO2022008454A1 (ja)
ZA (2) ZA202213859B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2623516A (en) * 2022-10-17 2024-04-24 Nokia Technologies Oy Parametric spatial audio encoding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters

Also Published As

Publication number Publication date
WO2022008448A1 (en) 2022-01-13
ZA202213859B (en) 2023-10-25
TWI793666B (zh) 2023-02-21
CN116114016A (zh) 2023-05-12
MX2023000340A (es) 2023-02-09
BR112023000223A2 (pt) 2023-01-31
BR112022026703A2 (pt) 2023-01-24
CN115843378A (zh) 2023-03-24
AU2021306852B2 (en) 2024-05-23
CA3184222A1 (en) 2022-01-13
US20230197090A1 (en) 2023-06-22
AU2021303726A1 (en) 2023-02-09
TW202211208A (zh) 2022-03-16
WO2022008454A1 (en) 2022-01-13
JP2023532808A (ja) 2023-07-31
TW202209303A (zh) 2022-03-01
EP4179529A1 (en) 2023-05-17
CA3184522A1 (en) 2022-01-13
EP4179531A1 (en) 2023-05-17
MX2023000341A (es) 2023-03-14
AU2021306852A1 (en) 2023-02-02
KR20230043876A (ko) 2023-03-31
US20230133513A1 (en) 2023-05-04
ZA202300267B (en) 2024-01-31
KR20230066547A (ko) 2023-05-16

Similar Documents

Publication Publication Date Title
JP7073491B2 (ja) スケールパラメータのダウンサンプリングまたは補間を使用してオーディオ信号をエンコードおよびデコードするための装置および方法
KR20180016417A (ko) 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법
CN110998721B (zh) 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
US20230197090A1 (en) Audio quantizer and audio dequantizer and related methods
CN111344784B (zh) 控制编码器和/或解码器中的带宽
RU2807462C1 (ru) Устройство квантования аудиоданных, устройство деквантования аудиоданных и соответствующие способы
RU2809981C1 (ru) Аудиодекодер, аудиокодер и связанные способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312