JP2013178539A - Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング - Google Patents

Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング Download PDF

Info

Publication number
JP2013178539A
JP2013178539A JP2013083340A JP2013083340A JP2013178539A JP 2013178539 A JP2013178539 A JP 2013178539A JP 2013083340 A JP2013083340 A JP 2013083340A JP 2013083340 A JP2013083340 A JP 2013083340A JP 2013178539 A JP2013178539 A JP 2013178539A
Authority
JP
Japan
Prior art keywords
spectral lines
signal
encoding
transform
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2013083340A
Other languages
English (en)
Inventor
Reznik Yuriy
ユリー・レズニク
Pengjun Huang
ペンジュン・フアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013178539A publication Critical patent/JP2013178539A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】スケーラブルなスピーチおよびオーディオ圧縮アルゴリズムにおける、MDCT(または、類似の変換ベースの)スペクトルのエンコーディング/デコーディングのための効率的な技術を提供する。
【解決手段】元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である残差信号が、コード励振線形予測(CELP)ベースのエンコーディングレイヤから取得され、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、複数のスペクトル線を有する対応する変換スペクトルが取得される。変換スペクトルのスペクトル線は、組み合せ位置コード化技術を使用して変換される。組み合せ位置コード化技術は、選択されたサブセットのスペクトル線に対する辞書式インデックスを発生せ、各辞書式インデックスは、選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表す。
【選択図】図8

Description

合衆国法典第35部第119条に基づく優先権の主張
特許に対する本出願は、2007年10月22日に出願され、本出願の譲受人に譲渡され、参照により明白にここに組み込まれている、“スケーラブルなスピーチ+オーディオコーデックにおける、量子化MDCTスペクトルのエンコーディング/デコーディングに対する低複雑さの技術”と題する米国仮出願第60/981,814号に対する優先権を主張する。
分野
以下の記述は一般に、エンコーダおよびデコーダに関し、より詳細には、スケーラブルなスピーチおよびオーディオコーデックの一部として修正離散コサイン変換(MDCT)スペクトルをコード化する効率的な方法に関する。
背景
オーディオコード化の1つの目標は、できるだけ元のサウンド品質を保持しながら、オーディオ信号を所望の制限された情報量に圧縮することである。エンコーディングプロセスにおいて、時間領域におけるオーディオ信号は、周波数領域に変換される。
MPEGレイヤ−3(MP3)、MPEG−2およびMPEG−4のような知覚オーディオコード化技術は、データ量を低減させるために、人間の耳の信号マスキング特性を利用する。そうすることによって、量子化雑音は、優勢な全信号によってかき消されるような、すなわち、聞こえないままであるような方法で、周波数帯域に分配される。オーディオ品質の知覚可能な損失をほとんどまたはまったく伴わずに、かなりの記憶装置のサイズの低減が可能である。知覚オーディオコード化技術は、スケーラブルであることが多く、ベースまたはコアレイヤと、少なくとも1つの拡張レイヤとを有する階層化されたビットストリームを生成させる。これは、ビットレートのスケーラビリティ、すなわち、デコーダ側において異なるオーディオ品質レベルでデコードすること、または、トラフィックシェーピングまたはトラフィックコンディショニングによって、ネットワークにおいてビットレートを低減させることを可能にする。
コード励振線形予測(CELP)は、代数CELP(ACELP)、リラックスCELP(RCELP)、低遅延(LD−CELP)およびベクトル和励振線形予測(VSELP)を含むアルゴリズムのクラスであり、スピーチコード化のために広く使用されている。CELPの背景にある1つの原理は、合成による分析(AbS)と呼ばれており、エンコーディング(分析)が、閉ループにおいてデコードされた(合成)信号を知覚的に最適化することによって実行されることを意味する。理論上は、最良のCELPストリームは、すべての可能性のあるビットの組み合せを試み、かつ、最良の響きのデコード信号を生成させる1つを選択することによって、生成される。これは、明らかに、2つの理由から実際には可能でない:実現するのに非常に複雑であり、“最良の響き”の選択基準が、人間のリスナーを含意する。限定された計算リソースを使用してリアルタイムのエンコーディングを達成するために、CELPサーチは、知覚的重み付け関数を使用して、より小さく扱いやすい逐次サーチに分解される。通常、エンコーディングは、(a)入力オーディオ信号に対して、線形予測コード化係数を(通常、線スペクトル対として)計算および/または量子化することと、(b)コードブックを使用して、ベストマッチをサーチして、コード化された信号を発生させることと、(C)コード化信号と、真の入力信号との間の差である誤差信号を生成させることと、(d)さらに、1つ以上のレイヤにおいて(通常、MDCTスペクトルにおける)そのような誤差信号をエンコードして、再構成された、または合成された信号の品質を向上させることとを含む。
CELPアルゴリズムに基づいてスピーチおよびオーディオコーデックを実現するのに多くの異なる技術が利用可能である。これらの技術のうちのいくつかにおいて、誤差信号が発生され、その後、(通常、DCT、MDCT、または類似の変換を使用して)変換され、エンコードされて、エンコードされた信号の品質がさらに改善される。しかしながら、多くの移動デバイスおよびネットワークの、処理および帯域幅の制限により、そのようなMDCTスペクトルコード化の効率的な構成は、記憶または送信される情報のサイズを低減させることが望ましい。
概要
いくつかの実施形態の基本的な理解を提供するために、以下の記述は、1つ以上の実施形態の単純化した概要を与える。この概要は、考えられるすべての実施形態の広範な概観ではなく、すべての実施形態の主なまたは重要な要素を識別するようにも、いくつかのまたはすべての実施形態の範囲を詳細に描写するようにも向けられていない。その唯一の目的は、後に与えられるより詳細な説明に対するプレリュードとして、単純化した形態で1つ以上の実施形態のいくつかの概念を与えることである。
スケーラブルなスピーチおよびオーディオ圧縮アルゴリズムにおける、MDCT(または、類似の変換ベースの)スペクトルのエンコーディング/デコーディングのための効率的な技術を提供する。この技術は、コードの構造を規定する際に、知覚的に量子化されるMDCTスペクトルのスパース性を利用し、コード化された帯域における非ゼロのスペクトル線の位置を記述する要素を含み、組み合せ列挙技術を使用して、この要素を計算する。
1つの例において、スケーラブルなスピーチおよびオーディオコーデック中でMDCTスペクトルをエンコードする方法を提供する。変換スペクトルのそのようなエンコーディングは、エンコーダハードウェア、エンコーディングソフトウェア、および/または2つの組み合せによって実行され、プロセッサ、処理回路および/または機械読み取り可能媒体において具現されてもよい。残差信号は、コード励振線形予測(CELP)ベースのエンコーディングレイヤから取得され、ここで、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。元のオーディオ信号の再構成されたバージョンは、(a)CELPベースのエンコーディングレイヤからの、元のオーディオ信号のエンコードされたバージョンを合成して、合成信号を取得することと、(b)合成信号を再強調することと、および/または、(c)元のオーディオ信号の再構成されたバージョンを取得するために、再強調された信号をアップサンプリングすることと、によって取得されてもよい。
残差信号は、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、複数のスペクトル線を有する対応する変換スペクトルが取得される。DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであってもよく、変換スペクトルはMDCTスペクトルである。
変換スペクトルのスペクトル線は、組み合せ位置コード化技術を使用してエンコードされる。変換スペクトルのスペクトル線のエンコーディングは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む。いくつかの構成において、エンコーディングに先立って、1組のスペクトル線を落として、スペクトル線の数を低減させてもよい。別の例において、組み合せ位置コード化技術は、選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含んでいてもよく、各辞書式インデックスは、選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表す。辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリング中のスペクトル線を表わしてもよい。
別の例において、組み合せ位置コード化技術は、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含んでいてもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされる。
Figure 2013178539
ここで、nはバイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、wjはバイナリストリングの個々のビットを表す。
いくつかの構成において、複数のスペクトル線は、複数のサブバンドに分割されてもよく、連続するサブバンドが、リージョンにグループ化されてもよい。リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスがエンコードされてもよく、リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外する。さらに、リージョン内の選択されたサブセットのスペクトル線の位置は、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、エンコードされてもよい。リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外してもよい。変換スペクトルのスペクトル線のエンコーディングは、リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含んでもよい。リージョンは、オーバーラップしていてもよく、各リージョンは、複数の連続するサブバンドを含んでもよい。
別の例において、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を提供する。変換スペクトルのそのようなデコーディングは、デコーダハードウェア、デコーディングソフトウェア、および/または2つの組み合せによって実行されてもよく、プロセッサ、処理回路、および/または機械読み取り可能媒体において具現されてもよい。残差信号の複数の変換スペクトルのスペクトル線を表すインデックスが取得され、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である。インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリングにおける非ゼロのスペクトル線を表してもよい。1つの例において、取得されたインデックスは、バイナリストリング内のスペクトル線の位置を表してもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされている。
Figure 2013178539
ここで、nはバイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、wjは前記バイナリストリングの個々のビットを表す。
インデックスは、複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、デコードされる。残差信号のバージョンは、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、デコードされた、複数の変換スペクトルのスペクトル線を使用して合成される。残差信号のバージョンを合成することは、逆DCTタイプの変換を変換スペクトルのスペクトル線に適用して、残差信号の時間領域バージョンを生成させることを含んでいてもよい。変換スペクトルのスペクトル線をデコードすることは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含んでもよい。DCTタイプの逆変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであってもよく、変換スペクトルは、MDCTスペクトルである。
さらに、元のオーディオ信号をエンコードしているCELPエンコード信号を受信してもよい。CELPエンコード信号をデコードして、デコードされた信号を発生させてもよい。デコードされた信号を、残差信号の合成されたバージョンと組み合わせて、元のオーディオ信号の(より高い忠実度の)再構成されたバージョンを取得してもよい。
同一の参照文字が全体を通して対応したものを識別している図面を参照すると、以下で示される詳細な説明から様々な特徴、特質、および利点が明白となろう。
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。 図2は、1つの例にしたがって、効率的なオーディオコード化を実行するように構成されていてもよい送信デバイスを図示するブロック図である。 図3は、1つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイスを図示するブロック図である。 図4は、1つの例にしたがった、スケーラブルなエンコーダのブロック図である。 図5は、エンコーダによって実現されてもよいMDCTスペクトルエンコーディングプロセスを図示するブロック図である。 図6は、MDCTスペクトルのエンコーディングを容易にするために、フレームが選択され、リージョンおよびサブバンドに分割される方法の1つの例を図示する図である。 図7は、効率的な方法でオーディオフレームをエンコードする一般的なアプローチを図示する。 図8は、MDCTオーディオフレームにおいてパルスを効率的にエンコードするエンコーダを図示するブロック図である。 図9は、フレームに対する形状ベクトルを取得する方法を説明するフロー図である。 図10は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをエンコードする方法を説明するブロック図である。 図11は、デコーダの例を図示するブロック図である。 図12は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをエンコードする方法を図示するブロック図である。 図13は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を図示するブロック図である。
詳細な説明
図面に関連して、さまざまな実施形態をこれから記述し、全体を通して同じ要素に言及するために、同じ参照番号を使用する。以下の記述において、説明のため、1つ以上の実施形態の完全な理解を提供するために、多数の特定の詳細な説明を述べる。しかしながら、これらの特定の詳細な説明なしに、そのような実施形態を実施できることは明白であるかもしれない。他の例において、1つ以上の実施形態を記述することを容易にするために、よく知られている構造およびデバイスをブロック図の形態で示す。
概観
オーディオ信号を繰り返してエンコードするために、コード化の複数のレイヤが使用される、オーディオ信号をエンコード/デコードするスケーラブルなコーデックにおいて、修正離散コサイン変換を1つ以上のコード化レイヤにおいて使用してもよく、オーディオ信号の残差が、エンコーディングのために(例えば、MDCT領域に)変換される。MDCT領域において、フレームのスペクトル線は、サブバンドに分割されてもよく、オーバーラップするサブバンドのリージョンが規定される。リージョン中の各サブバンドに対して、メインパルス(すなわち、サブバンドにおける最も強いスペクトル線またはスペクトル線のグループ)が選択されてもよい。メインパルスの位置は、整数を使用してエンコードして、それらのサブバンドのそれぞれ内でのその位置を表してもよい。メインパルスのそれぞれの振幅/大きさは、別々にエンコードしてもよい。さらに、すでに選択されているメインパルスを除外して、リージョン中の複数(例えば、4つ)のサブパルス(例えば、残りのスペクトル線)が選択される。選択されたサブパルスは、リージョン内のそれらの全体の位置に基づいてエンコードされる。これらのサブパルスの位置は、組み合せ位置コード化技術を使用してエンコードされて、リージョンのすべての長さに対するよりも少ないビットで表すことができる辞書式インデックスが生成されてもよい。この方法でメインパルスおよびサブパルスを表すことによって、それらは、記憶および/または送信のために、比較的少ない数のビットを使用してエンコードできる。
通信システム
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ102は、到来する入力オーディオ信号104を受け取り、エンコードされたオーディオ信号106を発生させる。エンコードされたオーディオ信号106は、(例えば、ワイヤレスまたはワイヤードの)送信チャネルを通してデコーダ108に送信される。デコーダ108は、エンコードされたオーディオ信号106に基づいて入力オーディオ信号104を再構成することを試みて、再構成された出力オーディオ信号110を発生させる。説明のために、コーダ102は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。
図2は、1つの例にしたがって、効率的なオーディオコード化を実行するように構成されている送信デバイス202を図示するブロック図である。入力オーディオ信号204が、マイクロフォン206によって取り込まれ、増幅器208によって増幅され、A/Dコンバータ210によってデジタル信号に変換され、デジタル信号は、スピーチエンコーディングモジュール212に送られる。スピーチエンコーディングモジュール212は、入力信号の多層の(スケーリングされた)コード化を実行するように構成されており、少なくとも1つのそのようなレイヤは、MDCTスペクトルにおける残差(誤差信号)をエンコードすることを伴う。スピーチエンコーディングモジュール212は、図4、5、6、7、8、9および10に関して説明するようにエンコーディングを実行してもよい。スピーチエンコーディングモジュール212からの出力信号は、送信パスエンコーディングモジュール214に送られ、そこでは、チャネルデコーディングが実行され、結果として生じる出力信号が、変調回路216に送られて変調されて、D/Aコンバータ218およびRF増幅器220を介して、エンコードされたオーディオ信号224の送信のためにアンテナ222に送られる。
図3は、1つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイス302を図示するブロック図である。エンコードされたオーディオ信号304が、アンテナ306によって受信され、RF増幅器308によって増幅され、A/Dコンバータ310を介して復調回路312に送られ、それにより、復調された信号が、送信パスデコーディングモジュール314に提供される。送信パスデコーディングモジュール314からの出力信号は、入力信号の多層の(スケーリングされた)デコーディングを実行するように構成されているスピーチデコーディングモジュール316に送られ、ここで、少なくとも1つのそのようなレイヤは、IMDCTスペクトルにおける残差(誤差信号)をデコードすることを伴う。スピーチデコーディングモジュール316は、図11、12および13に関して説明したような信号デコーディングを実行してもよい。スピーチデコーディングモジュール316からの出力信号は、D/Aコンバータ318に送られる。D/Aコンバータ318からのアナログスピーチ信号は、増幅器320を介してスピーカ322に送られて、再構成された出力オーディオ信号324が提供される。
スケーラブルなオーディオコーデックアーキテクチャ
コーダ102(図1)、デコーダ108(図1)、スピーチ/オーディオエンコーディングモジュール212(図2)および/またはスピーチ/オーディオデコーディングモジュール316(図3)は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ/音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する1つのアプローチは、反復的エンコーディングレイヤを提供することであり、1つのレイヤからの誤差信号(残差)が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測(CELP)は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、(固定型の代数コードブック、および/または適応型コードブックから)その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、(コードブックに基づいて)信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。
そのような多層アーキテクチャを使用する既存のスケーラブルなコーデックの例は、ITU−T勧告G.729.1と、新生のITU−T標準規格と、コード名がつけられたG.EV−VBRとを含む。例えば、エンベデッド可変ビットレート(EV−VBR)コーデックは、複数のレイヤL1(コアレイヤ)ないしLX(ここで、Xは、最も高い拡張レイヤの番号である)として実現してもよい。そのようなコーデックは、16kHzでサンプリングされた広帯域(WB)信号と、8kHzでサンプリングされた狭帯域(NB)信号との両方を受け入れてもよい。同様に、コーデック出力は、広帯域または狭帯域とすることができる。
コーデック(例えば、EV−VBRコーデック)に対するレイヤ構造の例は、表1において示され、L1(コアレイヤ)ないしL5(最も高い拡張レイヤ)と呼ばれている5つのレイヤを備えている。より低い2つのレイヤ(L1およびL2)は、コード励振線形予測(CELP)アルゴリズムに基づいていてもよい。コアレイヤL1は、可変マルチレート広帯域(VMR−WB)スピーチコード化アルゴリズムから導出されてもよく、異なる入力信号に対して最適化されるいくつかのコード化モードを含んでいてもよい。すなわち、コアレイヤL1は、入力信号を分類して、オーディオ信号をより良くモデル化してもよい。コアレイヤL1からのコード化誤差(残差)は、適応型コードブックおよび固定型代数コードブックに基づいて、強化または拡張レイヤL2によってエンコードされる。レイヤL2からの誤差信号(残差)は、修正離散コサイン変換(MDCT)を使用して、変換領域において、より高いレイヤ(L3ないしL5)によってさらにコード化されてもよい。フレーム消失隠蔽(FEC)を向上させるために、サイド情報がレイヤL3中で送られてもよい。
Figure 2013178539
コアレイヤL1コーデックは本質的に、CELPベースのコーデックであり、適応マルチレート(AMR)、AMRワイドバンド(AMR−WB)、可変マルチレートワイドバンド(VMR−WB)、拡張可変レートコーデック(EVRC)、または、EVRワイドバンド(EVRC−WB)コーデックのような、多数のよく知られている狭帯域または広帯域のボコーダのうちの1つと互換性があってもよい。
スケーラブルなコーデックにおけるレイヤ2は、コードブックを使用して、コアレイヤL1からの知覚的に重み付けされたコード化誤差(残差)をさらに最小にしてもよい。コーデックフレーム消失隠蔽(FEC)を向上させるために、サイド情報が計算されて、後続のレイヤL3中に送信されてもよい。コアレイヤのコード化モードとは無関係に、サイド情報は、信号の分類を含んでいてもよい。
広帯域出力に対して、レイヤL2エンコーディング後の重み付けされた誤差信号は、修正離散コサイン変換(MDCT)または類似のタイプの変換に基づく、重複加算(overlap-add)変換を使用してコード化される。すなわち、コード化レイヤL3、L4および/またはL5に対して、信号は、MDCTスペクトルにおいてエンコードされてもよい。結果として、MDCTスペクトルにおいて信号をコード化する効率的な方法が提供される。
エンコーダの例
図4は、1つの例にしたがった、スケーラブルなエンコーダ402のブロック図である。エンコーディングの前の事前処理の段階において、入力信号404は、望まれない低周波数成分を抑制するためにハイパスフィルタリング406されて、フィルタリングされた入力信号SHP(n)が生成される。例えば、ハイパスフィルタ406は、広帯域入力信号に対して25Hzのカットオフと、狭帯域入力信号に対して100Hzのカットオフとを有していてもよい。フィルタリングされた入力信号SHP(n)は次に、再サンプリングモジュール408によって再サンプリングされて、再サンプリングされた入力信号S12.8(n)が生成される。例えば、オリジナル入力信号404は、16kHzでサンプリングされていてもよく、12.8kHzに再サンプリングされ、12.8kHzは、レイヤL1および/またはL2エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール410が次に、1次ハイパスフィルタを適用して、再サンプリングされた入力信号S12.8(n)のより高い周波数を強調し、(および低周波数を減衰させる)。結果として生じる信号は次に、エンコーダ/デコーダモジュール412に渡され、エンコーダ/デコーダモジュール412は、コード励振線形予測(CELP)ベースのアルゴリズムに基づいてレイヤL1および/またはL2エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤL1およびL2エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ/デコーダモジュール412はまた、入力信号のバージョンを合成(再構成)してもよい。すなわち、エンコーダ/デコーダモジュール412が入力信号をエンコードした後、エンコーダ/デコーダモジュール412は、入力信号をデコードし、逆エンファシスモジュール416および再サンプリングモジュール418が、入力信号404のバージョンs2^(n)を再作成する。残差信号x2(n)が、元の信号SHP(n)と、再作成された信号s2^(n)との間の差420を取ることにより発生される(すなわち、x2(n)=SHP(n)−s2^(n))。残差信号x2(n)は次に、重み付けモジュール424によって知覚的に重み付けされ、MDCTモジュール428によってMDCTスペクトルまたは領域に変換されて、残差信号X2(k)が発生される。残差信号X2(k)は次に組み合せスペクトルエンコーダ432に提供され、組み合せスペクトルエンコーダ432は、残差信号X2(k)をエンコードして、レイヤL3、L4および/またはL5に対してエンコードされたパラメータを生成させる。1つの例において、組み合せスペクトルエンコーダ432は、残差信号X2(k)において非ゼロのスペクトル線(パルス)を表すインデックスを発生させる。例えば、インデックスは、非ゼロのスペクトル線の位置を表す複数の可能性のあるバイナリストリングのうちの1つを表してもよい。組み合せ技術のために、インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリングにおける非ゼロのスペクトル線を表してもよい。
レイヤL1ないしL5からのパラメータは、出力ビットストリーム436として機能を果たすことができ、後に、デコーダにおいて元の入力信号404のバージョンを再構成または合成するために使用できる。
レイヤ1−分類エンコーディング:コアレイヤL1は、エンコーダ/デコーダモジュール412において実現されてもよく、信号分類および4つの別個のコード化モードを使用して、エンコーディング性能を向上させてもよい。1つの例において、各フレームの異なるエンコーディングに対して考慮できる、これらの4つの別個の信号クラスは、(1)無声音のスピーチフレームに対する無声音コード化(UC)と、(2)滑らかなピッチ展開を有する準周期的セグメントに対して最適化される有声音コード化(VC)と、(3)フレームの消失のケースにおいて誤り伝播を最小にするように設計された、有声音の開始に続くフレームに対する移行モード(TC)と、(4)他のフレームに対する共通コード化(GC)とを含んでいてもよい。無声音コード化(UC)において、適応型コードブックは使用されず、励振がガウスコードブックから選択される。準周期的セグメントは、有声音コード化(VC)モードによりエンコードされる。有声音コード化の選択は、滑らかなピッチ展開によって調整される。有声音コード化モードは、ACELP技術を使用してもよい。移行コード化(TC)フレームにおいて、最初のピッチ周期の声門インパルスを含んでいるサブフレームにおける適応型コードブックは、固定型コードブックに取って代わられる。
コアレイヤL1において、信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過する励振信号によるCELPベースのパラダイムを使用してモデル化されてもよい。LPフィルタは、共通コード化モードおよび有声音コード化モードに対して、セーフティネットアプローチおよび多段ベクトル量子化(MSVQ)を使用して、イミタンススペクトル周波数(ISF)領域において量子化されてもよい。開ループ(OL)ピッチ分析が、滑らかなピッチ輪郭を保証するためにピッチ追跡アルゴリズムによって実行される。しかしながら、ピッチ推定のロバストネスを向上させるために、2つの同時発生のピッチ展開の輪郭が比較されてもよく、より滑らかな輪郭を生じるトラックが選択される。
2つの組のLPCパラメータが推定され、20msの分析ウィンドを使用してほとんどのモードにおいてフレーム毎にエンコードされる。2組のLPCパラメータのうちの一方は、フレームエンドに対するものであり、他方は、ミッドフレームに対するものである。ミッドフレームISFは、各ISFサブグループに対して見つけられている線形補間係数を有する補間分割VQによりエンコードされ、それにより、推定された量子化ISFと補間された量子化ISFとの差が最小化される。1つの例において、LP係数のISF表現を量子化するために、(弱い予測および強い予測に対応する)2つのコードブックの組が同時にサーチされて、推定されるスペクトル包絡の歪みを最小にする予測量およびコードブックを見つけてもよい。セーフティネットアプローチに対する主な理由は、フレームの消失が、スペクトル包絡が急速に発達しているセグメントと同時に起こるときに誤り伝播を低減させることである。追加の誤りのロバストネスを提供するために、弱い予測子は、ゼロに設定されることがあり、予測を有さない量子化を結果として生じる。予測を有さないパスは、その量子化歪みが、予測を有するパスに十分に近いときに、または、その量子化歪みが、トランスペアレントなコード化を提供するほど十分に小さいときに、常に選ばれてもよい。さらに、強い予測コードブックサーチにおいて、準最適コードベクトルがクリーンチャネル性能に影響を及ぼさず、フレーム消失がある状態で誤り伝播を低下させることが予測される場合、準最適コードベクトルが選ばれる。UCおよびTCフレームのISFは、予測を有さないで、さらに体系的に量子化される。UCフレームに対して、予測を有さない場合でさえ非常に良好なスペクトル量子化を可能にするために、十分なビットが利用可能である。TCフレームは、クリーンチャネル性能における低減の可能性にもかかわらず、フレーム消失に対して非常に影響されやすく、予測を使用できないと考えられる。
狭帯域(NB)信号に対して、ピッチ推定は、量子化されない最適利得で発生されるL2励振を使用して実行される。このアプローチは、利得量子化の影響を除去し、レイヤにわたってピッチ遅れ推定を改善させる。広帯域(WB)信号に対して、標準的なピッチ推定(量子化された利得を有するL1励振)が使用される。
レイヤ2−強化エンコーディング:レイヤL2において、エンコーダ/デコーダモジュール412は、代数コードブックを再び使用して、コアレイヤL1からの量子化誤差をエンコードしてもよい。L2レイヤにおいて、過去のL1の寄与だけでなく、過去のL2の寄与もを含むように、エンコーダはさらに適応型コードブックを修正する。レイヤ間の時間同期を維持するために、適応ピッチ遅れは、L1およびL2において同じである。L1およびL2に対応する適応型コードブックおよび代数コードブックの利得は、知覚的に重み付けされたコード化誤りを最小にするために再び最適化される。更新されたL1利得およびL2利得は、L1においてすでに量子化されている利得に関して予測的にベクトル量子化される。CELPレイヤ(L1およびL2)は、内部(例えば、12.8kHz)サンプリングレートで動作してもよい。したがって、レイヤL2からの出力は、0ないし6.4kHz周波数帯域においてエンコードされた合成信号を含む。広帯域出力に対して、AMR−WB帯域幅の拡張を使用して、欠落している6.4ないし7kHz帯域幅を発生させてもよい。
レイヤ3−フレーム消失隠蔽:フレーム消失状態(FEC)におけるパフォーマンスを向上させるために、フレーム誤り隠蔽モジュール414が、エンコーダ/デコーダモジュール412からサイド情報を取得してもよく、それを使用してレイヤL3パラメータを発生させる。サイド情報は、すべてのコード化モードに対するクラス情報を含んでいてもよい。前のフレームスのペクトル包絡が、コアレイヤの移行コード化のために送信されてもよい。他のコアレイヤコード化モードに対して、合成信号の位相情報およびピッチ同期エネルギーを送ってもよい。
レイヤ3、4、5−変換コード化:レイヤL2における第2段階のCELPコード化から結果として生じる残差信号X2(k)は、MDCTまたは重複加算構造を有する類似の変換を使用して、レイヤL3、L4およびL5において量子化されてもよい。すなわち、前のレイヤからの残差すなわち“誤差”信号は、後続のレイヤによって使用されて、(デコーダへの送信のために、そのような誤差を効率的に表すことを求める)そのパラメータが発生される。
MDCT係数は、いくつかの技術を使用することによって量子化されてもよい。いくつかの例において、MDCTは、スケーラブルな代数ベクトル量子化を使用して量子化される。MDCTは、20ミリ秒(ms)毎に計算されてもよく、そのスペクトル係数は、8次元ブロックにおいて量子化される。オーディオクリーナ(MDCT領域の雑音整形フィルタ)が適用され、オリジナル信号のスペクトルから導出される。グローバルな利得がレイヤL3において送信される。さらに、いくつかのビットが、高周波数補償に対して使用される。残りのレイヤL3ビットが、MDCT係数の量子化に対して使用される。レイヤL4およびL5レベルにおいて性能が独立して最大化されるように、レイヤL4およびL5ビットが使用される。
いくつかの構成において、MDCT係数が、スピーチおよび音楽優勢オーディオコンテンツに対して、異なるように量子化されてもよい。スピーチコンテンツおよび音楽コンテンツの間の区別は、L2の重み付けされた合成MDCT成分を、対応する入力信号成分と比較することによる、CELPモデルの効率の評価に基づいている。スピーチ優勢コンテンツに対して、スケーラブルな代数ベクトル量子化(AVQ)が、L3およびL4において使用され、スペクトル係数が8次元ブロックにおいて量子化される。グローバルな利得がL3において送信され、いくつかのビットが高周波数補償に対して使用される。残りのL3およびL4ビットが、MDCT係数の量子化に対して使用される。量子化方法は、マルチレート格子VQ(MRLVQ)である。新規なマルチレベル順列ベースのアルゴリズムが、指標付け手続きの複雑さとメモリコストとを低減させるために使用されている。ランク計算がいくつかのステップにおいて実施される:第1に、入力ベクトルが、符号ベクトルと絶対値ベクトルとに分解される。第2に、絶対値ベクトルが、いくつかのレベルにさらに分解される。最も高いレベルのベクトルは、元の絶対値ベクトルである。各下位レベルのベクトルは、上位レベルのベクトルから最も多い周波数成分を取り除くことによって取得される。その上位レベルのベクトルに関連する各下位レベルのベクトルの位置パラメータは、順列および組み合せの機能に基づいてインデックス付けされる。最後に、すべての下位レベルのインデックスおよび符号が、出力インデックスに構成される。
音楽優勢コンテンツに対して、帯域選択型形状利得ベクトル量子化(形状利得VQ)が、レイヤL3において使用されてもよく、追加のパルス位置ベクトル量子化器が、レイヤL4に適用されてもよい。レイヤL3において、帯域選択は、MDCT係数のエネルギーを計算することによって最初に実行されてもよい。次に、選択された帯域におけるMDCT係数が、マルチパルスコードブックを使用して量子化される。ベクトル量子化器が、MDCT係数に対するサブバンド利得を量子化するために使用される。レイヤL4に対して、全帯域幅が、パルスポジショニング技術を使用してコード化されてもよい。オーディオ源モデルの不整合に起因して、スピーチモデルが望まれない雑音を生成させるイベントにおいて、L2レイヤ出力のいくつかの周波数を減衰させて、MDCT係数がよりアグレッシブにコード化されることを可能にしてもよい。これは、レイヤL4を通して、入力信号のMDCTと、コード化されたオーディオ信号のMDCTとの間の二乗誤差を最小化することによって、閉ループ法で実施される。適用される減衰量は、6dBまでであってもよく、2またはよりすくないビットを使用することによって伝達されてもよい。レイヤL5は、追加のパルス位置コード化技術を使用してもよい。
MDCTスペクトルのコード化
レイヤL3、L4およびL5は、MDCTスペクトル(例えば、前のレイヤに対する残差を表すMDCT係数)においてコード化を実行することから、そのようなMDCTスペクトルコード化は効率的であることが望まれる。それゆえに、MDCTスペクトルコード化の効率的な方法を提供する。
このプロセスへの入力は、CELPコア(レイヤL1および/またはL2)後の誤差信号(残差)の完全なMDCTスペクトル、または、前の前のレイヤ後の残差MDCTスペクトルのいずれかである。すなわち、レイヤL3において、完全なMDCTスペクトルが受け取られ、部分的にエンコードされる。次に、レイヤL4において、レイヤL3におけるエンコードされた信号の残差MDCTスペクトルがエンコードされる。このプロセスは、レイヤL5および他の後続のレイヤに対して繰り返されてもよい。
図5は、エンコーダのより高いレイヤにおいて実現してもよい、例示的なMDCTスペクトルエンコーディングプロセスを図示するブロック図である。エンコーダ502は、前のレイヤから残差信号504のMDCTスペクトルを取得する。そのような残差信号504は、オリジナル信号と、(例えば、オリジナル信号のエンコードされたバージョンから再構成された)オリジナル信号の再構成されたバージョンとの間の差であってもよい。残差信号のMDCT係数を量子化して、所定のオーディオフレームに対するスペクトル線を発生させてもよい。
1つの例において、サブバンド/リージョン選択器508が、残差信号504を複数(例えば17個)の一様なサブバンドに分割してもよい。例えば、320本のスペクトル線のオーディオフレームの場合は、最初および最後の24個のポイント(スペクトル線)を落としてもよく、残りの272本のスペクトル線を、それぞれ16本のスペクトル線の17個のサブバンドに分割してもよい。さまざまな構成において、異なる数のサブバンドを使用してもよく、落としてもよい最初および最後のポイントの数を変更してもよく、ならびに/あるいは、サブバンドまたはフレーム当たりの、分割してもよいスペクトル線の数も変更してもよいことを理解すべきである。
図6は、MDCTスペクトルのエンコーディングを容易にするために、オーディオフレーム602が選択され、リージョンおよびサブバンドに分割される方法の1つの例を図示する図である。この例にしたがうと、複数のリージョン(例えば、8個)が、複数(例えば、5個)の連続する、または隣接するサブバンド604から成るように規定されてもよい(例えば、リージョンは、5個のサブバンド*16本のスペクトル線/サブバンド=80本のスペクトル線をカバーしてもよい)。複数のリージョン606は、それぞれの隣接するリージョンとオーバーラップし、完全な帯域幅(例えば、7kHz)をカバーするように整列されてもよい。領域情報をエンコーディングに対して発生させてもよい。
いったんリージョンが選択されると、リージョンにおけるMDCTスペクトルは、ターゲットベクトルの(位置特定および符号と同義の)形状および利得が順次量子化される形状利得量子化を使用して、形状量子化器510および利得量子化器512によって量子化される。整形は、メインパルスおよびサブパルスに対する大きさと共に、サブバンド当たりのメインパルスおよび複数のサブパルスに対応する、位置特定とスペクトル線の符号とを形成することを含んでいてもよい。図6中で図示した例において、リージョン606内の80本のスペクトル線は、5つのメインパルス(5つの連続するサブバンド604a、604b、604c、604dおよび604eのそれぞれに対して1つのメインパルス)と、リージョン当たり4つの追加のサブパルスとから成る形状ベクトルによって表されてもよい。すなわち、各サブバンド604に対して、メインパルスが選択される(すなわち、そのサブバンドにおける16本のスペクトル線内で最も強いパルス)。さらに、各リージョン606に対して、追加の4つのサブパルス(すなわち、80本のスペクトル線内で次に最も強いスペクトル線のパルス)が選択される。図6中で図示したように、1つの例において、メインパルスおよびサブパルスの位置と、符号との組み合せは、50ビットによりエンコードでき、ここで:5つのメインパルス(サブバンド当たり1つのメインパルス)に対するインデックスとして、20ビット;5つのメインパルスの符号に対して5ビット;80本のスペクトル線のリージョン内のどこかの4つのサブパルスのインデックスに対して21ビット;4つのサブパルスの符号に対して4ビットである。
各メインパルスは、4ビット(例えば、4ビットによって表される数0ないし16)を使用して、16本のスペクトル線のサブバンド内のその位置によって表されてもよい。その結果、リージョン中の5つのメインパルスに対して、これは、合計で20ビットを利用する。各メインパルスおよび/またはサブパルスの符号は、1ビット(例えば、正または負に対して、0または1のいずれか)によって表されてもよい。リージョン内の4つの選択されたサブパルスのそれぞれの位置は、組み合せ位置コード化技術を使用して(それぞれの選択されたサブパルスの位置を表す2項係数を使用して)エンコードして、辞書式インデックスを発生させてもよく、そのため、リージョン内の4つのサブパルスの位置を表すために使用されるビットの総数は、リージョンの長さよりも小さい。
メインパルスおよび/またはサブパルスの振幅および/または大きさをエンコードするために、追加のビットを利用してもよいことに注目すべきである。いくつかの構成において、パルスの振幅/大きさは、2つのビット(すなわち、00−パルスがない、01−サブパルス、および/または、10−メインパルス)を使用してエンコードされてもよい。形状量子化に続いて、利得量子化が、計算されたサブバンドの利得に関して実行される。リージョンは、5つのサブバンドを含んでいることから、5つの利得が、10ビットを使用してベクトル量子化できるリージョンに対して取得される。ベクトル量子化は、切り替えられる予測スキームを活用する。出力残差信号516は、(元の入力残差信号504から、量子化された残差信号Squantを減算514することによって)取得されてもよく、エンコーディングの次のレイヤに対する入力として使用できる。
図7は、効率的な方法でオーディオフレームをエンコードするための一般的なアプローチを図示する。N本のスペクトル線のリージョン702が、複数の連続する、または隣接するサブバンドから規定されてもよく、ここで、各サブバンド704は、L本のスペクトル線を有する。リージョン702および/またはサブバンド704は、オーディオフレームの残差信号に対するものであってもよい。
各サブバンドに対して、メインパルスが選択される(706)。例えば、サブバンドのL本のスペクトル線内で最も強いパルスが、そのサブバンドに対するメインパルスとして選択される。最も強いパルスは、サブバンドにおいて最も大きい振幅または大きさを有するパルスとして選択されてもよい。例えば、サブバンド704のそれぞれに対して、第1のメインパルスPAがサブバンドA 704aに対して選択され、第2のメインパルスPBがサブバンドB 704bに対して選択される、などである。リージョン702はNのスペクトル線を有することから、リージョン702内の各スペクトル線の位置は、(1≦i≦Nに対して)ciによって表すことができる。1つの例において、第1のメインパルスPAは、位置c3にあるかもしれず、第2のメインパルスPBは位置c24にあるかもしれず、第3のメインパルスPCは位置c41にあるかもしれず、第4のメインパルスPDは位置c59にあるかもしれず、第5のメインパルスPEは位置c79にあるかもしれない。これらのメインパルスは、その対応するサブバンド内のそれらの位置を表す整数を使用することによってエンコードされてもよい。その結果、L=16のスペクトル線に対して、各メインパルスの位置は、4ビットを使用することによって表されてもよい。
708において、ストリングwが、リージョン中の残りのスペクトル線またはパルスから発生される。ストリングを発生させるために、選択されたメインパルスは、ストリングwから取り除かれ、残りのパルスw1...wN-Pがストリング中にとどまる(ここで、pは、リージョン中のメインパルスの数である)。ストリングは、“0”および“1”によって表されてもよく、ここで“0”は、特定の位置にパルスが存在しないことを表し、“1”は、特定の位置にパルスが存在することを表す。
複数のサブパルスが、パルス強度に基づいて、ストリングwから選択される(710)。例えば、4のサブパルスS1、S2、S3およびS4が、それらの強度(振幅/大きさ)に基づいて選択されてもよい(すなわち、ストリングw中に残っている最も強い4つのパルスが選択される)。1つの例において、第1のサブパルスS1は、位置w20にあってもよく、第2のサブパルスS2は、位置w29にあってもよく、第3のサブパルスS3は、位置w51にあってもよく、第4のサブパルスS4は、位置w69にあってもよい。選択されたサブパルスのそれぞれの位置は次に、2項係数に基づいて辞書式インデックスを使用してエンコードされ(712)、それにより、辞書式インデックスi(w)は、選択されたサブパルスの位置の組み合せに基づいており、i(w)=w20+w29+w51+w69である。
図8は、MDCTオーディオフレームにおいてパルスを効率的にエンコードするエンコーダを図示するブロック図である。エンコーダ802は、サブバンド発生器804を含んでいてもよく、サブバンド発生器804は、受け取ったMDCTスペクトルオーディオフレーム801を、複数のスペクトル線を有する複数の帯域に分割する。リージョン発生器806が次に、複数のオーバーラップするリージョンを発生させ、各リージョンは、複数の隣接するサブバンドから成る。メインパルス選択器808が次に、リージョン中のサブバンドのそれぞれからメインパルスを選択する。メインパルスは、サブバンド内の最も大きい振幅/大きさを有するパルス(1つ以上のスペクトル線またはポイント)であってもよい。リージョン中の各サブバンドに対して選択されたメインパルスは、符号エンコーダ810、位置エンコーダ812、利得エンコーダ814および振幅エンコーダ816によってエンコードされて、各メインパルスに対して、対応するエンコードされたビットが発生される。同様に、サブパルス選択器809が次に、リージョン中から(すなわち、サブパルスがどのサブバンドに属しているかを考慮せずに)複数(例えば、4つ)のサブパルスを選択する。サブパルスは、リージョン中の残りのパルスから(すなわち、すでに選択されているメインパルスを除外して)選択されてもよく、サブバンド内で最も大きい振幅/大きさを有する。リージョンに対して選択されたサブパルスは次に、符号エンコーダ818、位置エンコーダ820、利得エンコーダ822、および振幅エンコーダ824によってエンコードされて、サブパルスに対して、対応するエンコードされたビットが発生される。位置エンコーダ820は、組み合せ位置コード化技術を実行して、サブパルスの位置をエンコードするために使用されるビットの全体のサイズを低減させる辞書式インデックスを発生させるように構成されていてもよい。特に、リージョン全体においてわずかなパルスだけがエンコードされることになる場合、リージョンの完全な長さを表すよりも辞書式インデックスとしていくつかのサブパルスを表す方がより効率的である。
図9は、フレームに対して形状ベクトルを取得する方法を説明するフロー図である。先に示したように、形状ベクトルは、5つのメインパルスおよび4つのサブパルス(スペクトル線)から成り、(80本の線のリージョン内の)位置特定および符号が、最も少ない可能なビット数を使用することによって伝達されることになる。
この例に対して、いくつかの仮定が、メインパルスおよびサブパルスの特性に関して成される。第1に、メインパルスの大きさは、サブパルスの大きさよりも大きいことが仮定され、その比率は、予め設定された定数(例えば、0.8)であってもよい。これは、提案される量子化技術が、3つの可能性のある再構成レベル(大きさ)である、ゼロ(0)、サブパルスレベル(例えば、0.8)およびメインパルスレベル(例えば、1)のうちの1つを、各サブバンドにおけるMDCTスペクトルに割り当ててもよいことを意味する。第2に、各16ポイント(16本のスペクトル線)のサブバンドが、(専用利得を有し、サブバンドにつき1度送信される)ちょうど1つのメインパルスを有することを仮定している。その結果、メインパルスは、リージョン中の各サブバンドに対して存在する。第3に、残りの4つの(または、より少ない)サブパルスを、80本の線のリージョンにおける任意のいずれかのサブバンドに挿入できるが、それらは、選択されたメインパルスのいずれも移動させない。サブパルスは、サブバンド中のスペクトル線を表すために使用されるビットの最大数を表してもよい。例えば、サブバンドにおける4つのサブパルスが、任意のサブバンド中の16本のスペクトル線を表すことができ、したがって、サブバンド中の16本のスペクトル線を表すために使用されるビットの最大数は4である。
先の記述に基づいて、パルスに対するエンコーディング方法を、以下のように導出できる。(複数のスペクトル線を有する)フレームが、複数のサブバンドに分割される(902)。複数のオーバーラップするリージョンが規定されてもよく、各リージョンは、複数の連続する/隣接するサブバンドを含む(904)。メインパルスが、パルスの振幅/大きさに基づいて、リージョン中の各サブバンドにおいて選択される(906)。位置インデックスが、選択された各メインパルスに対してエンコードされる(908)。1つの例において、メインパルスは、16本のスペクトル線を有するサブバンド内のどこかに入ることから、その位置は、4ビット(例えば、0...15の整数値)によって表すことができる。同様に、符号、振幅および/または利得が、メインパルスのそれぞれに対してエンコードされてもよい(910)。符号は、1ビット(1または0のいずれか)により表してもよい。各メインパルスに対する利得および振幅のエンコーディングに対して使用されるビットに加えて、メインパルスに対する各インデックスは、4ビットを利用することから、5つのメインパルスのインデックス(例えば、5つのサブバンド)を表わすために20ビットを使用し、メインパルスの符号に対して5ビットを使用してもよい。
サブパルスのエンコーディングに対して、バイナリストリングが、選択されたメインパルスが取り除かれているリージョン中の残りのパルスから選択された複数のサブパルスから生成される(912)。“選択された複数のサブパルス”は、残りのパルスからの最も大きい振幅/大きさを有する、k個のパルスであってもよい。また、80本のスペクトル線を有するリージョンに対して、5つのすべてのメインパルスが取り除かれる場合、これにより、考慮するサブパルスに対して、80−5=75の位置が残る。その結果、サブパルスがないことを示す0と、選択されたサブパルスが位置に存在することを示す1とから成る、75ビットのバイナリストリングwを生成できる。辞書式インデックスが次に、複数k個の非ゼロビットを有する、1組のすべての可能性のあるバイナリストリングに対して、このバイナリストリングwの辞書式インデックスが次に計算される(914)。符号、振幅および/または利得が、選択されたサブパルスのそれぞれに対してエンコードされてもよい(916)。
辞書式インデックスを生成させること
選択されたサブパルスを表わす辞書式インデックスを、2項係数に基づく組み合せ位置コード化技術を使用して発生させてもよい。例えば、k個の非ゼロビット(ストリングw中の非ゼロの各ビットは、エンコードすべきパルスの位置を示す)を有する長さnの、1組の可能性のあるすべての
Figure 2013178539
バイナリストリングに対して、バイナリストリングwを計算してもよい。1つの例において、次の組み合せ公式を使用して、バイナリストリングw内のk個のすべてのパルスの位置をエンコードするインデックスを発生させてもよい:
Figure 2013178539
ここで、nはバイナリストリングの長さであり(例えば、n=75)、kは、選択されたサブパルスの数であり(例えば、k=4)、wjは、バイナリストリングwの個々のビットを表わす。また、次のことを仮定する。
Figure 2013178539
例えば、k=4かつn=75である場合、すべての可能性のあるサブパルスベクトルのインデックスによって占有される値の合計の範囲は、それゆえに、次のようになるだろう。
Figure 2013178539
したがって、これは、log21285826≒20.294...ビットで表わすことができる。最も近い整数を使用すると、21ビットの使用を結果として生じる。これは、バイナリストリングに対する75ビットすなわち80ビットリージョン中に残っているビットよりも小さいことに注目すべきである。
ストリングから辞書式インデックスを発生させる例
1つの例にしたがうと、選択されたサブパルスの位置を表すバイナリストリングに対する辞書式インデックスは、2項係数に基づいて計算してもよく、1つの可能な構成において、2項係数は、事前に計算し、以下のように三角形のアレイ(パスカルの三角形)において記憶させることができる。
Figure 2013178539
その結果、バイナリストリングwのさまざまな位置における複数のサブパルス(例えば、バイナリ“1”)を表わすバイナリストリングwに対して、2項係数を計算してもよい。
この2項係数のアレイを使用して、辞書式インデックス(i)の計算を次のように実現できる。
Figure 2013178539
エンコーディング方法の例
図10は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをエンコードする方法を説明するブロック図である。残差信号が、コード励振線形予測(CELP)ベースのエンコーディングレイヤから取得され、ここで、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である(1002)。元のオーディオ信号の再構成されたバージョンは、(a)CELPベースのエンコーディングレイヤからの元のオーディオ信号のエンコードされたバージョンを合成して、合成信号を取得することと、(b)合成信号を再強調することと、および/または、(c)元のオーディオ信号の再構成されたバージョンを取得するために、再強調された信号をアップサンプリングすることと、によって取得してもよい。
残差信号は、離散コサイン変換(DCT)タイプの変換レイヤで変換されて、複数のスペクトル線を有する対応する変換スペクトルが取得される(1004)。DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであってもよく、変換スペクトルは、MDCTスペクトルである。
変換スペクトルのスペクトル線が、組み合せ位置コード化技術を使用してエンコードされる(1006)。変換スペクトルのスペクトル線のエンコーディングは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含んでもよい。いくつかの構成において、エンコーディングに先立って、スペクトル線の数を低減させるために、1組のスペクトル線を落としてもよい。別の例において、組み合せ位置コード化技術は、選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含んでもよく、各辞書式インデックスは、選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表わす。辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリングにおけるスペクトル線を表わすことが可能である。
別の例において、組み合せ位置コード化技術は、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含んでいてもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされる:
Figure 2013178539
ここでnは、バイナリストリングの長さであり、kは、エンコードされる、選択されたスペクトル線の数であり、wiは、バイナリストリングの個々のビットを表わす。
1つの例において、複数のスペクトル線が、複数のサブバンドに分割されてもよく、連続するサブバンドが、リージョンにグループ化されてもよい。リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスがエンコードされてもよく、リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外する。さらに、リージョン内の選択されたサブセットのスペクトル線の位置は、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、エンコードされてもよい。リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外してもよい。変換スペクトルのスペクトル線のエンコーディングは、リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含んでいてもよい。リージョンは、オーバーラップしていてもよく、各リージョンは、複数の連続するサブバンドを含んでいてもよい。
辞書式インデックスをデコードして、エンコードされたパルスを合成するプロセスは、単に、エンコーディングに対して記述した動作の逆である。
MDCTスペクトルのデコーディング
図11は、デコーダの例を図示するブロック図である。各オーディオフレーム(例えば、20ミリ秒フレーム)において、デコーダ1102は、1つ以上のレイヤの情報を含んでいる入力ビットストリーム1104を受信してもよい。受信レイヤは、レイヤ1からレイヤ5までの範囲にわたり、8kビット/sないし32kビット/sのビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数(レイヤ)により調整されることを意味する。この例において、出力信号1132はWBであり、すべてのレイヤがデコーダ1102において正確に受信されているものと仮定する。コアレイヤ(レイヤ1)およびACELP強化レイヤ(レイヤ2)が、デコーダモジュール1106によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール1108によって逆強調され、再サンプリングモジュール1110によって16kHzに再サンプリングされて、信号s16^(n)が発生される。事後処理モジュールが信号s16^(n)をさらに処理して、レイヤ1またはレイヤ2の合成信号s2^(n)を発生させる。
より高いレイヤ(レイヤ3、4、5)が次に、組み合せスペクトルデコーダモジュール1116によってデコードされて、MDCTスペクトル信号X234^(k)が取得される。MDCTスペクトル信号X234^(k)は、逆MDCTモジュール1120によって逆変換され、結果として生じる信号xw,234^(n)が、レイヤ1および2の知覚的に重み付けられた合成信号sw,2^(n)に加えられる。時間領域雑音整形が次に、整形モジュール1122によって適用される。現在のフレームとオーバーラップしている、前のフレームの重み付けされた合成信号sw,2^が次に、合成に加えられる。逆知覚的重み付け1124が次に、合成WB信号を復元するために適用される。最後に、ピッチ事後フィルタ1126が、復元された信号に適用され、ハイパスフィルタ1128が後に続く。事後フィルタ1126は、MDCT(レイヤ3、4、5)の重複加算合成によって導入される、余分のデコーダ遅延を活用する。それは、最適の方法で、2つのピッチ事後フィルタ信号を組み合わせる。1つは、余分のデコーダ遅延を活用することによって発生される、レイヤ1またはレイヤ2のデコーダ出力の高品質ピッチ事後フィルタ信号s2^(n)である。他方は、より高いレイヤ(レイヤ3、4、5)合成信号の低遅延ピッチ後フィルタ信号s^(n)である。フィルタリングされた合成信号sHP^(n)が次に、雑音ゲート1130によって出力される。
図12は、MDCTスペクトルオーディオフレームのパルスを効率的にデコードするデコーダを図示するブロック図である。複数のエンコードされた入力ビットが受信され、複数のエンコードされた入力ビットは、オーディオフレームに対するMDCTスペクトルにおける、メインパルスおよび/またはサブパルスに対する符号、位置、振幅、ならびに/あるいは利得を含む。1つ以上のメインパルスに対するビットが、符号デコーダ1210、位置デコーダ1212、利得デコーダ1214、および/または振幅デコーダ1216を含んでいてもよいメインパルスデコーダによってデコードされる。メインパルス合成器1208が次に、デコードされた情報を使用して1つ以上のメインパルスを再構成する。同様に、1つ以上のサブパルスに対するビットが、符号デコーダ1218、位置デコーダ1220、利得デコーダ1222、および/または振幅デコーダ1224を含むサブパルスデコーダにおいてデコードされてもよい。サブパルスの位置は、組み合せ位置コード化技術に基づく辞書式インデックスを使用してエンコードされてもよい。その結果、位置デコーダ1220は、組み合せスペクトルデコーダであってもよい。サブパルス合成器1209が次に、デコードされた情報を使用して、1つ以上のサブパルスを再構成する。リージョン再発生器1206が次に、サブパルスに基づいて、複数のオーバーラップするリージョンを再発生させ、ここで、各リージョンは、複数の隣接するサブバンドから成る。サブバンド再発生器1204が次に、メインパルスおよび/またはサブパルスを使用してサブバンドを再発生させて、オーディオフレームに対する再構成されたMDCTスペクトル1201をもたらす。
辞書式インデックスからストリングを発生させる例
サブパルスの位置を表す、受信された辞書式インデックスをデコードするために、所定の辞書式インデックスに基づいて、逆プロセスを実行して、シーケンスまたはバイナリストリングを取得してもよい。そのような逆プロセスの1つの例は、次のように実現できる:
Figure 2013178539
ほんのわずかのビットの組(例えば、k=4)を有する長いシーケンス(例えば、n=75)のケースにおいて、このルーチンをさらに修正して、それらをより実用的にさせることができる。例えば、ビットのシーケンスをサーチする代わりに、エンコーディングに対して、非ゼロビットのインデックスを渡すことができ、それにより、インデックス()関数は次のようになる:
Figure 2013178539
2項アレイの最初の4桁だけが使用されることに注目すべきである。したがって、75*4=300語のメモリだけが、それを記憶するために使用される。
1つの例において、デコーディングプロセスは、次にアルゴリズムによって達成できる:
Figure 2013178539
これは、各ステップにおいて使用されるルックアップおよび比較だけによる、n回の繰返しを有するアンロールループである。
エンコーディング方法の例
図13は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。残差信号の複数の変換スペクトルのスペクトル線を表すインデックスが取得され、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である(1302)。インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリング中の非ゼロのスペクトル線を表すことができる。1つの例において、取得されるインデックスは、バイナリストリング内のスペクトル線の位置を表わしてもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされている:
Figure 2013178539
ここで、nはバイナリストリングの長さであり、kは、エンコードされる選択されたスペクトル線の数であり、wjは、バイナリストリングの個々のビットを表す。
インデックスは、複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによってデコードされる(1304)。残差信号のバージョンは、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、デコードされた、複数の変換スペクトルのスペクトル線を使用して合成される(1306)。残差信号のバージョンを合成することは、逆DCTタイプの変換を変換スペクトルのスペクトル線に適用して、残差信号の時間領域バージョンを生成させることを含む。変換スペクトルのスペクトル線をデコードすることは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含んでもよい。DCTタイプの逆変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであってもよく、変換スペクトルはMDCTスペクトルである。
さらに、元のオーディオ信号をエンコードしているCELPエンコード信号が受信されてもよい(1308)。CELPエンコード信号がデコードされて、デコードされた信号が発生されてもよい(1310)。デコード信号は、残差信号の合成されたバージョンと組み合わされて、元のオーディオ信号の(より高い忠実度の)再構成されたバージョンが取得されてもよい(1312)。
電子ハードウェア、ソフトウェアまたは両方の組み合わせとして、ここで記述したさまざまな実例となる論理ブロック、モジュール、回路およびアルゴリズムステップを実現または実行してもよい。ハードウェアおよびソフトウェアのこの互換性を明瞭に説明するために、さまざまな実例となるコンポーネント、ブロック、モジュール、回路、およびステップをそれらの機能の点から一般的に上述した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、特定の用途およびシステム全体に課される設計制約に依存する。フローチャートとして描写されるプロセス、フロー図、構造図、またはブロック図として、構成を記述してもよいことが注目される。フローチャートは、一連のプロセスとして動作を記述してもよいが、動作の多くは、並行または同時に実行できる。加えて、動作の順序は、並べ変えてもよい。プロセスは、その動作が完了するとき終了する。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、呼出し関数または主関数への関数の戻りに対応する。
ハードウェアにおいて実現されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラム可能ゲートアレイ信号(FPGA)または他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはここで記述した機能を実行するために設計された、これらの任意の組み合わせを用いてもよい。汎用プロセッサはマイクロプロセッサでもよいが、代わりに、プロセッサは任意の従来のプロセッサ、制御装置、マイクロ制御装置、または状態遷移機械であってもよい。計算デバイスの組み合わせとして、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに関連した1つ以上のマイクロプロセッサ、または他の任意のこのような構成として、プロセッサを実現してもよい。
ソフトウェアにおいて実現されるとき、さまざまな例は、ファームウェア、ミドルウェアまたはマイクロコードを用いてもよい。必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記憶媒体または他の記憶装置のようなコンピュータ読み取り可能媒体中に記憶されていてもよい。プロセッサが必要なタスクを実行してもよい。コードセグメントは、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令の任意の組み合わせ、データ構造、またはプログラムのステートメントを表してもよい。情報、データ、引き数、パラメータ、またはメモリのコンテンツを渡し、および/または受け取ることにより、コードセグメントを、別のコードセグメントまたはハードウェア回路に結合してもよい。メモリの共有、メッセージ受渡し、トークンパッシング方式、ネットワーク送信などを含む任意の適切な手段を使用して、情報、引き数、パラメータ、データなどを渡し、転送し、または送信してもよい。
本出願中で使用されるような、用語“コンポーネント”、“モジュール”、“システム”、およびこれらに類似するものは、コンピュータ関連エンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェアまたは実行中のソフトウェアのいずれかを指すように意図されている。例えば、コンポーネントはプロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータであってもよいが、それだけに限られない。実例として、計算デバイス上で実行するアプリケーションと計算デバイスとの両方をコンポーネントとすることができる。1つ以上のコンポーネントが1つのプロセスおよび/または実行のスレッド内に存在してもよく、コンポーネントが1つのコンピュータ上にローカライズされてもよく、および/または2つ以上のコンピュータ間に分散されてもよい。また、これらのコンポーネントは、記憶されているさまざまなデータ構造を有するさまざまなコンピュータ読み取り可能媒体から実行できる。コンポーネントは、(例えば、ローカルシステム中の、分散システム中の別のコンポーネントと対話する1つのコンポーネントからのデータ、および/または、インターネットのようなネットワークを通して信号により他のシステムと対話する1つのコンポーネントからのデータのような)1つ以上のデータパケットを有する信号にしたがうような、ローカルおよび/またはリモートプロセスによって通信してもよい。
ここでの1つ以上の例において、記述した機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ中で実現してもよい。ソフトウェアにおいて実現する場合、コンピュータ読み取り可能媒体上に、1つ以上の命令またはコードとして、機能を記憶させてもよく、または機能を送信してもよい。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする何らかの媒体を含む通信媒体との両方を含む。記憶媒体は、コンピュータによりアクセスできる任意の利用可能な媒体であってもよい。一例として、限定ではないが、そのようなコンピュータ読み取り可能媒体は,RAM、ROM、EEPROM、CD−ROMまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用でき、そして、コンピュータによりアクセスできる他の任意の媒体を備えることができる。さらに、いくつかの接続は、適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア線、デジタル加入者線(DSL)、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバまたは他のリモート情報源から送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア線、DSL、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用されるディスク(Diskおよびdisc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイディスクを含み、ディスク(disk)は通常、磁気的にデータを再生し、一方、ディスク(disc)は、レーザにより光学的にデータを再生する。上述の組み合わせもまた、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。ソフトウェアは、単一の命令、または、多くの命令を含んでいてもよく、いくつかの異なるコードセグメントに対して、異なるプログラム間に、および複数の記憶媒体にわたって分散されていてもよい。例示的な記憶媒体は、プロセッサに結合されていてもよく、それにより、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。代替として、記憶媒体は、プロセッサと一体化していてもよい。
ここで開示した方法は、記述した方法を達成するために、1つ以上のステップまたは動作を含んでいる。方法のステップおよび/または動作は、特許請求の範囲から逸脱することなく、互いに置き換えられてもよい。すなわち、ステップまたは動作の特定の順序が、記述されている実施形態の適切な動作に対して必要とされない限り、特定のステップおよび/または動作の順序および/または使用は、特許請求の範囲から逸脱することなく修正してもよい。
図1、2、3、4、5、6、7、8、9、10、11、12、および/または13中で図示したコンポーネント、ステップ、および/または機能のうちの1つ以上は、単一のコンポーネント、ステップまたは機能に再編成され、および/または組み合わされてもよく、あるいは、いくつかのコンポーネント、ステップまたは機能において具現されてもよい。追加のエレメント、コンポーネント、ステップおよび/または機能を追加してもよい。図1、2、3、4、5、8、11および12中で図示した装置、デバイスおよび/またはコンポーネントは、図6ないし図7、および図10ないし図13中で記述した方法、特徴またはステップのうちの1つ以上を実行するように構成または適合されていてもよい。ここで記述したアルゴリズムは、ソフトウェアにおいて効率的に実現されてもよく、および/またはハードウェアに埋め込まれていてもよい。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
このプロセスへの入力は、CELPコア(レイヤL1および/またはL2)後の誤差信号(残差)の完全なMDCTスペクトル、または、前のレイヤ後の残差MDCTスペクトルのいずれかである。すなわち、レイヤL3において、完全なMDCTスペクトルが受け取られ、部分的にエンコードされる。次に、レイヤL4において、レイヤL3におけるエンコードされた信号の残差MDCTスペクトルがエンコードされる。このプロセスは、レイヤL5および他の後続のレイヤに対して繰り返されてもよい。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得することと、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードすることとを含む方法。
[2]前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである上記[1]記載の方法。
[3]前記変換スペクトルのスペクトル線をエンコードすることは、
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む上記[1]記載の方法。
[4]前記複数のスペクトル線を複数のサブバンドに分割することと、
連続するサブバンドをリージョンにグループ化することとをさらに含む上記[1]記載の方法。
[5]前記リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスをエンコードすることをさらに含む上記[4]記載の方法。
[6]非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、リージョン内の選択されたサブセットのスペクトル線の位置をエンコードすることをさらに含み、
前記変換スペクトルのスペクトル線をエンコードすることは、前記リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、前記選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含む上記[4]記載の方法。
[7]前記リージョンは、オーバーラップしており、各リージョンは、複数の連続するサブバンドを含む上記[4]記載の方法。
[8]前記組み合せ位置コード化技術は、
選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、前記選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表す上記[1]記載の方法。
[9]前記辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す上記[8]記載の方法。
[10]前記組み合せ位置コード化技術は、
バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含み、前記スペクトル線の位置は、組み合せ公式
Figure 2013178539
に基づいてエンコードされ、
ここで、nは前記バイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、w j は前記バイナリストリングの個々のビットを表す上記[1]記載の方法。
[11]エンコードすることに先立って、1組のスペクトル線を落として、スペクトル線の数を低減させることをさらに含む上記[1]記載の方法。
[12]前記元のオーディオ信号の再構成されたバージョンは、
前記CELPベースのエンコーディングレイヤからの、前記元のオーディオ信号のエンコードされたバージョンを合成して、合成された信号を取得することと、
前記合成された信号を再強調することと、
前記元のオーディオ信号の再構成されたバージョンを取得するために、前記再強調された信号をアップサンプリングすることとにより取得される上記[1]記載の方法。
[13]スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードするように適合されている組み合せスペクトルエンコーダとを具備するデバイス。
[14]前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである上記[13]記載のデバイス。
[15]前記変換スペクトルのスペクトル線をエンコードすることは、
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む上記[13]記載のデバイス。
[16]前記複数のスペクトル線を複数のサブバンドに分割するように適合されているサブバンド発生器と、
連続するサブバンドをリージョンにグループ化するように適合されているリージョン発生器とをさらに具備する上記[13]記載のデバイス。
[17]前記リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスをエンコードするように適合されているメインパルスエンコーダをさらに具備する上記[16]記載のデバイス。
[18]非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、リージョン内の選択されたサブセットのスペクトル線の位置をエンコードするように適合されているサブパルスエンコーダをさらに具備し、
前記変換スペクトルのスペクトル線をエンコードすることは、前記リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、前記選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含む上記[16]記載の方法。
[19]前記リージョンは、オーバーラップしており、各リージョンは、複数の連続するサブバンドを含む上記[16]記載のデバイス。
[20]前記組み合せ位置コード化技術は、
選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、前記選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表す上記[13]記載のデバイス。
[21]前記辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す上記[20]記載のデバイス。
[22]前記組み合せスペクトルエンコーダは、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させるように適合されており、前記スペクトル線の位置は、組み合せ公式
Figure 2013178539
に基づいてエンコードされ、
ここで、nは前記バイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、w j は前記バイナリストリングの個々のビットを表す上記[13]記載のデバイス。
[23]前記元のオーディオ信号の再構成されたバージョンは、
前記CELPベースのエンコーディングレイヤからの、前記元のオーディオ信号のエンコードされたバージョンを合成して、合成された信号を取得することと、
前記合成された信号を再強調することと、
前記元のオーディオ信号の再構成されたバージョンを取得するために、前記再強調された信号をアップサンプリングすることとにより取得される上記[13]記載のデバイス。
[24]スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段と、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得する手段と、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードする手段とを具備し、
前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であるデバイス。
[25]スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得するように適合され、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードするように適合されており、
前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であるプロセッサ。
[26]スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得することと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得することと、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードすることとを前記プロセッサに生じさせ、
前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である機械読み取り可能媒体。
[27]スケーラブルなスピーチおよびオーディオデコーディングの方法において、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードすることと、
逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成することとを含む方法。
[28]前記元のオーディオ信号をエンコードしているCELPエンコード信号を受信することと、
CELPエンコード信号をデコードして、デコードされた信号を発生させることと、
前記デコード信号を、前記残差信号の合成されたバージョンと組み合わせて、前記元のオーディオ信号の再構成されたバージョンを取得することとをさらに含む上記[27]記載の方法。
[29]前記残差信号のバージョンを合成することは、逆DCTタイプの変換を前記変換スペクトルのスペクトル線に適用して、前記残差信号の時間領域バージョンを生成させることを含む上記[27]記載の方法。
[30]前記変換スペクトルのスペクトル線をデコードすることは、
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含む上記[27]記載の方法。
[31]前記インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す上記[27]記載の方法。
[32]前記DCTタイプの逆変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである上記[27]記載の方法。
[33]前記取得されたインデックスは、バイナリストリング内のスペクトル線の位置を表し、前記スペクトル線の位置は、組み合せ公式
Figure 2013178539
に基づいてエンコードされており、
ここで、nは前記バイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、w j は前記バイナリストリングの個々のビットを表す上記[27]記載の方法。
[34]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードするように適合されている組み合せスペクトルデコーダと、
前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成するように適合されている、逆離散コサイン変換(IDCT)タイプの逆変換レイヤモジュールとを具備するデバイス。
[35]前記元のオーディオ信号をエンコードしているCELPエンコード信号を受信し、
CELPエンコード信号をデコードして、デコードされた信号を発生させ、
前記デコード信号を、前記残差信号の合成されたバージョンと組み合わせて、前記元のオーディオ信号の再構成されたバージョンを取得するように適合されているCELPデコーダをさらに具備する上記[34]記載のデバイス。
[36]前記残差信号のバージョンを合成する、前記(IDCT)タイプの逆変換レイヤモジュールは、逆DCTタイプの変換を前記変換スペクトルのスペクトル線に適用して、前記残差信号の時間領域バージョンを生成させるように適合されている上記[34]記載のデバイス。
[37]前記インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す上記[34]記載のデバイス。
[38]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードする手段と、
逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成する手段とを具備するデバイス。
[39]スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードするように適合され、
逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成するように適合されているプロセッサ。
[40]スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードすることと、
逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成することとを前記プロセッサに生じさせる機械読み取り可能媒体。

Claims (40)

  1. スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得することと、
    組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードすることとを含む方法。
  2. 前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである請求項1記載の方法。
  3. 前記変換スペクトルのスペクトル線をエンコードすることは、
    非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む請求項1記載の方法。
  4. 前記複数のスペクトル線を複数のサブバンドに分割することと、
    連続するサブバンドをリージョンにグループ化することとをさらに含む請求項1記載の方法。
  5. 前記リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスをエンコードすることをさらに含む請求項4記載の方法。
  6. 非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、リージョン内の選択されたサブセットのスペクトル線の位置をエンコードすることをさらに含み、
    前記変換スペクトルのスペクトル線をエンコードすることは、前記リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、前記選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含む請求項4記載の方法。
  7. 前記リージョンは、オーバーラップしており、各リージョンは、複数の連続するサブバンドを含む請求項4記載の方法。
  8. 前記組み合せ位置コード化技術は、
    選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、前記選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表す請求項1記載の方法。
  9. 前記辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項8記載の方法。
  10. 前記組み合せ位置コード化技術は、
    バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含み、前記スペクトル線の位置は、組み合せ公式
    Figure 2013178539
    に基づいてエンコードされ、
    ここで、nは前記バイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、wjは前記バイナリストリングの個々のビットを表す請求項1記載の方法。
  11. エンコードすることに先立って、1組のスペクトル線を落として、スペクトル線の数を低減させることをさらに含む請求項1記載の方法。
  12. 前記元のオーディオ信号の再構成されたバージョンは、
    前記CELPベースのエンコーディングレイヤからの、前記元のオーディオ信号のエンコードされたバージョンを合成して、合成された信号を取得することと、
    前記合成された信号を再強調することと、
    前記元のオーディオ信号の再構成されたバージョンを取得するために、前記再強調された信号をアップサンプリングすることとにより取得される請求項1記載の方法。
  13. スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
    組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードするように適合されている組み合せスペクトルエンコーダとを具備するデバイス。
  14. 前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである請求項13記載のデバイス。
  15. 前記変換スペクトルのスペクトル線をエンコードすることは、
    非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む請求項13記載のデバイス。
  16. 前記複数のスペクトル線を複数のサブバンドに分割するように適合されているサブバンド発生器と、
    連続するサブバンドをリージョンにグループ化するように適合されているリージョン発生器とをさらに具備する請求項13記載のデバイス。
  17. 前記リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスをエンコードするように適合されているメインパルスエンコーダをさらに具備する請求項16記載のデバイス。
  18. 非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、リージョン内の選択されたサブセットのスペクトル線の位置をエンコードするように適合されているサブパルスエンコーダをさらに具備し、
    前記変換スペクトルのスペクトル線をエンコードすることは、前記リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、前記選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含む請求項16記載の方法。
  19. 前記リージョンは、オーバーラップしており、各リージョンは、複数の連続するサブバンドを含む請求項16記載のデバイス。
  20. 前記組み合せ位置コード化技術は、
    選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、前記選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの1つを表す請求項13記載のデバイス。
  21. 前記辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項20記載のデバイス。
  22. 前記組み合せスペクトルエンコーダは、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させるように適合されており、前記スペクトル線の位置は、組み合せ公式
    Figure 2013178539
    に基づいてエンコードされ、
    ここで、nは前記バイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、wjは前記バイナリストリングの個々のビットを表す請求項13記載のデバイス。
  23. 前記元のオーディオ信号の再構成されたバージョンは、
    前記CELPベースのエンコーディングレイヤからの、前記元のオーディオ信号のエンコードされたバージョンを合成して、合成された信号を取得することと、
    前記合成された信号を再強調することと、
    前記元のオーディオ信号の再構成されたバージョンを取得するために、前記再強調された信号をアップサンプリングすることとにより取得される請求項13記載のデバイス。
  24. スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段と、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得する手段と、
    組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードする手段とを具備し、
    前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であるデバイス。
  25. スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
    前記回路は、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得するように適合され、
    組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードするように適合されており、
    前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であるプロセッサ。
  26. スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
    1つ以上のプロセッサによって実行されるとき、前記命令は、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得することと、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得することと、
    組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードすることとを前記プロセッサに生じさせ、
    前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である機械読み取り可能媒体。
  27. スケーラブルなスピーチおよびオーディオデコーディングの方法において、
    残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードすることと、
    逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成することとを含む方法。
  28. 前記元のオーディオ信号をエンコードしているCELPエンコード信号を受信することと、
    CELPエンコード信号をデコードして、デコードされた信号を発生させることと、
    前記デコード信号を、前記残差信号の合成されたバージョンと組み合わせて、前記元のオーディオ信号の再構成されたバージョンを取得することとをさらに含む請求項27記載の方法。
  29. 前記残差信号のバージョンを合成することは、逆DCTタイプの変換を前記変換スペクトルのスペクトル線に適用して、前記残差信号の時間領域バージョンを生成させることを含む請求項27記載の方法。
  30. 前記変換スペクトルのスペクトル線をデコードすることは、
    非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含む請求項27記載の方法。
  31. 前記インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項27記載の方法。
  32. 前記DCTタイプの逆変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである請求項27記載の方法。
  33. 前記取得されたインデックスは、バイナリストリング内のスペクトル線の位置を表し、前記スペクトル線の位置は、組み合せ公式
    Figure 2013178539
    に基づいてエンコードされており、
    ここで、nは前記バイナリストリングの長さであり、kはエンコードされる選択されたスペクトル線の数であり、wjは前記バイナリストリングの個々のビットを表す請求項27記載の方法。
  34. スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
    残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードするように適合されている組み合せスペクトルデコーダと、
    前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成するように適合されている、逆離散コサイン変換(IDCT)タイプの逆変換レイヤモジュールとを具備するデバイス。
  35. 前記元のオーディオ信号をエンコードしているCELPエンコード信号を受信し、
    CELPエンコード信号をデコードして、デコードされた信号を発生させ、
    前記デコード信号を、前記残差信号の合成されたバージョンと組み合わせて、前記元のオーディオ信号の再構成されたバージョンを取得するように適合されているCELPデコーダをさらに具備する請求項34記載のデバイス。
  36. 前記残差信号のバージョンを合成する、前記(IDCT)タイプの逆変換レイヤモジュールは、逆DCTタイプの変換を前記変換スペクトルのスペクトル線に適用して、前記残差信号の時間領域バージョンを生成させるように適合されている請求項34記載のデバイス。
  37. 前記インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項34記載のデバイス。
  38. スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
    残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
    前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードする手段と、
    逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成する手段とを具備するデバイス。
  39. スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
    前記回路は、
    残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
    前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードするように適合され、
    逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成するように適合されているプロセッサ。
  40. スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
    1つ以上のプロセッサによって実行されるとき、前記命令は、
    残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードすることと、
    逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成することとを前記プロセッサに生じさせる機械読み取り可能媒体。
JP2013083340A 2007-10-22 2013-04-11 Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング Withdrawn JP2013178539A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US98181407P 2007-10-22 2007-10-22
US60/981,814 2007-10-22
US12/255,604 US8527265B2 (en) 2007-10-22 2008-10-21 Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US12/255,604 2008-10-21

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2010531210A Division JP2011501828A (ja) 2007-10-22 2008-10-22 Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング

Publications (1)

Publication Number Publication Date
JP2013178539A true JP2013178539A (ja) 2013-09-09

Family

ID=40210550

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010531210A Ceased JP2011501828A (ja) 2007-10-22 2008-10-22 Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング
JP2013083340A Withdrawn JP2013178539A (ja) 2007-10-22 2013-04-11 Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010531210A Ceased JP2011501828A (ja) 2007-10-22 2008-10-22 Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング

Country Status (13)

Country Link
US (1) US8527265B2 (ja)
EP (1) EP2255358B1 (ja)
JP (2) JP2011501828A (ja)
KR (1) KR20100085994A (ja)
CN (2) CN102968998A (ja)
AU (1) AU2008316860B2 (ja)
BR (1) BRPI0818405A2 (ja)
CA (1) CA2701281A1 (ja)
IL (1) IL205131A0 (ja)
MX (1) MX2010004282A (ja)
RU (1) RU2459282C2 (ja)
TW (1) TWI407432B (ja)
WO (1) WO2009055493A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
JP5221642B2 (ja) 2007-04-29 2013-06-26 華為技術有限公司 符号化法、復号化法、符号器、および復号器
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
ES2610163T3 (es) 2009-10-20 2017-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, método para codificar información de audio, método para decodificar información de audio y programa de computación que utiliza una reducción de tamaño de intervalo interactiva
US9153242B2 (en) * 2009-11-13 2015-10-06 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus, and related methods that use plural coding layers
CA2780962C (en) * 2009-11-19 2017-09-05 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for loudness and sharpness compensation in audio codecs
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
JP5773502B2 (ja) * 2010-01-12 2015-09-02 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム
KR101764633B1 (ko) 2010-01-15 2017-08-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101423737B1 (ko) 2010-01-21 2014-07-24 한국전자통신연구원 오디오 신호의 디코딩 방법 및 장치
EP2555186A4 (en) * 2010-03-31 2014-04-16 Korea Electronics Telecomm CODING METHOD AND DEVICE AND DECODING METHOD AND DEVICE
EP2569767B1 (en) * 2010-05-11 2014-06-11 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for processing of audio signals
CN102299760B (zh) * 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器
WO2012005210A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、装置、プログラムおよび記録媒体
US20120029926A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US8879634B2 (en) 2010-08-13 2014-11-04 Qualcomm Incorporated Coding blocks of data using one-to-one codes
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
EP2707875A4 (en) 2011-05-13 2015-03-25 Samsung Electronics Co Ltd NOISE REDUCTION AND AUDIO CODING
CN103946918B (zh) 2011-09-28 2017-03-08 Lg电子株式会社 语音信号编码方法、语音信号解码方法及使用其的装置
JP6062861B2 (ja) * 2011-10-07 2017-01-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
US8924203B2 (en) 2011-10-28 2014-12-30 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
CA2831176C (en) * 2012-01-20 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
PL3193332T3 (pl) * 2012-07-12 2020-12-14 Nokia Technologies Oy Kwantyzacja wektorowa
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
EP4220636A1 (en) * 2012-11-05 2023-08-02 Panasonic Intellectual Property Corporation of America Speech audio encoding device and speech audio encoding method
MY185164A (en) * 2013-01-29 2021-04-30 Fraunhofer Ges Forschung Noise filling concept
MX347410B (es) 2013-01-29 2017-04-26 Fraunhofer Ges Forschung Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion.
EP3098811B1 (en) 2013-02-13 2018-10-17 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
WO2014160705A1 (en) 2013-03-26 2014-10-02 Dolby Laboratories Licensing Corporation Encoding perceptually-quantized video content in multi-layer vdr coding
CN105453173B (zh) 2013-06-21 2019-08-06 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
JP6482540B2 (ja) 2013-06-21 2019-03-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
EP2830056A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
PL3046104T3 (pl) * 2013-09-16 2020-02-28 Samsung Electronics Co., Ltd. Sposób kodowania sygnału oraz sposób dekodowania sygnału
WO2015037969A1 (ko) 2013-09-16 2015-03-19 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
PL3058567T3 (pl) * 2013-10-18 2017-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Kodowanie pozycji pików spektralnych
TWI578308B (zh) 2013-10-18 2017-04-11 弗勞恩霍夫爾協會 音訊信號頻譜之頻譜係數的編碼技術
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
PT3288026T (pt) * 2013-10-31 2020-07-20 Fraunhofer Ges Forschung Descodificador áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
KR101854296B1 (ko) 2013-10-31 2018-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
US10395663B2 (en) 2014-02-17 2019-08-27 Samsung Electronics Co., Ltd. Signal encoding method and apparatus, and signal decoding method and apparatus
CN106233112B (zh) * 2014-02-17 2019-06-28 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
CN107369453B (zh) * 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
WO2015157843A1 (en) 2014-04-17 2015-10-22 Voiceage Corporation Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN111968655B (zh) 2014-07-28 2023-11-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
KR102547480B1 (ko) * 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
US10504525B2 (en) * 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
BR112020004909A2 (pt) * 2017-09-20 2020-09-15 Voiceage Corporation método e dispositivo para distribuir, de forma eficiente, um bit-budget em um codec celp
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
JP3849210B2 (ja) * 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6351494B1 (en) 1999-09-24 2002-02-26 Sony Corporation Classified adaptive error recovery method and apparatus
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
DE60214599T2 (de) * 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
CA2524243C (en) * 2003-04-30 2013-02-19 Matsushita Electric Industrial Co. Ltd. Speech coding apparatus including enhancement layer performing long term prediction
EP1688917A1 (en) * 2003-12-26 2006-08-09 Matsushita Electric Industries Co. Ltd. Voice/musical sound encoding device and voice/musical sound encoding method
JP4445328B2 (ja) 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
RU2007109825A (ru) 2004-09-17 2008-09-27 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство аудиокодирования, устройство аудиодекодирования, устройство связи и способ аудиокодирования
KR20070083856A (ko) 2004-10-28 2007-08-24 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법
US8036390B2 (en) 2005-02-01 2011-10-11 Panasonic Corporation Scalable encoding device and scalable encoding method
EP1988544B1 (en) * 2006-03-10 2014-12-24 Panasonic Intellectual Property Corporation of America Coding device and coding method
US8711925B2 (en) * 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding

Also Published As

Publication number Publication date
EP2255358A1 (en) 2010-12-01
JP2011501828A (ja) 2011-01-13
KR20100085994A (ko) 2010-07-29
US20090234644A1 (en) 2009-09-17
AU2008316860A1 (en) 2009-04-30
EP2255358B1 (en) 2013-07-03
WO2009055493A1 (en) 2009-04-30
IL205131A0 (en) 2010-11-30
CN101836251B (zh) 2012-12-12
MX2010004282A (es) 2010-05-05
CN101836251A (zh) 2010-09-15
US8527265B2 (en) 2013-09-03
CN102968998A (zh) 2013-03-13
AU2008316860B2 (en) 2011-06-16
RU2459282C2 (ru) 2012-08-20
RU2010120678A (ru) 2011-11-27
TWI407432B (zh) 2013-09-01
BRPI0818405A2 (pt) 2016-10-11
CA2701281A1 (en) 2009-04-30
TW200935402A (en) 2009-08-16

Similar Documents

Publication Publication Date Title
US8527265B2 (en) Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
JP5722040B2 (ja) スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
Ragot et al. Itu-t g. 729.1: An 8-32 kbit/s scalable coder interoperable with g. 729 for wideband telephony and voice over ip
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
KR101246991B1 (ko) 오디오 신호 처리 방법
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP4879748B2 (ja) 最適化された複合的符号化方法
CA2923218A1 (en) Adaptive bandwidth extension and apparatus for the same
NZ563462A (en) Sub-band voice codec with multi-stage codebooks and redundant coding
CN106157968A (zh) 用于产生带宽扩展信号的设备和方法
CN101371296A (zh) 用于编码和解码信号的设备和方法
US20100280830A1 (en) Decoder

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20140630