JP2011503653A - スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 - Google Patents

スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 Download PDF

Info

Publication number
JP2011503653A
JP2011503653A JP2010533189A JP2010533189A JP2011503653A JP 2011503653 A JP2011503653 A JP 2011503653A JP 2010533189 A JP2010533189 A JP 2010533189A JP 2010533189 A JP2010533189 A JP 2010533189A JP 2011503653 A JP2011503653 A JP 2011503653A
Authority
JP
Japan
Prior art keywords
codebook
index
descriptor
spectral
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010533189A
Other languages
English (en)
Other versions
JP5722040B2 (ja
Inventor
レズニク、ユリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2011503653A publication Critical patent/JP2011503653A/ja
Application granted granted Critical
Publication of JP5722040B2 publication Critical patent/JP5722040B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

スケーラブルなスピーチおよびオーディオコーデックに対するコードブックインデックスが、そのようなコードブックインデックスに対して予期される確率分布に基づいて、効率的にエンコードされる。コード励振線形予測(CELP)ベースのエンコーディングレイヤからの残差信号が取得されてもよく、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。残差信号は、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、対応する変換スペクトルが取得されてもよい。変換スペクトルは複数のスペクトル帯域に分割され、各スペクトル帯域は、複数のスペクトル線を有する。複数の異なるコードブックがスペクトル帯域をエンコードするために選択され、各コードブックは、コードブックインデックスに関係付けられている。

Description

合衆国法典第35部第119条に基づく優先権の主張
特許に対する本出願は、2007年11月4日に出願され、本出願の譲受人に譲渡され、参照により明白にここに組み込まれている、“スケーラブルなスピーチ+オーディオコーデックにおける、量子化MDCTスペクトルのエンコーディング/デコーディングに対する低複雑さの技術”と題する米国仮出願第60/985,263号に対する優先権を主張する。
分野
以下の記述は一般に、エンコーダおよびデコーダに関し、より詳細には、スケーラブルなスピーチおよびオーディオコーデックの一部として修正離散コサイン変換(MDCT)スペクトルをコード化する効率的な方法に関する。
背景
オーディオコード化の1つの目標は、できるだけ元のサウンド品質を保持しながら、オーディオ信号を所望の制限された情報量に圧縮することである。エンコーディングプロセスにおいて、時間領域におけるオーディオ信号は、周波数領域に変換される。
MPEGレイヤ−3(MP3)、MPEG−2およびMPEG−4のような知覚オーディオコード化技術は、データ量を低減させるために、人間の耳の信号マスキング特性を利用する。そうすることによって、量子化雑音は、優勢な全信号によってかき消されるような、すなわち、聞こえないままであるような方法で、周波数帯域に分配される。オーディオ品質の知覚可能な損失をほとんどまたはまったく伴わずに、かなりの記憶装置のサイズの低減が可能である。知覚オーディオコード化技術は、スケーラブルであることが多く、ベースまたはコアレイヤと、少なくとも1つの拡張レイヤとを有する階層化されたビットストリームを生成させる。これは、ビットレートのスケーラビリティ、すなわち、デコーダ側において異なるオーディオ品質レベルでデコードすること、または、トラフィックシェーピングまたはトラフィックコンディショニングによって、ネットワークにおいてビットレートを低減させることを可能にする。
コード励振線形予測(CELP)は、代数CELP(ACELP)、リラックスCELP(RCELP)、低遅延(LD−CELP)およびベクトル和励振線形予測(VSELP)を含むアルゴリズムのクラスであり、スピーチコード化のために広く使用されている。CELPの背景にある1つの原理は、合成による分析(AbS)と呼ばれており、エンコーディング(分析)が、閉ループにおいてデコードされた(合成)信号を知覚的に最適化することによって実行されることを意味する。理論上は、最良のCELPストリームは、すべての可能性のあるビットの組み合せを試み、かつ、最良の響きのデコード信号を生成させる1つを選択することによって、生成される。これは、明らかに、2つの理由から実際には可能でない:実現するのに非常に複雑であり、“最良の響き”の選択基準が、人間のリスナーを含意する。限定された計算リソースを使用してリアルタイムのエンコーディングを達成するために、CELPサーチは、知覚的重み付け関数を使用して、より小さく扱いやすい逐次サーチに分解される。通常、エンコーディングは、(a)入力オーディオ信号に対して、線形予測コード化係数を(通常、線スペクトル対として)計算および/または量子化することと、(b)コードブックを使用して、ベストマッチをサーチして、コード化された信号を発生させることと、(C)コード化信号と、真の入力信号との間の差である誤差信号を生成させることと、(d)さらに、1つ以上のレイヤにおいて(通常、MDCTスペクトルにおける)そのような誤差信号をエンコードして、再構成された、または合成された信号の品質を向上させることとを含む。
CELPアルゴリズムに基づいてスピーチおよびオーディオコーデックを実現するのに多くの異なる技術が利用可能である。これらの技術のうちのいくつかにおいて、誤差信号が発生され、その後、(通常、DCT、MDCT、または類似の変換を使用して)変換され、エンコードされて、エンコードされた信号の品質がさらに改善される。しかしながら、多くの移動デバイスおよびネットワークの、処理および帯域幅の制限により、そのようなMDCTスペクトルコード化の効率的な構成は、記憶または送信される情報のサイズを低減させることが望ましい。
概要
いくつかの実施形態の基本的な理解を提供するために、以下の記述は、1つ以上の実施形態の単純化した概要を与える。この概要は、考えられるすべての実施形態の広範な概観ではなく、すべての実施形態の主なまたは重要な要素を識別するようにも、いくつかのまたはすべての実施形態の範囲を詳細に描写するようにも向けられていない。その唯一の目的は、後に与えられるより詳細な説明に対するプレリュードとして、単純化した形態で1つ以上の実施形態のいくつかの概念を与えることである。
1つの例において、スケーラブルなスピーチおよびオーディオエンコーダを提供する。コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号が取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。残差信号は、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、対応する変換スペクトルが取得されてもよい。DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、変換スペクトルは、MDCTスペクトルである。変換スペクトルは、複数のスペクトル帯域に分割されてもよく、各スペクトル帯域は、複数のスペクトル線を有する。いくつかの構成において、エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させてもよい。複数の異なるコードブックが、スペクトル帯域をエンコードするために選択され、コードブックは、関連付けられたコードブックインデックスを有する。ベクトル量子化が、選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対して実行されて、ベクトル量子化インデックスが取得される。
コードブックインデックスはエンコードされ、ベクトル量子化インデックスもまた、エンコードされる。1つの例において、コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含んでもよい。少なくとも2つの隣接スペクトル帯域をエンコードすることは、(a)スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、(b)スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、および/または、(c)各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含んでもよい。第1の記述子成分と第2の記述子成分とをペアでエンコードして、ペアワイズ記述子コードを取得する。ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングしてもよい。オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用されてもよく、拡張コード成分が、値kよりも大きいコードブックインデックスに対して利用される。1つの例において、各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスは、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。
エンコード化されたコードブックインデックスとエンコード化されたベクトル量子化インデックスとのビットストリームが形成されて、量子化変換スペクトルが表される。
スケーラブルなスピーチおよびオーディオデコーダも提供する。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが取得され、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である。複数のエンコードされたコードブックインデックスがデコードされて、複数のスペクトル帯域に対するデコードされたコードブックインデックスが取得される。同様に、複数のエンコードされたベクトル量子化インデックスもデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される。デコードされたコードブックインデックスと、デコードされたベクトル量子化インデックスとを使用して、複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、残差信号の再構成されたバージョンを取得できる。IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、変換スペクトルは、IMDCTスペクトルである。
複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表されてもよい。ペアワイズ記述子コードは、隣接スペクトル帯域の量子化された特性の確率分布に基づいていてもよい。ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする。オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる。
1つの例において、複数のエンコードされたコードブックインデックスをデコードすることは、(a)複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、(b)複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、(c)記述子成分と、拡張コード成分とに基づいて、複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、および/または、(d)コードブックインデックスを利用して、複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含んでもよい。記述子成分は、可能性のあるコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられていてもよく、選択されることに関してより大きい確率を有するコードブックインデックスは、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用されてもよく、拡張コード成分は、値kよりも大きいコードブックインデックスに対して利用される。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。
同一の参照文字が全体を通して対応したものを識別している図面を参照すると、以下で示される詳細な説明から様々な特徴、特質、および利点が明白となろう。
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。 図2は、1つの例にしたがって、効率的なオーディオコード化を実行するように構成されていてもよい送信デバイスを図示するブロック図である。 図3は、1つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイスを図示するブロック図である。 図4は、1つの例にしたがった、スケーラブルなエンコーダのブロック図である。 図5は、エンコーダのより高いレイヤによって実現されてもよい、例示的なMDCTスペクトルエンコーディングプロセスを図示するブロック図である。 図6は、MDCTスペクトルのエンコーディングを容易にするために、MDCTスペクトルオーディオフレームが複数のnポイント帯域(またはサブベクトル)に分割される方法を図示する図である。 図7は、MDCT埋め込み代数ベクトル量子化(EAVQ)コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの1つの例を説明するフロー図である。 図8は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。 図9は、複数のスペクトル帯域をエンコードするペアワイズ記述子コードを取得する方法の例を説明するブロック図である。 図10は、確率分布に基づいて、コードブックと記述子との間のマッピングを発生させる方法の例を説明するブロック図である。 図11は、記述子値を発生させる方法の例を図示するブロック図である。 図12は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。 図13は、デコーダの例を図示するブロック図である。 図14は、ペアワイズ記述子コードを効率的にデコードしてもよいデコーダを図示するブロック図である。 図15は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。
詳細な説明
図面に関連して、さまざまな実施形態をこれから記述し、全体を通して同じ要素に言及するために、同じ参照番号を使用する。以下の記述において、説明のため、1つ以上の実施形態の完全な理解を提供するために、多数の特定の詳細な説明を述べる。しかしながら、これらの特定の詳細な説明なしに、そのような実施形態を実施できることは明白であるかもしれない。他の例において、1つ以上の実施形態を記述することを容易にするために、よく知られている構造およびデバイスをブロック図の形態で示す。
概観
コード化の複数のレイヤを使用して、オーディオ信号を反復的にエンコードする、オーディオ信号をエンコード/デコードするためのスケーラブルなコーデックにおいて、修正離散コサイン変換が、1つ以上のコード化レイヤにおいて使用され、オーディオ信号の残差がエンコーディングのために(例えば、MDCT領域に)変換される。MDCT領域において、スペクトル線のフレームを複数の帯域に分割してもよい。各スペクトル帯域は、コードブックインデックスによって効率的にエンコードされてもよい。コードブックインデックスは、拡張コードを有する小さい組の記述子にさらにエンコードされてもよく、隣接スペクトル帯域に対する記述子は、ペアワイズ記述子コードにさらにエンコードされてもよく、ペアワイズ記述子コードは、いくつかのコードブックインデックスおよび記述子が他よりも高い確率分布を有することを認識する。さらに、コードブックインデックスは、変換スペクトル内の対応するスペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいてエンコードされる。
1つの例において、1組の埋め込み代数ベクトル量子化器(EAVQ)が、MDCTスペクトルのnポイント帯域のコード化に対して使用される。ベクトル量子化器は、各nポイント帯域をエンコードするために使用されるレートおよびコードブック番号を規定するインデックスに、損失なく圧縮されてもよい。コードブックインデックスは、1組の文脈選択可能ハフマンコードを使用してさらにエンコードされてもよく、1組の文脈選択可能ハフマンコードは、隣接スペクトル帯域に対するペアワイズコードブックインデックスを表す。インデックスの大きな値に対して、さらなる単進コード化拡張をさらに使用して、コードブックインデックスを表す記述子値を表わしてもよい。
通信システム
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ102は、到来する入力オーディオ信号104を受け取り、エンコードされたオーディオ信号106を発生させる。エンコードされたオーディオ信号106は、(例えば、ワイヤレスまたはワイヤードの)送信チャネルを通してデコーダ108に送信される。デコーダ108は、エンコードされたオーディオ信号106に基づいて入力オーディオ信号104を再構成することを試みて、再構成された出力オーディオ信号110を発生させる。説明のために、コーダ102は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。
図2は、1つの例にしたがって、効率的なオーディオコード化を実行するように構成されている送信デバイス202を図示するブロック図である。入力オーディオ信号204が、マイクロフォン206によって取り込まれ、増幅器208によって増幅され、A/Dコンバータ210によってデジタル信号に変換され、デジタル信号は、スピーチエンコーディングモジュール212に送られる。スピーチエンコーディングモジュール212は、入力信号の多層の(スケーリングされた)コード化を実行するように構成されており、少なくとも1つのそのようなレイヤは、MDCTスペクトルにおける残差(誤差信号)をエンコードすることを伴う。スピーチエンコーディングモジュール212は、図4、5、6、7、8、9および10に関して説明するようにエンコーディングを実行してもよい。スピーチエンコーディングモジュール212からの出力信号は、送信パスエンコーディングモジュール214に送られ、そこでは、チャネルデコーディングが実行され、結果として生じる出力信号が、変調回路216に送られて変調されて、D/Aコンバータ218およびRF増幅器220を介して、エンコードされたオーディオ信号224の送信のためにアンテナ222に送られる。
図3は、1つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイス302を図示するブロック図である。エンコードされたオーディオ信号304が、アンテナ306によって受信され、RF増幅器308によって増幅され、A/Dコンバータ310を介して復調回路312に送られ、それにより、復調された信号が、送信パスデコーディングモジュール314に提供される。送信パスデコーディングモジュール314からの出力信号は、入力信号の多層の(スケーリングされた)デコーディングを実行するように構成されているスピーチデコーディングモジュール316に送られ、ここで、少なくとも1つのそのようなレイヤは、IMDCTスペクトルにおける残差(誤差信号)をデコードすることを伴う。スピーチデコーディングモジュール316は、図11、12および13に関して説明したような信号デコーディングを実行してもよい。スピーチデコーディングモジュール316からの出力信号は、D/Aコンバータ318に送られる。D/Aコンバータ318からのアナログスピーチ信号は、増幅器320を介してスピーカ322に送られて、再構成された出力オーディオ信号324が提供される。
スケーラブルなオーディオコーデックアーキテクチャ
コーダ102(図1)、デコーダ108(図1)、スピーチ/オーディオエンコーディングモジュール212(図2)および/またはスピーチ/オーディオデコーディングモジュール316(図3)は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ/音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する1つのアプローチは、反復的エンコーディングレイヤを提供することであり、1つのレイヤからの誤差信号(残差)が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測(CELP)は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、(固定型の代数コードブック、および/または適応型コードブックから)その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、(コードブックに基づいて)信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。
そのような多層アーキテクチャを使用する既存のスケーラブルなコーデックの例は、ITU−T勧告G.729.1と、新生のITU−T標準規格と、コード名がつけられたG.EV−VBRとを含む。例えば、エンベデッド可変ビットレート(EV−VBR)コーデックは、複数のレイヤL1(コアレイヤ)ないしLX(ここで、Xは、最も高い拡張レイヤの番号である)として実現してもよい。そのようなコーデックは、16kHzでサンプリングされた広帯域(WB)信号と、8kHzでサンプリングされた狭帯域(NB)信号との両方を受け入れてもよい。同様に、コーデック出力は、広帯域または狭帯域とすることができる。
コーデック(例えば、EV−VBRコーデック)に対するレイヤ構造の例は、表1において示され、L1(コアレイヤ)ないしL5(最も高い拡張レイヤ)と呼ばれている5つのレイヤを備えている。より低い2つのレイヤ(L1およびL2)は、コード励振線形予測(CELP)アルゴリズムに基づいていてもよい。コアレイヤL1は、可変マルチレート広帯域(VMR−WB)スピーチコード化アルゴリズムから導出されてもよく、異なる入力信号に対して最適化されるいくつかのコード化モードを含んでいてもよい。すなわち、コアレイヤL1は、入力信号を分類して、オーディオ信号をより良くモデル化してもよい。コアレイヤL1からのコード化誤差(残差)は、適応型コードブックおよび固定型代数コードブックに基づいて、強化または拡張レイヤL2によってエンコードされる。レイヤL2からの誤差信号(残差)は、修正離散コサイン変換(MDCT)を使用して、変換領域において、より高いレイヤ(L3ないしL5)によってさらにコード化されてもよい。フレーム消失隠蔽(FEC)を向上させるために、サイド情報がレイヤL3中で送られてもよい。
Figure 2011503653
コアレイヤL1コーデックは本質的に、CELPベースのコーデックであり、適応マルチレート(AMR)、AMRワイドバンド(AMR−WB)、可変マルチレートワイドバンド(VMR−WB)、拡張可変レートコーデック(EVRC)、または、EVRワイドバンド(EVRC−WB)コーデックのような、多数のよく知られている狭帯域または広帯域のボコーダのうちの1つと互換性があってもよい。
スケーラブルなコーデックにおけるレイヤ2は、コードブックを使用して、コアレイヤL1からの知覚的に重み付けされたコード化誤差(残差)をさらに最小にしてもよい。コーデックフレーム消失隠蔽(FEC)を向上させるために、サイド情報が計算されて、後続のレイヤL3中に送信されてもよい。コアレイヤのコード化モードとは無関係に、サイド情報は、信号の分類を含んでいてもよい。
広帯域出力に対して、レイヤL2エンコーディング後の重み付けされた誤差信号は、修正離散コサイン変換(MDCT)または類似のタイプの変換に基づく、重複加算(overlap-add)変換を使用してコード化されることを仮定する。すなわち、コード化レイヤL3、L4および/またはL5に対して、信号は、MDCTスペクトルにおいてエンコードされてもよい。それゆえに、MDCTスペクトルにおいて信号をコード化する効率的な方法を提供する。
エンコーダの例
図4は、1つの例にしたがった、スケーラブルなエンコーダ402のブロック図である。エンコーディングの前の事前処理の段階において、入力信号404は、望まれない低周波数成分を抑制するためにハイパスフィルタリング406されて、フィルタリングされた入力信号SHP(n)が生成される。例えば、ハイパスフィルタ406は、広帯域入力信号に対して25Hzのカットオフと、狭帯域入力信号に対して100Hzのカットオフとを有していてもよい。フィルタリングされた入力信号SHP(n)は次に、再サンプリングモジュール408によって再サンプリングされて、再サンプリングされた入力信号S12.8(n)が生成される。例えば、オリジナル入力信号404は、16kHzでサンプリングされていてもよく、12.8kHzに再サンプリングされ、12.8kHzは、レイヤL1および/またはL2エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール410が次に、1次ハイパスフィルタを適用して、再サンプリングされた入力信号S12.8(n)のより高い周波数を強調し、(および低周波数を減衰させる)。結果として生じる信号は次に、エンコーダ/デコーダモジュール412に渡され、エンコーダ/デコーダモジュール412は、コード励振線形予測(CELP)ベースのアルゴリズムに基づいてレイヤL1および/またはL2エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤL1およびL2エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ/デコーダモジュール412はまた、入力信号のバージョンを合成(再構成)してもよい。すなわち、エンコーダ/デコーダモジュール412が入力信号をエンコードした後、エンコーダ/デコーダモジュール412は、入力信号をデコードし、逆エンファシスモジュール416および再サンプリングモジュール418が、入力信号404のバージョンs2^(n)を再作成する。残差信号x2(n)が、元の信号SHP(n)と、再作成された信号s2^(n)との間の差420を取ることにより発生される(すなわち、x2(n)=SHP(n)−s2^(n))。残差信号x2(n)は次に、重み付けモジュール424によって知覚的に重み付けされ、MDCT変換モジュール428によってMDCTスペクトルまたは領域に変換されて、残差信号X2(k)が発生される。そのような変換の実行において、信号は、フレームと呼ばれる、サンプルのブロックに分割されてもよく、各フレームは、例えば、離散フーリエ変換または離散コサイン変換のような線形直交変換によって処理されて、量子化できる変換係数が発生されてもよい。
残差信号X2(k)は次にスペクトルエンコーダ432に提供され、スペクトルエンコーダ432は、残差信号X2(k)をエンコードして、レイヤL3、L4および/またはL5に対してエンコードされたパラメータを生成させる。1つの例において、スペクトルエンコーダ432は、残差信号X2(k)において非ゼロのスペクトル線(パルス)を表すインデックスを発生させる。
レイヤL1ないしL5からのパラメータは、出力ビットストリームとして機能を果たす送信機および/または記憶デバイス436に送ることができ、送信機および/または記憶デバイス436は、後に、デコーダにおいて元の入力信号404のバージョンを再構成または合成するために使用できる。
レイヤ1−分類エンコーディング:コアレイヤL1は、エンコーダ/デコーダモジュール412において実現されてもよく、信号分類および4つの別個のコード化モードを使用して、エンコーディング性能を向上させてもよい。1つの例において、各フレームの異なるエンコーディングに対して考慮できる、これらの4つの別個の信号クラスは、(1)無声音のスピーチフレームに対する無声音コード化(UC)と、(2)滑らかなピッチ展開を有する準周期的セグメントに対して最適化される有声音コード化(VC)と、(3)フレームの消失のケースにおいて誤り伝播を最小にするように設計された、有声音の開始に続くフレームに対する移行モード(TC)と、(4)他のフレームに対する共通コード化(GC)とを含んでいてもよい。無声音コード化(UC)において、適応型コードブックは使用されず、励振がガウスコードブックから選択される。準周期的セグメントは、有声音コード化(VC)モードによりエンコードされる。有声音コード化の選択は、滑らかなピッチ展開によって調整される。有声音コード化モードは、ACELP技術を使用してもよい。移行コード化(TC)フレームにおいて、最初のピッチ周期の声門インパルスを含んでいるサブフレームにおける適応型コードブックは、固定型コードブックに取って代わられる。
コアレイヤL1において、信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過する励振信号によるCELPベースのパラダイムを使用してモデル化されてもよい。LPフィルタは、共通コード化モードおよび有声音コード化モードに対して、セーフティネットアプローチおよび多段ベクトル量子化(MSVQ)を使用して、イミタンススペクトル周波数(ISF)領域において量子化されてもよい。開ループ(OL)ピッチ分析が、滑らかなピッチ輪郭を保証するためにピッチ追跡アルゴリズムによって実行される。しかしながら、ピッチ推定のロバストネスを向上させるために、2つの同時発生のピッチ展開の輪郭が比較されてもよく、より滑らかな輪郭を生じるトラックが選択される。
2つの組のLPCパラメータが推定され、20msの分析ウィンドを使用してほとんどのモードにおいてフレーム毎にエンコードされる。2組のLPCパラメータのうちの一方は、フレームエンドに対するものであり、他方は、ミッドフレームに対するものである。ミッドフレームISFは、各ISFサブグループに対して見つけられている線形補間係数を有する補間分割VQによりエンコードされ、それにより、推定された量子化ISFと補間された量子化ISFとの差が最小化される。1つの例において、LP係数のISF表現を量子化するために、(弱い予測および強い予測に対応する)2つのコードブックの組が同時にサーチされて、推定されるスペクトル包絡の歪みを最小にする予測量およびコードブックを見つけてもよい。セーフティネットアプローチに対する主な理由は、フレームの消失が、スペクトル包絡が急速に発達しているセグメントと同時に起こるときに誤り伝播を低減させることである。追加の誤りのロバストネスを提供するために、弱い予測子は、ゼロに設定されることがあり、予測を有さない量子化を結果として生じる。予測を有さないパスは、その量子化歪みが、予測を有するパスに十分に近いときに、または、その量子化歪みが、トランスペアレントなコード化を提供するほど十分に小さいときに、常に選ばれてもよい。さらに、強い予測コードブックサーチにおいて、準最適コードベクトルがクリーンチャネル性能に影響を及ぼさず、フレーム消失がある状態で誤り伝播を低下させることが予測される場合、準最適コードベクトルが選ばれる。UCおよびTCフレームのISFは、予測を有さないで、さらに体系的に量子化される。UCフレームに対して、予測を有さない場合でさえ非常に良好なスペクトル量子化を可能にするために、十分なビットが利用可能である。TCフレームは、クリーンチャネル性能における低減の可能性にもかかわらず、フレーム消失に対して非常に影響されやすく、予測を使用できないと考えられる。
狭帯域(NB)信号に対して、ピッチ推定は、量子化されない最適利得で発生されるL2励振を使用して実行される。このアプローチは、利得量子化の影響を除去し、レイヤにわたってピッチ遅れ推定を改善させる。広帯域(WB)信号に対して、標準的なピッチ推定(量子化された利得を有するL1励振)が使用される。
レイヤ2−強化エンコーディング:レイヤL2において、エンコーダ/デコーダモジュール412は、代数コードブックを再び使用して、コアレイヤL1からの量子化誤差をエンコードしてもよい。L2レイヤにおいて、過去のL1の寄与だけでなく、過去のL2の寄与も含むように、エンコーダはさらに適応型コードブックを修正する。レイヤ間の時間同期を維持するために、適応ピッチ遅れは、L1およびL2において同じである。L1およびL2に対応する適応型コードブックおよび代数コードブックの利得は、知覚的に重み付けされたコード化誤りを最小にするために再び最適化される。更新されたL1利得およびL2利得は、L1においてすでに量子化されている利得に関して予測的にベクトル量子化される。CELPレイヤ(L1およびL2)は、内部(例えば、12.8kHz)サンプリングレートで動作してもよい。したがって、レイヤL2からの出力は、0ないし6.4kHz周波数帯域においてエンコードされた合成信号を含む。広帯域出力に対して、AMR−WB帯域幅の拡張を使用して、欠落している6.4ないし7kHz帯域幅を発生させてもよい。
レイヤ3−フレーム消失隠蔽:フレーム消失状態(FEC)におけるパフォーマンスを向上させるために、フレーム誤り隠蔽モジュール414が、エンコーダ/デコーダモジュール412からサイド情報を取得してもよく、それを使用してレイヤL3パラメータを発生させる。サイド情報は、すべてのコード化モードに対するクラス情報を含んでいてもよい。前のフレームスのペクトル包絡が、コアレイヤの移行コード化のために送信されてもよい。他のコアレイヤコード化モードに対して、合成信号の位相情報およびピッチ同期エネルギーを送ってもよい。
レイヤ3、4、5−変換コード化:レイヤL2における第2段階のCELPコード化から結果として生じる残差信号X2(k)は、MDCTまたは重複加算構造を有する類似の変換を使用して、レイヤL3、L4およびL5において量子化されてもよい。すなわち、前のレイヤからの残差すなわち“誤差”信号は、後続のレイヤによって使用されて、(デコーダへの送信のために、そのような誤差を効率的に表すことを求める)そのパラメータが発生される。
MDCT係数は、いくつかの技術を使用することによって量子化されてもよい。いくつかの例において、MDCT係数は、スケーラブルな代数ベクトル量子化を使用して量子化される。MDCTは、20ミリ秒(ms)毎に計算されてもよく、そのスペクトル係数は、8次元ブロックにおいて量子化される。オーディオクリーナ(MDCT領域の雑音整形フィルタ)が適用され、オリジナル信号のスペクトルから導出される。グローバルな利得がレイヤL3において送信される。さらに、いくつかのビットが、高周波数補償に対して使用される。残りのレイヤL3ビットが、MDCT係数の量子化に対して使用される。レイヤL4およびL5レベルにおいて性能が独立して最大化されるように、レイヤL4およびL5ビットが使用される。
いくつかの構成において、MDCT係数が、スピーチおよび音楽優勢オーディオコンテンツに対して、異なるように量子化されてもよい。スピーチコンテンツおよび音楽コンテンツの間の区別は、L2の重み付けされた合成MDCT成分を、対応する入力信号成分と比較することによる、CELPモデルの効率の評価に基づいている。スピーチ優勢コンテンツに対して、スケーラブルな代数ベクトル量子化(AVQ)が、L3およびL4において使用され、スペクトル係数が8次元ブロックにおいて量子化される。グローバルな利得がL3において送信され、いくつかのビットが高周波数補償に対して使用される。残りのL3およびL4ビットが、MDCT係数の量子化に対して使用される。量子化方法は、マルチレート格子VQ(MRLVQ)である。新規なマルチレベル順列ベースのアルゴリズムが、指標付け手続きの複雑さとメモリコストとを低減させるために使用されている。ランク計算がいくつかのステップにおいて実施される:第1に、入力ベクトルが、符号ベクトルと絶対値ベクトルとに分解される。第2に、絶対値ベクトルが、いくつかのレベルにさらに分解される。最も高いレベルのベクトルは、元の絶対値ベクトルである。各下位レベルのベクトルは、上位レベルのベクトルから最も多い周波数成分を取り除くことによって取得される。その上位レベルのベクトルに関連する各下位レベルのベクトルの位置パラメータは、順列および組み合せの機能に基づいてインデックス付けされる。最後に、すべての下位レベルのインデックスおよび符号が、出力インデックスに構成される。
音楽優勢コンテンツに対して、帯域選択型形状利得ベクトル量子化(形状利得VQ)が、レイヤL3において使用されてもよく、追加のパルス位置ベクトル量子化器が、レイヤL4に適用されてもよい。レイヤL3において、帯域選択は、MDCT係数のエネルギーを計算することによって最初に実行されてもよい。次に、選択された帯域におけるMDCT係数が、マルチパルスコードブックを使用して量子化される。ベクトル量子化器が、帯域に対して、MDCT係数(スペクトル線)に対する帯域利得を量子化するために使用される。レイヤL4に対して、全帯域幅が、パルスポジショニング技術を使用してコード化されてもよい。オーディオ源モデルの不整合に起因して、スピーチモデルが望まれない雑音を生成させるイベントにおいて、L2レイヤ出力のいくつかの周波数を減衰させて、MDCT係数がよりアグレッシブにコード化されることを可能にしてもよい。これは、レイヤL4を通して、入力信号のMDCTと、コード化されたオーディオ信号のMDCTとの間の二乗誤差を最小化することによって、閉ループ法で実施される。適用される減衰量は、6dBまでであってもよく、2またはよりすくないビットを使用することによって伝達されてもよい。レイヤL5は、追加のパルス位置コード化技術を使用してもよい。
MDCTスペクトルのコード化
レイヤL3、L4およびL5は、MDCTスペクトル(例えば、前のレイヤに対する残差を表すMDCT係数)においてコード化を実行することから、そのようなMDCTスペクトルコード化は効率的であることが望まれる。それゆえに、MDCTスペクトルコード化の効率的な方法を提供する。
図5は、エンコーダのより高いレイヤにおいて実現してもよい、例示的なMDCTスペクトルエンコーディングプロセスを図示するブロック図である。エンコーダ502は、前のレイヤから残差信号504の入力MDCTスペクトルを取得する。そのような残差信号504は、オリジナル信号と、(例えば、オリジナル信号のエンコードされたバージョンから再構成された)オリジナル信号の再構成されたバージョンとの間の差であってもよい。残差信号のMDCT係数を量子化して、所定のオーディオフレームに対するスペクトル線を発生させてもよい。
1つの例において、MDCTスペクトル504は、CELPコア(レイヤ1および2)が適用された後の、誤差信号の完全なMDCTスペクトル、または、この手続きの前の適用後の残差MDCTスペクトルのいずれであってもよい。すなわち、レイヤ3において、レイヤ1および2からの残差信号に対する完全なMDCTスペクトルが受け取られて、部分的にエンコードされる。次に、レイヤ4において、レイヤ3からの信号のMDCTスペクトルの残差がエンコードされる、などである。
エンコーダ502は帯域選択器508を含んでいてもよく、帯域選択器508は、MDCTスペクトル504を複数の帯域に分けるか、または分割し、各帯域は、複数のスペクトル線または変換係数を含む。帯域エネルギー推定器510が次に、帯域の1つ以上におけるエネルギーの推定を提供してもよい。知覚帯域ランキングモジュール512が、各帯域を知覚的にランクづけてもよい。知覚帯域選択器514が次に、いくつかの帯域をエンコードし、その一方で、他の帯域をすべてゼロの値に強制することを決定してもよい。例えば、しきい値を上回る信号エネルギーを示す帯域をエンコードしてもよく、一方、そのようなしきい値を下回る信号エネルギーを有する帯域をすべてゼロに強制してもよい。例えば、そのようなしきい値は、知覚マスキングおよび他の人間のオーディオ感知現象にしたがって設定されてもよい。この概念がなければ、人間が何故そうすることを望むのか明白でない。コードブックインデックスおよびレート割振器516が、選択された帯域に対するコードブックインデックスおよびレートの割り振りを決定してもよい。すなわち、各帯域に対して、帯域を最もよく表すコードブックが、突きとめられて、インデックスによって識別される。コードブックに対する“レート”は、コードブックによって達成される圧縮量を指定する。ベクトル量子化器518が次に、各帯域に対する複数のスペクトル線(変換係数)を、量子化されるスペクトル線(変換係数)を特徴づけるベクトル量子化(VQ)値(大きさまたは利得)に量子化する。
ベクトル量子化において、いくつかのサンプル(スペクトル線または変換係数)が、ともにベクトルにブロック化され、各ベクトルは、コードブックの1つのエントリにより近似(量子化)される。(帯域におけるスペクトル線または変換係数を表す)入力ベクトルを量子化するために選択されるコードブックエントリは、一般に、距離基準にしたがった、コードブック空間における最も近い近隣である。例えば、1つ以上のセントロイドを使用して、コードブックの複数のベクトルを表してもよい。次に、帯域を表す入力ベクトルをコードブックのセントロイドと比較して、どのコードブック(および/またはコードブックのベクトル)が最小の距離測定(例えば、ユークリッド距離)を提供するかを決定する。最も近い距離を有するコードブックが、帯域を表すために使用される。コードブックにおいてより多くのエントリを追加することは、ビットレートおよび複雑さを増加させるが、平均の歪みを低減させる。コードブックのエントリは、コードベクトルと呼ばれることが多い。
その結果、エンコーダ502は、1つ以上のコードブックインデックス(nQ)526、ベクトル量子化値(VQ)528、ならびに/あるいは、残差信号504に対するMDCTスペクトルのバージョンを再構成するために使用できる他のオーディオフレームおよび/または帯域情報に、MDCTスペクトル504をエンコードしてもよい。デコーダにおいて、受信した量子化インデックスおよびベクトル量子化値は、フレーム中の各帯域に対する量子化されたスペクトル線(変換係数)を再構成するために使用される。次に、逆変換が、これらの量子化されたスペクトル線(変換係数)に適用されて、合成されたフレームが再構成される。
出力残差信号522が、(元の入力残差信号504から残差信号Sxtを減算520することによって)取得されてもよく、出力残差信号522は、エンコーディングの次のレイヤに対する入力として使用できる。出力MDCTスペクトル残差信号522を取得するために、例えば、コードブックインデックス526およびベクトル量子化値528からMDCTスペクトルを再構成し、入力MDCTスペクトル504から、再構成されたMDCTスペクトルを減算することによって、そのような出力MDCTスペクトル残差信号522を取得してもよい。
1つの特徴にしたがうと、ワイドバンドオーディオコード化への適用を有する埋め込み代数ベクトル量子化(EAVQ)、アコースティック、スピーチおよび信号処理に関するIEEE国際会議(ICASSP)、アトランタ、GA、米国、巻1、240頁ないし243頁、1996(Xie、1996)において、M.Xie氏およびJ.−P.Adoul氏によって記述された、埋め込み代数ベクトル量子化スキームの変形体であるベクトル量子化スキームが実現される。特に、2つ以上の連続したスペクトル帯域のインデックスを組み合わせて、確率分布を利用して、コードインデックスをよりコンパクトに表すことによって、コードブックインデックス526を効率的に表してもよい。
図6は、MDCTスペクトルのエンコーディングを容易にするために、MDCTスペクトルオーディオフレーム602を複数のnポイント帯域(またはサブベクトル)に分割する方法を図示する図である。例えば、320本のスペクトル線(変換係数)のMDCTスペクトルオーディオフレーム602を、40個の帯域(サブベクトル)604に分割してもよく、各帯域604aは、8ポイント(またはスペクトル線)を有する。(例えば、入力信号がより狭いスペクトルを有するという予備知識をともなう)いくつかの実際的な状況において、最後の4ないし5個の帯域にゼロを強制することがさらに可能であり、35ないし36個の帯域だけがエンコードされる。(例えば、より高いレイヤのエンコーディングにおける)いくつかの追加の状況において、10個ぐらいのより低い順位の(低い周波数)帯域をスキップすることが可能であってもよく、その結果、エンコードすべき帯域の数がちょうど25ないし26個にさらに低減される。より一般的なケースにおいて、各レイヤは、エンコードすべき特定のサブセットの帯域を指定してもよく、これらの帯域は、以前にエンコードされたサブセットとオーバーラップしてもよい。例えば、レイヤ3帯域B1ないしB40は、レイヤ4帯域C1ないしC40とオーバーラップしてもよい。各帯域604は、コードブックインデックスnQxおよびベクトル量子化値VQxによって表されてもよい。
ベクトル量子化エンコーディングスキーム
1つの例において、エンコーダは、n=0、2、3、4、...最大、に対して、n*4ビットの対応する割り当てられたレートを有する、コードブックQnのアレイを利用してもよい。Q0はすべてゼロのベクトルを含み、そのため、いかなるビットもそれを送信するのに必要とされない。さらに、インデックスn=1は使用されず、これは、コードブックの数を低減させるために実施される。そのため、非ゼロのベクトルを有するコードブックに割り当てることができる最小のレートは、2*4=8ビットである。どのコードブックが各帯域のエンコーディングに対して使用されるかを指定するために、コードブックインデックスnQ(値n)が、各帯域に対して、ベクトル量子化(VQ)値またはインデックスとともに使用される。
一般に、各コードブックインデックスは、記述子成分によって表されてもよく、記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいており、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。
先に示したように、一連の可能なコードブックインデックス(n)は、コードブックインデックス0とインデックス2との間に不連続を有し、実際に36ほどの大きさであってもよい最大番号に続く。さらに、可能な値nの分布の統計分析は、すべてのケースの90%以上が、小さい組のコードブックインデックスn={0、2、3}に集中していることを示す。したがって、値{n}をエンコードするために、表1中で示すように、よりコンパクトな組の記述子においてそれらをマッピングすることが有利であるかもしれない。
Figure 2011503653
n≧4のすべての値が単一の記述子の値3にマッピングされることから、このマッピングは全単射ではない。この記述子の値3は、“エスケープコード”の目的を果たす:それは、コードブックインデックスnの真の値は、記述子の後に送信される拡張コードを使用してデコードされるのを必要とすることを示す。可能な拡張コードの例は、表2中で示す典型的な単進コードであり、コードブックインデックス≧4の送信に対して使用できる。
Figure 2011503653
さらに、記述子はペアでエンコードされてもよく、各ペアワイズ記述子コードは、表3中で図示するように割り当てられてもよい、3つの可能な可変長コード(VLC)のうちの1つを有していてもよい。
Figure 2011503653
これらのペアワイズ記述子コードは、記述子の各ペアにおける、記述子の値の量子化された組の典型的な確率分布に基づいていてもよく、例えば、ハフマンアルゴリズムまたはコードを使用することによって、構成できる。
記述子の各ペアに対して使用するVLCコードブックの選択は、各帯域の位置およびエンコーダ/デコーダのレイヤ番号に部分的に基づいて実施できる。そのような可能な割り当ての例は表4中で示されており、VLCコードブック(例えば、コードブック0、1、または2)は、オーディオフレーム内のスペクトル帯域の位置(例えば、0/1、2/3、4/5、6/7、...)およびエンコーダ/デコーダのレイヤ番号に基づいて、スペクトル帯域に割り当てられる。
Figure 2011503653
表4中で図示した例は、いくつかの例において、コードブックインデックスおよび/またはコードブックに対する記述子ペアの分布が、どのスペクトル帯域がオーディオフレーム内で処理されているか次第で、また、どのエンコーディングレイヤ(例えば、レイヤ3、4または5)がエンコーディングを実行しているか次第で変化することを認識する。その結果、使用されるVLCコードブックは、オーディオフレーム内の(隣接帯域に対応する)記述子のペアの相対的な位置と、対応する帯域が属するエンコーディングレイヤとに依存してもよい。
図7は、MDCT埋め込み代数ベクトル量子化(EAVQ)コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの1つの例を説明するフロー図である。MDCTスペクトルオーディオフレームを表す複数のスペクトル帯域が取得される(702)。各スペクトル帯域は、複数のスペクトル線または変換係数を含んでいてもよい。スペクトル帯域の、連続した、または隣接するペアがスキャンされて、それらの特性が突きとめられる(704)。各スペクトル帯域の特性に基づいて、対応するコードブックインデックスがスペクトル帯域のそれぞれに対して識別される(706)。コードブックインデックスは、そのようなスペクトル帯域の特性を最良に表すコードブックを識別してもよい。すなわち、各帯域に対して、帯域中のスペクトル線を代表するコードブックインデックスが取得される。さらに、ベクトル量子化値またはインデックスが、各スペクトル帯域に対して取得される(708)。そのようなベクトル量子化値は、コードブック中の選択されたエントリ(例えば、コードブック内の再構成ポイント)へのインデックスを少なくとも部分的に提供してもよい。1つの例において、コードブックインデックスのそれぞれは、記述子成分および拡張コード成分に分割されるか、または分けられる(710)。例えば、第1のコードブックインデックスに対して、第1の記述子が表1から選択される。同様に、第2のコードブックインデックスに対して、第2の記述子もまた、表1から選択される。一般に、コードブックインデックスと記述子との間のマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、信号における大多数の帯域が、コードブックの、小さい番号(サブセット)に集中したインデックスを有する傾向がある。隣接(例えば、連続した)コードブックインデックスの記述子成分が次に、例えば、ペアワイズ記述子コードによる表3に基づいて、ペアとしてエンコードされる(712)。これらのペアワイズ記述子コードは、各ペアにおける記述子の値の量子化された組の典型的な確率分布に基づいていてもよい。記述子の各ペアに対して使用するVLCコードブックの選択は、図4中で図示したように、各帯域の位置およびレイヤ番号に部分的に基づいて実施できる。さらに、拡張コード成分が、例えば、表2に基づいて、各コードブックインデックスに対して取得される(714)。ペアワイズ記述子コード、各コードブックインデックスに対する拡張コード成分、および各スペクトル帯域に対するベクトル量子化値は次に、送信または記憶される(716)。
ここで記述するコードブックインデックスのエンコーディングスキームを適用することによって、例えば、G.729オーディオ圧縮アルゴリズム埋め込み可変(EV)−可変ビットレート(VBR)コーデックにおいて使用される先行技術の方法と比較して、おおよそ25ないし30%のビットレートの節約が達成され得る。
エンコーダの例
図8は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。エンコーダ802は、帯域発生器を含んでいてもよく、帯域発生器は、MDCTスペクトルオーディオフレーム801を受け取り、それを複数の帯域に分割する。各帯域は、複数のスペクトル線または変換係数を有していてもよい。コードブック選択器808が次に、各帯域を表すために、複数のコードブック804のうちの1つからコードブックを選択してもよい。
オプションとして、コードブック(CB)インデックス識別器809が、特定の帯域に対して選択されたコードブックを表すコードブックインデックスを取得してもよい。記述子選択器812が次に、予め確立されている、コードブックから記述子へのマッピングテーブル813を使用して、各コードブックインデックスを記述子として表してもよい。記述子へのコードブックインデックスのマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、オーディオフレームにおける大多数の帯域は、コードブックの、小さい番号(サブセット)に集中したインデックスを有する傾向がある。
コードブックインデックスエンコーダ814が次に、選択されたコードブックに対するコードブックインデックスをエンコードして、エンコードされたコードブックインデックス818を生成させてもよい。そのようなエンコードされるコードブックインデックスは、スピーチ/オーディオエンコーディングモジュール(例えば、図2のモジュール212)の変換レイヤにおいてエンコードされ、送信パスエンコーディングモジュール(例えば、図2のモジュール214)においてエンコードされないことが明白であるはずである。例えば、(隣接帯域のペアに対する)記述子のペアが、ペアワイズ記述子エンコーダ(例えば、コードブックインデックスエンコーダ814)によってペアとしてエンコードされてもよく、ペアワイズ記述子エンコーダは、記述子ペアおよび可変長コード間の予め確立されている関連付けを使用して、ペアワイズ記述子コード(例えば、エンコードされたコードブックインデックス818)を取得してもよい。記述子ペアおよび可変長コード間の予め確立されている関連付けは、より高い確率の記述子ペアに対してより短い長さのコードを利用し、より低い確率の記述子ペアに対してより長いコードを利用してもよい。いくつかの例において、複数のコードブック(VLC)を単一の記述子ペアにマッピングすることは有利であるかもしれない。例えば、記述子ペアの確率分布は、エンコーダ/デコーダのレイヤおよび/またはフレーム内の対応するスペクトル帯域の位置次第で変化することが見出されるかもしれない。その結果、そのような予め確立されている関連付けは、複数のVLCコードブック816として表されてもよく、複数のVLCコードブック816において、特定のコードブックが、(オーディオフレーム内の)エンコード/デコードされているスペクトル帯域のペアの位置と、エンコーディング/デコーディングのレイヤとに基づいて選択される。ペアワイズ記述子コードは、帯域に対する、組み合わされたコードブックインデックスまたは個々の記述子よりも少ないビットで、2つ(またはより多い)の連続した帯域に対するコードブックインデックスを表してもよい。さらに、拡張コード選択器810が、拡張コード820を発生させて、記述子コードの下で一緒にグループ化されているインデックスを表してもよい。ベクトル量子化器811が、各スペクトル帯域に対するベクトル量子化値またはインデックスを発生させてもよい。ベクトル量子化インデックスエンコーダ815が次に、ベクトル量子化値またはインデックスのうちの1つ以上をエンコードして、エンコードされたベクトル量子化値/インデックス822を生成させてもよい。ベクトル量子化インデックスのエンコーディングは、ベクトル量子化インデックスを表すために使用されるビットの数を低減させるような方法で実行してもよい。
エンコードされたコードブックインデックス818(例えば、ペアワイズ記述子コード)、拡張コード820、および/または、エンコードされたベクトル量子化値/インデックス822は、MDCTスペクトルオーディオフレーム810のエンコードされた表示として送信され、および/または記憶されてもよい。
図9は、複数のスペクトル帯域をエンコードするペアワイズ記述子コードを取得する方法を説明するブロック図である。1つの例において、この方法は、スケーラブルなスピーチおよびオーディオコーデックにおいて動作してもよい。残差信号が、コード励振線形予測(CELP)ベースのエンコーディングレイヤから取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である(902)。残差信号は、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、対応数する変換スペクトルが取得される(904)。例えば、DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであってもよく、変換スペクトルは、MDCTスペクトルである。変換スペクトルは次に、複数のスペクトル帯域に分割され、各スペクトル帯域は、複数のスペクトル線を有する(906)。いくつかの例において、エンコーディングに先立って、スペクトル帯域のうちのいくつかは取り除かれて、スペクトル帯域の数が低減される。複数の異なるコードブックが、スペクトル帯域をエンコードするために選択され、コードブックは、関係付けられたコードブックインデックスを有する(908)。例えば、隣接の、または連続した、スペクトル帯域のペアがスキャンされて、それらの特性(例えば、スペクトル帯域中のスペクトル係数および/または線の1つ以上の特性)が突きとめられてもよく、スペクトル帯域のそれぞれを最も良く表すコードブックが選択され、コードブックインデックスが識別され、および/または、スペクトル帯域の隣接ペアのそれぞれに関係付けられてもよい。いくつかの構成において、各コードブックインデックスを表すために、記述子成分および/または拡張コード成分を取得して使用してもよい。ベクトル量子化が次に、選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対して実行されて、ベクトル量子化インデックスが取得される(910)。選択されたコードブックインデックスが次にエンコードされる(912)。1つの例において、隣接スペクトル帯域に対するコードブックインデックスまたは関係付けられた記述子が、ペアワイズ記述子コードにエンコードされてもよく、ペアワイズ記述子コードは、隣接スペクトル帯域の量子化特性の確率分布に基づいている。さらに、ベクトル量子化インデックスがエンコードされる(914)。ベクトル量子化インデックスのエンコーディングは、ベクトル量子化インデックスを表すために使用されるビットの数を低減させる任意のアルゴリズムを使用して実行されてもよい。エンコードされたコードブックインデックスおよびエンコードされたベクトル量子化インデックスを使用してビットストリームを形成して、変換スペクトルを表わしてもよい(916)。
ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングしてもよい。オーディオフレーム内の対応する各スペクトル帯域の位置およびエンコーダのレイヤ番号に基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。
1つの例において、各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分を有し、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子の値は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、値kよりも大きいコードブックインデックスに対して利用される。
記述子発生の例
図10は、確率分布に基づいて、コードブックと記述子との間にマッピングを発生させる方法の例を説明するブロック図である。複数のスペクトル帯域がサンプリングされて、各スペクトル帯域の特性が突きとめられる(1000)。サウンドおよびコードブックの定義の性質のために、小さいサブセットのコードブックが利用されやすいことを認識して、対象となっている信号に統計分析を実行して、より効率的に記述子を割り当ててもよい。したがって、サンプリングされた各スペクトル帯域は、複数のコードブックのうちの1つに関係付けられ、関係付けられたコードブックは、スペクトル帯域の特性のうちの少なくとも1つを表す(1002)。複数のコードブックのそれぞれに関係付けられている、複数のサンプリングされたスペクトル帯域に基づいて、統計的確率が各コードブックに対して割り当てられる(1004)。しきい値の確率よりも大きい統計的確率を有する複数のコードブックのそれぞれに対して、異なる個々の記述子も割り当てられる(1006)。単一の記述子が次に、他の残りのコードブックに割り当てられる(1008)。拡張コードが、単一の記述子が割り当てられたコードブックのそれぞれに関係付けられる(1010)。その結果、この方法を用いて、スペクトル帯域の十分に大きいサンプルを取得して、それにより、コードブックインデックスをより小さい組の記述子にマッピングする表(例えば、表1)を構築してもよい。さらに、拡張コードは、表2中に図示するような単進コードであってもよい。
図11は、記述子値を発生させる方法の例を図示するブロック図である。例示的なスペクトル帯域のシーケンスB0...Bn 1102に対して、コードブック1104が、各スペクトル帯域を表すために選択される。すなわち、スペクトル帯域の特性に基づいて、スペクトル帯域を最も厳密に表すコードブックが選択される。いくつかの構成において、各コードブックは、そのコードブックインデックス1106によって参照されてもよい。このプロセスを使用して、コードブックに対してスペクトル帯域の統計分布を発生させてもよい。この例において、コードブックA(例えば、すべてゼロのコードブック)が、2つのスペクトル帯域に対して選択され、コードブックBが、1つのスペクトル帯域によって選択され、コードブックCが、3つのスペクトル帯域に対して選択される、などである。その結果、最も頻繁に選択されるコードブックが識別されてもよく、異なる/個々の記述子値“0”、“1”、および“2”が、これらの頻繁に選択されるコードブックに割り当てられる。残りのコードブックには、単一の記述子値“3”が割り当てられる。この単一の記述子“3”によって表される帯域に対して、拡張コード1110を使用して、(例えば、表2のように)単一の記述子によって識別される特定のコードブックをより詳細に識別してもよい。この例において、コードブックB(インデックス1)は、記述子値の数を4つに低減させるために無視される。4つの記述子“0”、“2”、“3”および“4”は、2つのビットにマッピングして、表すことができる(例えば、表1)。コードブックの大部分は、単一の2ビットの記述子値“3”によって表されることから、この統計分布の収集は、さもなければ、例えば、36個のコードブック(すなわち、6ビット)を表すために使用されるビットの数を低減させるのに役立つ。
図10および11は、コードブックインデックスがより少ないビットにエンコードされる方法の例を説明する。他のさまざまな構成において、同じ結果を達成しながら、“記述子”の概念を回避し、および/または修正してもよい。
ペアワイズ記述子コード発生の例
図12は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。(以前に記述したような)記述子値への複数のスペクトル帯域のマッピング後に、記述子値のペアに対して(例えば、オーディオフレームの、連続した、または隣接するスペクトル帯域に対して)、確率分布が決定される。隣接スペクトル帯域(例えば、2つの連続した帯域)に関係付けられている複数の記述子値(例えば、2つ)が取得される(1200)。予期される確率分布が、記述子値の異なるペアに対して取得される(1202)。すなわち、記述子値の各ペア(例えば、0/0、0/1、0/2、0/3、1/0、1/1、1/2、1/3、2/0、2/1...3/3)が発生する尤度に基づいて、(例えば、2つの隣接する、または連続したスペクトル帯域に対して)最も発生しやすい記述子ペアから最も発生しにくい記述子ペアまでの分布を突きとめることができる。さらに、予期される確率分布は、オーディオフレーム内の特定の帯域の相対的な位置と、特定のエンコーディングレイヤ(例えば、L3、L4、L5など)とに基づいて収集されてもよい。次に、記述子値のペアの予期される確率分布と、オーディオフレーム中のそれらの相対的な位置と、エンコーダレイヤとに基づいて、異なる可変長コード(VLC)が、記述子値の各ペアに割り当てられる(1204)。例えば、(特定のエンコーダレイヤおよびフレーム内の相対的な位置に対する)より高い確率の記述子ペアには、より低い確率の記述子ペアよりも短いコードが割り当てられてもよい。1つの例において、ハフマンコード化を使用して、可変長コードを発生させてもよく、(例えば、表3のように)より高い確率の記述子ペアには、より短いコードが割り当てられ、より低い確率の記述子ペアには、より長いコードが割り当てられる。
このプロセスを繰り返して、異なるレイヤに対して記述子の確率分布を取得してもよい(1206)。その結果、異なる可変長コードを、異なるエンコーダ/デコーダのレイヤにおける同じ記述子ペアに対して利用してもよい。複数のコードブックを利用して、可変長コードを識別してもよく、可変長コードを暗号化/復号化するためにどのコードブックを使用するかは、エンコード/デコードされている各スペクトル帯域の相対位置およびエンコーダのレイヤ番号に依存する(1208)。表4中で図示した例において、レイヤおよびエンコード/デコードされている帯域のペアの位置次第で、異なるVLCコードブックを使用してもよい。
この方法は、異なるエンコーダ/デコーダのレイヤにわたって、記述子ペアに対する確率分布を構築することを可能にし、その結果、各レイヤに対して、可変長コードへの記述子ペアのマッピングが可能になる。最も共通の(より高い確率の)記述子ペアには、より短いコードが割り当てられることから、これにより、スペクトル帯域をエンコードするときに使用されるビットの数が低減される。
MDCTスペクトルのデコーディング
図13は、デコーダの例を図示するブロック図である。各オーディオフレーム(例えば、20ミリ秒フレーム)に対して、デコーダ1302は、エンコードされたMDCTスペクトルの1つ以上のレイヤの情報を含んでいる入力ビットストリームを受信機または記憶デバイス1304から受信してもよい。受信レイヤは、レイヤ1からレイヤ5までの範囲にわたり、8kビット/秒ないし32kビット/秒のビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数(レイヤ)により調整されることを意味する。この例において、出力信号1332はWBであり、すべてのレイヤがデコーダ1302において正確に受信されているものと仮定する。コアレイヤ(レイヤ1)およびACELP強化レイヤ(レイヤ2)が、デコーダモジュール1306によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール1308によって逆強調され、再サンプリングモジュール1310によって16kHzに再サンプリングされて、信号s16^(n)が発生される。事後処理モジュールが信号s16^(n)をさらに処理して、レイヤ1またはレイヤ2の合成信号s2^(n)を発生させる。
より高いレイヤ(レイヤ3、4、5)が次に、スペクトルデコーダモジュール1316によってデコードされて、MDCTスペクトル信号X234^(k)が取得される。MDCTスペクトル信号X234^(k)は、逆MDCTモジュール1320によって逆変換され、結果として生じる信号xw,234^(n)が、レイヤ1および2の知覚的に重み付けられた合成信号sw,2^(n)に加えられる。時間領域雑音整形が次に、整形モジュール1322によって適用される。現在のフレームとオーバーラップしている以前のフレームの重み付けされた合成信号sw,2^が次に、合成に加えられる。逆知覚的重み付け1324が次に、合成WB信号を復元するために適用される。最後に、ピッチ事後フィルタ1326が、復元された信号に適用され、ハイパスフィルタ1328が後に続く。事後フィルタ1326は、MDCT(レイヤ3、4、5)の重複加算合成によって導入される、余分のデコーダ遅延を活用する。それは、最適の方法で、2つのピッチ事後フィルタ信号を組み合わせる。1つは、余分のデコーダ遅延を活用することによって発生される、レイヤ1またはレイヤ2のデコーダ出力の高品質ピッチ事後フィルタ信号s2^(n)である。他方は、より高いレイヤ(レイヤ3、4、5)合成信号の低遅延ピッチ後フィルタ信号s^(n)である。フィルタリングされた合成信号sHP^(n)が次に、雑音ゲート1330によって出力される。
図14は、ペアワイズ記述子コードを効率的にデコードするデコーダを図示するブロック図である。デコーダ1402は、エンコードされたコードブックインデックス1418を受信してもよい。例えば、エンコードされたコードブックインデックス1418は、ペアワイズ記述子コードおよび拡張コード1420であってもよい。ペアワイズ記述子コードは、帯域に対する組み合わされたコードブックインデックスまたは個々の記述子よりも少ないビットで、2つ(またはより多い)の連続した帯域に対するコードブックインデックスを表わしてもよい。コードブックインデックスデコーダ1414が次に、エンコードされたコードブックインデックス1418をデコードしてもよい。例えば、コードブックインデックスデコーダ1414は、複数のVLCコードブック1416によって表される、予め確立されている関連付けを使用することによって、ペアワイズ記述子コードをデコードしてもよく、VLCコードブック1416は、(オーディオフレーム内の)デコードされるスペクトル帯域のペアの位置およびデコーディングレイヤに基づいて選択されてもよい。記述子ペアと可変長コードとの間の予め確立されている関連付けは、より高い確率の記述子ペアに対してより短い長さのコードを利用し、より低い確率の記述子ペアに対してより長いコードを利用してもよい。1つの例において、コードブックインデックスデコーダ1414は、2つの隣接スペクトル帯域を表す記述子のペアを生成させてもよい。(隣接帯域のペアに対する)記述子は次に、記述子識別器1412によってデコードされ、記述子識別器1412は、可能なコードブックインデックスの分布の統計分析に基づいて発生される、記述子からコードブックインデックスへのマッピングテーブル1413を使用し、ここで、オーディオフレーム中の大多数の帯域は、コードブックの、小さい番号(サブセット)に集中したインデックスを有する傾向がある。その結果、記述子識別器1412は、対応するスペクトル帯域を表すコードブックインデックスを提供してもよい。コードブックインデックス識別器1409が次に、各帯域に対するコードブックインデックスを識別する。さらに、拡張コード識別器1410が、受信した拡張コード1420を使用して、単一の記述子にグループ化されているコードブックインデックスをさらに識別してもよい。ベクトル量子化デコーダ1411が、各スペクトル帯域に対する、受信された、エンコードされているベクトル量子化値/インデックス1422をデコードしてもよい。コードブック選択器1408が次に、ベクトル量子化値1422を使用して各スペクトル帯域を再構築するために、識別されたコードブックインデックスおよび拡張コード1420に基づいて、コードブックを選択してもよい。帯域合成器1406が次に、再構成されたスペクトル帯域に基づいて、MDCTスペクトルオーディオフレーム1401を再構成し、各帯域は、複数のスペクトル線または変換係数を有してもよい。
デコーディング方法の例
図15は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが、受信または取得されてもよく、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である(1502)。IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであってもよく、変換スペクトルはIMDCTスペクトルである。複数のエンコードされているコードブックインデックスが次にデコードされて、複数のスペクトル帯域に対して、デコードされたコードブックインデックスが取得される(1504)。同様に、複数のエンコードされたベクトル量子化インデックスがデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される(1506)。
1つの例において、複数のエンコードされたコードブックインデックスをデコードすることは、(a)複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、(b)複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、(c)記述子成分と拡張コード成分とに基づいて、複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、(d)コードブックインデックスを利用して、複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することと、を含んでいてもよい。記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられていてもよく、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、値kよりも大きいコードブックインデックスに対して利用される。複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表しているペアワイズ記述子コードによって表されてもよい。ペアワイズ記述子コードは、隣接スペクトル帯域の量子化特性の確率分布に基づいていてもよい。1つの例において、ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングしてもよい。VLCコードは、オーディオフレーム内の対応する各スペクトル帯域の位置と、エンコーダのレイヤ番号とに基づいて、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。
複数のスペクトル帯域が次に、デコードされたコードブックインデックスとデコードされたベクトル量子化インデックスとを使用して合成されて、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、残差信号の再構成されたバージョンが取得されてもよい(1508)。
電子ハードウェア、ソフトウェアまたは両方の組み合わせとして、ここで記述したさまざまな実例となる論理ブロック、モジュール、回路およびアルゴリズムステップを実現または実行してもよい。ハードウェアおよびソフトウェアのこの互換性を明瞭に説明するために、さまざまな実例となるコンポーネント、ブロック、モジュール、回路、およびステップをそれらの機能の点から一般的に上述した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、特定の用途およびシステム全体に課される設計制約に依存する。フローチャートとして描写されるプロセス、フロー図、構造図、またはブロック図として、構成を記述してもよいことが注目される。フローチャートは、一連のプロセスとして動作を記述してもよいが、動作の多くは、並行または同時に実行できる。加えて、動作の順序は、並べ変えてもよい。プロセスは、その動作が完了するとき終了する。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、呼出し関数または主関数への関数の戻りに対応する。
ハードウェアにおいて実現されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラム可能ゲートアレイ信号(FPGA)または他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはここで記述した機能を実行するために設計された、これらの任意の組み合わせを用いてもよい。汎用プロセッサはマイクロプロセッサでもよいが、代わりに、プロセッサは任意の従来のプロセッサ、制御装置、マイクロ制御装置、または状態遷移機械であってもよい。計算デバイスの組み合わせとして、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに関連した1つ以上のマイクロプロセッサ、または他の任意のこのような構成として、プロセッサを実現してもよい。
ソフトウェアにおいて実現されるとき、さまざまな例は、ファームウェア、ミドルウェアまたはマイクロコードを用いてもよい。必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記憶媒体または他の記憶装置のようなコンピュータ読み取り可能媒体中に記憶されていてもよい。プロセッサが必要なタスクを実行してもよい。コードセグメントは、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令の任意の組み合わせ、データ構造、またはプログラムのステートメントを表してもよい。情報、データ、引き数、パラメータ、またはメモリのコンテンツを渡し、および/または受け取ることにより、コードセグメントを、別のコードセグメントまたはハードウェア回路に結合してもよい。メモリの共有、メッセージ受渡し、トークンパッシング方式、ネットワーク送信などを含む任意の適切な手段を使用して、情報、引き数、パラメータ、データなどを渡し、転送し、または送信してもよい。
本出願中で使用されるような、用語“コンポーネント”、“モジュール”、“システム”、およびこれらに類似するものは、コンピュータ関連エンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェアまたは実行中のソフトウェアのいずれかを指すように意図されている。例えば、コンポーネントはプロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータであってもよいが、それだけに限られない。実例として、計算デバイス上で実行するアプリケーションと計算デバイスとの両方をコンポーネントとすることができる。1つ以上のコンポーネントが1つのプロセスおよび/または実行のスレッド内に存在してもよく、コンポーネントが1つのコンピュータ上にローカライズされてもよく、および/または2つ以上のコンピュータ間に分散されてもよい。また、これらのコンポーネントは、記憶されているさまざまなデータ構造を有するさまざまなコンピュータ読み取り可能媒体から実行できる。コンポーネントは、(例えば、ローカルシステム中の、分散システム中の別のコンポーネントと対話する1つのコンポーネントからのデータ、および/または、インターネットのようなネットワークを通して信号により他のシステムと対話する1つのコンポーネントからのデータのような)1つ以上のデータパケットを有する信号にしたがうような、ローカルおよび/またはリモートプロセスによって通信してもよい。
ここでの1つ以上の例において、記述した機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ中で実現してもよい。ソフトウェアにおいて実現する場合、コンピュータ読み取り可能媒体上に、1つ以上の命令またはコードとして、機能を記憶させてもよく、または機能を送信してもよい。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする何らかの媒体を含む通信媒体との両方を含む。記憶媒体は、コンピュータによりアクセスできる任意の利用可能な媒体であってもよい。一例として、限定ではないが、そのようなコンピュータ読み取り可能媒体は,RAM、ROM、EEPROM、CD−ROMまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用でき、そして、コンピュータによりアクセスできる他の任意の媒体を備えることができる。さらに、いくつかの接続は、適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア線、デジタル加入者線(DSL)、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバまたは他のリモート情報源から送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア線、DSL、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用されるディスク(Diskおよびdisc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイディスクを含み、ディスク(disk)は通常、磁気的にデータを再生し、一方、ディスク(disc)は、レーザにより光学的にデータを再生する。上述の組み合わせもまた、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。ソフトウェアは、単一の命令、または、多くの命令を含んでいてもよく、いくつかの異なるコードセグメントに対して、異なるプログラム間に、および複数の記憶媒体にわたって分散されていてもよい。例示的な記憶媒体は、プロセッサに結合されていてもよく、それにより、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。代替として、記憶媒体は、プロセッサと一体化していてもよい。
ここで開示した方法は、記述した方法を達成するために、1つ以上のステップまたは動作を含んでいる。方法のステップおよび/または動作は、特許請求の範囲から逸脱することなく、互いに置き換えられてもよい。すなわち、ステップまたは動作の特定の順序が、記述されている実施形態の適切な動作に対して必要とされない限り、特定のステップおよび/または動作の順序および/または使用は、特許請求の範囲から逸脱することなく修正してもよい。
図1、2、3、4、5、6、7、8、9、10、11、12、13、14および/または15中で図示したコンポーネント、ステップ、および/または機能のうちの1つ以上は、単一のコンポーネント、ステップまたは機能に再編成され、および/または組み合わされてもよく、あるいは、いくつかのコンポーネント、ステップまたは機能において具現されてもよい。追加のエレメント、コンポーネント、ステップおよび/または機能を追加してもよい。図1、2、3、4、5、8、13および14中で図示した装置、デバイスおよび/またはコンポーネントは、図6ないし図7、図9ないし図12、および図15中で記述した方法、特徴またはステップのうちの1つ以上を実行するように構成または適合されていてもよい。ここで記述したアルゴリズムは、ソフトウェアにおいて効率的に実現されてもよく、および/またはハードウェアに埋め込まれていてもよい。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
[2]前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである上記[1]記載の方法。
[3]エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む上記[1]記載の方法。
[4]前記コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む上記[1]記載の方法。
[5]前記少なくとも2つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む上記[4]記載の方法。
[6]第1の記述子成分と第2の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む上記[5]記載の方法。
[7]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[5]記載の方法。
[8]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[7]記載の方法。
[9]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[8]記載の方法。
[10]単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値kよりも大きいコードブックインデックスに対して利用される上記[5]記載の方法。
[11]各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[5]記載の方法。
[12]スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
[13]前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである上記[12]記載のデバイス。
[14]前記コードブックインデックスエンコーダは、少なくとも2つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている上記[12]記載のデバイス。
[15]前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する上記[14]記載のデバイス。
[16]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[14]記載のデバイス。
[17]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[16]記載のデバイス。
[18]ケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
[19]スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
[20]スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
[21]スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
[22]前記IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、IMDCTスペクトルである上記[21]記載の方法。
[23]前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む上記[21]記載の方法。
[24]前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[23]記載の方法。
[25]単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値kよりも大きいコードブックインデックスに対して利用される上記[24]記載の方法。
[26]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[21]記載の方法。
[27]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[26]記載の方法。
[28]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[26]記載の方法。
[29]前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[28]記載の方法。
[30]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[26]記載の方法。
[31]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
[32]前記IDCTタイプの変換レイヤモジュールは、逆修正離散コサイン変換(IMDCT)レイヤモジュールであり、前記変換スペクトルは、IMDCTスペクトルである上記[31]記載のデバイス。
[33]前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する上記[31]記載のデバイス。
[34]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[31]記載のデバイス。
[35]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[34]記載のデバイス。
[36]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[34]記載のデバイス。
[37]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
[38]スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
[39]スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。
合衆国法典第35部第119条に基づく優先権の主張
特許に対する本出願は、2007年11月4日に出願され、本出願の譲受人に譲渡され、参照により明白にここに組み込まれている、“スケーラブルなスピーチ+オーディオコーデックにおける、量子化MDCTスペクトルのエンコーディング/デコーディングに対する低複雑さの技術”と題する米国仮出願第60/985,263号に対する優先権を主張する。
分野
以下の記述は一般に、エンコーダおよびデコーダに関し、より詳細には、スケーラブルなスピーチおよびオーディオコーデックの一部として修正離散コサイン変換(MDCT)スペクトルをコード化する効率的な方法に関する。
背景
オーディオコード化の1つの目標は、できるだけ元のサウンド品質を保持しながら、オーディオ信号を所望の制限された情報量に圧縮することである。エンコーディングプロセスにおいて、時間領域におけるオーディオ信号は、周波数領域に変換される。
MPEGレイヤ−3(MP3)、MPEG−2およびMPEG−4のような知覚オーディオコード化技術は、データ量を低減させるために、人間の耳の信号マスキング特性を利用する。そうすることによって、量子化雑音は、優勢な全信号によってかき消されるような、すなわち、聞こえないままであるような方法で、周波数帯域に分配される。オーディオ品質の知覚可能な損失をほとんどまたはまったく伴わずに、かなりの記憶装置のサイズの低減が可能である。知覚オーディオコード化技術は、スケーラブルであることが多く、ベースまたはコアレイヤと、少なくとも1つの拡張レイヤとを有する階層化されたビットストリームを生成させる。これは、ビットレートのスケーラビリティ、すなわち、デコーダ側において異なるオーディオ品質レベルでデコードすること、または、トラフィックシェーピングまたはトラフィックコンディショニングによって、ネットワークにおいてビットレートを低減させることを可能にする。
コード励振線形予測(CELP)は、代数CELP(ACELP)、リラックスCELP(RCELP)、低遅延(LD−CELP)およびベクトル和励振線形予測(VSELP)を含むアルゴリズムのクラスであり、スピーチコード化のために広く使用されている。CELPの背景にある1つの原理は、合成による分析(AbS)と呼ばれており、エンコーディング(分析)が、閉ループにおいてデコードされた(合成)信号を知覚的に最適化することによって実行されることを意味する。理論上は、最良のCELPストリームは、すべての可能性のあるビットの組み合せを試み、かつ、最良の響きのデコード信号を生成させる1つを選択することによって、生成される。これは、明らかに、2つの理由から実際には可能でない:実現するのに非常に複雑であり、“最良の響き”の選択基準が、人間のリスナーを含意する。限定された計算リソースを使用してリアルタイムのエンコーディングを達成するために、CELPサーチは、知覚的重み付け関数を使用して、より小さく扱いやすい逐次サーチに分解される。通常、エンコーディングは、(a)入力オーディオ信号に対して、線形予測コード化係数を(通常、線スペクトル対として)計算および/または量子化することと、(b)コードブックを使用して、ベストマッチをサーチして、コード化された信号を発生させることと、(C)コード化信号と、真の入力信号との間の差である誤差信号を生成させることと、(d)さらに、1つ以上のレイヤにおいて(通常、MDCTスペクトルにおける)そのような誤差信号をエンコードして、再構成された、または合成された信号の品質を向上させることとを含む。
CELPアルゴリズムに基づいてスピーチおよびオーディオコーデックを実現するのに多くの異なる技術が利用可能である。これらの技術のうちのいくつかにおいて、誤差信号が発生され、その後、(通常、DCT、MDCT、または類似の変換を使用して)変換され、エンコードされて、エンコードされた信号の品質がさらに改善される。しかしながら、多くの移動デバイスおよびネットワークの、処理および帯域幅の制限により、そのようなMDCTスペクトルコード化の効率的な構成は、記憶または送信される情報のサイズを低減させることが望ましい。
概要
いくつかの実施形態の基本的な理解を提供するために、以下の記述は、1つ以上の実施形態の単純化した概要を与える。この概要は、考えられるすべての実施形態の広範な概観ではなく、すべての実施形態の主なまたは重要な要素を識別するようにも、いくつかのまたはすべての実施形態の範囲を詳細に描写するようにも向けられていない。その唯一の目的は、後に与えられるより詳細な説明に対するプレリュードとして、単純化した形態で1つ以上の実施形態のいくつかの概念を与えることである。
1つの例において、スケーラブルなスピーチおよびオーディオエンコーダを提供する。コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号が取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。残差信号は、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、対応する変換スペクトルが取得されてもよい。DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、変換スペクトルは、MDCTスペクトルである。変換スペクトルは、複数のスペクトル帯域に分割されてもよく、各スペクトル帯域は、複数のスペクトル線を有する。いくつかの構成において、エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させてもよい。複数の異なるコードブックが、スペクトル帯域をエンコードするために選択され、コードブックは、関連付けられたコードブックインデックスを有する。ベクトル量子化が、選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対して実行されて、ベクトル量子化インデックスが取得される。
コードブックインデックスはエンコードされ、ベクトル量子化インデックスもまた、エンコードされる。1つの例において、コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含んでもよい。少なくとも2つの隣接スペクトル帯域をエンコードすることは、(a)スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、(b)スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、および/または、(c)各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含んでもよい。第1の記述子成分と第2の記述子成分とをペアでエンコードして、ペアワイズ記述子コードを取得する。ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングしてもよい。オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用されてもよく、拡張コード成分が、値kよりも大きいコードブックインデックスに対して利用される。1つの例において、各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスは、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。
エンコード化されたコードブックインデックスとエンコード化されたベクトル量子化インデックスとのビットストリームが形成されて、量子化変換スペクトルが表される。
スケーラブルなスピーチおよびオーディオデコーダも提供する。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが取得され、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である。複数のエンコードされたコードブックインデックスがデコードされて、複数のスペクトル帯域に対するデコードされたコードブックインデックスが取得される。同様に、複数のエンコードされたベクトル量子化インデックスもデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される。デコードされたコードブックインデックスと、デコードされたベクトル量子化インデックスとを使用して、複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、残差信号の再構成されたバージョンを取得できる。IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、変換スペクトルは、IMDCTスペクトルである。
複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表されてもよい。ペアワイズ記述子コードは、隣接スペクトル帯域の量子化された特性の確率分布に基づいていてもよい。ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする。オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる。
1つの例において、複数のエンコードされたコードブックインデックスをデコードすることは、(a)複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、(b)複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、(c)記述子成分と、拡張コード成分とに基づいて、複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、および/または、(d)コードブックインデックスを利用して、複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含んでもよい。記述子成分は、可能性のあるコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられていてもよく、選択されることに関してより大きい確率を有するコードブックインデックスは、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用されてもよく、拡張コード成分は、値kよりも大きいコードブックインデックスに対して利用される。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。
同一の参照文字が全体を通して対応したものを識別している図面を参照すると、以下で示される詳細な説明から様々な特徴、特質、および利点が明白となろう。
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。 図2は、1つの例にしたがって、効率的なオーディオコード化を実行するように構成されていてもよい送信デバイスを図示するブロック図である。 図3は、1つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイスを図示するブロック図である。 図4は、1つの例にしたがった、スケーラブルなエンコーダのブロック図である。 図5は、エンコーダのより高いレイヤによって実現されてもよい、例示的なMDCTスペクトルエンコーディングプロセスを図示するブロック図である。 図6は、MDCTスペクトルのエンコーディングを容易にするために、MDCTスペクトルオーディオフレームが複数のnポイント帯域(またはサブベクトル)に分割される方法を図示する図である。 図7は、MDCT埋め込み代数ベクトル量子化(EAVQ)コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの1つの例を説明するフロー図である。 図8は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。 図9は、複数のスペクトル帯域をエンコードするペアワイズ記述子コードを取得する方法の例を説明するブロック図である。 図10は、確率分布に基づいて、コードブックと記述子との間のマッピングを発生させる方法の例を説明するブロック図である。 図11は、記述子値を発生させる方法の例を図示するブロック図である。 図12は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。 図13は、デコーダの例を図示するブロック図である。 図14は、ペアワイズ記述子コードを効率的にデコードしてもよいデコーダを図示するブロック図である。 図15は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。
詳細な説明
図面に関連して、さまざまな実施形態をこれから記述し、全体を通して同じ要素に言及するために、同じ参照番号を使用する。以下の記述において、説明のため、1つ以上の実施形態の完全な理解を提供するために、多数の特定の詳細な説明を述べる。しかしながら、これらの特定の詳細な説明なしに、そのような実施形態を実施できることは明白であるかもしれない。他の例において、1つ以上の実施形態を記述することを容易にするために、よく知られている構造およびデバイスをブロック図の形態で示す。
概観
コード化の複数のレイヤを使用して、オーディオ信号を反復的にエンコードする、オーディオ信号をエンコード/デコードするためのスケーラブルなコーデックにおいて、修正離散コサイン変換が、1つ以上のコード化レイヤにおいて使用され、オーディオ信号の残差がエンコーディングのために(例えば、MDCT領域に)変換される。MDCT領域において、スペクトル線のフレームを複数の帯域に分割してもよい。各スペクトル帯域は、コードブックインデックスによって効率的にエンコードされてもよい。コードブックインデックスは、拡張コードを有する小さい組の記述子にさらにエンコードされてもよく、隣接スペクトル帯域に対する記述子は、ペアワイズ記述子コードにさらにエンコードされてもよく、ペアワイズ記述子コードは、いくつかのコードブックインデックスおよび記述子が他よりも高い確率分布を有することを認識する。さらに、コードブックインデックスは、変換スペクトル内の対応するスペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいてエンコードされる。
1つの例において、1組の埋め込み代数ベクトル量子化器(EAVQ)が、MDCTスペクトルのnポイント帯域のコード化に対して使用される。ベクトル量子化器は、各nポイント帯域をエンコードするために使用されるレートおよびコードブック番号を規定するインデックスに、損失なく圧縮されてもよい。コードブックインデックスは、1組の文脈選択可能ハフマンコードを使用してさらにエンコードされてもよく、1組の文脈選択可能ハフマンコードは、隣接スペクトル帯域に対するペアワイズコードブックインデックスを表す。インデックスの大きな値に対して、さらなる単進コード化拡張をさらに使用して、コードブックインデックスを表す記述子値を表わしてもよい。
通信システム
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ102は、到来する入力オーディオ信号104を受け取り、エンコードされたオーディオ信号106を発生させる。エンコードされたオーディオ信号106は、(例えば、ワイヤレスまたはワイヤードの)送信チャネルを通してデコーダ108に送信される。デコーダ108は、エンコードされたオーディオ信号106に基づいて入力オーディオ信号104を再構成することを試みて、再構成された出力オーディオ信号110を発生させる。説明のために、コーダ102は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。
図2は、1つの例にしたがって、効率的なオーディオコード化を実行するように構成されている送信デバイス202を図示するブロック図である。入力オーディオ信号204が、マイクロフォン206によって取り込まれ、増幅器208によって増幅され、A/Dコンバータ210によってデジタル信号に変換され、デジタル信号は、スピーチエンコーディングモジュール212に送られる。スピーチエンコーディングモジュール212は、入力信号の多層の(スケーリングされた)コード化を実行するように構成されており、少なくとも1つのそのようなレイヤは、MDCTスペクトルにおける残差(誤差信号)をエンコードすることを伴う。スピーチエンコーディングモジュール212は、図4、5、6、7、8、9および10に関して説明するようにエンコーディングを実行してもよい。スピーチエンコーディングモジュール212からの出力信号は、送信パスエンコーディングモジュール214に送られ、そこでは、チャネルデコーディングが実行され、結果として生じる出力信号が、変調回路216に送られて変調されて、D/Aコンバータ218およびRF増幅器220を介して、エンコードされたオーディオ信号224の送信のためにアンテナ222に送られる。
図3は、1つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイス302を図示するブロック図である。エンコードされたオーディオ信号304が、アンテナ306によって受信され、RF増幅器308によって増幅され、A/Dコンバータ310を介して復調回路312に送られ、それにより、復調された信号が、送信パスデコーディングモジュール314に提供される。送信パスデコーディングモジュール314からの出力信号は、入力信号の多層の(スケーリングされた)デコーディングを実行するように構成されているスピーチデコーディングモジュール316に送られ、ここで、少なくとも1つのそのようなレイヤは、IMDCTスペクトルにおける残差(誤差信号)をデコードすることを伴う。スピーチデコーディングモジュール316は、図11、12および13に関して説明したような信号デコーディングを実行してもよい。スピーチデコーディングモジュール316からの出力信号は、D/Aコンバータ318に送られる。D/Aコンバータ318からのアナログスピーチ信号は、増幅器320を介してスピーカ322に送られて、再構成された出力オーディオ信号324が提供される。
スケーラブルなオーディオコーデックアーキテクチャ
コーダ102(図1)、デコーダ108(図1)、スピーチ/オーディオエンコーディングモジュール212(図2)および/またはスピーチ/オーディオデコーディングモジュール316(図3)は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ/音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する1つのアプローチは、反復的エンコーディングレイヤを提供することであり、1つのレイヤからの誤差信号(残差)が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測(CELP)は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、(固定型の代数コードブック、および/または適応型コードブックから)その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、(コードブックに基づいて)信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。
そのような多層アーキテクチャを使用する既存のスケーラブルなコーデックの例は、ITU−T勧告G.729.1と、新生のITU−T標準規格と、コード名がつけられたG.EV−VBRとを含む。例えば、エンベデッド可変ビットレート(EV−VBR)コーデックは、複数のレイヤL1(コアレイヤ)ないしLX(ここで、Xは、最も高い拡張レイヤの番号である)として実現してもよい。そのようなコーデックは、16kHzでサンプリングされた広帯域(WB)信号と、8kHzでサンプリングされた狭帯域(NB)信号との両方を受け入れてもよい。同様に、コーデック出力は、広帯域または狭帯域とすることができる。
コーデック(例えば、EV−VBRコーデック)に対するレイヤ構造の例は、表1において示され、L1(コアレイヤ)ないしL5(最も高い拡張レイヤ)と呼ばれている5つのレイヤを備えている。より低い2つのレイヤ(L1およびL2)は、コード励振線形予測(CELP)アルゴリズムに基づいていてもよい。コアレイヤL1は、可変マルチレート広帯域(VMR−WB)スピーチコード化アルゴリズムから導出されてもよく、異なる入力信号に対して最適化されるいくつかのコード化モードを含んでいてもよい。すなわち、コアレイヤL1は、入力信号を分類して、オーディオ信号をより良くモデル化してもよい。コアレイヤL1からのコード化誤差(残差)は、適応型コードブックおよび固定型代数コードブックに基づいて、強化または拡張レイヤL2によってエンコードされる。レイヤL2からの誤差信号(残差)は、修正離散コサイン変換(MDCT)を使用して、変換領域において、より高いレイヤ(L3ないしL5)によってさらにコード化されてもよい。フレーム消失隠蔽(FEC)を向上させるために、サイド情報がレイヤL3中で送られてもよい。
Figure 2011503653
コアレイヤL1コーデックは本質的に、CELPベースのコーデックであり、適応マルチレート(AMR)、AMRワイドバンド(AMR−WB)、可変マルチレートワイドバンド(VMR−WB)、拡張可変レートコーデック(EVRC)、または、EVRワイドバンド(EVRC−WB)コーデックのような、多数のよく知られている狭帯域または広帯域のボコーダのうちの1つと互換性があってもよい。
スケーラブルなコーデックにおけるレイヤ2は、コードブックを使用して、コアレイヤL1からの知覚的に重み付けされたコード化誤差(残差)をさらに最小にしてもよい。コーデックフレーム消失隠蔽(FEC)を向上させるために、サイド情報が計算されて、後続のレイヤL3中に送信されてもよい。コアレイヤのコード化モードとは無関係に、サイド情報は、信号の分類を含んでいてもよい。
広帯域出力に対して、レイヤL2エンコーディング後の重み付けされた誤差信号は、修正離散コサイン変換(MDCT)または類似のタイプの変換に基づく、重複加算(overlap-add)変換を使用してコード化されることを仮定する。すなわち、コード化レイヤL3、L4および/またはL5に対して、信号は、MDCTスペクトルにおいてエンコードされてもよい。それゆえに、MDCTスペクトルにおいて信号をコード化する効率的な方法を提供する。
エンコーダの例
図4は、1つの例にしたがった、スケーラブルなエンコーダ402のブロック図である。エンコーディングの前の事前処理の段階において、入力信号404は、望まれない低周波数成分を抑制するためにハイパスフィルタリング406されて、フィルタリングされた入力信号SHP(n)が生成される。例えば、ハイパスフィルタ406は、広帯域入力信号に対して25Hzのカットオフと、狭帯域入力信号に対して100Hzのカットオフとを有していてもよい。フィルタリングされた入力信号SHP(n)は次に、再サンプリングモジュール408によって再サンプリングされて、再サンプリングされた入力信号S12.8(n)が生成される。例えば、オリジナル入力信号404は、16kHzでサンプリングされていてもよく、12.8kHzに再サンプリングされ、12.8kHzは、レイヤL1および/またはL2エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール410が次に、1次ハイパスフィルタを適用して、再サンプリングされた入力信号S12.8(n)のより高い周波数を強調し、(および低周波数を減衰させる)。結果として生じる信号は次に、エンコーダ/デコーダモジュール412に渡され、エンコーダ/デコーダモジュール412は、コード励振線形予測(CELP)ベースのアルゴリズムに基づいてレイヤL1および/またはL2エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤL1およびL2エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ/デコーダモジュール412はまた、入力信号のバージョンを合成(再構成)してもよい。すなわち、エンコーダ/デコーダモジュール412が入力信号をエンコードした後、エンコーダ/デコーダモジュール412は、入力信号をデコードし、逆エンファシスモジュール416および再サンプリングモジュール418が、入力信号404のバージョンs2^(n)を再作成する。残差信号x2(n)が、元の信号SHP(n)と、再作成された信号s2^(n)との間の差420を取ることにより発生される(すなわち、x2(n)=SHP(n)−s2^(n))。残差信号x2(n)は次に、重み付けモジュール424によって知覚的に重み付けされ、MDCT変換モジュール428によってMDCTスペクトルまたは領域に変換されて、残差信号X2(k)が発生される。そのような変換の実行において、信号は、フレームと呼ばれる、サンプルのブロックに分割されてもよく、各フレームは、例えば、離散フーリエ変換または離散コサイン変換のような線形直交変換によって処理されて、量子化できる変換係数が発生されてもよい。
残差信号X2(k)は次にスペクトルエンコーダ432に提供され、スペクトルエンコーダ432は、残差信号X2(k)をエンコードして、レイヤL3、L4および/またはL5に対してエンコードされたパラメータを生成させる。1つの例において、スペクトルエンコーダ432は、残差信号X2(k)において非ゼロのスペクトル線(パルス)を表すインデックスを発生させる。
レイヤL1ないしL5からのパラメータは、出力ビットストリームとして機能を果たす送信機および/または記憶デバイス436に送ることができ、送信機および/または記憶デバイス436は、後に、デコーダにおいて元の入力信号404のバージョンを再構成または合成するために使用できる。
レイヤ1−分類エンコーディング:コアレイヤL1は、エンコーダ/デコーダモジュール412において実現されてもよく、信号分類および4つの別個のコード化モードを使用して、エンコーディング性能を向上させてもよい。1つの例において、各フレームの異なるエンコーディングに対して考慮できる、これらの4つの別個の信号クラスは、(1)無声音のスピーチフレームに対する無声音コード化(UC)と、(2)滑らかなピッチ展開を有する準周期的セグメントに対して最適化される有声音コード化(VC)と、(3)フレームの消失のケースにおいて誤り伝播を最小にするように設計された、有声音の開始に続くフレームに対する移行モード(TC)と、(4)他のフレームに対する共通コード化(GC)とを含んでいてもよい。無声音コード化(UC)において、適応型コードブックは使用されず、励振がガウスコードブックから選択される。準周期的セグメントは、有声音コード化(VC)モードによりエンコードされる。有声音コード化の選択は、滑らかなピッチ展開によって調整される。有声音コード化モードは、ACELP技術を使用してもよい。移行コード化(TC)フレームにおいて、最初のピッチ周期の声門インパルスを含んでいるサブフレームにおける適応型コードブックは、固定型コードブックに取って代わられる。
コアレイヤL1において、信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過する励振信号によるCELPベースのパラダイムを使用してモデル化されてもよい。LPフィルタは、共通コード化モードおよび有声音コード化モードに対して、セーフティネットアプローチおよび多段ベクトル量子化(MSVQ)を使用して、イミタンススペクトル周波数(ISF)領域において量子化されてもよい。開ループ(OL)ピッチ分析が、滑らかなピッチ輪郭を保証するためにピッチ追跡アルゴリズムによって実行される。しかしながら、ピッチ推定のロバストネスを向上させるために、2つの同時発生のピッチ展開の輪郭が比較されてもよく、より滑らかな輪郭を生じるトラックが選択される。
2つの組のLPCパラメータが推定され、20msの分析ウィンドを使用してほとんどのモードにおいてフレーム毎にエンコードされる。2組のLPCパラメータのうちの一方は、フレームエンドに対するものであり、他方は、ミッドフレームに対するものである。ミッドフレームISFは、各ISFサブグループに対して見つけられている線形補間係数を有する補間分割VQによりエンコードされ、それにより、推定された量子化ISFと補間された量子化ISFとの差が最小化される。1つの例において、LP係数のISF表現を量子化するために、(弱い予測および強い予測に対応する)2つのコードブックの組が同時にサーチされて、推定されるスペクトル包絡の歪みを最小にする予測量およびコードブックを見つけてもよい。セーフティネットアプローチに対する主な理由は、フレームの消失が、スペクトル包絡が急速に発達しているセグメントと同時に起こるときに誤り伝播を低減させることである。追加の誤りのロバストネスを提供するために、弱い予測子は、ゼロに設定されることがあり、予測を有さない量子化を結果として生じる。予測を有さないパスは、その量子化歪みが、予測を有するパスに十分に近いときに、または、その量子化歪みが、トランスペアレントなコード化を提供するほど十分に小さいときに、常に選ばれてもよい。さらに、強い予測コードブックサーチにおいて、準最適コードベクトルがクリーンチャネル性能に影響を及ぼさず、フレーム消失がある状態で誤り伝播を低下させることが予測される場合、準最適コードベクトルが選ばれる。UCおよびTCフレームのISFは、予測を有さないで、さらに体系的に量子化される。UCフレームに対して、予測を有さない場合でさえ非常に良好なスペクトル量子化を可能にするために、十分なビットが利用可能である。TCフレームは、クリーンチャネル性能における低減の可能性にもかかわらず、フレーム消失に対して非常に影響されやすく、予測を使用できないと考えられる。
狭帯域(NB)信号に対して、ピッチ推定は、量子化されない最適利得で発生されるL2励振を使用して実行される。このアプローチは、利得量子化の影響を除去し、レイヤにわたってピッチ遅れ推定を改善させる。広帯域(WB)信号に対して、標準的なピッチ推定(量子化された利得を有するL1励振)が使用される。
レイヤ2−強化エンコーディング:レイヤL2において、エンコーダ/デコーダモジュール412は、代数コードブックを再び使用して、コアレイヤL1からの量子化誤差をエンコードしてもよい。L2レイヤにおいて、過去のL1の寄与だけでなく、過去のL2の寄与も含むように、エンコーダはさらに適応型コードブックを修正する。レイヤ間の時間同期を維持するために、適応ピッチ遅れは、L1およびL2において同じである。L1およびL2に対応する適応型コードブックおよび代数コードブックの利得は、知覚的に重み付けされたコード化誤りを最小にするために再び最適化される。更新されたL1利得およびL2利得は、L1においてすでに量子化されている利得に関して予測的にベクトル量子化される。CELPレイヤ(L1およびL2)は、内部(例えば、12.8kHz)サンプリングレートで動作してもよい。したがって、レイヤL2からの出力は、0ないし6.4kHz周波数帯域においてエンコードされた合成信号を含む。広帯域出力に対して、AMR−WB帯域幅の拡張を使用して、欠落している6.4ないし7kHz帯域幅を発生させてもよい。
レイヤ3−フレーム消失隠蔽:フレーム消失状態(FEC)におけるパフォーマンスを向上させるために、フレーム誤り隠蔽モジュール414が、エンコーダ/デコーダモジュール412からサイド情報を取得してもよく、それを使用してレイヤL3パラメータを発生させる。サイド情報は、すべてのコード化モードに対するクラス情報を含んでいてもよい。前のフレームスのペクトル包絡が、コアレイヤの移行コード化のために送信されてもよい。他のコアレイヤコード化モードに対して、合成信号の位相情報およびピッチ同期エネルギーを送ってもよい。
レイヤ3、4、5−変換コード化:レイヤL2における第2段階のCELPコード化から結果として生じる残差信号X2(k)は、MDCTまたは重複加算構造を有する類似の変換を使用して、レイヤL3、L4およびL5において量子化されてもよい。すなわち、前のレイヤからの残差すなわち“誤差”信号は、後続のレイヤによって使用されて、(デコーダへの送信のために、そのような誤差を効率的に表すことを求める)そのパラメータが発生される。
MDCT係数は、いくつかの技術を使用することによって量子化されてもよい。いくつかの例において、MDCT係数は、スケーラブルな代数ベクトル量子化を使用して量子化される。MDCTは、20ミリ秒(ms)毎に計算されてもよく、そのスペクトル係数は、8次元ブロックにおいて量子化される。オーディオクリーナ(MDCT領域の雑音整形フィルタ)が適用され、オリジナル信号のスペクトルから導出される。グローバルな利得がレイヤL3において送信される。さらに、いくつかのビットが、高周波数補償に対して使用される。残りのレイヤL3ビットが、MDCT係数の量子化に対して使用される。レイヤL4およびL5レベルにおいて性能が独立して最大化されるように、レイヤL4およびL5ビットが使用される。
いくつかの構成において、MDCT係数が、スピーチおよび音楽優勢オーディオコンテンツに対して、異なるように量子化されてもよい。スピーチコンテンツおよび音楽コンテンツの間の区別は、L2の重み付けされた合成MDCT成分を、対応する入力信号成分と比較することによる、CELPモデルの効率の評価に基づいている。スピーチ優勢コンテンツに対して、スケーラブルな代数ベクトル量子化(AVQ)が、L3およびL4において使用され、スペクトル係数が8次元ブロックにおいて量子化される。グローバルな利得がL3において送信され、いくつかのビットが高周波数補償に対して使用される。残りのL3およびL4ビットが、MDCT係数の量子化に対して使用される。量子化方法は、マルチレート格子VQ(MRLVQ)である。新規なマルチレベル順列ベースのアルゴリズムが、指標付け手続きの複雑さとメモリコストとを低減させるために使用されている。ランク計算がいくつかのステップにおいて実施される:第1に、入力ベクトルが、符号ベクトルと絶対値ベクトルとに分解される。第2に、絶対値ベクトルが、いくつかのレベルにさらに分解される。最も高いレベルのベクトルは、元の絶対値ベクトルである。各下位レベルのベクトルは、上位レベルのベクトルから最も多い周波数成分を取り除くことによって取得される。その上位レベルのベクトルに関連する各下位レベルのベクトルの位置パラメータは、順列および組み合せの機能に基づいてインデックス付けされる。最後に、すべての下位レベルのインデックスおよび符号が、出力インデックスに構成される。
音楽優勢コンテンツに対して、帯域選択型形状利得ベクトル量子化(形状利得VQ)が、レイヤL3において使用されてもよく、追加のパルス位置ベクトル量子化器が、レイヤL4に適用されてもよい。レイヤL3において、帯域選択は、MDCT係数のエネルギーを計算することによって最初に実行されてもよい。次に、選択された帯域におけるMDCT係数が、マルチパルスコードブックを使用して量子化される。ベクトル量子化器が、帯域に対して、MDCT係数(スペクトル線)に対する帯域利得を量子化するために使用される。レイヤL4に対して、全帯域幅が、パルスポジショニング技術を使用してコード化されてもよい。オーディオ源モデルの不整合に起因して、スピーチモデルが望まれない雑音を生成させるイベントにおいて、L2レイヤ出力のいくつかの周波数を減衰させて、MDCT係数がよりアグレッシブにコード化されることを可能にしてもよい。これは、レイヤL4を通して、入力信号のMDCTと、コード化されたオーディオ信号のMDCTとの間の二乗誤差を最小化することによって、閉ループ法で実施される。適用される減衰量は、6dBまでであってもよく、2またはよりすくないビットを使用することによって伝達されてもよい。レイヤL5は、追加のパルス位置コード化技術を使用してもよい。
MDCTスペクトルのコード化
レイヤL3、L4およびL5は、MDCTスペクトル(例えば、前のレイヤに対する残差を表すMDCT係数)においてコード化を実行することから、そのようなMDCTスペクトルコード化は効率的であることが望まれる。それゆえに、MDCTスペクトルコード化の効率的な方法を提供する。
図5は、エンコーダのより高いレイヤにおいて実現してもよい、例示的なMDCTスペクトルエンコーディングプロセスを図示するブロック図である。エンコーダ502は、前のレイヤから残差信号504の入力MDCTスペクトルを取得する。そのような残差信号504は、オリジナル信号と、(例えば、オリジナル信号のエンコードされたバージョンから再構成された)オリジナル信号の再構成されたバージョンとの間の差であってもよい。残差信号のMDCT係数を量子化して、所定のオーディオフレームに対するスペクトル線を発生させてもよい。
1つの例において、MDCTスペクトル504は、CELPコア(レイヤ1および2)が適用された後の、誤差信号の完全なMDCTスペクトル、または、この手続きの前の適用後の残差MDCTスペクトルのいずれであってもよい。すなわち、レイヤ3において、レイヤ1および2からの残差信号に対する完全なMDCTスペクトルが受け取られて、部分的にエンコードされる。次に、レイヤ4において、レイヤ3からの信号のMDCTスペクトルの残差がエンコードされる、などである。
エンコーダ502は帯域選択器508を含んでいてもよく、帯域選択器508は、MDCTスペクトル504を複数の帯域に分けるか、または分割し、各帯域は、複数のスペクトル線または変換係数を含む。帯域エネルギー推定器510が次に、帯域の1つ以上におけるエネルギーの推定を提供してもよい。知覚帯域ランキングモジュール512が、各帯域を知覚的にランクづけてもよい。知覚帯域選択器514が次に、いくつかの帯域をエンコードし、その一方で、他の帯域をすべてゼロの値に強制することを決定してもよい。例えば、しきい値を上回る信号エネルギーを示す帯域をエンコードしてもよく、一方、そのようなしきい値を下回る信号エネルギーを有する帯域をすべてゼロに強制してもよい。例えば、そのようなしきい値は、知覚マスキングおよび他の人間のオーディオ感知現象にしたがって設定されてもよい。この概念がなければ、人間が何故そうすることを望むのか明白でない。コードブックインデックスおよびレート割振器516が、選択された帯域に対するコードブックインデックスおよびレートの割り振りを決定してもよい。すなわち、各帯域に対して、帯域を最もよく表すコードブックが、突きとめられて、インデックスによって識別される。コードブックに対する“レート”は、コードブックによって達成される圧縮量を指定する。ベクトル量子化器518が次に、各帯域に対する複数のスペクトル線(変換係数)を、量子化されるスペクトル線(変換係数)を特徴づけるベクトル量子化(VQ)値(大きさまたは利得)に量子化する。
ベクトル量子化において、いくつかのサンプル(スペクトル線または変換係数)が、ともにベクトルにブロック化され、各ベクトルは、コードブックの1つのエントリにより近似(量子化)される。(帯域におけるスペクトル線または変換係数を表す)入力ベクトルを量子化するために選択されるコードブックエントリは、一般に、距離基準にしたがった、コードブック空間における最も近い近隣である。例えば、1つ以上のセントロイドを使用して、コードブックの複数のベクトルを表してもよい。次に、帯域を表す入力ベクトルをコードブックのセントロイドと比較して、どのコードブック(および/またはコードブックのベクトル)が最小の距離測定(例えば、ユークリッド距離)を提供するかを決定する。最も近い距離を有するコードブックが、帯域を表すために使用される。コードブックにおいてより多くのエントリを追加することは、ビットレートおよび複雑さを増加させるが、平均の歪みを低減させる。コードブックのエントリは、コードベクトルと呼ばれることが多い。
その結果、エンコーダ502は、1つ以上のコードブックインデックス(nQ)526、ベクトル量子化値(VQ)528、ならびに/あるいは、残差信号504に対するMDCTスペクトルのバージョンを再構成するために使用できる他のオーディオフレームおよび/または帯域情報に、MDCTスペクトル504をエンコードしてもよい。デコーダにおいて、受信した量子化インデックスおよびベクトル量子化値は、フレーム中の各帯域に対する量子化されたスペクトル線(変換係数)を再構成するために使用される。次に、逆変換が、これらの量子化されたスペクトル線(変換係数)に適用されて、合成されたフレームが再構成される。
出力残差信号522が、(元の入力残差信号504から残差信号Sxtを減算520することによって)取得されてもよく、出力残差信号522は、エンコーディングの次のレイヤに対する入力として使用できる。出力MDCTスペクトル残差信号522を取得するために、例えば、コードブックインデックス526およびベクトル量子化値528からMDCTスペクトルを再構成し、入力MDCTスペクトル504から、再構成されたMDCTスペクトルを減算することによって、そのような出力MDCTスペクトル残差信号522を取得してもよい。
1つの特徴にしたがうと、ワイドバンドオーディオコード化への適用を有する埋め込み代数ベクトル量子化(EAVQ)、アコースティック、スピーチおよび信号処理に関するIEEE国際会議(ICASSP)、アトランタ、GA、米国、巻1、240頁ないし243頁、1996(Xie、1996)において、M.Xie氏およびJ.−P.Adoul氏によって記述された、埋め込み代数ベクトル量子化スキームの変形体であるベクトル量子化スキームが実現される。特に、2つ以上の連続したスペクトル帯域のインデックスを組み合わせて、確率分布を利用して、コードインデックスをよりコンパクトに表すことによって、コードブックインデックス526を効率的に表してもよい。
図6は、MDCTスペクトルのエンコーディングを容易にするために、MDCTスペクトルオーディオフレーム602を複数のnポイント帯域(またはサブベクトル)に分割する方法を図示する図である。例えば、320本のスペクトル線(変換係数)のMDCTスペクトルオーディオフレーム602を、40個の帯域(サブベクトル)604に分割してもよく、各帯域604aは、8ポイント(またはスペクトル線)を有する。(例えば、入力信号がより狭いスペクトルを有するという予備知識をともなう)いくつかの実際的な状況において、最後の4ないし5個の帯域にゼロを強制することがさらに可能であり、35ないし36個の帯域だけがエンコードされる。(例えば、より高いレイヤのエンコーディングにおける)いくつかの追加の状況において、10個ぐらいのより低い順位の(低い周波数)帯域をスキップすることが可能であってもよく、その結果、エンコードすべき帯域の数がちょうど25ないし26個にさらに低減される。より一般的なケースにおいて、各レイヤは、エンコードすべき特定のサブセットの帯域を指定してもよく、これらの帯域は、以前にエンコードされたサブセットとオーバーラップしてもよい。例えば、レイヤ3帯域B1ないしB40は、レイヤ4帯域C1ないしC40とオーバーラップしてもよい。各帯域604は、コードブックインデックスnQxおよびベクトル量子化値VQxによって表されてもよい。
ベクトル量子化エンコーディングスキーム
1つの例において、エンコーダは、n=0、2、3、4、...最大、に対して、n*4ビットの対応する割り当てられたレートを有する、コードブックQnのアレイを利用してもよい。Q0はすべてゼロのベクトルを含み、そのため、いかなるビットもそれを送信するのに必要とされない。さらに、インデックスn=1は使用されず、これは、コードブックの数を低減させるために実施される。そのため、非ゼロのベクトルを有するコードブックに割り当てることができる最小のレートは、2*4=8ビットである。どのコードブックが各帯域のエンコーディングに対して使用されるかを指定するために、コードブックインデックスnQ(値n)が、各帯域に対して、ベクトル量子化(VQ)値またはインデックスとともに使用される。
一般に、各コードブックインデックスは、記述子成分によって表されてもよく、記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいており、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。
先に示したように、一連の可能なコードブックインデックス(n)は、コードブックインデックス0とインデックス2との間に不連続を有し、実際に36ほどの大きさであってもよい最大番号に続く。さらに、可能な値nの分布の統計分析は、すべてのケースの90%以上が、小さい組のコードブックインデックスn={0、2、3}に集中していることを示す。したがって、値{n}をエンコードするために、表中で示すように、よりコンパクトな組の記述子においてそれらをマッピングすることが有利であるかもしれない。
Figure 2011503653
n≧4のすべての値が単一の記述子の値3にマッピングされることから、このマッピングは全単射ではない。この記述子の値3は、“エスケープコード”の目的を果たす:それは、コードブックインデックスnの真の値は、記述子の後に送信される拡張コードを使用してデコードされるのを必要とすることを示す。可能な拡張コードの例は、表中で示す典型的な単進コードであり、コードブックインデックス≧4の送信に対して使用できる。
Figure 2011503653
さらに、記述子はペアでエンコードされてもよく、各ペアワイズ記述子コードは、表中で図示するように割り当てられてもよい、3つの可能な可変長コード(VLC)のうちの1つを有していてもよい。
Figure 2011503653
これらのペアワイズ記述子コードは、記述子の各ペアにおける、記述子の値の量子化された組の典型的な確率分布に基づいていてもよく、例えば、ハフマンアルゴリズムまたはコードを使用することによって、構成できる。
記述子の各ペアに対して使用するVLCコードブックの選択は、各帯域の位置およびエンコーダ/デコーダのレイヤ番号に部分的に基づいて実施できる。そのような可能な割り当ての例は表中で示されており、VLCコードブック(例えば、コードブック0、1、または2)は、オーディオフレーム内のスペクトル帯域の位置(例えば、0/1、2/3、4/5、6/7、...)およびエンコーダ/デコーダのレイヤ番号に基づいて、スペクトル帯域に割り当てられる。
Figure 2011503653
中で図示した例は、いくつかの例において、コードブックインデックスおよび/またはコードブックに対する記述子ペアの分布が、どのスペクトル帯域がオーディオフレーム内で処理されているか次第で、また、どのエンコーディングレイヤ(例えば、レイヤ3、4または5)がエンコーディングを実行しているか次第で変化することを認識する。その結果、使用されるVLCコードブックは、オーディオフレーム内の(隣接帯域に対応する)記述子のペアの相対的な位置と、対応する帯域が属するエンコーディングレイヤとに依存してもよい。
図7は、MDCT埋め込み代数ベクトル量子化(EAVQ)コードブックインデックスのエンコーディングを実行するエンコーディングアルゴリズムの1つの例を説明するフロー図である。MDCTスペクトルオーディオフレームを表す複数のスペクトル帯域が取得される(702)。各スペクトル帯域は、複数のスペクトル線または変換係数を含んでいてもよい。スペクトル帯域の、連続した、または隣接するペアがスキャンされて、それらの特性が突きとめられる(704)。各スペクトル帯域の特性に基づいて、対応するコードブックインデックスがスペクトル帯域のそれぞれに対して識別される(706)。コードブックインデックスは、そのようなスペクトル帯域の特性を最良に表すコードブックを識別してもよい。すなわち、各帯域に対して、帯域中のスペクトル線を代表するコードブックインデックスが取得される。さらに、ベクトル量子化値またはインデックスが、各スペクトル帯域に対して取得される(708)。そのようなベクトル量子化値は、コードブック中の選択されたエントリ(例えば、コードブック内の再構成ポイント)へのインデックスを少なくとも部分的に提供してもよい。1つの例において、コードブックインデックスのそれぞれは、記述子成分および拡張コード成分に分割されるか、または分けられる(710)。例えば、第1のコードブックインデックスに対して、第1の記述子が表から選択される。同様に、第2のコードブックインデックスに対して、第2の記述子もまた、表から選択される。一般に、コードブックインデックスと記述子との間のマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、信号における大多数の帯域が、コードブックの、小さい番号(サブセット)に集中したインデックスを有する傾向がある。隣接(例えば、連続した)コードブックインデックスの記述子成分が次に、例えば、ペアワイズ記述子コードによる表に基づいて、ペアとしてエンコードされる(712)。これらのペアワイズ記述子コードは、各ペアにおける記述子の値の量子化された組の典型的な確率分布に基づいていてもよい。記述子の各ペアに対して使用するVLCコードブックの選択は、図4中で図示したように、各帯域の位置およびレイヤ番号に部分的に基づいて実施できる。さらに、拡張コード成分が、例えば、表に基づいて、各コードブックインデックスに対して取得される(714)。ペアワイズ記述子コード、各コードブックインデックスに対する拡張コード成分、および各スペクトル帯域に対するベクトル量子化値は次に、送信または記憶される(716)。
ここで記述するコードブックインデックスのエンコーディングスキームを適用することによって、例えば、G.729オーディオ圧縮アルゴリズム埋め込み可変(EV)−可変ビットレート(VBR)コーデックにおいて使用される先行技術の方法と比較して、おおよそ25ないし30%のビットレートの節約が達成され得る。
エンコーダの例
図8は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。エンコーダ802は、帯域発生器を含んでいてもよく、帯域発生器は、MDCTスペクトルオーディオフレーム801を受け取り、それを複数の帯域に分割する。各帯域は、複数のスペクトル線または変換係数を有していてもよい。コードブック選択器808が次に、各帯域を表すために、複数のコードブック804のうちの1つからコードブックを選択してもよい。
オプションとして、コードブック(CB)インデックス識別器809が、特定の帯域に対して選択されたコードブックを表すコードブックインデックスを取得してもよい。記述子選択器812が次に、予め確立されている、コードブックから記述子へのマッピングテーブル813を使用して、各コードブックインデックスを記述子として表してもよい。記述子へのコードブックインデックスのマッピングは、可能なコードブックインデックスの分布の統計分析に基づいていてもよく、オーディオフレームにおける大多数の帯域は、コードブックの、小さい番号(サブセット)に集中したインデックスを有する傾向がある。
コードブックインデックスエンコーダ814が次に、選択されたコードブックに対するコードブックインデックスをエンコードして、エンコードされたコードブックインデックス818を生成させてもよい。そのようなエンコードされるコードブックインデックスは、スピーチ/オーディオエンコーディングモジュール(例えば、図2のモジュール212)の変換レイヤにおいてエンコードされ、送信パスエンコーディングモジュール(例えば、図2のモジュール214)においてエンコードされないことが明白であるはずである。例えば、(隣接帯域のペアに対する)記述子のペアが、ペアワイズ記述子エンコーダ(例えば、コードブックインデックスエンコーダ814)によってペアとしてエンコードされてもよく、ペアワイズ記述子エンコーダは、記述子ペアおよび可変長コード間の予め確立されている関連付けを使用して、ペアワイズ記述子コード(例えば、エンコードされたコードブックインデックス818)を取得してもよい。記述子ペアおよび可変長コード間の予め確立されている関連付けは、より高い確率の記述子ペアに対してより短い長さのコードを利用し、より低い確率の記述子ペアに対してより長いコードを利用してもよい。いくつかの例において、複数のコードブック(VLC)を単一の記述子ペアにマッピングすることは有利であるかもしれない。例えば、記述子ペアの確率分布は、エンコーダ/デコーダのレイヤおよび/またはフレーム内の対応するスペクトル帯域の位置次第で変化することが見出されるかもしれない。その結果、そのような予め確立されている関連付けは、複数のVLCコードブック816として表されてもよく、複数のVLCコードブック816において、特定のコードブックが、(オーディオフレーム内の)エンコード/デコードされているスペクトル帯域のペアの位置と、エンコーディング/デコーディングのレイヤとに基づいて選択される。ペアワイズ記述子コードは、帯域に対する、組み合わされたコードブックインデックスまたは個々の記述子よりも少ないビットで、2つ(またはより多い)の連続した帯域に対するコードブックインデックスを表してもよい。さらに、拡張コード選択器810が、拡張コード820を発生させて、記述子コードの下で一緒にグループ化されているインデックスを表してもよい。ベクトル量子化器811が、各スペクトル帯域に対するベクトル量子化値またはインデックスを発生させてもよい。ベクトル量子化インデックスエンコーダ815が次に、ベクトル量子化値またはインデックスのうちの1つ以上をエンコードして、エンコードされたベクトル量子化値/インデックス822を生成させてもよい。ベクトル量子化インデックスのエンコーディングは、ベクトル量子化インデックスを表すために使用されるビットの数を低減させるような方法で実行してもよい。
エンコードされたコードブックインデックス818(例えば、ペアワイズ記述子コード)、拡張コード820、および/または、エンコードされたベクトル量子化値/インデックス822は、MDCTスペクトルオーディオフレーム810のエンコードされた表示として送信され、および/または記憶されてもよい。
図9は、複数のスペクトル帯域をエンコードするペアワイズ記述子コードを取得する方法を説明するブロック図である。1つの例において、この方法は、スケーラブルなスピーチおよびオーディオコーデックにおいて動作してもよい。残差信号が、コード励振線形予測(CELP)ベースのエンコーディングレイヤから取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である(902)。残差信号は、離散コサイン変換(DCT)タイプの変換レイヤにおいて変換されて、対応数する変換スペクトルが取得される(904)。例えば、DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであってもよく、変換スペクトルは、MDCTスペクトルである。変換スペクトルは次に、複数のスペクトル帯域に分割され、各スペクトル帯域は、複数のスペクトル線を有する(906)。いくつかの例において、エンコーディングに先立って、スペクトル帯域のうちのいくつかは取り除かれて、スペクトル帯域の数が低減される。複数の異なるコードブックが、スペクトル帯域をエンコードするために選択され、コードブックは、関係付けられたコードブックインデックスを有する(908)。例えば、隣接の、または連続した、スペクトル帯域のペアがスキャンされて、それらの特性(例えば、スペクトル帯域中のスペクトル係数および/または線の1つ以上の特性)が突きとめられてもよく、スペクトル帯域のそれぞれを最も良く表すコードブックが選択され、コードブックインデックスが識別され、および/または、スペクトル帯域の隣接ペアのそれぞれに関係付けられてもよい。いくつかの構成において、各コードブックインデックスを表すために、記述子成分および/または拡張コード成分を取得して使用してもよい。ベクトル量子化が次に、選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対して実行されて、ベクトル量子化インデックスが取得される(910)。選択されたコードブックインデックスが次にエンコードされる(912)。1つの例において、隣接スペクトル帯域に対するコードブックインデックスまたは関係付けられた記述子が、ペアワイズ記述子コードにエンコードされてもよく、ペアワイズ記述子コードは、隣接スペクトル帯域の量子化特性の確率分布に基づいている。さらに、ベクトル量子化インデックスがエンコードされる(914)。ベクトル量子化インデックスのエンコーディングは、ベクトル量子化インデックスを表すために使用されるビットの数を低減させる任意のアルゴリズムを使用して実行されてもよい。エンコードされたコードブックインデックスおよびエンコードされたベクトル量子化インデックスを使用してビットストリームを形成して、変換スペクトルを表わしてもよい(916)。
ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングしてもよい。オーディオフレーム内の対応する各スペクトル帯域の位置およびエンコーダのレイヤ番号に基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。
1つの例において、各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分を有し、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子の値は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、値kよりも大きいコードブックインデックスに対して利用される。
記述子発生の例
図10は、確率分布に基づいて、コードブックと記述子との間にマッピングを発生させる方法の例を説明するブロック図である。複数のスペクトル帯域がサンプリングされて、各スペクトル帯域の特性が突きとめられる(1000)。サウンドおよびコードブックの定義の性質のために、小さいサブセットのコードブックが利用されやすいことを認識して、対象となっている信号に統計分析を実行して、より効率的に記述子を割り当ててもよい。したがって、サンプリングされた各スペクトル帯域は、複数のコードブックのうちの1つに関係付けられ、関係付けられたコードブックは、スペクトル帯域の特性のうちの少なくとも1つを表す(1002)。複数のコードブックのそれぞれに関係付けられている、複数のサンプリングされたスペクトル帯域に基づいて、統計的確率が各コードブックに対して割り当てられる(1004)。しきい値の確率よりも大きい統計的確率を有する複数のコードブックのそれぞれに対して、異なる個々の記述子も割り当てられる(1006)。単一の記述子が次に、他の残りのコードブックに割り当てられる(1008)。拡張コードが、単一の記述子が割り当てられたコードブックのそれぞれに関係付けられる(1010)。その結果、この方法を用いて、スペクトル帯域の十分に大きいサンプルを取得して、それにより、コードブックインデックスをより小さい組の記述子にマッピングする表(例えば、表)を構築してもよい。さらに、拡張コードは、表中に図示するような単進コードであってもよい。
図11は、記述子値を発生させる方法の例を図示するブロック図である。例示的なスペクトル帯域のシーケンスB0...Bn 1102に対して、コードブック1104が、各スペクトル帯域を表すために選択される。すなわち、スペクトル帯域の特性に基づいて、スペクトル帯域を最も厳密に表すコードブックが選択される。いくつかの構成において、各コードブックは、そのコードブックインデックス1106によって参照されてもよい。このプロセスを使用して、コードブックに対してスペクトル帯域の統計分布を発生させてもよい。この例において、コードブックA(例えば、すべてゼロのコードブック)が、2つのスペクトル帯域に対して選択され、コードブックBが、1つのスペクトル帯域によって選択され、コードブックCが、3つのスペクトル帯域に対して選択される、などである。その結果、最も頻繁に選択されるコードブックが識別されてもよく、異なる/個々の記述子値“0”、“1”、および“2”が、これらの頻繁に選択されるコードブックに割り当てられる。残りのコードブックには、単一の記述子値“3”が割り当てられる。この単一の記述子“3”によって表される帯域に対して、拡張コード1110を使用して、(例えば、表のように)単一の記述子によって識別される特定のコードブックをより詳細に識別してもよい。この例において、コードブックB(インデックス1)は、記述子値の数を4つに低減させるために無視される。4つの記述子“0”、“2”、“3”および“4”は、2つのビットにマッピングして、表すことができる(例えば、表)。コードブックの大部分は、単一の2ビットの記述子値“3”によって表されることから、この統計分布の収集は、さもなければ、例えば、36個のコードブック(すなわち、6ビット)を表すために使用されるビットの数を低減させるのに役立つ。
図10および11は、コードブックインデックスがより少ないビットにエンコードされる方法の例を説明する。他のさまざまな構成において、同じ結果を達成しながら、“記述子”の概念を回避し、および/または修正してもよい。
ペアワイズ記述子コード発生の例
図12は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。(以前に記述したような)記述子値への複数のスペクトル帯域のマッピング後に、記述子値のペアに対して(例えば、オーディオフレームの、連続した、または隣接するスペクトル帯域に対して)、確率分布が決定される。隣接スペクトル帯域(例えば、2つの連続した帯域)に関係付けられている複数の記述子値(例えば、2つ)が取得される(1200)。予期される確率分布が、記述子値の異なるペアに対して取得される(1202)。すなわち、記述子値の各ペア(例えば、0/0、0/1、0/2、0/3、1/0、1/1、1/2、1/3、2/0、2/1...3/3)が発生する尤度に基づいて、(例えば、2つの隣接する、または連続したスペクトル帯域に対して)最も発生しやすい記述子ペアから最も発生しにくい記述子ペアまでの分布を突きとめることができる。さらに、予期される確率分布は、オーディオフレーム内の特定の帯域の相対的な位置と、特定のエンコーディングレイヤ(例えば、L3、L4、L5など)とに基づいて収集されてもよい。次に、記述子値のペアの予期される確率分布と、オーディオフレーム中のそれらの相対的な位置と、エンコーダレイヤとに基づいて、異なる可変長コード(VLC)が、記述子値の各ペアに割り当てられる(1204)。例えば、(特定のエンコーダレイヤおよびフレーム内の相対的な位置に対する)より高い確率の記述子ペアには、より低い確率の記述子ペアよりも短いコードが割り当てられてもよい。1つの例において、ハフマンコード化を使用して、可変長コードを発生させてもよく、(例えば、表のように)より高い確率の記述子ペアには、より短いコードが割り当てられ、より低い確率の記述子ペアには、より長いコードが割り当てられる。
このプロセスを繰り返して、異なるレイヤに対して記述子の確率分布を取得してもよい(1206)。その結果、異なる可変長コードを、異なるエンコーダ/デコーダのレイヤにおける同じ記述子ペアに対して利用してもよい。複数のコードブックを利用して、可変長コードを識別してもよく、可変長コードを暗号化/復号化するためにどのコードブックを使用するかは、エンコード/デコードされている各スペクトル帯域の相対位置およびエンコーダのレイヤ番号に依存する(1208)。表中で図示した例において、レイヤおよびエンコード/デコードされている帯域のペアの位置次第で、異なるVLCコードブックを使用してもよい。
この方法は、異なるエンコーダ/デコーダのレイヤにわたって、記述子ペアに対する確率分布を構築することを可能にし、その結果、各レイヤに対して、可変長コードへの記述子ペアのマッピングが可能になる。最も共通の(より高い確率の)記述子ペアには、より短いコードが割り当てられることから、これにより、スペクトル帯域をエンコードするときに使用されるビットの数が低減される。
MDCTスペクトルのデコーディング
図13は、デコーダの例を図示するブロック図である。各オーディオフレーム(例えば、20ミリ秒フレーム)に対して、デコーダ1302は、エンコードされたMDCTスペクトルの1つ以上のレイヤの情報を含んでいる入力ビットストリームを受信機または記憶デバイス1304から受信してもよい。受信レイヤは、レイヤ1からレイヤ5までの範囲にわたり、8kビット/秒ないし32kビット/秒のビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数(レイヤ)により調整されることを意味する。この例において、出力信号1332はWBであり、すべてのレイヤがデコーダ1302において正確に受信されているものと仮定する。コアレイヤ(レイヤ1)およびACELP強化レイヤ(レイヤ2)が、デコーダモジュール1306によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール1308によって逆強調され、再サンプリングモジュール1310によって16kHzに再サンプリングされて、信号s16^(n)が発生される。事後処理モジュールが信号s16^(n)をさらに処理して、レイヤ1またはレイヤ2の合成信号s2^(n)を発生させる。
より高いレイヤ(レイヤ3、4、5)が次に、スペクトルデコーダモジュール1316によってデコードされて、MDCTスペクトル信号X234^(k)が取得される。MDCTスペクトル信号X234^(k)は、逆MDCTモジュール1320によって逆変換され、結果として生じる信号xw,234^(n)が、レイヤ1および2の知覚的に重み付けられた合成信号sw,2^(n)に加えられる。時間領域雑音整形が次に、整形モジュール1322によって適用される。現在のフレームとオーバーラップしている以前のフレームの重み付けされた合成信号sw,2^が次に、合成に加えられる。逆知覚的重み付け1324が次に、合成WB信号を復元するために適用される。最後に、ピッチ事後フィルタ1326が、復元された信号に適用され、ハイパスフィルタ1328が後に続く。事後フィルタ1326は、MDCT(レイヤ3、4、5)の重複加算合成によって導入される、余分のデコーダ遅延を活用する。それは、最適の方法で、2つのピッチ事後フィルタ信号を組み合わせる。1つは、余分のデコーダ遅延を活用することによって発生される、レイヤ1またはレイヤ2のデコーダ出力の高品質ピッチ事後フィルタ信号s2^(n)である。他方は、より高いレイヤ(レイヤ3、4、5)合成信号の低遅延ピッチ後フィルタ信号s^(n)である。フィルタリングされた合成信号sHP^(n)が次に、雑音ゲート1330によって出力される。
図14は、ペアワイズ記述子コードを効率的にデコードするデコーダを図示するブロック図である。デコーダ1402は、エンコードされたコードブックインデックス1418を受信してもよい。例えば、エンコードされたコードブックインデックス1418は、ペアワイズ記述子コードおよび拡張コード1420であってもよい。ペアワイズ記述子コードは、帯域に対する組み合わされたコードブックインデックスまたは個々の記述子よりも少ないビットで、2つ(またはより多い)の連続した帯域に対するコードブックインデックスを表わしてもよい。コードブックインデックスデコーダ1414が次に、エンコードされたコードブックインデックス1418をデコードしてもよい。例えば、コードブックインデックスデコーダ1414は、複数のVLCコードブック1416によって表される、予め確立されている関連付けを使用することによって、ペアワイズ記述子コードをデコードしてもよく、VLCコードブック1416は、(オーディオフレーム内の)デコードされるスペクトル帯域のペアの位置およびデコーディングレイヤに基づいて選択されてもよい。記述子ペアと可変長コードとの間の予め確立されている関連付けは、より高い確率の記述子ペアに対してより短い長さのコードを利用し、より低い確率の記述子ペアに対してより長いコードを利用してもよい。1つの例において、コードブックインデックスデコーダ1414は、2つの隣接スペクトル帯域を表す記述子のペアを生成させてもよい。(隣接帯域のペアに対する)記述子は次に、記述子識別器1412によってデコードされ、記述子識別器1412は、可能なコードブックインデックスの分布の統計分析に基づいて発生される、記述子からコードブックインデックスへのマッピングテーブル1413を使用し、ここで、オーディオフレーム中の大多数の帯域は、コードブックの、小さい番号(サブセット)に集中したインデックスを有する傾向がある。その結果、記述子識別器1412は、対応するスペクトル帯域を表すコードブックインデックスを提供してもよい。コードブックインデックス識別器1409が次に、各帯域に対するコードブックインデックスを識別する。さらに、拡張コード識別器1410が、受信した拡張コード1420を使用して、単一の記述子にグループ化されているコードブックインデックスをさらに識別してもよい。ベクトル量子化デコーダ1411が、各スペクトル帯域に対する、受信された、エンコードされているベクトル量子化値/インデックス1422をデコードしてもよい。コードブック選択器1408が次に、ベクトル量子化値1422を使用して各スペクトル帯域を再構築するために、識別されたコードブックインデックスおよび拡張コード1420に基づいて、コードブックを選択してもよい。帯域合成器1406が次に、再構成されたスペクトル帯域に基づいて、MDCTスペクトルオーディオフレーム1401を再構成し、各帯域は、複数のスペクトル線または変換係数を有してもよい。
デコーディング方法の例
図15は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが、受信または取得されてもよく、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である(1502)。IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであってもよく、変換スペクトルはIMDCTスペクトルである。複数のエンコードされているコードブックインデックスが次にデコードされて、複数のスペクトル帯域に対して、デコードされたコードブックインデックスが取得される(1504)。同様に、複数のエンコードされたベクトル量子化インデックスがデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される(1506)。
1つの例において、複数のエンコードされたコードブックインデックスをデコードすることは、(a)複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、(b)複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、(c)記述子成分と拡張コード成分とに基づいて、複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、(d)コードブックインデックスを利用して、複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することと、を含んでいてもよい。記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられていてもよく、選択されることに関してより大きな確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる。単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、値kよりも大きいコードブックインデックスに対して利用される。複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表しているペアワイズ記述子コードによって表されてもよい。ペアワイズ記述子コードは、隣接スペクトル帯域の量子化特性の確率分布に基づいていてもよい。1つの例において、ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングしてもよい。VLCコードは、オーディオフレーム内の対応する各スペクトル帯域の位置と、エンコーダのレイヤ番号とに基づいて、記述子成分の各ペアに割り当てられてもよい。ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいていてもよい。
複数のスペクトル帯域が次に、デコードされたコードブックインデックスとデコードされたベクトル量子化インデックスとを使用して合成されて、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、残差信号の再構成されたバージョンが取得されてもよい(1508)。
電子ハードウェア、ソフトウェアまたは両方の組み合わせとして、ここで記述したさまざまな実例となる論理ブロック、モジュール、回路およびアルゴリズムステップを実現または実行してもよい。ハードウェアおよびソフトウェアのこの互換性を明瞭に説明するために、さまざまな実例となるコンポーネント、ブロック、モジュール、回路、およびステップをそれらの機能の点から一般的に上述した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、特定の用途およびシステム全体に課される設計制約に依存する。フローチャートとして描写されるプロセス、フロー図、構造図、またはブロック図として、構成を記述してもよいことが注目される。フローチャートは、一連のプロセスとして動作を記述してもよいが、動作の多くは、並行または同時に実行できる。加えて、動作の順序は、並べ変えてもよい。プロセスは、その動作が完了するとき終了する。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、呼出し関数または主関数への関数の戻りに対応する。
ハードウェアにおいて実現されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラム可能ゲートアレイ信号(FPGA)または他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはここで記述した機能を実行するために設計された、これらの任意の組み合わせを用いてもよい。汎用プロセッサはマイクロプロセッサでもよいが、代わりに、プロセッサは任意の従来のプロセッサ、制御装置、マイクロ制御装置、または状態遷移機械であってもよい。計算デバイスの組み合わせとして、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに関連した1つ以上のマイクロプロセッサ、または他の任意のこのような構成として、プロセッサを実現してもよい。
ソフトウェアにおいて実現されるとき、さまざまな例は、ファームウェア、ミドルウェアまたはマイクロコードを用いてもよい。必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記憶媒体または他の記憶装置のようなコンピュータ読み取り可能媒体中に記憶されていてもよい。プロセッサが必要なタスクを実行してもよい。コードセグメントは、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令の任意の組み合わせ、データ構造、またはプログラムのステートメントを表してもよい。情報、データ、引き数、パラメータ、またはメモリのコンテンツを渡し、および/または受け取ることにより、コードセグメントを、別のコードセグメントまたはハードウェア回路に結合してもよい。メモリの共有、メッセージ受渡し、トークンパッシング方式、ネットワーク送信などを含む任意の適切な手段を使用して、情報、引き数、パラメータ、データなどを渡し、転送し、または送信してもよい。
本出願中で使用されるような、用語“コンポーネント”、“モジュール”、“システム”、およびこれらに類似するものは、コンピュータ関連エンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェアまたは実行中のソフトウェアのいずれかを指すように意図されている。例えば、コンポーネントはプロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータであってもよいが、それだけに限られない。実例として、計算デバイス上で実行するアプリケーションと計算デバイスとの両方をコンポーネントとすることができる。1つ以上のコンポーネントが1つのプロセスおよび/または実行のスレッド内に存在してもよく、コンポーネントが1つのコンピュータ上にローカライズされてもよく、および/または2つ以上のコンピュータ間に分散されてもよい。また、これらのコンポーネントは、記憶されているさまざまなデータ構造を有するさまざまなコンピュータ読み取り可能媒体から実行できる。コンポーネントは、(例えば、ローカルシステム中の、分散システム中の別のコンポーネントと対話する1つのコンポーネントからのデータ、および/または、インターネットのようなネットワークを通して信号により他のシステムと対話する1つのコンポーネントからのデータのような)1つ以上のデータパケットを有する信号にしたがうような、ローカルおよび/またはリモートプロセスによって通信してもよい。
ここでの1つ以上の例において、記述した機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ中で実現してもよい。ソフトウェアにおいて実現する場合、コンピュータ読み取り可能媒体上に、1つ以上の命令またはコードとして、機能を記憶させてもよく、または機能を送信してもよい。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする何らかの媒体を含む通信媒体との両方を含む。記憶媒体は、コンピュータによりアクセスできる任意の利用可能な媒体であってもよい。一例として、限定ではないが、そのようなコンピュータ読み取り可能媒体は,RAM、ROM、EEPROM、CD−ROMまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用でき、そして、コンピュータによりアクセスできる他の任意の媒体を備えることができる。さらに、いくつかの接続は、適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア線、デジタル加入者線(DSL)、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバまたは他のリモート情報源から送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア線、DSL、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用されるディスク(Diskおよびdisc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイディスクを含み、ディスク(disk)は通常、磁気的にデータを再生し、一方、ディスク(disc)は、レーザにより光学的にデータを再生する。上述の組み合わせもまた、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。ソフトウェアは、単一の命令、または、多くの命令を含んでいてもよく、いくつかの異なるコードセグメントに対して、異なるプログラム間に、および複数の記憶媒体にわたって分散されていてもよい。例示的な記憶媒体は、プロセッサに結合されていてもよく、それにより、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。代替として、記憶媒体は、プロセッサと一体化していてもよい。
ここで開示した方法は、記述した方法を達成するために、1つ以上のステップまたは動作を含んでいる。方法のステップおよび/または動作は、特許請求の範囲から逸脱することなく、互いに置き換えられてもよい。すなわち、ステップまたは動作の特定の順序が、記述されている実施形態の適切な動作に対して必要とされない限り、特定のステップおよび/または動作の順序および/または使用は、特許請求の範囲から逸脱することなく修正してもよい。
図1、2、3、4、5、6、7、8、9、10、11、12、13、14および/または15中で図示したコンポーネント、ステップ、および/または機能のうちの1つ以上は、単一のコンポーネント、ステップまたは機能に再編成され、および/または組み合わされてもよく、あるいは、いくつかのコンポーネント、ステップまたは機能において具現されてもよい。追加のエレメント、コンポーネント、ステップおよび/または機能を追加してもよい。図1、2、3、4、5、8、13および14中で図示した装置、デバイスおよび/またはコンポーネントは、図6ないし図7、図9ないし図12、および図15中で記述した方法、特徴またはステップのうちの1つ以上を実行するように構成または適合されていてもよい。ここで記述したアルゴリズムは、ソフトウェアにおいて効率的に実現されてもよく、および/またはハードウェアに埋め込まれていてもよい。
上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
[2]前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである上記[1]記載の方法。
[3]エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む上記[1]記載の方法。
[4]前記コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む上記[1]記載の方法。
[5]前記少なくとも2つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む上記[4]記載の方法。
[6]第1の記述子成分と第2の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む上記[5]記載の方法。
[7]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[5]記載の方法。
[8]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[7]記載の方法。
[9]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[8]記載の方法。
[10]単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値kよりも大きいコードブックインデックスに対して利用される上記[5]記載の方法。
[11]各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[5]記載の方法。
[12]スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
[13]前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである上記[12]記載のデバイス。
[14]前記コードブックインデックスエンコーダは、少なくとも2つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている上記[12]記載のデバイス。
[15]前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する上記[14]記載のデバイス。
[16]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[14]記載のデバイス。
[17]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[16]記載のデバイス。
[18]ケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
[19]スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
[20]スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
[21]スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
[22]前記IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、IMDCTスペクトルである上記[21]記載の方法。
[23]前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む上記[21]記載の方法。
[24]前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[23]記載の方法。
[25]単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値kよりも大きいコードブックインデックスに対して利用される上記[24]記載の方法。
[26]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[21]記載の方法。
[27]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[26]記載の方法。
[28]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[26]記載の方法。
[29]前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[28]記載の方法。
[30]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[26]記載の方法。
[31]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
[32]前記IDCTタイプの変換レイヤモジュールは、逆修正離散コサイン変換(IMDCT)レイヤモジュールであり、前記変換スペクトルは、IMDCTスペクトルである上記[31]記載のデバイス。
[33]前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する上記[31]記載のデバイス。
[34]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[31]記載のデバイス。
[35]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[34]記載のデバイス。
[36]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[34]記載のデバイス。
[37]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
[38]スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
[39]スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。

Claims (39)

  1. スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
    前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
    前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
    前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
    前記コードブックインデックスをエンコードすることと、
    前記ベクトル量子化インデックスをエンコードすることと、
    前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
  2. 前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである請求項1記載の方法。
  3. エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む請求項1記載の方法。
  4. 前記コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む請求項1記載の方法。
  5. 前記少なくとも2つの隣接スペクトル帯域をエンコードすることは、
    スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
    前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
    各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む請求項4記載の方法。
  6. 第1の記述子成分と第2の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む請求項5記載の方法。
  7. 前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする請求項5記載の方法。
  8. オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる請求項7記載の方法。
  9. 前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項8記載の方法。
  10. 単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値kよりも大きいコードブックインデックスに対して利用される請求項5記載の方法。
  11. 各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる請求項5記載の方法。
  12. スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
    前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
    前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
    前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
    複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
    前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
    量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
  13. 前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである請求項12記載のデバイス。
  14. 前記コードブックインデックスエンコーダは、少なくとも2つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている請求項12記載のデバイス。
  15. 前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
    前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
    各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する請求項14記載のデバイス。
  16. 前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする請求項14記載のデバイス。
  17. オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる請求項16記載のデバイス。
  18. スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
    前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
    前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
    前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
    前記コードブックインデックスをエンコードする手段と、
    前記ベクトル量子化インデックスをエンコードする手段と、
    前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
  19. スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
    前記回路は、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
    前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
    前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
    前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
    前記コードブックインデックスをエンコードするように適合され、
    前記ベクトル量子化インデックスをエンコードするように適合され、
    前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
  20. スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
    1つ以上のプロセッサによって実行されるとき、前記命令は、
    コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
    前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
    前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
    前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
    前記コードブックインデックスをエンコードすることと、
    前記ベクトル量子化インデックスをエンコードすることと、
    前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
  21. スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
    複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
    前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
    前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
  22. 前記IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、IMDCTスペクトルである請求項21記載の方法。
  23. 前記複数のエンコードされたコードブックインデックスをデコードすることは、
    前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
    前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
    前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
    前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む請求項21記載の方法。
  24. 前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる請求項23記載の方法。
  25. 単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値kよりも大きいコードブックインデックスに対して利用される請求項24記載の方法。
  26. 前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される請求項21記載の方法。
  27. 前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている請求項26記載の方法。
  28. 前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする請求項26記載の方法。
  29. 前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる請求項28記載の方法。
  30. 前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項26記載の方法。
  31. スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
    複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
    前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
    前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
    前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
  32. 前記IDCTタイプの変換レイヤモジュールは、逆修正離散コサイン変換(IMDCT)レイヤモジュールであり、前記変換スペクトルは、IMDCTスペクトルである請求項31記載のデバイス。
  33. 前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
    前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
    前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
    前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する請求項31記載のデバイス。
  34. 前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される請求項31記載のデバイス。
  35. 前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている請求項34記載のデバイス。
  36. 前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項34記載のデバイス。
  37. スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
    複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
    前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
    前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
    前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
  38. スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
    前記回路は、
    複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
    前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
    前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
    前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
  39. スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
    1つ以上のプロセッサによって実行されるとき、前記命令は、
    複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
    前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
    前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
    前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。
JP2010533189A 2007-11-04 2008-11-04 スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 Expired - Fee Related JP5722040B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US98526307P 2007-11-04 2007-11-04
US60/985,263 2007-11-04
US12/263,726 US8515767B2 (en) 2007-11-04 2008-11-03 Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US12/263,726 2008-11-03
PCT/US2008/082376 WO2009059333A1 (en) 2007-11-04 2008-11-04 Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs

Publications (2)

Publication Number Publication Date
JP2011503653A true JP2011503653A (ja) 2011-01-27
JP5722040B2 JP5722040B2 (ja) 2015-05-20

Family

ID=40259123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010533189A Expired - Fee Related JP5722040B2 (ja) 2007-11-04 2008-11-04 スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術

Country Status (12)

Country Link
US (1) US8515767B2 (ja)
EP (1) EP2220645A1 (ja)
JP (1) JP5722040B2 (ja)
KR (1) KR101139172B1 (ja)
CN (1) CN101849258B (ja)
AU (1) AU2008318328A1 (ja)
CA (1) CA2703700A1 (ja)
IL (1) IL205375A0 (ja)
MX (1) MX2010004823A (ja)
RU (1) RU2437172C1 (ja)
TW (1) TWI405187B (ja)
WO (1) WO2009059333A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126073A (ja) * 2011-10-21 2017-07-20 サムスン エレクトロニクス カンパニー リミテッド 無損失符号化装置

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2827327B1 (en) 2007-04-29 2020-07-29 Huawei Technologies Co., Ltd. Method for Excitation Pulse Coding
EP2301021B1 (en) * 2008-07-10 2017-06-21 VoiceAge Corporation Device and method for quantizing lpc filters in a super-frame
EP3300076B1 (en) 2008-07-11 2019-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US20100114568A1 (en) * 2008-10-24 2010-05-06 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US8805694B2 (en) * 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
CN102460574A (zh) * 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
CN101931414B (zh) * 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
US9009037B2 (en) * 2009-10-14 2015-04-14 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therefor
KR101411780B1 (ko) 2009-10-20 2014-06-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
JP5345737B2 (ja) * 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
JP5773502B2 (ja) 2010-01-12 2015-09-02 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム
JP5606457B2 (ja) * 2010-01-13 2014-10-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置および符号化方法
EP2525355B1 (en) * 2010-01-14 2017-11-01 Panasonic Intellectual Property Corporation of America Audio encoding apparatus and audio encoding method
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
MX2012011943A (es) * 2010-04-14 2013-01-24 Voiceage Corp Libro de códigos de innovacion combinado, flexible y escalable para uso en codificador y decodificador celp.
JP5714002B2 (ja) * 2010-04-19 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法及び復号方法
WO2011155144A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 復号装置、符号化装置及びこれらの方法
CN102299760B (zh) 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器
WO2012005210A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、装置、プログラムおよび記録媒体
KR101858466B1 (ko) * 2010-10-25 2018-06-28 보이세지 코포레이션 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법
EP2458585B1 (en) * 2010-11-29 2013-07-17 Nxp B.V. Error concealment for sub-band coded audio signals
CN102623012B (zh) * 2011-01-26 2014-08-20 华为技术有限公司 矢量联合编解码方法及编解码器
EP2668651A4 (en) * 2011-01-28 2014-07-30 Nokia Corp CODING BY COMBINING CODE VECTORS
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
US9336225B2 (en) * 2011-02-24 2016-05-10 A9.Com, Inc. Encoding of variable-length data with unary formats
EP2681734B1 (en) 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
NO2669468T3 (ja) * 2011-05-11 2018-06-02
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
US8924203B2 (en) 2011-10-28 2014-12-30 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
JP6027538B2 (ja) 2011-10-28 2016-11-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
FR2984580A1 (fr) * 2011-12-20 2013-06-21 France Telecom Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
WO2013118476A1 (ja) 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9015044B2 (en) * 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
US9384759B2 (en) 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
BR112014032735B1 (pt) * 2012-06-28 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Codificador e decodificador de áudio com base em predição linear e respectivos métodos para codificar e decodificar
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
PT3011555T (pt) 2013-06-21 2018-07-04 Fraunhofer Ges Forschung Reconstrução de uma estrutura de discurso
SG11201510463WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
US9626184B2 (en) 2013-06-28 2017-04-18 Intel Corporation Processors, methods, systems, and instructions to transcode variable length code points of unicode characters
CN107316647B (zh) 2013-07-04 2021-02-09 超清编解码有限公司 频域包络的矢量量化方法和装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN111179946B (zh) * 2013-09-13 2023-10-13 三星电子株式会社 无损编码方法和无损解码方法
EP3614381A1 (en) 2013-09-16 2020-02-26 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
RU2750644C2 (ru) * 2013-10-18 2021-06-30 Телефонактиеболагет Л М Эрикссон (Пабл) Кодирование и декодирование положений спектральных пиков
SG10201609146YA (en) 2013-10-31 2016-12-29 Fraunhofer Ges Forschung Audio Decoder And Method For Providing A Decoded Audio Information Using An Error Concealment Modifying A Time Domain Excitation Signal
PL3285256T3 (pl) 2013-10-31 2020-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
EP3040987B1 (en) 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
ES2732859T3 (es) 2014-05-01 2019-11-26 Nippon Telegraph & Telephone Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y medio de grabación
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
CN107077855B (zh) 2014-07-28 2020-09-22 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN105357162B (zh) * 2014-08-22 2020-12-11 中兴通讯股份有限公司 一种信号处理方法、基站和终端
EP2993665A1 (en) * 2014-09-02 2016-03-09 Thomson Licensing Method and apparatus for coding or decoding subband configuration data for subband groups
US9425875B2 (en) 2014-09-25 2016-08-23 Intel IP Corporation Codebook for full-dimension multiple input multiple output communications
KR101593185B1 (ko) 2014-11-21 2016-02-15 한국전자통신연구원 코드북 설계 방법 및 장치
MX370034B (es) * 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10756755B2 (en) * 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US20180007045A1 (en) * 2016-06-30 2018-01-04 Mehdi Arashmid Akhavain Mohammadi Secure coding and modulation for optical transport
US10355712B2 (en) * 2017-03-31 2019-07-16 Sandisk Technologies Llc Use of multiple codebooks for programming data in different memory areas of a storage device
US10236909B2 (en) * 2017-03-31 2019-03-19 Sandisk Technologies Llc Bit-order modification for different memory areas of a storage device
US10230395B2 (en) * 2017-03-31 2019-03-12 Sandisk Technologies Llc Determining codebooks for different memory areas of a storage device
US10699723B2 (en) 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
CN110892478A (zh) * 2017-04-28 2020-03-17 Dts公司 音频编解码器窗口和变换实现
US10375131B2 (en) * 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
WO2020141108A1 (en) * 2019-01-03 2020-07-09 Dolby International Ab Method, apparatus and system for hybrid speech synthesis
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268606A (ja) * 1993-03-11 1994-09-22 Kokusai Electric Co Ltd 音声符号化通信方式及びその装置
JPH10154000A (ja) * 1996-09-24 1998-06-09 Yamaha Corp 音声符号化復号方式
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2003140693A (ja) * 2001-11-02 2003-05-16 Sony Corp 音声復号装置及び方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6182030B1 (en) 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
JP3323175B2 (ja) * 1999-04-20 2002-09-09 松下電器産業株式会社 符号化装置
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
WO2003027876A1 (en) 2001-09-26 2003-04-03 Jodie Lynn Reynolds System and method for communicating media signals
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
DE60214599T2 (de) * 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
TW584835B (en) 2002-12-13 2004-04-21 Univ Nat Chiao Tung Method and architecture of digital coding for transmitting and packing audio signals
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
EP1521243A1 (en) 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
TWI227866B (en) 2003-11-07 2005-02-11 Mediatek Inc Subband analysis/synthesis filtering method
JP4603485B2 (ja) * 2003-12-26 2010-12-22 パナソニック株式会社 音声・楽音符号化装置及び音声・楽音符号化方法
KR20070061818A (ko) * 2004-09-17 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치, 음성 복호 장치, 통신 장치 및 음성부호화 방법
US7788106B2 (en) 2005-04-13 2010-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Entropy coding with compact codebooks
TWI271703B (en) 2005-07-22 2007-01-21 Pixart Imaging Inc Audio encoder and method thereof
GB0524983D0 (en) 2005-12-07 2006-01-18 Imagination Tech Ltd Recompression and decompression of a data stream for rate smoothing
WO2007105586A1 (ja) * 2006-03-10 2007-09-20 Matsushita Electric Industrial Co., Ltd. 符号化装置および符号化方法
EP2009623A1 (en) * 2007-06-27 2008-12-31 Nokia Siemens Networks Oy Speech coding
US7873514B2 (en) * 2006-08-11 2011-01-18 Ntt Docomo, Inc. Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns
RU2462769C2 (ru) * 2006-10-24 2012-09-27 Войсэйдж Корпорейшн Способ и устройство кодирования кадров перехода в речевых сигналах
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
EP2193348A1 (en) * 2007-09-28 2010-06-09 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2009071115A1 (en) * 2007-12-03 2009-06-11 Nokia Corporation A packet generator

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268606A (ja) * 1993-03-11 1994-09-22 Kokusai Electric Co Ltd 音声符号化通信方式及びその装置
JPH10154000A (ja) * 1996-09-24 1998-06-09 Yamaha Corp 音声符号化復号方式
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2003140693A (ja) * 2001-11-02 2003-05-16 Sony Corp 音声復号装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6012033234; Ramprashad, S.A.: '"A two stage hybrid embedded speech/audio coding structure"' Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing(IC Vol.I(1998-05), pp.337-340 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126073A (ja) * 2011-10-21 2017-07-20 サムスン エレクトロニクス カンパニー リミテッド 無損失符号化装置
TWI671736B (zh) * 2011-10-21 2019-09-11 南韓商三星電子股份有限公司 對信號的包絡進行寫碼的設備及對其進行解碼的設備
US10424304B2 (en) 2011-10-21 2019-09-24 Samsung Electronics Co., Ltd. Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus
US10878827B2 (en) 2011-10-21 2020-12-29 Samsung Electronics Co.. Ltd. Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus
US11355129B2 (en) 2011-10-21 2022-06-07 Samsung Electronics Co., Ltd. Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus

Also Published As

Publication number Publication date
KR20100086031A (ko) 2010-07-29
CN101849258B (zh) 2012-11-14
TW200935403A (en) 2009-08-16
TWI405187B (zh) 2013-08-11
WO2009059333A1 (en) 2009-05-07
EP2220645A1 (en) 2010-08-25
MX2010004823A (es) 2010-06-11
US20090240491A1 (en) 2009-09-24
US8515767B2 (en) 2013-08-20
KR101139172B1 (ko) 2012-04-26
CA2703700A1 (en) 2009-05-07
AU2008318328A1 (en) 2009-05-07
RU2437172C1 (ru) 2011-12-20
CN101849258A (zh) 2010-09-29
IL205375A0 (en) 2010-12-30
JP5722040B2 (ja) 2015-05-20

Similar Documents

Publication Publication Date Title
JP5722040B2 (ja) スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
AU2008316860B2 (en) Scalable speech and audio encoding using combinatorial encoding of MDCT spectrum
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
KR101171098B1 (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US7502734B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in sound signal coding
KR101246991B1 (ko) 오디오 신호 처리 방법
US8010348B2 (en) Adaptive encoding and decoding with forward linear prediction
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
De Meuleneire et al. Algebraic quantization of transform coefficients for embedded audio coding
Marie Docteur en Sciences

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120926

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121003

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130809

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150325

R150 Certificate of patent or registration of utility model

Ref document number: 5722040

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees