JP2011503653A - スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 - Google Patents
スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 Download PDFInfo
- Publication number
- JP2011503653A JP2011503653A JP2010533189A JP2010533189A JP2011503653A JP 2011503653 A JP2011503653 A JP 2011503653A JP 2010533189 A JP2010533189 A JP 2010533189A JP 2010533189 A JP2010533189 A JP 2010533189A JP 2011503653 A JP2011503653 A JP 2011503653A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- index
- descriptor
- spectral
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 244
- 238000000034 method Methods 0.000 title claims description 164
- 230000003595 spectral effect Effects 0.000 claims abstract description 460
- 230000005236 sound signal Effects 0.000 claims abstract description 122
- 238000009826 distribution Methods 0.000 claims abstract description 100
- 239000013598 vector Substances 0.000 claims description 286
- 238000013139 quantization Methods 0.000 claims description 242
- 238000007619 statistical method Methods 0.000 claims description 26
- 230000001131 transforming effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 abstract description 9
- 239000010410 layer Substances 0.000 description 330
- 238000010586 diagram Methods 0.000 description 68
- 239000012792 core layer Substances 0.000 description 30
- 230000006870 function Effects 0.000 description 30
- 238000004422 calculation algorithm Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 28
- 238000013507 mapping Methods 0.000 description 26
- 239000002131 composite material Substances 0.000 description 18
- 230000003044 adaptive effect Effects 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 14
- 230000005284 excitation Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000007493 shaping process Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 101150115425 Slc27a2 gene Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005549 size reduction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000003817 vacuum liquid chromatography Methods 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
コード化の複数のレイヤを使用して、オーディオ信号を反復的にエンコードする、オーディオ信号をエンコード/デコードするためのスケーラブルなコーデックにおいて、修正離散コサイン変換が、1つ以上のコード化レイヤにおいて使用され、オーディオ信号の残差がエンコーディングのために(例えば、MDCT領域に)変換される。MDCT領域において、スペクトル線のフレームを複数の帯域に分割してもよい。各スペクトル帯域は、コードブックインデックスによって効率的にエンコードされてもよい。コードブックインデックスは、拡張コードを有する小さい組の記述子にさらにエンコードされてもよく、隣接スペクトル帯域に対する記述子は、ペアワイズ記述子コードにさらにエンコードされてもよく、ペアワイズ記述子コードは、いくつかのコードブックインデックスおよび記述子が他よりも高い確率分布を有することを認識する。さらに、コードブックインデックスは、変換スペクトル内の対応するスペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいてエンコードされる。
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ102は、到来する入力オーディオ信号104を受け取り、エンコードされたオーディオ信号106を発生させる。エンコードされたオーディオ信号106は、(例えば、ワイヤレスまたはワイヤードの)送信チャネルを通してデコーダ108に送信される。デコーダ108は、エンコードされたオーディオ信号106に基づいて入力オーディオ信号104を再構成することを試みて、再構成された出力オーディオ信号110を発生させる。説明のために、コーダ102は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。
コーダ102(図1)、デコーダ108(図1)、スピーチ/オーディオエンコーディングモジュール212(図2)および/またはスピーチ/オーディオデコーディングモジュール316(図3)は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ/音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する1つのアプローチは、反復的エンコーディングレイヤを提供することであり、1つのレイヤからの誤差信号(残差)が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測(CELP)は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、(固定型の代数コードブック、および/または適応型コードブックから)その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、(コードブックに基づいて)信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。
図4は、1つの例にしたがった、スケーラブルなエンコーダ402のブロック図である。エンコーディングの前の事前処理の段階において、入力信号404は、望まれない低周波数成分を抑制するためにハイパスフィルタリング406されて、フィルタリングされた入力信号SHP(n)が生成される。例えば、ハイパスフィルタ406は、広帯域入力信号に対して25Hzのカットオフと、狭帯域入力信号に対して100Hzのカットオフとを有していてもよい。フィルタリングされた入力信号SHP(n)は次に、再サンプリングモジュール408によって再サンプリングされて、再サンプリングされた入力信号S12.8(n)が生成される。例えば、オリジナル入力信号404は、16kHzでサンプリングされていてもよく、12.8kHzに再サンプリングされ、12.8kHzは、レイヤL1および/またはL2エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール410が次に、1次ハイパスフィルタを適用して、再サンプリングされた入力信号S12.8(n)のより高い周波数を強調し、(および低周波数を減衰させる)。結果として生じる信号は次に、エンコーダ/デコーダモジュール412に渡され、エンコーダ/デコーダモジュール412は、コード励振線形予測(CELP)ベースのアルゴリズムに基づいてレイヤL1および/またはL2エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤL1およびL2エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ/デコーダモジュール412はまた、入力信号のバージョンを合成(再構成)してもよい。すなわち、エンコーダ/デコーダモジュール412が入力信号をエンコードした後、エンコーダ/デコーダモジュール412は、入力信号をデコードし、逆エンファシスモジュール416および再サンプリングモジュール418が、入力信号404のバージョンs2^(n)を再作成する。残差信号x2(n)が、元の信号SHP(n)と、再作成された信号s2^(n)との間の差420を取ることにより発生される(すなわち、x2(n)=SHP(n)−s2^(n))。残差信号x2(n)は次に、重み付けモジュール424によって知覚的に重み付けされ、MDCT変換モジュール428によってMDCTスペクトルまたは領域に変換されて、残差信号X2(k)が発生される。そのような変換の実行において、信号は、フレームと呼ばれる、サンプルのブロックに分割されてもよく、各フレームは、例えば、離散フーリエ変換または離散コサイン変換のような線形直交変換によって処理されて、量子化できる変換係数が発生されてもよい。
レイヤL3、L4およびL5は、MDCTスペクトル(例えば、前のレイヤに対する残差を表すMDCT係数)においてコード化を実行することから、そのようなMDCTスペクトルコード化は効率的であることが望まれる。それゆえに、MDCTスペクトルコード化の効率的な方法を提供する。
1つの例において、エンコーダは、n=0、2、3、4、...最大、に対して、n*4ビットの対応する割り当てられたレートを有する、コードブックQnのアレイを利用してもよい。Q0はすべてゼロのベクトルを含み、そのため、いかなるビットもそれを送信するのに必要とされない。さらに、インデックスn=1は使用されず、これは、コードブックの数を低減させるために実施される。そのため、非ゼロのベクトルを有するコードブックに割り当てることができる最小のレートは、2*4=8ビットである。どのコードブックが各帯域のエンコーディングに対して使用されるかを指定するために、コードブックインデックスnQ(値n)が、各帯域に対して、ベクトル量子化(VQ)値またはインデックスとともに使用される。
図8は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。エンコーダ802は、帯域発生器を含んでいてもよく、帯域発生器は、MDCTスペクトルオーディオフレーム801を受け取り、それを複数の帯域に分割する。各帯域は、複数のスペクトル線または変換係数を有していてもよい。コードブック選択器808が次に、各帯域を表すために、複数のコードブック804のうちの1つからコードブックを選択してもよい。
図10は、確率分布に基づいて、コードブックと記述子との間にマッピングを発生させる方法の例を説明するブロック図である。複数のスペクトル帯域がサンプリングされて、各スペクトル帯域の特性が突きとめられる(1000)。サウンドおよびコードブックの定義の性質のために、小さいサブセットのコードブックが利用されやすいことを認識して、対象となっている信号に統計分析を実行して、より効率的に記述子を割り当ててもよい。したがって、サンプリングされた各スペクトル帯域は、複数のコードブックのうちの1つに関係付けられ、関係付けられたコードブックは、スペクトル帯域の特性のうちの少なくとも1つを表す(1002)。複数のコードブックのそれぞれに関係付けられている、複数のサンプリングされたスペクトル帯域に基づいて、統計的確率が各コードブックに対して割り当てられる(1004)。しきい値の確率よりも大きい統計的確率を有する複数のコードブックのそれぞれに対して、異なる個々の記述子も割り当てられる(1006)。単一の記述子が次に、他の残りのコードブックに割り当てられる(1008)。拡張コードが、単一の記述子が割り当てられたコードブックのそれぞれに関係付けられる(1010)。その結果、この方法を用いて、スペクトル帯域の十分に大きいサンプルを取得して、それにより、コードブックインデックスをより小さい組の記述子にマッピングする表(例えば、表1)を構築してもよい。さらに、拡張コードは、表2中に図示するような単進コードであってもよい。
図12は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。(以前に記述したような)記述子値への複数のスペクトル帯域のマッピング後に、記述子値のペアに対して(例えば、オーディオフレームの、連続した、または隣接するスペクトル帯域に対して)、確率分布が決定される。隣接スペクトル帯域(例えば、2つの連続した帯域)に関係付けられている複数の記述子値(例えば、2つ)が取得される(1200)。予期される確率分布が、記述子値の異なるペアに対して取得される(1202)。すなわち、記述子値の各ペア(例えば、0/0、0/1、0/2、0/3、1/0、1/1、1/2、1/3、2/0、2/1...3/3)が発生する尤度に基づいて、(例えば、2つの隣接する、または連続したスペクトル帯域に対して)最も発生しやすい記述子ペアから最も発生しにくい記述子ペアまでの分布を突きとめることができる。さらに、予期される確率分布は、オーディオフレーム内の特定の帯域の相対的な位置と、特定のエンコーディングレイヤ(例えば、L3、L4、L5など)とに基づいて収集されてもよい。次に、記述子値のペアの予期される確率分布と、オーディオフレーム中のそれらの相対的な位置と、エンコーダレイヤとに基づいて、異なる可変長コード(VLC)が、記述子値の各ペアに割り当てられる(1204)。例えば、(特定のエンコーダレイヤおよびフレーム内の相対的な位置に対する)より高い確率の記述子ペアには、より低い確率の記述子ペアよりも短いコードが割り当てられてもよい。1つの例において、ハフマンコード化を使用して、可変長コードを発生させてもよく、(例えば、表3のように)より高い確率の記述子ペアには、より短いコードが割り当てられ、より低い確率の記述子ペアには、より長いコードが割り当てられる。
図13は、デコーダの例を図示するブロック図である。各オーディオフレーム(例えば、20ミリ秒フレーム)に対して、デコーダ1302は、エンコードされたMDCTスペクトルの1つ以上のレイヤの情報を含んでいる入力ビットストリームを受信機または記憶デバイス1304から受信してもよい。受信レイヤは、レイヤ1からレイヤ5までの範囲にわたり、8kビット/秒ないし32kビット/秒のビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数(レイヤ)により調整されることを意味する。この例において、出力信号1332はWBであり、すべてのレイヤがデコーダ1302において正確に受信されているものと仮定する。コアレイヤ(レイヤ1)およびACELP強化レイヤ(レイヤ2)が、デコーダモジュール1306によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール1308によって逆強調され、再サンプリングモジュール1310によって16kHzに再サンプリングされて、信号s16^(n)が発生される。事後処理モジュールが信号s16^(n)をさらに処理して、レイヤ1またはレイヤ2の合成信号s2^(n)を発生させる。
図15は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが、受信または取得されてもよく、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である(1502)。IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであってもよく、変換スペクトルはIMDCTスペクトルである。複数のエンコードされているコードブックインデックスが次にデコードされて、複数のスペクトル帯域に対して、デコードされたコードブックインデックスが取得される(1504)。同様に、複数のエンコードされたベクトル量子化インデックスがデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される(1506)。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
[2]前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである上記[1]記載の方法。
[3]エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む上記[1]記載の方法。
[4]前記コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む上記[1]記載の方法。
[5]前記少なくとも2つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む上記[4]記載の方法。
[6]第1の記述子成分と第2の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む上記[5]記載の方法。
[7]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[5]記載の方法。
[8]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[7]記載の方法。
[9]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[8]記載の方法。
[10]単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値kよりも大きいコードブックインデックスに対して利用される上記[5]記載の方法。
[11]各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[5]記載の方法。
[12]スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
[13]前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである上記[12]記載のデバイス。
[14]前記コードブックインデックスエンコーダは、少なくとも2つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている上記[12]記載のデバイス。
[15]前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する上記[14]記載のデバイス。
[16]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[14]記載のデバイス。
[17]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[16]記載のデバイス。
[18]ケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
[19]スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
[20]スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
[21]スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
[22]前記IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、IMDCTスペクトルである上記[21]記載の方法。
[23]前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む上記[21]記載の方法。
[24]前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[23]記載の方法。
[25]単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値kよりも大きいコードブックインデックスに対して利用される上記[24]記載の方法。
[26]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[21]記載の方法。
[27]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[26]記載の方法。
[28]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[26]記載の方法。
[29]前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[28]記載の方法。
[30]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[26]記載の方法。
[31]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
[32]前記IDCTタイプの変換レイヤモジュールは、逆修正離散コサイン変換(IMDCT)レイヤモジュールであり、前記変換スペクトルは、IMDCTスペクトルである上記[31]記載のデバイス。
[33]前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する上記[31]記載のデバイス。
[34]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[31]記載のデバイス。
[35]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[34]記載のデバイス。
[36]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[34]記載のデバイス。
[37]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
[38]スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
[39]スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。
コード化の複数のレイヤを使用して、オーディオ信号を反復的にエンコードする、オーディオ信号をエンコード/デコードするためのスケーラブルなコーデックにおいて、修正離散コサイン変換が、1つ以上のコード化レイヤにおいて使用され、オーディオ信号の残差がエンコーディングのために(例えば、MDCT領域に)変換される。MDCT領域において、スペクトル線のフレームを複数の帯域に分割してもよい。各スペクトル帯域は、コードブックインデックスによって効率的にエンコードされてもよい。コードブックインデックスは、拡張コードを有する小さい組の記述子にさらにエンコードされてもよく、隣接スペクトル帯域に対する記述子は、ペアワイズ記述子コードにさらにエンコードされてもよく、ペアワイズ記述子コードは、いくつかのコードブックインデックスおよび記述子が他よりも高い確率分布を有することを認識する。さらに、コードブックインデックスは、変換スペクトル内の対応するスペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいてエンコードされる。
図1は、1つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ102は、到来する入力オーディオ信号104を受け取り、エンコードされたオーディオ信号106を発生させる。エンコードされたオーディオ信号106は、(例えば、ワイヤレスまたはワイヤードの)送信チャネルを通してデコーダ108に送信される。デコーダ108は、エンコードされたオーディオ信号106に基づいて入力オーディオ信号104を再構成することを試みて、再構成された出力オーディオ信号110を発生させる。説明のために、コーダ102は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。
コーダ102(図1)、デコーダ108(図1)、スピーチ/オーディオエンコーディングモジュール212(図2)および/またはスピーチ/オーディオデコーディングモジュール316(図3)は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ/音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する1つのアプローチは、反復的エンコーディングレイヤを提供することであり、1つのレイヤからの誤差信号(残差)が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測(CELP)は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、(固定型の代数コードブック、および/または適応型コードブックから)その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、(コードブックに基づいて)信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。
図4は、1つの例にしたがった、スケーラブルなエンコーダ402のブロック図である。エンコーディングの前の事前処理の段階において、入力信号404は、望まれない低周波数成分を抑制するためにハイパスフィルタリング406されて、フィルタリングされた入力信号SHP(n)が生成される。例えば、ハイパスフィルタ406は、広帯域入力信号に対して25Hzのカットオフと、狭帯域入力信号に対して100Hzのカットオフとを有していてもよい。フィルタリングされた入力信号SHP(n)は次に、再サンプリングモジュール408によって再サンプリングされて、再サンプリングされた入力信号S12.8(n)が生成される。例えば、オリジナル入力信号404は、16kHzでサンプリングされていてもよく、12.8kHzに再サンプリングされ、12.8kHzは、レイヤL1および/またはL2エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール410が次に、1次ハイパスフィルタを適用して、再サンプリングされた入力信号S12.8(n)のより高い周波数を強調し、(および低周波数を減衰させる)。結果として生じる信号は次に、エンコーダ/デコーダモジュール412に渡され、エンコーダ/デコーダモジュール412は、コード励振線形予測(CELP)ベースのアルゴリズムに基づいてレイヤL1および/またはL2エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測(LP)合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤL1およびL2エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ/デコーダモジュール412はまた、入力信号のバージョンを合成(再構成)してもよい。すなわち、エンコーダ/デコーダモジュール412が入力信号をエンコードした後、エンコーダ/デコーダモジュール412は、入力信号をデコードし、逆エンファシスモジュール416および再サンプリングモジュール418が、入力信号404のバージョンs2^(n)を再作成する。残差信号x2(n)が、元の信号SHP(n)と、再作成された信号s2^(n)との間の差420を取ることにより発生される(すなわち、x2(n)=SHP(n)−s2^(n))。残差信号x2(n)は次に、重み付けモジュール424によって知覚的に重み付けされ、MDCT変換モジュール428によってMDCTスペクトルまたは領域に変換されて、残差信号X2(k)が発生される。そのような変換の実行において、信号は、フレームと呼ばれる、サンプルのブロックに分割されてもよく、各フレームは、例えば、離散フーリエ変換または離散コサイン変換のような線形直交変換によって処理されて、量子化できる変換係数が発生されてもよい。
レイヤL3、L4およびL5は、MDCTスペクトル(例えば、前のレイヤに対する残差を表すMDCT係数)においてコード化を実行することから、そのようなMDCTスペクトルコード化は効率的であることが望まれる。それゆえに、MDCTスペクトルコード化の効率的な方法を提供する。
1つの例において、エンコーダは、n=0、2、3、4、...最大、に対して、n*4ビットの対応する割り当てられたレートを有する、コードブックQnのアレイを利用してもよい。Q0はすべてゼロのベクトルを含み、そのため、いかなるビットもそれを送信するのに必要とされない。さらに、インデックスn=1は使用されず、これは、コードブックの数を低減させるために実施される。そのため、非ゼロのベクトルを有するコードブックに割り当てることができる最小のレートは、2*4=8ビットである。どのコードブックが各帯域のエンコーディングに対して使用されるかを指定するために、コードブックインデックスnQ(値n)が、各帯域に対して、ベクトル量子化(VQ)値またはインデックスとともに使用される。
図8は、スケーラブルなスピーチおよびオーディオコーデックのためのエンコーダを図示するブロック図である。エンコーダ802は、帯域発生器を含んでいてもよく、帯域発生器は、MDCTスペクトルオーディオフレーム801を受け取り、それを複数の帯域に分割する。各帯域は、複数のスペクトル線または変換係数を有していてもよい。コードブック選択器808が次に、各帯域を表すために、複数のコードブック804のうちの1つからコードブックを選択してもよい。
図10は、確率分布に基づいて、コードブックと記述子との間にマッピングを発生させる方法の例を説明するブロック図である。複数のスペクトル帯域がサンプリングされて、各スペクトル帯域の特性が突きとめられる(1000)。サウンドおよびコードブックの定義の性質のために、小さいサブセットのコードブックが利用されやすいことを認識して、対象となっている信号に統計分析を実行して、より効率的に記述子を割り当ててもよい。したがって、サンプリングされた各スペクトル帯域は、複数のコードブックのうちの1つに関係付けられ、関係付けられたコードブックは、スペクトル帯域の特性のうちの少なくとも1つを表す(1002)。複数のコードブックのそれぞれに関係付けられている、複数のサンプリングされたスペクトル帯域に基づいて、統計的確率が各コードブックに対して割り当てられる(1004)。しきい値の確率よりも大きい統計的確率を有する複数のコードブックのそれぞれに対して、異なる個々の記述子も割り当てられる(1006)。単一の記述子が次に、他の残りのコードブックに割り当てられる(1008)。拡張コードが、単一の記述子が割り当てられたコードブックのそれぞれに関係付けられる(1010)。その結果、この方法を用いて、スペクトル帯域の十分に大きいサンプルを取得して、それにより、コードブックインデックスをより小さい組の記述子にマッピングする表(例えば、表2)を構築してもよい。さらに、拡張コードは、表3中に図示するような単進コードであってもよい。
図12は、スペクトル帯域に対する複数の記述子の確率分布に基づいて、ペアワイズ記述子コードへの記述子ペアのマッピングを発生させる方法の例を説明するブロック図である。(以前に記述したような)記述子値への複数のスペクトル帯域のマッピング後に、記述子値のペアに対して(例えば、オーディオフレームの、連続した、または隣接するスペクトル帯域に対して)、確率分布が決定される。隣接スペクトル帯域(例えば、2つの連続した帯域)に関係付けられている複数の記述子値(例えば、2つ)が取得される(1200)。予期される確率分布が、記述子値の異なるペアに対して取得される(1202)。すなわち、記述子値の各ペア(例えば、0/0、0/1、0/2、0/3、1/0、1/1、1/2、1/3、2/0、2/1...3/3)が発生する尤度に基づいて、(例えば、2つの隣接する、または連続したスペクトル帯域に対して)最も発生しやすい記述子ペアから最も発生しにくい記述子ペアまでの分布を突きとめることができる。さらに、予期される確率分布は、オーディオフレーム内の特定の帯域の相対的な位置と、特定のエンコーディングレイヤ(例えば、L3、L4、L5など)とに基づいて収集されてもよい。次に、記述子値のペアの予期される確率分布と、オーディオフレーム中のそれらの相対的な位置と、エンコーダレイヤとに基づいて、異なる可変長コード(VLC)が、記述子値の各ペアに割り当てられる(1204)。例えば、(特定のエンコーダレイヤおよびフレーム内の相対的な位置に対する)より高い確率の記述子ペアには、より低い確率の記述子ペアよりも短いコードが割り当てられてもよい。1つの例において、ハフマンコード化を使用して、可変長コードを発生させてもよく、(例えば、表4のように)より高い確率の記述子ペアには、より短いコードが割り当てられ、より低い確率の記述子ペアには、より長いコードが割り当てられる。
図13は、デコーダの例を図示するブロック図である。各オーディオフレーム(例えば、20ミリ秒フレーム)に対して、デコーダ1302は、エンコードされたMDCTスペクトルの1つ以上のレイヤの情報を含んでいる入力ビットストリームを受信機または記憶デバイス1304から受信してもよい。受信レイヤは、レイヤ1からレイヤ5までの範囲にわたり、8kビット/秒ないし32kビット/秒のビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数(レイヤ)により調整されることを意味する。この例において、出力信号1332はWBであり、すべてのレイヤがデコーダ1302において正確に受信されているものと仮定する。コアレイヤ(レイヤ1)およびACELP強化レイヤ(レイヤ2)が、デコーダモジュール1306によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール1308によって逆強調され、再サンプリングモジュール1310によって16kHzに再サンプリングされて、信号s16^(n)が発生される。事後処理モジュールが信号s16^(n)をさらに処理して、レイヤ1またはレイヤ2の合成信号s2^(n)を発生させる。
図15は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームが、受信または取得されてもよく、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である(1502)。IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであってもよく、変換スペクトルはIMDCTスペクトルである。複数のエンコードされているコードブックインデックスが次にデコードされて、複数のスペクトル帯域に対して、デコードされたコードブックインデックスが取得される(1504)。同様に、複数のエンコードされたベクトル量子化インデックスがデコードされて、複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスが取得される(1506)。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。
[2]前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである上記[1]記載の方法。
[3]エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む上記[1]記載の方法。
[4]前記コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む上記[1]記載の方法。
[5]前記少なくとも2つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む上記[4]記載の方法。
[6]第1の記述子成分と第2の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む上記[5]記載の方法。
[7]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[5]記載の方法。
[8]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[7]記載の方法。
[9]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[8]記載の方法。
[10]単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値kよりも大きいコードブックインデックスに対して利用される上記[5]記載の方法。
[11]各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[5]記載の方法。
[12]スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。
[13]前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである上記[12]記載のデバイス。
[14]前記コードブックインデックスエンコーダは、少なくとも2つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている上記[12]記載のデバイス。
[15]前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する上記[14]記載のデバイス。
[16]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[14]記載のデバイス。
[17]オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[16]記載のデバイス。
[18]ケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。
[19]スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。
[20]スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。
[21]スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。
[22]前記IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、IMDCTスペクトルである上記[21]記載の方法。
[23]前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む上記[21]記載の方法。
[24]前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる上記[23]記載の方法。
[25]単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値kよりも大きいコードブックインデックスに対して利用される上記[24]記載の方法。
[26]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[21]記載の方法。
[27]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[26]記載の方法。
[28]前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする上記[26]記載の方法。
[29]前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる上記[28]記載の方法。
[30]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[26]記載の方法。
[31]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。
[32]前記IDCTタイプの変換レイヤモジュールは、逆修正離散コサイン変換(IMDCT)レイヤモジュールであり、前記変換スペクトルは、IMDCTスペクトルである上記[31]記載のデバイス。
[33]前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する上記[31]記載のデバイス。
[34]前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される上記[31]記載のデバイス。
[35]前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている上記[34]記載のデバイス。
[36]前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている上記[34]記載のデバイス。
[37]スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。
[38]スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。
[39]スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。
Claims (39)
- スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを含む方法。 - 前記DCTタイプの変換レイヤは、修正離散コサイン変換(MDCT)レイヤであり、前記変換スペクトルは、MDCTスペクトルである請求項1記載の方法。
- エンコードすることに先立って、1組のスペクトル帯域を落として、スペクトル帯域の数を低減させることをさらに含む請求項1記載の方法。
- 前記コードブックインデックスをエンコードすることは、少なくとも2つの隣接スペクトル帯域を、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードすることを含む請求項1記載の方法。
- 前記少なくとも2つの隣接スペクトル帯域をエンコードすることは、
スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめることと、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別することと、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得することとを含む請求項4記載の方法。 - 第1の記述子成分と第2の記述子成分とをペアでエンコードして、前記ペアワイズ記述子コードを取得することをさらに含む請求項5記載の方法。
- 前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする請求項5記載の方法。
- オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる請求項7記載の方法。
- 前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項8記載の方法。
- 単一の記述子成分が、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分が、前記値kよりも大きいコードブックインデックスに対して利用される請求項5記載の方法。
- 各コードブックインデックスは、可能なコードブックインデックスの分布の統計分析に基づいている記述子成分に関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる請求項5記載の方法。
- スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合されている離散コサイン変換(DCT)タイプの変換レイヤモジュールと、
前記変換スペクトルを複数のスペクトル帯域に分割する帯域選択器であって、各スペクトル帯域は、複数のスペクトル線を有する帯域選択器と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するコードブック選択器であって、前記コードブックは、関連付けられたコードブックインデックスを有するコードブック選択器と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するベクトル量子化器と、
複数のコードブックインデックスを一緒にエンコードするコードブックインデックスエンコーダと、
前記ベクトルをエンコードするベクトル量子化インデックスエンコーダと、
量子化された変換スペクトルを表す、前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを送信する送信機とを具備するデバイス。 - 前記DCTタイプの変換レイヤモジュールは、修正離散コサイン変換(MDCT)レイヤモジュールであり、前記変換スペクトルは、MDCTスペクトルである請求項12記載のデバイス。
- 前記コードブックインデックスエンコーダは、少なくとも2つの隣接スペクトル帯域に対するコードブックインデックスを、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいているペアワイズ記述子コードにエンコードするように適合されている請求項12記載のデバイス。
- 前記コードブック選択器は、スペクトル帯域の隣接ペアをスキャンして、それらの特性を突きとめるように適合されており、
前記スペクトル帯域のそれぞれに対するコードブックインデックスを識別するコードブックインデックス識別器と、
各コードブックインデックスに対する、記述子成分と拡張コード成分とを取得する記述子選択器モジュールとをさらに具備する請求項14記載のデバイス。 - 前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする請求項14記載のデバイス。
- オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる請求項16記載のデバイス。
- スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得する手段であって、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得する手段と、
前記変換スペクトルを複数のスペクトル帯域に分割する手段であって、各スペクトル帯域は、複数のスペクトル線を有する手段と、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択する手段であって、前記コードブックは、関連付けられたコードブックインデックスを有する手段と、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得する手段と、
前記コードブックインデックスをエンコードする手段と、
前記ベクトル量子化インデックスをエンコードする手段と、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表す手段とを具備するデバイス。 - スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得するように適合され、
前記変換スペクトルを複数のスペクトル帯域に分割するように適合され、各スペクトル帯域は、複数のスペクトル線を有し、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択するように適合され、前記コードブックは、関連付けられたコードブックインデックスを有し、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得するように適合され、
前記コードブックインデックスをエンコードするように適合され、
前記ベクトル量子化インデックスをエンコードするように適合され、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すように適合されているプロセッサ。 - スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測(CELP)ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換(DCT)タイプの変換レイヤにおいて前記残差信号を変換して、対応する変換スペクトルを取得することと、
前記変換スペクトルを複数のスペクトル帯域に分割し、各スペクトル帯域は、複数のスペクトル線を有することと、
前記スペクトル帯域をエンコードするための複数の異なるコードブックを選択し、前記コードブックは、関連付けられたコードブックインデックスを有することと、
前記選択されたコードブックを使用して、各スペクトル帯域中のスペクトル線に対してベクトル量子化を実行して、ベクトル量子化インデックスを取得することと、
前記コードブックインデックスをエンコードすることと、
前記ベクトル量子化インデックスをエンコードすることと、
前記エンコードされたコードブックインデックスと、前記エンコードされたベクトル量子化インデックスとのビットストリームを形成して、量子化された変換スペクトルを表すこととを前記プロセッサに生じさせる機械読み取り可能媒体。 - スケーラブルなスピーチおよびオーディオコーデック中でデコードする方法において、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを含む方法。 - 前記IDCTタイプの変換レイヤは、逆修正離散コサイン変換(IMDCT)レイヤであり、前記変換スペクトルは、IMDCTスペクトルである請求項21記載の方法。
- 前記複数のエンコードされたコードブックインデックスをデコードすることは、
前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得することと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得することと、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得することと、
前記コードブックインデックスを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成することとを含む請求項21記載の方法。 - 前記記述子成分は、可能なコードブックインデックスの分布の統計分析に基づいているコードブックインデックスに関係付けられており、選択されることに関してより大きい確率を有するコードブックインデックスには、個々の記述子成分が割り当てられ、選択されることに関してより小さい確率を有するコードブックインデックスは、グループ化されて、単一の記述子が割り当てられる請求項23記載の方法。
- 単一の記述子成分は、値kよりも大きいコードブックインデックスに対して利用され、拡張コード成分は、前記値kよりも大きいコードブックインデックスに対して利用される請求項24記載の方法。
- 前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される請求項21記載の方法。
- 前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている請求項26記載の方法。
- 前記ペアワイズ記述子コードは、異なるコードブックに対する複数の可能な可変長コード(VLC)のうちの1つにマッピングする請求項26記載の方法。
- 前記オーディオフレーム内の対応する各スペクトル帯域の相対的な位置と、エンコーダのレイヤ番号とに基づいて、VLCコードブックが、記述子成分の各ペアに割り当てられる請求項28記載の方法。
- 前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項26記載の方法。
- スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する受信機であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である受信機と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するコードブックインデックスデコーダと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するベクトル量子化インデックスデコーダと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する帯域合成器とを具備するデバイス。 - 前記IDCTタイプの変換レイヤモジュールは、逆修正離散コサイン変換(IMDCT)レイヤモジュールであり、前記変換スペクトルは、IMDCTスペクトルである請求項31記載のデバイス。
- 前記複数のスペクトル帯域のそれぞれに対応する記述子成分を取得する記述子識別器モジュールと、
前記複数のスペクトル帯域のそれぞれに対応する拡張コード成分を取得する拡張コード識別器と、
前記記述子成分と、前記拡張コード成分とに基づいて、前記複数のスペクトル帯域のそれぞれに対応するコードブックインデックス成分を取得するコードブックインデックス識別器と、
前記コードブックインデックスと、対応するベクトル量子化インデックスとを利用して、前記複数のスペクトル帯域のそれぞれに対応するスペクトル帯域をそれぞれ合成するコードブック選択器とをさらに具備する請求項31記載のデバイス。 - 前記複数のエンコードされたコードブックインデックスは、オーディオフレームの複数の隣接する、変換スペクトルのスペクトル帯域、を表すペアワイズ記述子コードによって表される請求項31記載のデバイス。
- 前記ペアワイズ記述子コードは、前記隣接スペクトル帯域の量子化された特性の確率分布に基づいている請求項34記載のデバイス。
- 前記ペアワイズ記述子コードは、記述子の各ペアにおける、記述子値の量子化された組の典型的な確率分布に基づいている請求項34記載のデバイス。
- スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得する手段と、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得する手段と、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得する手段とを具備するデバイス。 - スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得するように適合され、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得するように適合され、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得するように構成されているプロセッサ。 - スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
1つ以上のプロセッサによって実行されるとき、前記命令は、
複数のエンコードされたコードブックインデックスと、複数のエンコードされたベクトル量子化インデックスとを有し、残差信号の量子化変換スペクトルを表すビットストリームを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測(CELP)ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数のエンコードされたコードブックインデックスをデコードして、複数のスペクトル帯域に対するデコードされたコードブックインデックスを取得することと、
前記複数のエンコードされたベクトル量子化インデックスをデコードして、前記複数のスペクトル帯域に対するデコードされたベクトル量子化インデックスを取得することと、
前記デコードされたコードブックインデックスと、前記デコードされたベクトル量子化インデックスとを使用して、前記複数のスペクトル帯域を合成して、逆離散コサイン変換(IDCT)タイプの逆変換レイヤにおいて、前記残差信号の再構成されたバージョンを取得することとを前記プロセッサに生じさせる機械読み取り可能媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US98526307P | 2007-11-04 | 2007-11-04 | |
US60/985,263 | 2007-11-04 | ||
US12/263,726 US8515767B2 (en) | 2007-11-04 | 2008-11-03 | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
US12/263,726 | 2008-11-03 | ||
PCT/US2008/082376 WO2009059333A1 (en) | 2007-11-04 | 2008-11-04 | Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011503653A true JP2011503653A (ja) | 2011-01-27 |
JP5722040B2 JP5722040B2 (ja) | 2015-05-20 |
Family
ID=40259123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010533189A Expired - Fee Related JP5722040B2 (ja) | 2007-11-04 | 2008-11-04 | スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 |
Country Status (12)
Country | Link |
---|---|
US (1) | US8515767B2 (ja) |
EP (1) | EP2220645A1 (ja) |
JP (1) | JP5722040B2 (ja) |
KR (1) | KR101139172B1 (ja) |
CN (1) | CN101849258B (ja) |
AU (1) | AU2008318328A1 (ja) |
CA (1) | CA2703700A1 (ja) |
IL (1) | IL205375A0 (ja) |
MX (1) | MX2010004823A (ja) |
RU (1) | RU2437172C1 (ja) |
TW (1) | TWI405187B (ja) |
WO (1) | WO2009059333A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126073A (ja) * | 2011-10-21 | 2017-07-20 | サムスン エレクトロニクス カンパニー リミテッド | 無損失符号化装置 |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2827327B1 (en) | 2007-04-29 | 2020-07-29 | Huawei Technologies Co., Ltd. | Method for Excitation Pulse Coding |
EP2301021B1 (en) * | 2008-07-10 | 2017-06-21 | VoiceAge Corporation | Device and method for quantizing lpc filters in a super-frame |
EP3300076B1 (en) | 2008-07-11 | 2019-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
WO2010044593A2 (ko) | 2008-10-13 | 2010-04-22 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
KR101649376B1 (ko) | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
US20100114568A1 (en) * | 2008-10-24 | 2010-05-06 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
US8805694B2 (en) * | 2009-02-16 | 2014-08-12 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding |
CN102460574A (zh) * | 2009-05-19 | 2012-05-16 | 韩国电子通信研究院 | 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备 |
CN101931414B (zh) * | 2009-06-19 | 2013-04-24 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
JP5754899B2 (ja) * | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
US9009037B2 (en) * | 2009-10-14 | 2015-04-14 | Panasonic Intellectual Property Corporation Of America | Encoding device, decoding device, and methods therefor |
KR101411780B1 (ko) | 2009-10-20 | 2014-06-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램 |
JP5345737B2 (ja) * | 2009-10-21 | 2013-11-20 | ドルビー インターナショナル アーベー | 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング |
JP5773502B2 (ja) | 2010-01-12 | 2015-09-02 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム |
JP5606457B2 (ja) * | 2010-01-13 | 2014-10-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置および符号化方法 |
EP2525355B1 (en) * | 2010-01-14 | 2017-11-01 | Panasonic Intellectual Property Corporation of America | Audio encoding apparatus and audio encoding method |
CN102918590B (zh) * | 2010-03-31 | 2014-12-10 | 韩国电子通信研究院 | 编码方法和装置、以及解码方法和装置 |
MX2012011943A (es) * | 2010-04-14 | 2013-01-24 | Voiceage Corp | Libro de códigos de innovacion combinado, flexible y escalable para uso en codificador y decodificador celp. |
JP5714002B2 (ja) * | 2010-04-19 | 2015-05-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置、符号化方法及び復号方法 |
WO2011155144A1 (ja) * | 2010-06-11 | 2011-12-15 | パナソニック株式会社 | 復号装置、符号化装置及びこれらの方法 |
CN102299760B (zh) | 2010-06-24 | 2014-03-12 | 华为技术有限公司 | 脉冲编解码方法及脉冲编解码器 |
WO2012005210A1 (ja) * | 2010-07-05 | 2012-01-12 | 日本電信電話株式会社 | 符号化方法、復号方法、装置、プログラムおよび記録媒体 |
KR101858466B1 (ko) * | 2010-10-25 | 2018-06-28 | 보이세지 코포레이션 | 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법 |
EP2458585B1 (en) * | 2010-11-29 | 2013-07-17 | Nxp B.V. | Error concealment for sub-band coded audio signals |
CN102623012B (zh) * | 2011-01-26 | 2014-08-20 | 华为技术有限公司 | 矢量联合编解码方法及编解码器 |
EP2668651A4 (en) * | 2011-01-28 | 2014-07-30 | Nokia Corp | CODING BY COMBINING CODE VECTORS |
US9767822B2 (en) * | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and decoding a watermarked signal |
US9336225B2 (en) * | 2011-02-24 | 2016-05-10 | A9.Com, Inc. | Encoding of variable-length data with unary formats |
EP2681734B1 (en) | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
NO2669468T3 (ja) * | 2011-05-11 | 2018-06-02 | ||
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
US8924203B2 (en) | 2011-10-28 | 2014-12-30 | Electronics And Telecommunications Research Institute | Apparatus and method for coding signal in a communication system |
JP6027538B2 (ja) | 2011-10-28 | 2016-11-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 |
FR2984580A1 (fr) * | 2011-12-20 | 2013-06-21 | France Telecom | Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
WO2013118476A1 (ja) | 2012-02-10 | 2013-08-15 | パナソニック株式会社 | 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法 |
US9972325B2 (en) * | 2012-02-17 | 2018-05-15 | Huawei Technologies Co., Ltd. | System and method for mixed codebook excitation for speech coding |
US9437213B2 (en) | 2012-03-05 | 2016-09-06 | Malaspina Labs (Barbados) Inc. | Voice signal enhancement |
US9015044B2 (en) * | 2012-03-05 | 2015-04-21 | Malaspina Labs (Barbados) Inc. | Formant based speech reconstruction from noisy signals |
US9384759B2 (en) | 2012-03-05 | 2016-07-05 | Malaspina Labs (Barbados) Inc. | Voice activity detection and pitch estimation |
US9905236B2 (en) | 2012-03-23 | 2018-02-27 | Dolby Laboratories Licensing Corporation | Enabling sampling rate diversity in a voice communication system |
BR112014032735B1 (pt) * | 2012-06-28 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Codificador e decodificador de áudio com base em predição linear e respectivos métodos para codificar e decodificar |
AU2014211520B2 (en) | 2013-01-29 | 2017-04-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
KR102148407B1 (ko) * | 2013-02-27 | 2020-08-27 | 한국전자통신연구원 | 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법 |
PT3011555T (pt) | 2013-06-21 | 2018-07-04 | Fraunhofer Ges Forschung | Reconstrução de uma estrutura de discurso |
SG11201510463WA (en) | 2013-06-21 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation |
US9626184B2 (en) | 2013-06-28 | 2017-04-18 | Intel Corporation | Processors, methods, systems, and instructions to transcode variable length code points of unicode characters |
CN107316647B (zh) | 2013-07-04 | 2021-02-09 | 超清编解码有限公司 | 频域包络的矢量量化方法和装置 |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN111179946B (zh) * | 2013-09-13 | 2023-10-13 | 三星电子株式会社 | 无损编码方法和无损解码方法 |
EP3614381A1 (en) | 2013-09-16 | 2020-02-26 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
RU2750644C2 (ru) * | 2013-10-18 | 2021-06-30 | Телефонактиеболагет Л М Эрикссон (Пабл) | Кодирование и декодирование положений спектральных пиков |
SG10201609146YA (en) | 2013-10-31 | 2016-12-29 | Fraunhofer Ges Forschung | Audio Decoder And Method For Providing A Decoded Audio Information Using An Error Concealment Modifying A Time Domain Excitation Signal |
PL3285256T3 (pl) | 2013-10-31 | 2020-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
EP3040987B1 (en) | 2013-12-02 | 2019-05-29 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN107369454B (zh) * | 2014-03-21 | 2020-10-27 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
ES2732859T3 (es) | 2014-05-01 | 2019-11-26 | Nippon Telegraph & Telephone | Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y medio de grabación |
US9852737B2 (en) * | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
CN107077855B (zh) | 2014-07-28 | 2020-09-22 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
CN105357162B (zh) * | 2014-08-22 | 2020-12-11 | 中兴通讯股份有限公司 | 一种信号处理方法、基站和终端 |
EP2993665A1 (en) * | 2014-09-02 | 2016-03-09 | Thomson Licensing | Method and apparatus for coding or decoding subband configuration data for subband groups |
US9425875B2 (en) | 2014-09-25 | 2016-08-23 | Intel IP Corporation | Codebook for full-dimension multiple input multiple output communications |
KR101593185B1 (ko) | 2014-11-21 | 2016-02-15 | 한국전자통신연구원 | 코드북 설계 방법 및 장치 |
MX370034B (es) * | 2015-02-02 | 2019-11-28 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio codificada. |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10756755B2 (en) * | 2016-05-10 | 2020-08-25 | Immersion Networks, Inc. | Adaptive audio codec system, method and article |
US20180007045A1 (en) * | 2016-06-30 | 2018-01-04 | Mehdi Arashmid Akhavain Mohammadi | Secure coding and modulation for optical transport |
US10355712B2 (en) * | 2017-03-31 | 2019-07-16 | Sandisk Technologies Llc | Use of multiple codebooks for programming data in different memory areas of a storage device |
US10236909B2 (en) * | 2017-03-31 | 2019-03-19 | Sandisk Technologies Llc | Bit-order modification for different memory areas of a storage device |
US10230395B2 (en) * | 2017-03-31 | 2019-03-12 | Sandisk Technologies Llc | Determining codebooks for different memory areas of a storage device |
US10699723B2 (en) | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using variable alphabet size |
CN110892478A (zh) * | 2017-04-28 | 2020-03-17 | Dts公司 | 音频编解码器窗口和变换实现 |
US10375131B2 (en) * | 2017-05-19 | 2019-08-06 | Cisco Technology, Inc. | Selectively transforming audio streams based on audio energy estimate |
WO2020141108A1 (en) * | 2019-01-03 | 2020-07-09 | Dolby International Ab | Method, apparatus and system for hybrid speech synthesis |
US11380343B2 (en) | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06268606A (ja) * | 1993-03-11 | 1994-09-22 | Kokusai Electric Co Ltd | 音声符号化通信方式及びその装置 |
JPH10154000A (ja) * | 1996-09-24 | 1998-06-09 | Yamaha Corp | 音声符号化復号方式 |
JP2002091498A (ja) * | 2000-09-19 | 2002-03-27 | Victor Co Of Japan Ltd | オーディオ信号符号化装置 |
JP2003140693A (ja) * | 2001-11-02 | 2003-05-16 | Sony Corp | 音声復号装置及び方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
JPH10124088A (ja) * | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6182030B1 (en) | 1998-12-18 | 2001-01-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Enhanced coding to improve coded communication signals |
JP3323175B2 (ja) * | 1999-04-20 | 2002-09-09 | 松下電器産業株式会社 | 符号化装置 |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
SE519985C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
WO2003027876A1 (en) | 2001-09-26 | 2003-04-03 | Jodie Lynn Reynolds | System and method for communicating media signals |
US6662154B2 (en) * | 2001-12-12 | 2003-12-09 | Motorola, Inc. | Method and system for information signal coding using combinatorial and huffman codes |
CA2365203A1 (en) | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
DE60214599T2 (de) * | 2002-03-12 | 2007-09-13 | Nokia Corp. | Skalierbare audiokodierung |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
TW584835B (en) | 2002-12-13 | 2004-04-21 | Univ Nat Chiao Tung | Method and architecture of digital coding for transmitting and packing audio signals |
KR100754439B1 (ko) * | 2003-01-09 | 2007-08-31 | 와이더댄 주식회사 | 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법 |
US7426462B2 (en) * | 2003-09-29 | 2008-09-16 | Sony Corporation | Fast codebook selection method in audio encoding |
EP1521243A1 (en) | 2003-10-01 | 2005-04-06 | Siemens Aktiengesellschaft | Speech coding method applying noise reduction by modifying the codebook gain |
TWI227866B (en) | 2003-11-07 | 2005-02-11 | Mediatek Inc | Subband analysis/synthesis filtering method |
JP4603485B2 (ja) * | 2003-12-26 | 2010-12-22 | パナソニック株式会社 | 音声・楽音符号化装置及び音声・楽音符号化方法 |
KR20070061818A (ko) * | 2004-09-17 | 2007-06-14 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치, 음성 복호 장치, 통신 장치 및 음성부호화 방법 |
US7788106B2 (en) | 2005-04-13 | 2010-08-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Entropy coding with compact codebooks |
TWI271703B (en) | 2005-07-22 | 2007-01-21 | Pixart Imaging Inc | Audio encoder and method thereof |
GB0524983D0 (en) | 2005-12-07 | 2006-01-18 | Imagination Tech Ltd | Recompression and decompression of a data stream for rate smoothing |
WO2007105586A1 (ja) * | 2006-03-10 | 2007-09-20 | Matsushita Electric Industrial Co., Ltd. | 符号化装置および符号化方法 |
EP2009623A1 (en) * | 2007-06-27 | 2008-12-31 | Nokia Siemens Networks Oy | Speech coding |
US7873514B2 (en) * | 2006-08-11 | 2011-01-18 | Ntt Docomo, Inc. | Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns |
RU2462769C2 (ru) * | 2006-10-24 | 2012-09-27 | Войсэйдж Корпорейшн | Способ и устройство кодирования кадров перехода в речевых сигналах |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
EP2193348A1 (en) * | 2007-09-28 | 2010-06-09 | Voiceage Corporation | Method and device for efficient quantization of transform information in an embedded speech and audio codec |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
WO2009071115A1 (en) * | 2007-12-03 | 2009-06-11 | Nokia Corporation | A packet generator |
-
2008
- 2008-11-03 US US12/263,726 patent/US8515767B2/en not_active Expired - Fee Related
- 2008-11-04 KR KR1020107012403A patent/KR101139172B1/ko active IP Right Grant
- 2008-11-04 RU RU2010122744/08A patent/RU2437172C1/ru not_active IP Right Cessation
- 2008-11-04 WO PCT/US2008/082376 patent/WO2009059333A1/en active Application Filing
- 2008-11-04 CA CA2703700A patent/CA2703700A1/en not_active Abandoned
- 2008-11-04 AU AU2008318328A patent/AU2008318328A1/en not_active Abandoned
- 2008-11-04 TW TW097142529A patent/TWI405187B/zh not_active IP Right Cessation
- 2008-11-04 EP EP08845443A patent/EP2220645A1/en not_active Withdrawn
- 2008-11-04 MX MX2010004823A patent/MX2010004823A/es not_active Application Discontinuation
- 2008-11-04 CN CN2008801145072A patent/CN101849258B/zh not_active Expired - Fee Related
- 2008-11-04 JP JP2010533189A patent/JP5722040B2/ja not_active Expired - Fee Related
-
2010
- 2010-04-27 IL IL205375A patent/IL205375A0/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06268606A (ja) * | 1993-03-11 | 1994-09-22 | Kokusai Electric Co Ltd | 音声符号化通信方式及びその装置 |
JPH10154000A (ja) * | 1996-09-24 | 1998-06-09 | Yamaha Corp | 音声符号化復号方式 |
JP2002091498A (ja) * | 2000-09-19 | 2002-03-27 | Victor Co Of Japan Ltd | オーディオ信号符号化装置 |
JP2003140693A (ja) * | 2001-11-02 | 2003-05-16 | Sony Corp | 音声復号装置及び方法 |
Non-Patent Citations (1)
Title |
---|
JPN6012033234; Ramprashad, S.A.: '"A two stage hybrid embedded speech/audio coding structure"' Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing(IC Vol.I(1998-05), pp.337-340 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126073A (ja) * | 2011-10-21 | 2017-07-20 | サムスン エレクトロニクス カンパニー リミテッド | 無損失符号化装置 |
TWI671736B (zh) * | 2011-10-21 | 2019-09-11 | 南韓商三星電子股份有限公司 | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 |
US10424304B2 (en) | 2011-10-21 | 2019-09-24 | Samsung Electronics Co., Ltd. | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus |
US10878827B2 (en) | 2011-10-21 | 2020-12-29 | Samsung Electronics Co.. Ltd. | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus |
US11355129B2 (en) | 2011-10-21 | 2022-06-07 | Samsung Electronics Co., Ltd. | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
KR20100086031A (ko) | 2010-07-29 |
CN101849258B (zh) | 2012-11-14 |
TW200935403A (en) | 2009-08-16 |
TWI405187B (zh) | 2013-08-11 |
WO2009059333A1 (en) | 2009-05-07 |
EP2220645A1 (en) | 2010-08-25 |
MX2010004823A (es) | 2010-06-11 |
US20090240491A1 (en) | 2009-09-24 |
US8515767B2 (en) | 2013-08-20 |
KR101139172B1 (ko) | 2012-04-26 |
CA2703700A1 (en) | 2009-05-07 |
AU2008318328A1 (en) | 2009-05-07 |
RU2437172C1 (ru) | 2011-12-20 |
CN101849258A (zh) | 2010-09-29 |
IL205375A0 (en) | 2010-12-30 |
JP5722040B2 (ja) | 2015-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5722040B2 (ja) | スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 | |
AU2008316860B2 (en) | Scalable speech and audio encoding using combinatorial encoding of MDCT spectrum | |
JP5208901B2 (ja) | 音声信号および音楽信号を符号化する方法 | |
KR101171098B1 (ko) | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 | |
US7502734B2 (en) | Method and device for robust predictive vector quantization of linear prediction parameters in sound signal coding | |
KR101246991B1 (ko) | 오디오 신호 처리 방법 | |
US8010348B2 (en) | Adaptive encoding and decoding with forward linear prediction | |
KR101274802B1 (ko) | 오디오 신호를 인코딩하기 위한 장치 및 방법 | |
US9240192B2 (en) | Device and method for efficiently encoding quantization parameters of spectral coefficient coding | |
WO2008053970A1 (fr) | Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés | |
KR101387808B1 (ko) | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 | |
De Meuleneire et al. | Algebraic quantization of transform coefficients for embedded audio coding | |
Marie | Docteur en Sciences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120626 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120926 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121003 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121126 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130809 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5722040 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |