JP5629319B2 - スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 - Google Patents

スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 Download PDF

Info

Publication number
JP5629319B2
JP5629319B2 JP2012523770A JP2012523770A JP5629319B2 JP 5629319 B2 JP5629319 B2 JP 5629319B2 JP 2012523770 A JP2012523770 A JP 2012523770A JP 2012523770 A JP2012523770 A JP 2012523770A JP 5629319 B2 JP5629319 B2 JP 5629319B2
Authority
JP
Japan
Prior art keywords
zero vector
parameter
zero
series
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012523770A
Other languages
English (en)
Other versions
JPWO2012004998A1 (ja
Inventor
ゾンシアン リウ
ゾンシアン リウ
押切 正浩
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2012523770A priority Critical patent/JP5629319B2/ja
Publication of JPWO2012004998A1 publication Critical patent/JPWO2012004998A1/ja
Application granted granted Critical
Publication of JP5629319B2 publication Critical patent/JP5629319B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Description

本発明は、ベクトル量子化を使用したオーディオ/音声符号化装置、オーディオ/音声復号装置及び オーディオ/音声符号化及び復号方法に関係する。
オーディオ及び音声の符号化においては、変換符号化と線形予測符号化という二つの主要な符号化手法の形式がある。
変換符号化は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)を使用するなどして、時間領域からスペクトル領域への信号の変換を行なう。個々のスペクトル係数が量子化され、符号化される。量子化または符号化の処理では、個々のスペクトル係数の知覚的重要度を決定するために、通常、心理音響モデルが適用され、そして個々のスペクトル係数は、それらの知覚的重要度に応じて量子化または符号化される。普及している変換コーデックをいくつか挙げると、MPEG MP3、MPEG AAC[1]及び Dolby AC3がある。変換符号化は、音楽または一般のオーディオ信号に対して有効である。変換コーデックの簡略な構成を図1に示す。
図1に例示した符号器では、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(101)を用いて、時間領域の信号S(n)が周波数領域の信号S(f)に変換される。
マスキング曲線を得るために、周波数領域の信号S(f)に対して心理音響モデル分析が行なわれる(103)。量子化ノイズが不可聴であることを確実にするように、心理音響モデル分析から得られたマスキング曲線に従って、周波数領域の信号S(f)に対して量子化が適用される(102)。
個々の量子化パラメータは多重化され(104)、復号器側へ送信される。
図1に例示した復号器では、最初に、すべてのビットストリーム情報が(105)において多重分離される。量子化パラメータは、復号された周波数領域の信号S(f)を復元するように逆量子化される(106)。
復号された周波数領域の信号S(f)は、復号された時間領域の信号S(n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(107)を用いて、時間領域へ戻すように変換される。
一方、線形予測符号化は、時間領域における音声信号の予測可能な性質を利用し、入力された音声信号に対して線形予測を適用することによって残差/励起信号を得る。音声ピッチ周期の倍数である時間シフトにわたり共鳴効果と高類似度を有する、特に有声範囲の音声信号に対して、このモデル化は音声の非常に効率的な表現をもたらす。線形予測の後、残差/励起信号が、主に、TCXとCELPという二つの異なる方式によって符号化される。
TCX[2]では、残差/励起信号は、周波数領域において効率的に変換され、符号化される。普及しているTCXコーデックをいくつか挙げると、3GPP AMR―WB+やMPEG USACがある。TCXコーデックの簡略な構成を図2に示す。
図2に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してLPC分析が行なわれる(201)。LPC分析から生じた個々のLPC係数が量子化され(202)、量子化インデックスが多重化されて(207)、復号器側へ送信される。逆量子化モジュール(203)からの逆量子化されたLPC係数を用いて、入力信号S(n)に対してLPC逆フィルタリングをかけることによって残差(励起)信号S(n)が得られる(204)。
離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(205)を用いて、残差信号S(n)は周波数領域の信号S(f)に変換される。
(f)に対して量子化が適用され(206)、個々の量子化パラメータが多重化されて(207)、復号器側へ送信される。
図2に例示した復号器では、最初に、ビットストリーム情報が(208)において多重分離される。
量子化パラメータは、復号された周波数領域の残差信号S (f)を復元するように逆量子化される(210)。
復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(211)を用いて、時間領域へ戻すように変換される。
逆量子化モジュール(209)からの逆量子化されたLPCパラメータを用いて、復号された時間領域の残差信号S (n)はLPC合成フィルタ(212)によって処理されて、復号された時間領域の信号S(n)を得る。
CELP符号化では、残差/励起信号は、何らかの所定のコードブックを使用して量子化される。そして音声品質をさらに向上させるために、元の信号とLPC合成後の信号との差分信号を周波数領域に変換してさらに符号化することがよく行なわれる。普及しているCELPコーデックをいくつか挙げると、ITU−T G.729.1 [3]やITU−T G.718 [4]がある。CELPと変換符号化の階層的符号化(階層符号化、エンベディッド符号化)の簡略な構成を図3に示す。
図3に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してCELP符号化が行なわれる(301)。CELPパラメータを用いて、CELPローカル復号器(302)によって合成信号Ssyn(n)が復元される。予測誤差信号S(n)(入力信号と合成信号の差)が、入力信号から合成信号を引き算することによって得られる。
離散フーリエ変換 (DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(303)を用いて、予測誤差信号S(n)は周波数領域の信号S(f)に変換される。
(f)に対して量子化が適用され(304)、個々の量子化パラメータが多重化されて(305)、復号器側へ送信される。
図3に例示した復号器では、最初に、すべてのビットストリーム情報が(306)において多重分離される。
量子化パラメータは、復号された周波数領域の残差信号S (f)を復元するように逆量子化される(308)。
復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(309)を用いて、時間領域へ戻すように変換される。
CELPパラメータを用いて、CELP復号器は合成信号Ssyn(n)を復元し(307)、復号された時間領域の信号S(n)が、CELP合成信号Ssyn(n)と復号された予測誤差信号S (n)を加算することによって復元される。
変換符号化及び線形予測符号化における変換符号化部は、通常、何らかの量子化法を利用することによって実行される。
ベクトル量子化法の一つは、スプリット・マルチレート格子VQまたは代数的VQ(AVQ)と名付けられている[5]。AMR―WB+[6]では、スプリット・マルチレート格子VQが、TCX領分におけるLPCの残差を量子化するために使用される(図4に示すように)。新たに標準化された音声コーデックであるITU―T G.718においても、スプリット・マルチレート格子VQが、MDCT領分におけるLPCの残差を第3の残差符号化層として量子化するために使用される。
スプリット・マルチレート格子VQは、格子量子化器に基づいたベクトル量子化法である。具体的に、AMR―WB+[6]で使用されるスプリット・マルチレート格子VQの場合には、RE8格子と呼ばれるGosset格子のサブセットにより構成されるベクトル・コードブックを使用して、スペクトルが8個のスペクトル係数のブロックを単位として量子化される([5]を参照)。
任意の格子のすべての点は、その格子のいわゆる2乗生成マトリクスGから、c=s・G(ここで、sは個々の整数値を含む線ベクトルであり、cは生成される格子点である)として生成可能である。
ある定められたレート(比率)でのベクトル・コードブックを作るためには、ある定められた半径のある範囲(8次元)内の格子点のみが採取される。マルチレート・コードブックは、したがって、それぞれ異なる半径の範囲内の格子点の各サブセットを採取することによって作成され得る。
TCXコーデックにおいてスプリット・マルチレート・ベクトル量子化を利用した簡略な構成を図4に例示する。
図4に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してLPC分析が行なわれる(401)。LPC分析から生じた個々のLPC係数が量子化され(402)、量子化インデックスが多重化されて(407)、復号器側へ送信される。逆量子化モジュール(403)からの逆量子化されたLPC係数を用いて、入力信号S(n)に対してLPC逆フィルタリングをかけることによって残差(励起)信号S(n)が得られる(404)。
離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(405)を用いて、残差信号S(n)は周波数領域の信号S(f)に変換される。
スプリット・マルチレート格子ベクトル量子化法がS(f)に対して適用され(406)、個々の量子化パラメータが多重化されて(407)、復号器側へ送信される。
図4に例示した復号器では、最初に、すべてのビットストリーム情報が(408)において多重分離される。
量子化パラメータは、復号された周波数領域の残差信号S (f)を復元するように、スプリット・マルチレート格子ベクトル逆量子化法によって逆量子化される(410)。
復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(411)を用いて、時間領域へ戻すように変換される。
逆量子化モジュール(409)からの逆量子化されたLPCパラメータを用いて、復号された時間領域の残差信号S (n)はLPC合成フィルタ(412)によって処理されて、復号された時間領域の信号S(n)を得る。
図5は、スプリット・マルチレート格子VQの処理を例示する。入力スペクトルS(f)は、最初に、ある数の8次元のブロック(またはベクトル)に分割され(501)、各ブロック(ベクトル)がマルチレート格子ベクトル量子化法によって量子化される(502)。量子化ステップにおいて、スペクトル全体の使用可能なビット数とエネルギー・レベルにより、グローバル利得が最初に計算される。次に、各ブロック(またはベクトル)ごとに、元のスペクトルとグローバル利得との間の比率がそれぞれ異なるコードブックによって量子化される。スプリット・マルチレート格子VQの個々の量子化パラメータは、グローバル利得の量子化インデックス、各ブロック(またはベクトル)についてのコードブック指示値及び各ブロック(またはベクトル)についてのコードベクトル・インデックスである。
図6は、AMR―WB+[6]で採用されたスプリット・マルチレート格子VQのコードブックのリストの概要を示す。この表では、コードブックQ、Q、QまたはQが、基本コードブックである。ある格子点がこれらの基本コードブックに含まれていない場合には、基本コードブックのQまたはQ部分のみを使用して、Voronoi拡張[7]が適用される。例として、この表中で、Q5はQ3のVoronoi拡張であり、 Q6はQ4のVoronoi拡張である。
各コードブックは、ある数のコードベクトルからなる。コードブック中のコードベクトル・インデックスは、あるビット数で表現される。このビット数は、下に示す式1によって得られる。
Figure 0005629319
コードブックQ0には、一つのベクトル、零ベクトルしかなく、零ベクトルはベクトルの量子化値が0であることを意味する。したがって、コードベクトル・インデックスのために必要とされるビットはない。
スプリット・マルチレート格子VQの量子化パラメータの3つのセット、すなわち、グローバル利得のインデックス、コードブックの指示値及びコードベクトルのインデックスがある。ビットストリーム は、通常、二つの方法で形成される。第1の方法を図7に例示し、第2の方法を図8に例示する。
図7では、入力信号S(f)は最初にある数のベクトルに分割される。次に、当該スペクトルの使用可能なビット数とエネルギー・レベルにより、グローバル利得が得られる。グローバル利得はスカラー量子化器によって量子化され、S(f)/Gがマルチレート格子ベクトル量子化器によって量子化される。ビットストリームが形成されるとき、グローバル利得のインデックスが第1の部分を形成し、すべてのコードブック指示値が一グループにまとめられて第2の部分を形成し、コードベクトルのすべてのインデックスが一グループにまとめられて最後の部分を形成する。
図8では、入力信号S(f)は最初にある数のベクトルに分割される。次に、当該スペクトルの使用可能なビット数とエネルギー・レベルにより、グローバル利得が得られる。グローバル利得はスカラー量子化器によって量子化され、S(f)/Gがマルチレート格子ベクトル量子化器によって量子化される。ビットストリームが形成されるとき、グローバル利得のインデックスが第1の部分を形成し、各ベクトルについてのコードブック指示値とそれに続くコードベクトル・インデックスが第2の部分を形成することになる。
Karl Heinz Brandenburg, "MP3 and AAC Explained", AES 17th International Conference, Florence, Italy, September 1999. Lefebvre, et al., "High quality coding of wideband audio signals using transform coded excitation (TCX)", IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. I/193-I/196, Apr. 1994 ITU-T Recommendation G.729.1 (2007) "G.729-based embedded variable bit-rate coder: An 8-32kbit/s scalable wideband coder bitstream interoperable with G.729" T. Vaillancourt et al, "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunication Channels", in Proc. Eusipco, Lausanne, Switzerland, August 2008 M. Xie and J.-P. Adoul, "Embedded algebraic vector quantization (EAVQ) with application to wideband audio coding," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Atlanta, GA, U.S.A, 1996, vol. 1, pp. 240-243 3GPP TS 26.290 "Extended AMR Wideband Speech Codec (AMR-WB+)" S. Ragot, B. Bessette and R. Lefebvre, "Low-complexity Multi-Rate Lattice Vector Quantization with Application to Wideband TCX Speech Coding at 32kbit/s," Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Montreal, QC, Canada, May, 2004, vol. 1, pp. 501-504
使用可能なビット数が多くない場合、または量子化されるスペクトルのエネルギーがある周波数帯域に集中している場合、多数のベクトルが0(零ベクトル)として量子化されるため、復号されたスペクトル中に多数の零ベクトルを生じさせる、つまり、スペクトルが非常に低密度な状態になる。
先行技術では、コードブック指示値とコードベクトル・インデックスは2進数に直接変換され、ビットストリームを形成する。
したがって、すべてのベクトルに消費される総ビット数は、次のように計算可能である。
Figure 0005629319
スペクトルの低密度状態が、可能なビット節減を成し遂げるために有効利用されていない、つまり、いくつかのビットが零ベクトルを指示するために浪費される。
本発明では、信号スペクトルの低密度状態を有効利用することによって、零ベクトルについてのAVQコードブック指示値を別の高効率のインデックスに変換する効率的な方法が取り入れられる。
Q0は零ベクトルを指示するものであり、すべての他のコードブックは非零ベクトルを指示するものであるから、すべてのベクトルのコードブック指示値を分析することによってスペクトルの低密度状態の情報を獲得することができる。このステップはスペクトル・クラスター分析と名付けられ、その処理の詳細を以下に例示する。
1)スペクトル中で、ある数の零ベクトル(Q0で量子化される)のみからなる零ベクトルの部分をすべて見つけ出し、各部分の中の零ベクトルの数をカウントする。
2)当該部分の中の零ベクトルの数がThresholdよりも大きい場合には、その部分は零ベクトル領域として分類される。そうでなければ、 ある数の零ベクトルと隣接するある数の非零ベクトルとを合同させ、非零ベクトル領域として分類する。
3)Thresholdは、零ベクトル領域の指示のために、及び零ベクトル領域の末尾のベクトルのインデックス(終了インデックス)の符号化のために使用される消費ビット数に従って決定される。
Figure 0005629319
4)零ベクトル領域については、零ベクトルごとにQ0インデックスを送信する代わり、零ベクトル領域の指示値と零ベクトル領域の末尾のベクトルのインデックス(終了インデックス)が送信される。
5)零ベクトル領域の指示値は、指示値が復号器側で識別できることを唯一の必要条件として、様々に設計可能である。
6)末尾ベクトルのインデックス(終了インデックス)の値は、適応的に設計されたコードブックによって量子化される。このコードブック中で、末尾ベクトルのインデックス(終了インデックス)の可能な値の数に応じて、ある数の代表値が設計可能である。
図9に一例を例示する。この図では、わかりやすいように復号されたスペクトルが例示されている。この例では、二つの非零ベクトル領域と一つの零ベクトル領域の3つの部分がある。零ベクトル領域の先頭ベクトルのインデックスはIndex_startとして示され、零ベクトル領域の末尾ベクトのインデックスはIndex_endとして示される。上記ステップ3で言及したとおり、零ベクトル領域はある数の零ベクトルのみからなり、一方、非零ベクトル領域はある数の非零ベクトルのみからなることを前提とせず、非零ベクトル領域はある数の零ベクトルを有することも可能である。
従来の方法の場合には、送信されるべきパラメータは、1)グローバル利得の量子化インデックス 2)すべてのベクトル各々のコードブック指示値 3)すべてのベクトル各々のコードベクトル・インデックスである。
使用可能なビット数が、すべてのベクトル各々の上記パラメータを符号化するのに足りると仮定し)、これらのパラメータすべての符号化に使用される総消費ビット数は、次のとおり求められる:
Figure 0005629319
零ベクトルはQ0によって量子化されるのだから、各零ベクトル当り1ビットが消費される。
したがって、次式のとおりとなる。
Figure 0005629319
本発明で提案された方法の場合には、送信されるべきパラメータは、
1)グローバル利得の量子化インデックス
2)非零ベクトル領域中のすべてのベクトル各々のコードブック指示値
3)非零ベクトル領域中のすべてのベクトル各々のコードベクトル・インデックス
4)零ベクトル領域の指示値
5)零ベクトル領域の末尾ベクトルのインデックス(終了インデックス)(または零ベクトル領域中の零ベクトルの数)である。
使用可能なビット数が、すべてのベクトル各々の上記パラメータを符号化するのに足りると仮定し、上記パラメータすべての符号化に使用される総消費ビット数は、次のとおり求められる。
Figure 0005629319
本発明の方法を適用することによって、数ビットの節減を達成できる。本発明で提案された方法により節減されるビット数は、次のとおり計算される。
Figure 0005629319
上記のスペクトル・クラスター分析ステップ2)において、零ベクトル領域中のベクトルの数がThresholdよりも大きいことが調べられる。
Figure 0005629319
そしてThresholdは式3によって決定される。
式3と式8の二つの式から、以下の結論を得ることができる。
Figure 0005629319
したがって、本発明で提案された方法によってビット節減が達成される(Bitssave > 0)。
変換コーデックの簡略な構成を例示する。 TCXコーデックの簡略な構成を例示する。 階層コーデック(CELP+変換)の簡略な構成を例示する。 スプリット・マルチレート格子ベクトル量子化を利用したTCXコーデックの構成を例示する。 スプリット・マルチレート格子ベクトル量子化の処理を例示する。 スプリット・マルチレート格子VQのためのコードブックの表を示す。 ビットストリーム形成の一つの方法を例示する。 ビットストリーム形成の別の方法を例示する。 従来のスプリット・マルチレート格子VQに関する課題を例示する。 変換コーデックの提案された構成を例示する。 スペクトル・クラスター分析の実現の詳細を例示する。 コードブック指示値符号化の実現の詳細を例示する。 零ベクトル領域指示表を示す。 コードベクトル決定の実現の詳細を例示する。 コードベクトル決定の別の方法を例示する。 零ベクトル領域指示の別の方法を示す。 逆方向サーチの構想を例示する。 逆方向サーチ用の指示値表を示す。 逆方向サーチの実現の詳細を例示する。 消費するビット数をより少なくする別の指示値表を示す。 Index_endの可能な値の範囲を決定するための構想を例示する。 零ベクトル領域指示のために使用される二つの指示値表を示す。 異なる指示値表を使用するときの3つの条件を示す。 最後のベクトルまでの零ベクトル領域の指示値を含む指示値表を示す。 TCXコーデックの提案された構成を例示する。 階層コーデック(CELP+変換)の提案された構成を例示する。 適応利得量子化を含むCELP+変換コーデックの提案された構成を例示する。 CELP符号器のビットレートに応じた利得量子化のサーチ範囲の適応的決定の構想を例示する。 適応ベクトル利得補正を含む、提案された構成を例示する。
図10〜図29を用いて、本発明の主要原理を本節で説明する。当業者は、本発明の精神から逸脱しない範囲で本発明を修正し、適応させることができるであろう。図は、説明を容易にするために提示される。
(実施形態1)
図10は、スプリット・マルチレート格子ベクトル量子化の本発明による方式を適用した符号器と復号器を具備する、本発明によるコーデックを例示する。
図10に例示した符号器では、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(1001)を用いて、時間領域の信号S(n)が周波数領域の信号S(f)に変換される。
マスキング曲線を得るために、周波数領域の信号S(f)に対して心理音響モデル分析が行なわれる(1002)。量子化ノイズが不可聴であることを確実にするように、心理音響モデル分析から得られたマスキング曲線に従って、周波数領域の信号S(f)に対してスプリット・マルチレート格子ベクトル量子化が適用される(1003)。
スプリット・マルチレート格子ベクトル量子化は、グローバル利得の量子化インデックス、コードブック指示値及びコードベクトル・インデックスという、量子化パラメータの3つのセットをもつ。
コードブック指示値は、スペクトル・クラスター分析(1004)へ送られる。スペクトルの低密度状態の情報が、スペクトル・クラスター分析によって抽出され、この情報が上記コードブック指示値をコードブック指示値の別のセットに変換するために使用される(1005)。
グローバル利得インデックス、コードベクトル・インデックス及び新しいコードブック指示値が多重化されて(1006)、復号器側へ送信される。
図10に例示した復号器では、最初に、すべてのビットストリーム情報が(107)において多重分離される。
新コードブック指示値は、元のコードブック指示値を復号するために使用される(1008)。グローバル利得インデックス、コードベクトル・インデックス及び元のコードブック指示値は、スプリット・マルチレート格子ベクトル逆量子化法(1009)によって、復号された周波数領域の信号S(f)を復元するように逆量子化される。
復号された周波数領域の信号S(f)は、復号された時間領域の信号S(n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(1010)を用いて、時間領域へ戻すように変換される。
スペクトル・クラスター分析とコードブック指示値符号器の提案された実現方法を図11と図12に例示する。
図11には、スペクトル・クラスター分析の提案された実現方法が例示される。
この方法には5つのステップがあり、各ステップが図を用いて例示される。この図解では、全部で22個のベクトルがあり、ベクトル・インデックスは0から始まり21で終わる。
1)22個のベクトル各々のすべてのコードブック指示値を分類する。コードブックQ0によって量子化されるベクトルは、零ベクトルであるというように。スペクトルの低密度状態の情報が、各ベクトルそれぞれのコードブック指示値を分析することによって抽出され得る。
2)ある数の零ベクトルの部分をすべて特定する。ある数の零ベクトルの部分は、ある数の零ベクトルのみからなる部分である。この例では、ある数の零ベクトルの部分が3つある(i=0、3−19、21)
3)各零ベクトル部分中の零ベクトルの数をカウントする。本例では、第1の部分が1個の零ベクトルだけをもつ。第2の部分は17個の零ベクトルをもち、最後の部分は1個の零ベクトルをもつ。
4)各零ベクトル部分中の零ベクトルの数をThresholdと比較する。Thresholdは、下の式によって決定される。
Figure 0005629319
この例では、BitsindicationとBitsindex_endに、それぞれ、6ビットと2ビットが与えられるので、新しい符号化方式では消費ビット数は8である(詳細な説明は、以下に記載する)。したがって、Thresholdは8である。この例における3つの零ベクトル部分では、第1の部分と第3の部分の零ベクトルの数が上記Thresholdよりも小さい。第2の部分の零ベクトルの数は、上記Thresholdよりも大きい。
5)グループ化。当該零ベクトル部分中の零ベクトルの数がThresholdよりも大きければ、その部分は零ベクトル領域として分類される。そうでなければ、それらの零ベクトルと隣接するある数の非零ベクトルが合同されて、非零ベクトル領域として分類される。本例では、第2の零ベクトル部分が零ベクトル領域として分類される。そして第1の部分と第3の部分とそれらに隣接する非零ベクトルが合同されて、非零ベクトル領域として分類される。このスペクトルは、二つの非零ベクトル領域と一つの零ベクトル領域の3つの領域に単純化可能である。
図12には、コードブック指示値符号化のための提案された実現方法が例示される。この方法には5つのステップがあり、各ステップが図を用いて例示される。この図解では、図11におけるスペクトルが例としてなおも使用される。
1)第1の非零ベクトル領域のコードブック指示値を符号化する。非零ベクトル領域では、ベクトル当りの個々のコードブック指示値が従来と同様に維持される。
2)零ベクトル領域を指示する識別コードを割り当てる。零ベクトル領域では、零ベクトル各々のQ0指示値を送信するのではなく、零ベクトル領域の指示値と零ベクトル領域の終了インデックスが送信される。この例では、6ビットの指示値(111110)が、零ベクトル領域を指示するために使用される。
3)零ベクトル領域の末尾ベクトルのインデックスである、Index_endの値を符号化する。この例では、Index_endは、4つの代表値からなる2ビットのコードブックによって量子化される。各代表値は、Index_endの可能な値を示す。この例では、代表値が表中に示される。この表の決定の詳細は、後述部分で説明する。
4)零ベクトル領域中の残りのベクトルのコードブック指示値を符号化する。ほとんどの場合、量子化されたIndex_endは、実際のIndex_endと厳密に一致しない。したがって、零ベクトル領域中の残りのベクトルを符号化する必要がある。残りのベクトルのコードブック指示値は、Q0指示値として与えられる。
5)最後の非零ベクトル領域のコードブック指示値を符号化する。非零ベクトル領域では、ベクトル当りの個々のコードブック指示値が従来と同様に維持される。
図13には、従来のスプリット・マルチレート格子VQの指示値表と本発明による方法の指示値表が示される。
これらの二つの表から、零ベクトル領域の指示値は、Qコードブックを指示していた指示値を利用することがわかる。2ビットのコードブックが、可能なIndex_endを量子化するために使用される。したがって、零ベクトル領域に使用される総消費ビット数は8である。それ以後のコードブックQn(n 3 6)に関しては、コードブックはQn+1(n 3 6)の指示値を使用する、つまり、その消費ビット数は元の指示値よりも1ビット分多い。
図14と図15は、2ビットのコードブックがどのように決定されるかを表わす二つの例を示す。
図14は、図11で使用されたスペクトルを継続して用いている。図に示すように、Index_startは3であり、スペクトル中の総ベクトル数は22であり、零ベクトル領域のThresholdは8である。Index_endの可能な値の範囲は、11から21までである(21は、Index_startの後のすべてのベクトルが零ベクトルであることを意味する)。
Index_end を2ビットのコードブックを用いて量子化するために、Index_endの可能な値の範囲に従って、代表値が適応的に決定される。Index_endの可能な値の範囲が4つの部分に分割される。各部分は、一つの代表値によって示される。各部分の幅(零ベクトルの数)は下の式によって決定される。
Figure 0005629319
代表値は下の式によって決定される。
Figure 0005629319
この例において、元の方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。
Figure 0005629319
この例において、本発明による方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。
Figure 0005629319
本発明で提案された方法によって節減されるビット数は、次のとおりに計算される。
Figure 0005629319
図15は、コードベクトルの幅を計算するための別の方法である(本文書において、スカラー値をもつ「コードベクトル」は、「代表値」とも表記される)。
各部分の幅(零ベクトルの数)は、下の式によって決定される。
Figure 0005629319
コードベクトルによって表わされるIndex_endの値は、下の式によって決定される。
Figure 0005629319
この例において、元の方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。
Figure 0005629319
この例において、提案された方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。
Figure 0005629319
本発明で提案された方法によって節減されるビット数は、次のとおりに計算される。
Figure 0005629319
コードベクトルを決定するための方法は、上述の例に限定されない。当業者は本発明の精神を逸脱しない範囲でその他の方法を修正し、適応させることができるであろう。
この実施形態では、スプリット・マルチレート・ベクトル量子化したスペクトルに対してスペクトル分析を行なうことによって、スペクトルは零ベクトル領域と非零ベクトル領域に分割される。
零ベクトル領域では、零ベクトル各々のQ0指示値を送信するのではなく、零ベクトル領域の指示値と零ベクトル領域の末尾ベクトルのインデックス(終了インデックスと表記される)の量子化値が送信される。
零ベクトル領域の指示値は、それほど頻繁に使用されない、コードブック指示値の一つを使用する。元のコードブックは、他の指示値によって指示される。
終了インデックスは、適応的に設計されたコードブックによって量子化される。終了インデックスのすべての可能な値が数個の部分に分けられ、各部分の長さは終了インデックスの可能な値の総数に従って適応的に決定される。各部分は、コードブックの代表値の一つによって表される。
したがって、連続する零ベクトルに対して、本発明による方法を適用することによってビット節減が達成される。
さらに、この実施形態では、終了インデックスの値は、コードブック―その代表値の数はNとして示される―によって量子化される。終了インデックスの可能な値の範囲が、N個の部分に分けられる。各部分における最小値が、その部分の代表値として選択される。
したがって、終了インデックスのコードブックのために消費されるビット数は、固定されるという利点もある。しかし、代表値は、終了インデックスの可能な値の範囲に従って適応的に決定される―ということは、異なるシナリオに対して終了インデックスを効率的に量子化できる。
さらに、図16に示すとおり、零ベクトル領域とQ6の両方の指示が同じ指示値を利用する―ただし、零ベクトル領域とQ6を区別するためにもう1ビットが付加される。その他のコードブック指示値はすべて変わらない。
この場合、零ベクトル領域の指示は、頻繁に使用されない、コードブック指示値の一つを使用する。そして、それが零ベクトル領域であるか、元のコードブック指示値であるかを示すために、もう1ビットが使用される。
したがって、一つのコードブック指示値だけが変更され、その他のコードブックはすべて同じままであるという利点がある。この指示値が適切に(コードブック指示値としてあまり頻繁に使用されないものが)選択されるならば、もっと多くのビットが節減可能である。
(実施形態2)
零ベクトル領域がより低い周波数範囲にある場合には、終了インデックスの量子化に代えて、開始インデックス(零ベクトル領域中の先頭ベクトルのインデックス)が量子化される。終了インデックスが復号器側で知られるように、ビットストリームを逆順に並び替える。より多くのビットを節減する方法を利用できるように、開始インデックスの量子化と終了インデックスの量子化の間で節減ビット数を比較することが望ましい。
図17に示すように、零ベクトル領域がより低い周波数範囲にあり、Cb_stepが実施形態1で例示される順方向サーチによって決定されるとすれば、次のようになる。
Figure 0005629319
代表値は下の式によって決定される。
Figure 0005629319
条件によっては、Index_endの量子化値と実際値の間の誤差もまた大きくなる。この例では、次のようになる。
Figure 0005629319
したがって、終了インデックスの代わりに開始インデックスを量子化する方法が提案され、Index_end の値を復号器に知らせるために、一連のコードブック指示値を逆順に並び替える。
図17に示した例については、このようになる。
Figure 0005629319
Figure 0005629319
Figure 0005629319
実施形態1における方法は、Index_startと総ベクトル数によりCb_stepを決定するので、順方向サーチと名付けられる。本実施形態における方法は、Index_endによりCb_stepを決定するので、逆方向サーチと名付けられる。
逆方向サーチ方法を指示するためには1ビット余計に消費されるが(逆方向サーチの指示のためには9ビット、順方向サーチの指示のためには8ビット)、順方向サーチ方法に対比して、逆方向サーチ方法によって節減されるビットは一つ多い。
Figure 0005629319
図18には、従来のスプリット・マルチレート格子VQの指示値表と提案された方法の指示値表が示される。
本発明の方法のコードブック表において、順方向サーチの指示値は変更されない。そして逆方向サーチは、順方向サーチの前に0を一つ追加することによって指示される。零ベクトル領域の前に零ベクトルが存在することはあり得ないので、 この指示値がQ0+順方向サーチ(0+111110)と誤って解釈されることはない。
図19は、逆方向サーチ方法の詳細ステップを示す。逆方向サーチ方法には4つのステップがある。
1)コードブック指示値のリスト中で零ベクトル領域を探索する。
2)零ベクトル領域が特定された後、順方向サーチに対比して節減ビット数を比較する。そしてより多くの節減ビット数を達成する方法が選択される。
3)逆方向サーチを使用すべきことが確認された後、コードブック指示値のリストを逆順に並び替え、主幹の実施形態において順方向サーチとして例示した方法と同様に、Cb_stepが決定される。
4)本発明で提案された方法によって、コードブック指示値のリストを圧縮する 。
復号器側では、コードブック指示値のリストを復元するために3つのステップがある。
1)順方向サーチと同様に、Cb_stepを特定する。
2)符号器側で行なわれた処理と逆の処理によって零ベクトル範囲を拡張する。
3)逆方向サーチが使用されていることを指示値が示す場合、コードブック指示値のリストを逆順に並び替える。
本実施形態では、零ベクトル領域がより低い周波数範囲にある場合に、終了インデックスの量子化の代わりに、開始インデックス(零ベクトル領域中の先頭ベクトルのインデックス)が量子化される。終了インデックスが復号器側で知られるように、ビットストリームを逆順に並び替える。より多くのビットを節減する方法を利用できるように、開始インデックスの量子化と終了インデックスの量子化の間で節減ビット数を比較することが望ましい。したがって、より多くのビット数の節減が達成可能である。
(実施形態3)
実施形態2では、逆順並び替え処理がより多くの演算処理能力を必要とする。本実施形態では、コードブック指示値のリストを逆順に並び替えなくてすむ方法が提案される。
逆方向サーチ方法では、Cb_stepは次の式で計算される。
Figure 0005629319
Figure 0005629319
式43から、零ベクトルの数がIndex_startの値から得られるように、cv/(4−cv) の値を設計することができる。
係数のセットが、一例として、次ように定義され得る。
Figure 0005629319
本実施形態では、ビットストリームを逆順に並び替える代わりに、零ベクトルの数は、開始インデックスの値のスカラー倍数として量子化される。各スカラー値が当該コードブック中のコードベクトルの一つによって表わされるように、スカラー値を予め学習させておくことが望ましい。本実施形態には、ビットストリームを逆順に並び替えることを避けることができ、複雑さが減少されるという利点がある。
(実施形態4)
本実施形態では、Index_endの可能な値の範囲に従って、消費ビット数を削減することができる。
図20は、零ベクトル領域の表現に必要な総ビット数が、常に8ビットではなく、6または7または8ビットになり得る、新しい指示値表を示す。
図21は、零ベクトル領域をもつ入力スペクトルについての、いくつかの条件を例示する。Minとして示されるIndex_endの最小可能値は、次のとおりである。
Figure 0005629319
Maxとして示されるIndex_endの最大可能値は、次のとおりである。
Figure 0005629319
つまり、Index_endの可能な値の範囲は、MinからMaxまである。
Index_endの可能な値の総数としてLengthを定義すると、Lengthの値に従って、4つの異なるケースがある。
Figure 0005629319
Index_end の値は、2ビットのコードブック (4つの代表値をもつ)によって量子化されることになる)。Index_end のすべての可能な値は4つの部分に分けられる。
各部分は一つの代表値によって表わされる。総消費ビット数=6+2=8
本実施形態では、終了インデックスの可能な値の数に従って、コードベクトルを表現するビット数が適応的に決定される―例えば、可能な零ベクトル数の長さが1であれば、零ベクトル数を指示するためのビットは必要ないというように。本実施形態には、さらに多くのビットを節減できるという利点がある。
(実施形態5)
実施形態1における零ベクトル領域の指示方法では、Qn(n36)の場合の各コードブック指示値は、従来の方法に対比して1ビット余分に消費する。入力信号がQn(n36)によって量子化されるM個のベクトルをもち、 零ベクトル領域がないとすれば、従来の方法に対比してM個の余分なビットがコードブック指示で浪費される。
本実施形態では、より効率のよい零ベクトル領域指示方法が提案される。
図22に示すように、本実施形態では、二つの指示表が使用される。表1は従来の指示表であり、表2は実施形態1における零ベクトル領域指示表である。たとえ入力信号がQn(n36)によって量子化されるM(M>1)個のベクトルをもち、零ベクトル領域がないとしても、従来の方法に対比して浪費される最大ビット数が1ビットだけになるように、どちらの表がスペクトル全体に使用されるかを示すために1ビットが消費される。
図23では、入力フレームは3つのケースに分類される。
Figure 0005629319
表1が使用され、Q5よりも上位のコードブックを使用する最初のベクトルに対して指示が行なわれる。
本実施形態における零ベクトル領域指示には、二つの指示値表が使用される。零ベクトル領域をもたないフレームについては、従来の表が使用される。
零ベクトル領域をもつフレームについては、零ベクトル領域指示表が使用される。必要な場合には、どちらの表が使用されるのかを示すために1ビットが消費される。本実施形態では、零ベクトル領域が存在しないフレームの場合により上位のコードブックを指示するために浪費されるビット数が、1ビットに制限される。
(実施形態6)
最後のベクトルまでの零ベクトル領域をもつフレームについては、特別な指示値が使用される。それによって、Cb_stepに起因する零ベクトル数の誤差を回避できる。
指示値表が図24に示される。最後のベクトルまでの零ベクトル領域をもつフレームについては、それを示すために指示値00111110が使用される。そしてIndex_endの値を指示するために必要なビット数の追加はない。
本実施形態では、最後のベクトルまでの零ベクトル領域をもつフレームについては、終了インデックスの量子化誤差を回避できるように特別な指示値が使用される。したがって、最後のベクトルまでの零ベクトル領域をもつフレームの場合により多くのビット数節減が可能であるという利点がある。
(実施形態7)
本実施形態の特徴は、本発明による方法がTCXコーデックに適用されることである。
提案された構想を図25に例示する。
図25に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してLPC分析が行なわれる(2501)。LPC分析から生じた個々のLPC係数が量子化され(2502)、量子化インデックスが多重化されて(2509)、復号器側へ送信される。逆量子化モジュール(2503)からの量子化されたLPC係数を用いて、入力信号S(n)に対してLPC逆フィルタリングをかけることによって残差(励起)信号S(n)が得られる(2504)。
離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(2505)を用いて、残差信号S(n)は周波数領域の信号S(f)に変換される。
スプリット・マルチレート格子ベクトル量子化が、周波数領域の信号S(f)に対して適用される(2506)。
スプリット・マルチレート格子ベクトル量子化は、グローバル利得の量子化インデックス、コードブック指示値及びコードベクトル・インデックスという、量子化パラメータの3つのセットをもつ。
コードブック指示値は、スペクトル・クラスター分析(2507)へ送られる。スペクトルの低密度状態の情報が、スペクトル・クラスター分析によって抽出され、この情報が上記コードブック指示値をコードブック指示値の別のセットに変換するために使用される(2508)。
グローバル利得インデックス、コードベクトル・インデックス及び新しいコードブック指示値が多重化されて(2509)、復号器側へ送信される。
図25に例示した復号器では、最初に、すべてのビットストリーム情報が(2510)において多重分離される。
新コードブック指示値は、元のコードブック指示値を復号するために使用される(2511)。グローバル利得インデックス、コードベクトル・インデックス及び元のコードブック指示値は、スプリット・マルチレート格子ベクトル逆量子化法(2512)によって、復号された周波数領域の信号S (f)を復元するように逆量子化される。
復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(2530)を用いて、時間領域へ戻すように変換される。
逆量子化モジュール(2514)からの逆量子化されたLPCパラメータを用いて、復号された時間領域の残差信号S (n)はLPC合成フィルタ(212)によって処理されて、復号された時間領域の信号S(n)を得る。
(実施形態8)
本実施形態の特徴は、スペクトル・クラスター分析法がCELPと変換符号化の階層的符号化(階層符号化、エンベディッド符号化)に適用されることである。
図26に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してCELP符号化が行なわれる(2601)。CELPパラメータを用いて、CELPローカル復号器(2602)によって合成信号Ssyn(n)が復元され、CELPパラメータは多重化されて(2607)、復号器側へ送信される。予測誤差信号S(n)(入力信号と合成信号の差)が、入力信号から合成信号を引き算することによって得られる。
離散フーリエ変換 (DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換方式(2603)を用いて、予測誤差信号S(n)は周波数領域の信号S(f)に変換される。
スプリット・マルチレート格子ベクトル量子化が、周波数領域の信号S(f)に対して適用される(2604)。
スプリット・マルチレート格子ベクトル量子化は、グローバル利得の量子化インデックスと、コードブック指示値とコードベクトル・インデックスという、量子化パラメータの3つのセットをもつ。
コードブック指示値は、スペクトル・クラスター分析(2605)へ送られる。スペクトルの低密度状態の情報が、スペクトル・クラスター分析によって抽出され、この情報が上記コードブック指示値をコードブック指示値の別のセットに変換するために使用される(2606)。
グローバル利得インデックス、コードベクトル・インデックス及び新しいコードブック指示値が多重化されて(2607)、復号器側へ送信される。
図26に例示した復号器では、最初に、すべてのビットストリーム情報が(2608)において多重分離される。
新コードブック指示値は、元のコードブック指示値を復号するために使用される(2609)。グローバル利得インデックス、コードベクトル・インデックス及び元のコードブック指示値は、スプリット・マルチレート格子ベクトル逆量子化法(2610)によって、復号された周波数領域の信号S (f)を復元するように逆量子化される。
復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(2611)を用いて、時間領域へ戻すように変換される。
CELPパラメータを用いて、CELP復号器は合成信号Ssyn(n)を復元し(2612)、復号された時間領域の信号S(n)が、CELP合成信号Ssyn(n)と復号された予測誤差信号S (n)を加算することによって復元される。
(実施形態9)
本実施形態では、図27に示すように、スペクトル・クラスター分析法が適応利得量子化法と組み合わされる。
符号化及び復号処理は、グローバル利得のインデックスまたはグローバル利得自体がスプリット・マルチレートから適応利得量子化ブロック(2706)へ送られる以外は、実施形態8とほとんど同じである。グローバル利得を直接量子化するのではなく、適応利得量子化法は、グローバル利得がより小さな範囲でより効率よく量子化され得るように、合成信号と、スプリット・マルチレート格子ベクトル量子化によって量子化されるコーディング・エラー信号との関連性を利用する。
AVQ利得量子化を実現するためには二つの方法がある
<方法1>
ステップ1:合成信号Ssyn(f)の最大絶対値syn_maxを探索する。
ステップ2:AVQ利得/syn_maxの比を計算する。
ステップ3:狭められた範囲内でAVQ利得/syn_maxの比を量子化する(いろいろな信号系列を使用して、狭められた範囲を予め学習させておくことが望ましい)。
<方法2>
ステップ1:合成信号Ssyn(f)の最大絶対値syn_maxを探索する。
ステップ2:インデックス=Index1として、AVQ利得を量子化する。
ステップ3:インデックス=Index2として、syn_maxを量子化する。
ステップ4:狭められた範囲内でIndex2−index1を送信する(いろいろな信号系列を使用して、狭められた範囲を予め学習させておくことが望ましい)。
CELPコア・ コーデックが多様なビットレートをもつ場合には、CELP符号器の多様なビットレートに対応する多様な狭められた範囲を設計することが望ましい。図28に示すように、CELP符号器のビットレートがより高くなるほど、元の信号に対比してエラー信号がより小さくなり、合成信号は元の信号により近づくため、エラー信号と合成信号との比はより小さくなる。つまり、上記の比のサーチ範囲が、より小さい範囲へ偏ることになる。
本実施形態では、適応グローバル利得量子化法が取り入れられる。この方法は、以下のステップからなる。
1)CELP合成信号Ssyn(f)の振幅情報を抽出する。
2)抽出された振幅情報に従って、グローバル利得のサーチ範囲を狭める。
3)狭められた範囲内で利得を量子化する。
利得のサーチ範囲が狭められるから、利得の量子化のために必要なビット数がより少なくてすむ。
(実施形態10)
本実施形態の特徴は、スペクトル・クラスター分析法により節減されたビットが、量子化されたベクトルの利得精密度を向上させるために利用されることである。
図29は、スペクトルをより小さな帯域に分割し、各帯域に「利得補正係数」を付与することによって、グローバル利得により細かな分解を与えるために、節減されたビットを利用する符号器と復号器を具備する、本発明によるコーデックを例示する。
符号化及び復号処理は、実施形態1において提案された方法により節減されたビットが、グローバル利得に対して適応ベクトル利得補正をかける(2906)ことによって利得精密度を向上させるために利用される以外は、実施形態1の場合とほとんど同じである。
適応ベクトル利得補正は、スペクトル・クラスター分析法により節減されたビット数に応じて利得を補正するように設計される。節減されたビットがごく少ない場合には、スペクトルはより少数のサブバンドに分割され、サブバンド当りに一つの利得補正係数が算出される。一方、節減されたビットがかなり多い場合には、スペクトルはより多数のサブバンドに分割され、サブバンド当りに一つの利得補正係数が算出される。MからNまでインデックス付けされている個々の係数(係数列)をもつサブバンド当りの利得補正係数は、下の式で計算可能である。
Figure 0005629319
得られた個々の利得補正係数は多重化されて(2907)、復号器側へ送信される。
復号器側では、上記の利得補正係数が、下の式に従って、復号されたスペクトルS(f)を補正する(2911)ために使用される。
Figure 0005629319
利得補正されたスペクトルS’(f)は、復号された時間領域の信号S(n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換方式(2912)を用いて、時間領域へ戻すように変換される。
本実施形態では、スペクトル・クラスター分析から節減されたビットが、スペクトルをより小さな帯域に分割し、各帯域に「利得補正係数」を付与することによって、グローバル利得により細かな分解を与えるために利用される。利得補正係数を送信するように、節減されたビットを利用することによって、量子化性能の向上が可能になり、音質の向上が可能になる。
スペクトル・クラスター分析法は、ステレオまたはマルチチャネル信号の符号化に適用可能である。例えば、本発明による方法は副信号の符号化に適用され、節減されたビットは主信号の符号化に利用される。これは、主信号は副信号よりも知覚的により重要であるから、主観的な質の向上をもたらすことになろう。
さらに、スペクトル・クラスター分析(SCA)法は、複数フレーム単位で(または複数サブフレーム単位で)スペクトル係数列を符号化するコーデックに適用可能である。この適用では、次の符号化段階でのスペクトル係数列または何らか他のパラメータ列を符号化するために、SCAによって節減されたビットを蓄積して利用することができる。
さらに、フレーム損失状況において音質を維持できるように、スペクトル・クラスター分析から節減されたビットをFEC(フレーム消失隠蔽)に利用できる。
上述の実施形態のすべては、スプリット・マルチレート格子ベクトル量子化を使用するものとして説明されているが、本発明はスプリット・マルチレート格子ベクトル量子化の使用に限定されず、その他のスペクトル係数コーディング手法に適用可能である。当業者は、本発明の精神から逸脱しない範囲で本発明を修正し、適応させることができるであろう。
また、上述の実施形態の復号装置は、上述の実施形態の符号化装置から出力された符号化情報を使用する処理を実行するが、本発明はこれに限定されず、符号化情報が上記符号化装置から送信されていない場合にも、当該符号化データが必要なパラメータ及びデータを含む限り、復号装置は処理を実行できる。
また、本発明による符号化装置及び復号装置は、移動通信システム中の通信端末装置及び基地局装置に搭載可能であり、それにより、上述した効果と同じ動作効果を有する通信端末装置、基地局装置及び移動通信システムを提供することができる。
本発明がハードウェアにより実現される上述の実施形態により実施例を説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現可能である。
また、本発明は、単一の処理プログラムが、メモリー、ディスク、テープ、CD、及びDVDなどの機械的に読出し可能な記録媒体に記録後または書込み後に実働されるケースにも適用可能であり、それにより、ここで述べた実施形態と同じ動作及び効果を提供することができる。
さらに、上述の各実施形態の記述において使用された各機能ブロックは、集積回路によって構成されたLSIとして、典型的に実現可能である。LSIは、個別のチップであることも、あるいは部分的にまたは完全に単一チップ上に含まれることも可能である。「LSI」がここでは採用されるが、集積化の様々な程度に応じて、これを「IC」、「システムLSI」、「超LSI」または「極超LSI」と言うこともできる。
さらに、回路集積化の方法はLSIに限定されず、専用回路または汎用プロセッサを使用する実現も可能である。LSIの製造後に、LSI中の回路セルの接続と設定が再構成可能である、FPGA(フィールド・プログラマブル・ゲート・アレイ)または再構成可能なプロセッサの利用も可能である。
さらに、半導体技術または派生的なその他の技術の進歩の結果、LSIに取って代わる集積回路技術が出現するならば、この技術を利用して機能ブロックの集積化を行なうことも当然可能である。バイオテクノロジーの応用も可能である。
2010年7月6日出願の特願2010−154232の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明による符号化装置、復号装置並びに符号化及び復号方法は、移動通信システム中の無線通信端末装置や基地局装置、さらに遠隔会議端末装置、ビデオ会議端末装置及びボイス・オーバー・インターネット・プロトコル(VOIP)端末装置に適用可能である。

Claims (12)

  1. 入力信号のスペクトルを複数のサブバンドに分割する帯域分割部と、
    各サブバンド中の個々のスペクトル係数を量子化するベクトル量子化部と、
    ベクトル量子化によって生成されたサブバンドの一連の指示値を分析することによって、前記スペクトルを零ベクトル領域と非零ベクトル領域に分割するスペクトル分析部と、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換するパラメータ符号化部と、
    を具備し、
    前記パラメータ符号化部が、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換する第1のパラメータ符号化部と、
    前記一連の指示値を逆順に並び替える逆順並び替え部と、
    零ベクトル各々の逆順に並び替えられた一連の指示値を変換する第2のパラメータ符号化部と、
    前記第1のパラメータ符号化部と前記第2のパラメータ符号化部のうちで、より少ないビット数を消費する符号化部を選択する選択部と、
    を具備するパラメータ符号化部に置き換えられた、
    ーディオ/音声符号化装置。
  2. 入力信号のスペクトルを複数のサブバンドに分割する帯域分割部と、
    各サブバンド中の個々のスペクトル係数を量子化するベクトル量子化部と、
    ベクトル量子化によって生成されたサブバンドの一連の指示値を分析することによって、前記スペクトルを零ベクトル領域と非零ベクトル領域に分割するスペクトル分析部と、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換するパラメータ符号化部と、
    を具備し、
    前記パラメータ符号化部が、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値と、その零ベクトル領域の終了位置を示すパラメータに変換する第1のパラメータ符号化部と、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値と予め決められたスカラー値のうちの一つに開始インデックスの値を掛けることによってその零ベクトル領域中の零ベクトルの数を示すパラメータに変換する第2のパラメータ符号化部と、
    前記第1のパラメータ符号化部と前記第2のパラメータ符号化部のうちで、より少ないビット数を消費する符号化部を選択する選択部と、
    を具備するパラメータ符号化部に置き換えられた、
    ーディオ/音声符号化装置。
  3. 前記零ベクトル領域中の零ベクトル各々の一連の指示値の前記変換により節減されたビットは、前記スペクトルをサブバンド分割し、少なくとも一つのサブバンドに利得補正係数を付与することによって、グローバル利得により細かな分解を与えるために利用される、
    請求項1又は2に記載のオーディオ/音声符号化装置。
  4. 前記オーディオ/音声符号化装置は、ステレオまたはマルチチャネル入力信号の一つのチャネルまたは複数のチャネルの符号化に適用される、
    請求項1又は2に記載のオーディオ/音声符号化装置。
  5. 前記オーディオ/音声符号化装置は、複数フレーム単位または複数サブフレーム単位でスペクトル係数列を符号化する符号器に適用される、
    請求項1又は2に記載のオーディオ/音声符号化装置。
  6. 前記零ベクトル領域中の零ベクトル各々の一連の指示値の前記変換により節減されたビットは、フレーム消失隠蔽パラメータの符号化に利用される、
    請求項1又は2に記載のオーディオ/音声符号化装置。
  7. 零ベクトル領域の指示値を復号する指示値復号部と、
    その零ベクトル領域の終了位置を示すパラメータを復号する終了位置復号部と、
    零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換するパラメータ変換部と、
    各サブバンド中の個々のスペクトル係数を逆量子化するベクトル逆量子化部と、
    出力信号を生成するために、前記逆量子化されたスペクトル係数を時間領域へ変換する周波数−時間領域変換部と、
    を具備し、
    オーディオ/音声符号化装置において前記零ベクトル領域中の零ベクトル各々の一連の指示値が逆順に並び替えられているか否かを示す選択情報を復号する選択パラメータ復号部と、
    前記選択情報が前記オーディオ/音声符号化装置での逆順並び替え処理を示す場合は、前記一連の指示値を逆順に並び替える逆順並び替え部と、
    をさらに具備する、
    ーディオ/音声復号装置。
  8. 零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換する第1のパラメータ変換部と、
    零ベクトル領域の指示値と予め決められたスカラー値のうちの一つに開始インデックスの値を掛けることによってその零ベクトル領域中の零ベクトルの数を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換する第2のパラメータ変換部と、
    前記第1のパラメータ変換部または前記第2のパラメータ変換部のどちらが適用されるかを示す選択情報を復号する選択パラメータ復号部と、
    をさらに具備する、
    請求項に記載のオーディオ/音声復号装置。
  9. 前記復号されたスペクトルは、
    復号されたスペクトルをある数のサブバンドに分割する帯域分割部と、
    復号されたスペクトルを利得補正係数によってスケーリングする利得補正部と、
    によりさらに処理される、
    請求項に記載のオーディオ/音声復号装置。
  10. 入力信号のスペクトルを複数のサブバンドに分割する帯域分割ステップと、
    各サブバンド中の個々のスペクトル係数を量子化するベクトル量子化ステップと、
    ベクトル量子化によって生成されたサブバンドの一連の指示値を分析することによって、前記スペクトルを零ベクトル領域と非零ベクトル領域に分割するスペクトル分析ステップと、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換するパラメータ符号化ステップと、
    を含み、
    前記パラメータ符号化ステップが、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換する第1のパラメータ符号化ステップと、
    前記一連の指示値を逆順に並び替える逆順並び替えステップと、
    零ベクトル各々の逆順に並び替えられた一連の指示値を変換する第2のパラメータ符号化ステップと、
    前記第1のパラメータ符号化ステップと前記第2のパラメータ符号化ステップのうちで、より少ないビット数を消費する符号化ステップを選択する選択ステップと、
    を含むパラメータ符号化ステップに置き換えられた、
    ーディオ/音声符号化方法。
  11. 入力信号のスペクトルを複数のサブバンドに分割する帯域分割ステップと、
    各サブバンド中の個々のスペクトル係数を量子化するベクトル量子化ステップと、
    ベクトル量子化によって生成されたサブバンドの一連の指示値を分析することによって、前記スペクトルを零ベクトル領域と非零ベクトル領域に分割するスペクトル分析ステップと、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換するパラメータ符号化ステップと、
    を含み、
    前記パラメータ符号化ステップが、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値と、その零ベクトル領域の終了位置を示すパラメータに変換する第1のパラメータ符号化ステップと、
    前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値と予め決められたスカラー値のうちの一つに開始インデックスの値を掛けることによってその零ベクトル領域中の零ベクトルの数を示すパラメータに変換する第2のパラメータ符号化ステップと、
    前記第1のパラメータ符号化ステップと前記第2のパラメータ符号化ステップのうちで、より少ないビット数を消費する符号化ステップを選択する選択ステップと、
    を含むパラメータ符号化ステップに置き換えられた、
    オーディオ/音声符号化方法。
  12. 零ベクトル領域の指示値を復号する指示値復号ステップと、
    その零ベクトル領域の終了位置を示すパラメータを復号する終了位置復号ステップと、
    零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換するパラメータ変換ステップと、
    各サブバンド中の個々のスペクトル係数を逆量子化するベクトル逆量子化ステップと、 出力信号を生成するために、前記逆量子化されたスペクトル係数を時間領域へ変換する周波数−時間領域変換ステップと、
    を含み、
    オーディオ/音声符号化装置において前記零ベクトル領域中の零ベクトル各々の一連の指示値が逆順に並び替えられているか否かを示す選択情報を復号する選択パラメータ復号ステップと、
    前記選択情報が前記オーディオ/音声符号化装置での逆順並び替え処理を示す場合は、前記一連の指示値を逆順に並び替える逆順並び替えステップと、
    をさら含む、
    ーディオ/音声復号方法。
JP2012523770A 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 Active JP5629319B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012523770A JP5629319B2 (ja) 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010154232 2010-07-06
JP2010154232 2010-07-06
JP2012523770A JP5629319B2 (ja) 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
PCT/JP2011/003884 WO2012004998A1 (ja) 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法

Publications (2)

Publication Number Publication Date
JPWO2012004998A1 JPWO2012004998A1 (ja) 2013-09-02
JP5629319B2 true JP5629319B2 (ja) 2014-11-19

Family

ID=45440987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012523770A Active JP5629319B2 (ja) 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法

Country Status (4)

Country Link
US (1) US9240192B2 (ja)
JP (1) JP5629319B2 (ja)
TW (1) TW201209805A (ja)
WO (1) WO2012004998A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118476A1 (ja) * 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
JP5738480B2 (ja) * 2012-04-02 2015-06-24 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置及びプログラム
KR101661917B1 (ko) * 2012-05-30 2016-10-05 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
CN106507111B (zh) * 2016-11-17 2019-11-15 上海兆芯集成电路有限公司 使用残差补偿的视频编码方法以及使用该方法的装置
CN110503977A (zh) * 2019-07-12 2019-11-26 国网上海市电力公司 一种变电站设备音频信号采集分析系统
US11575896B2 (en) * 2019-12-16 2023-02-07 Panasonic Intellectual Property Corporation Of America Encoder, decoder, encoding method, and decoding method
CN113206673B (zh) * 2021-05-24 2024-04-02 上海海事大学 用于网络化控制系统信号量化的差分缩放方法及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004120623A (ja) * 2002-09-27 2004-04-15 Ntt Docomo Inc 符号化装置、符号化方法、復号装置及び復号方法
JP2009153157A (ja) * 2006-02-17 2009-07-09 Fr Telecom 置換符号による特にベクトル量子化におけるディジタル信号の符号化/復号化の改善

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
CN102682775B (zh) * 2006-11-10 2014-10-08 松下电器(美国)知识产权公司 参数解码方法及参数解码装置
CN101842832B (zh) 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004120623A (ja) * 2002-09-27 2004-04-15 Ntt Docomo Inc 符号化装置、符号化方法、復号装置及び復号方法
JP2009153157A (ja) * 2006-02-17 2009-07-09 Fr Telecom 置換符号による特にベクトル量子化におけるディジタル信号の符号化/復号化の改善

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JPN6011039649; M.XIE et al.: ''Embedded algebraic vector quantizers (EAVQ) with application to wideband speech coding'' Proceedings of the 1996 IEEE International Conference on Acoustics, Speech and Signal Processing Vol.I, 199605, p.240-243 *
JPN6011039651; S.RAGOT et al.: ''Low-complexity multi-rate lattice vector quantization with application to wideband TCX speech codin' Proceedings of the 2004 IEEE International Conference on Acoustics, Speech and Signal Processing Vol.I, 200405, p.501-504 *
JPN6011039652; Saikat Chatterjee, T VSreenivas: 'Sequential Split Vector Quantization of LSF Parameters using Conditional Pdf' Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on , 200704, p.IV-1101 - IV-1104, IEEE *
JPN6011039654; Woo-Jin Han, Eun-Kyoung Kim, Yung-Hwan Oh: 'Multicodebook split vector quantization of LSF parameters' Signal Processing Letters, IEEE , 200212, p.418-421, IEEE *
JPN6011039656; Tong Shi, John Kieffer: 'On the use of splitting vectors with zero components for constrained encoder design' Communications, 1996. ICC 96, Conference Record, Converging Technologies for Tomorrow's Applications , 199607, p.1542-1544, IEEE *

Also Published As

Publication number Publication date
JPWO2012004998A1 (ja) 2013-09-02
US9240192B2 (en) 2016-01-19
TW201209805A (en) 2012-03-01
US20130103394A1 (en) 2013-04-25
WO2012004998A1 (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
US8527265B2 (en) Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
KR101238239B1 (ko) 인코더
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
MX2015004022A (es) Aparato y metodo para codificar y decodificador una señal de audio codificada utilizando modelado de ruido temporal/de parche.
JP6027538B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
WO2013118476A1 (ja) 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
WO2013168414A1 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
JP2012518194A (ja) 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US20100268542A1 (en) Apparatus and method of audio encoding and decoding based on variable bit rate
JP5730860B2 (ja) 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
JP5863765B2 (ja) 符号化方法および装置、そして、復号化方法および装置
US20100292986A1 (en) encoder
WO2009022193A2 (en) Devices, methods and computer program products for audio signal coding and decoding
US20100280830A1 (en) Decoder
KR102148407B1 (ko) 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
US20090006081A1 (en) Method, medium and apparatus for encoding and/or decoding signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131220

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141003

R150 Certificate of patent or registration of utility model

Ref document number: 5629319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250