JP5190445B2 - 符号化装置および符号化方法 - Google Patents

符号化装置および符号化方法 Download PDF

Info

Publication number
JP5190445B2
JP5190445B2 JP2009502454A JP2009502454A JP5190445B2 JP 5190445 B2 JP5190445 B2 JP 5190445B2 JP 2009502454 A JP2009502454 A JP 2009502454A JP 2009502454 A JP2009502454 A JP 2009502454A JP 5190445 B2 JP5190445 B2 JP 5190445B2
Authority
JP
Japan
Prior art keywords
encoding
search
pulse
gain
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009502454A
Other languages
English (en)
Other versions
JPWO2008108076A1 (ja
Inventor
利幸 森井
正浩 押切
智史 山梨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009502454A priority Critical patent/JP5190445B2/ja
Publication of JPWO2008108076A1 publication Critical patent/JPWO2008108076A1/ja
Application granted granted Critical
Publication of JP5190445B2 publication Critical patent/JP5190445B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声信号やオーディオ信号を符号化する符号化装置および符号化方法に関する。
移動体通信においては、電波などの伝送路容量や記憶媒体の有効利用を図るため、音声や画像のディジタル情報に対して圧縮符号化を行うことが必須であり、これまでに多くの符号化/復号方式が開発されてきた。
その中で、音声符号化技術は、音声の発声機構をモデル化してベクトル量子化を巧みに応用した基本方式「CELP」(Code Excited Linear Prediction)によって性能が大きく向上した。また、オーディオ符号化等の楽音符号化技術は、変換符号化技術(MPEG標準ACCやMP3等)により性能が大きく向上した。
一方、ITU−T(International Telecommunication Union - Telecommunication Standardization Sector)などで標準化が進んでいるスケーラブルコーデックでは、従来の音声帯域(300Hz〜3.4kHz)から広帯域(〜7kHz)までをカバーする仕様になっており、ビットレートも32kbps程度と高レートまで設定されている。したがって、広帯域のコーデックでは音楽もある程度符号化しなくてはならないので、CELPの様な、人間の発声モデルに基づいた、従来の低ビットレート音声符号化法だけでは対応できない。そこで、先に勧告化されたITU−T標準G.729.1では、広帯域以上の音声の符号化にはオーディオコーデックの符号化方式である変換符号化を用いている。
特許文献1には、スペクトルパラメータとピッチパラメータを用いる符号化方式において、スペクトルパラメータで音声信号に逆フィルタを掛けることによって得られる信号を直交変換して符号化すること、および、その符号化の例として代数的構造の符号帳によって符号化する方法が示されている。
また、特許文献2には、線形予測パラメータと残差成分に分離して行う符号化方式であって、残差成分を直交変換し、そのパワで残差波形を正規化した後、ゲインの量子化と正規化残差の量子化を行うことが開示されている。また、特許文献2では、正規化残差の量子化方法としてベクトル量子化が挙げられている。
また、非特許文献1には、TCX(変換符号化された駆動音源とスペクトルパラメータのフィルタリングでモデル化した符号化の基本方式)において、音源スペクトルを改良した代数的符号帳で符号化する方法が開示され、この方法はITU−T標準G.729.1に採用されている。
また、非特許文献2には、MPEG標準方式「TC−WVQ」の記載がある。この方式も、直交変換方法としてDCT(離散コサイン変換)を用いて、線形予測残差を変換しスペクトルをベクトル量子化するものである。
上記4つの先行技術等によって、音声信号の有効な符号化要素技術である線形予測パラメータのようなスペクトルパラメータの量子化を符号化に使用することができ、オーディオ符号化の効率化や低レート化を実現することができるようになった。
特開平10−260698号公報 特開平07−261800号公報 Xie,Adoul,"EMBEDDED ALGEBRAIC VECTOR QUANTIZERS(EAVQ) WITH APPLICATION TO WIDEBAND SPEECH CODING "ICASSP’96 Moriya,Honda,"Transform Coding of Speech Using a Weighted Vector Quantizer"IEEE journal on selected areas in communications, Vol.6, No.2, February 1988
しかしながら、特にスケーラブルコーデックの比較的低い階層では、割り当てられるビット数が少ないため、音源の変換符号化の性能は十分ではなかった。例えば、ITU−T標準G.729.1では電話帯域(300Hz〜3.4kHz)の第2階層までで12kbpsのビットレートがあるが、次の広帯域(50Hz〜7kHz)を扱う第3階層には2kbpsの割り当てしかない。このように情報ビットが少ない場合には、直交変換で得られたスペクトルを、符号帳を用いたベクトル量子化で符号化する方法では聴感的に十分な性能を得ることができない。
本発明の目的は、情報ビットが少ない場合であっても聴感的に良好な音質を得ることができる符号化装置および符号化方法を提供することである。
本発明の符号化装置は、周波数スペクトルのシェイプを符号化するシェイプ量子化手段と、前記周波数スペクトルのゲインを符号化するゲイン量子化手段と、を具備し、前記シェイプ量子化手段は、所定の探索区間を複数に区切ったバンド毎に第1の固定波形を探索する区間探索手段と、前記所定の探索区間全体に渡って第2の固定波形を探索する全体探索手段と、を具備する、構成を採る。
本発明の符号化方法は、周波数スペクトルのシェイプを符号化するシェイプ量子化工程と、前記周波数スペクトルのゲインを符号化するゲイン量子化工程と、を具備し、前記シェイプ量子化工程は、所定の探索区間を複数に区切ったバンド毎に第1の固定波形を探索する区間探索工程と、前記所定の探索区間全体に渡って第2の固定波形を探索する全体探索工程と、を具備する、方法を採る。
本発明によれば、エネルギが存在する周波数(位置)を正確に符号化することができるので、スペクトル符号化に特有の定性的な性能の向上を図ることができ、低ビットレートの場合でも良好な音質を得ることができる。
CELP方式等の音声信号の符号化では、音声信号は音源と合成フィルタで表されることが多く、時系列ベクトルである音源信号がその信号に似た形状のベクトルを復号することができれば、合成フィルタで入力音声に近い波形を得ることができ、聴感的にも良好な音質を得ることができる。これは、CELPで用いられる代数的符号帳の成功にも繋がっている定性的な性質である。
一方、周波数スペクトル(ベクトル)の符号化では、合成フィルタの成分はスペクトルゲインとなるので、そのゲインの歪よりもパワの大きい成分の周波数(位置)の歪に大きな重みがある。すなわち、入力スペクトルに似た形状のベクトルを復号するよりも、高いエネルギのある位置を正確に探索し、当該エネルギのある位置のパルスを復号することの方が、聴感的に良好な音質を得ることに繋がる。
本発明者は、この点に着目し本発明をするに至った。すなわち、本発明では、周波数スペクトルを少数のパルスで符号化するモデルとし、符号化する音声信号(時系列ベクトル)を直交変換で周波数領域に変換し、符号化対象の周波数区間を複数のバンドに分け、各バンドそれぞれに1パルス、更に符号化対象の周波数区間全体で数パルスを探索する。
また、本発明では、シェイプ(形状)の量子化とゲイン(大きさ)の量子化とに分け、シェイプの量子化では、理想ゲインを仮定して振幅は「1」で極性(+−)のパルスを開ループ探索し、特に、符号化対象の周波数区間全体での探索では、同じ場所に2つパルスを立てないようにし、パルス位置の伝送情報として複数パルスの位置の組み合わせを符号化できるようにする。
以下、本発明の一実施の形態について、図面を用いて説明する。
図1は、本実施の形態に係る音声符号化装置の構成を示すブロック図である。図1に示す音声符号化装置は、LPC分析部101、LPC量子化部102、逆フィルタ103、直交変換部104、スペクトル符号化部105、および多重化部106を備える。スペクトル符号化部105は、シェイプ量子化部111およびゲイン量子化部112を備える。
LPC分析部101は、入力音声信号に対して線形予測分析を行い、分析結果であるスペクトル包絡パラメータをLPC量子化部102に出力する。LPC量子化部102は、LPC分析部101から出力されたスペクトル包絡パラメータ(LPC:線形予測係数)の量子化処理を行い、量子化LPCを表す符号を多重化部106に出力する。また、LPC量子化部102は、量子化LPCを表す符号を復号して得られる復号パラメータを逆フィルタ103に出力する。なお、パラメータの量子化では、ベクトル量子化(VQ)、予測量子化、多段VQ、スプリットVQ等の形態が用いられる。
逆フィルタ103は、復号パラメータを用いて入力音声に対して逆フィルタを掛け、得られた残差成分を直交変換部104に出力する。
直交変換部104は、残差成分にサイン窓等の整合窓を掛け、MDCTを用いて直交変換を行い、周波数軸に変換されたスペクトル(以下、「入力スペクトル」という)をスペクトル符号化部105に出力する。なお、直交変換には他にFFT、KLT、ウェーブレット変換等があり、使用方法は異なるがどれを用いても入力スペクトルへの変換ができる。
なお、逆フィルタ103と直交変換部104はその処理順を逆にする場合もある。すなわち、入力音声を直交変換したものに対して逆フィルタの周波数スペクトルで商算(対数軸で減算)を行えば同様の入力スペクトルが得られる。
スペクトル符号化部105は、入力スペクトルを、スペクトルのシェイプとゲインに分けて量子化し、得られた量子化符号を多重化部106に出力する。シェイプ量子化部111は、入力スペクトルのシェイプを少数のパルスの位置、極性で量子化し、ゲイン量子化部112は、シェイプ量子化部111によって探索されたパルスのゲインをバンド毎に算出して量子化する。なお、シェイプ量子化部111、ゲイン量子化部112の詳細については後述する。
多重化部106は、LPC量子化部102から量子化LPCを表す符号を入力し、スペクトル符号化部105から量子化入力スペクトルを表す符号を入力し、これらの情報を多重化して符号化情報として伝送路へ出力する。
図2は、本実施の形態に係る音声復号装置の構成を示すブロック図である。図2に示す音声復号装置は、分離部201、パラメータ復号部202、スペクトル復号部203、直交変換部204、および合成フィルタ205を備える。
図2において、符号化情報は、分離部201によって個々の符号に分離される。量子化LPCを表す符号はパラメータ復号部202に出力され、入力スペクトルの符号はスペクトル復号部203に出力される。
パラメータ復号部202は、スペクトル包絡パラメータの復号を行い、復号によって得られた復号パラメータを合成フィルタ205に出力する。
スペクトル復号部203は、図1に示したスペクトル符号化部105の符号化方法に対応する方法によってシェイプベクトルおよびゲインを復号し、復号したシェイプベクトルに復号ゲインを乗ずることによって復号スペクトルを得、復号スペクトルを直交変換部204に出力する。
直交変換部204は、スペクトル復号部203から出力された復号スペクトルに対して図1に示した直交変換部104の逆の変換を行い、変換によって得られた時系列の復号残差信号を合成フィルタ205に出力する。
合成フィルタ205は、パラメータ復号部202から出力された復号パラメータを用いて、直交変換部204から出力された復号残差信号に対して合成フィルタを掛け、出力音声を得る。
なお、図1の逆フィルタ103と直交変換部104の処理順を逆にする場合、図2の音声復号装置では、直交変換をする前に復号パラメータの周波数スペクトルで積算(対数軸で和算)を行い、得られたスペクトルに対して直交変換を行う。
次に、シェイプ量子化部111、ゲイン量子化部112の詳細について説明する。シェイプ量子化部111は、所定の探索区間を複数に区切ったバンド毎にパルスを探索する区間探索部121と、この探索区間全体に渡ってパルスを探索する全体探索部122と、を備える。
探索の基準となる式は以下の式(1)である。なお、式(1)において、Eは符号化歪、sは入力スペクトル、gは最適ゲイン、δはデルタ関数、pはパルスの位置である。
Figure 0005190445
コスト関数を最小にするパルスの位置は、上記式(1)より、各々のバンドの中で入力スペクトルの絶対値|s|が最大になる位置であり、極性は、そのパルスの位置の入力スペクトルの値の極性である。
以下、入力スペクトルのベクトル長が80サンプル、バンド数が5であって、各バンドで1本のパルスと全体で3本のパルスの計8本のパルスでスペクトルを符号化する場合を例に説明する。この場合、各バンドの長さは16サンプルとなる。なお、探索されるパルスの振幅は「1」に固定で、極性は「+−」である。
区間探索部121は、バンド毎に、エネルギが最大の位置、極性(+−)を探索し、1本ずつパルスを立てる。本例では、バンド数が5で、バンド毎に、パルスの位置を示すために4ビット(位置のエントリ:16)、極性を示すために1ビット(+−)必要であるので、合計25ビットの情報ビットとなる。
区間探索部121の探索アルゴリズムのフローを図3に示す。なお、図3のフロー図で用いられる記号の内容は以下の通りである。
i:位置
b:バンドの番号
max:最大値
c:カウンタ
pos[b]:探索結果(位置)
pol[b]:探索結果(極性)
s[i]:入力スペクトル
図3に示すように、区間探索部121は、バンド毎(0≦b≦4)に、各サンプル(0≦c≦15)の入力スペクトルs[i]を計算して、最大値maxを求める。
区間探索部121において探索されたパルスで表現されたスペクトルの例を図4に示す。図4に示すように、バンド幅16サンプルの5つのバンドに、振幅「1」、極性「+−」のパルスが1本ずつ立てられる。
全体探索部122は、探索区間全体に渡って、3本のパルスを立てる位置を探索し、パルスの位置と極性を符号化する。全体探索部122における探索では、少ない情報ビット、少ない計算量で正確な位置を符号化するために以下の4つの条件で探索を行う。
(1)同じ位置に2つ以上のパルスを立てない。本例では、区間探索部121においてバンド毎に立てたパルスの位置にも立てないこととする。この工夫により、振幅成分の表現に情報ビットを使わないので効率的に情報ビットを使用することができる。
(2)パルスを1本ずつ順番に開ループで探索する。探索の途中では、(1)のルールに従い、既に決定されたパルスの位置については探索の対象外とする。
(3)位置の探索では、パルスが立たない方が良い場合も1つの位置として符号化する。(4)ゲインをバンド毎に符号化することを考慮して、バンド毎の理想ゲインによる符号化歪を評価しながらパルスを探索する。
全体探索部122は、入力スペクトル全体に渡って1本のパルスの探索を次の2段階のコスト評価で行う。まず、第1段階として、全体探索部122は、各バンドでのコストを
評価し、最もコスト関数が小さくなる位置と極性を求める。そして、第2段階として、全体探索部122は、上記探索が1つのバンド内を終了する毎に全体のコストを評価し、これが最小になるパルスの位置と極性を最終結果として保存する。この探索を各バンドで順番に行っていく。この探索は、上記(1)ないし(4)の条件に合うように行われる。そして、1本のパルスの探索が終わると、そのパルスが探索位置にあるとして、次のパルスの探索を行う。これを繰り返して所定の本数(本例では、3本)になるまで探索を行う。
全体探索部122の探索アルゴリズムのフローを図5に示す。図5は、前処理のフロー図であり、図6は、本探索のフロー図である。なお、図6のフロー図に、上記(1)(2)(4)の条件に対応する部分について示す。
図5のフロー図で用いられる記号の内容は以下の通りである。
c:カウンタ、
pf[*]:パルス有無フラグ
b:バンドの番号、
pos[*]:検索結果(位置)
n_s[*]:相関値
n_max[*]:相関値最大
n2_s[*]:相関値2乗
n2_max[*]:相関値2乗最大
d_s[*]:パワ値
d_max[*]:パワ値最大
s[*]:入力スペクトル
図6のフロー図で用いられる記号の内容は以下の通りである。
i:パルス番号
i0:パルス位置
cmax:コスト関数の最大値
pf[*]:パルス有無フラグ(0:無、1:有)
ii0:バンド内の相対的パルス位置
nom:スペクトル振幅
nom2:分子項(スペクトルパワ)
den:分母項
n_s[*]:相関値
d_s[*]:パワ値
s[*]:入力ベクトル
n2_s[*]:相関値2乗
n_max[*]:相関値最大
n2_max[*]:相関値2乗最大
idx_max[*]:各パルスの探索された結果(位置)
(なお、idx_max[*]の0〜4までは図3のpos(b)と同一である。)
fd0、fd1、fd2:一時記憶用バッファ(実数型)
id0,id1:一時記憶用バッファ(整数型)
id0_s、id1_s:一時記憶用バッファ(整数型)
>>:ビットシフト(右へシフト)
&:ビット列としてのアンド
なお、図5、図6の探索において、idx_max[*]が「−1」のままである場合が、上記条件(3)のパルスが立たない方が良い場合である。この具体的事象としては、バンド毎に探索したパルスや全範囲で探索したパルスでスペクトルを十分近似できており、
これ以上同じ大きさのパルスを立ててもかえって符号化歪が大きくなってしまう場合などが挙げられる。
探索したパルスの極性は、入力スペクトルのその位置の極性であり、全体探索部122は、この極性を3(本)×1=3ビットで符号化する。なお、位置が「−1」の場合、すなわちパルスが立たない場合には極性はどちらでもよい。ただし、ビット誤りの検出に用いられる場合もあるため、通常どちらかに固定される。
また、全体探索部122は、パルスの位置情報を、パルスの位置の組み合わせの数で符号化する。本例では、入力スペクトルが80サンプルで、バンド毎に5パルスが既に立っているので、パルスを立てない場合も考慮すると位置のヴァリエーションは以下の式(2)の計算により17ビットで表すことができる。
Figure 0005190445
なお、同じ位置に2つのパルスが立たないようにするというルールによって、組み合わせの数を少なくすることができ、このルールの効果は、全体で探索するパルス数が多い程大きくなる。
ここで、全体探索部122において探索したパルスの位置を符号化する方法について詳細に述べる。
(1)3本のパルスの位置をその大きさでソーティングし、小さい数値から大きな数値に並べる。なお、「−1」についてはそのままにしておく。
(2)バンド毎に立つパルスの位置の分だけ左に詰めて、位置の数値を小さくする。これで求まる数値を「位置数」と呼ぶ。なお、「−1」についてはそのままにしておく。例えば、パルスの位置が66で、これより小さい位置には、0〜15、16〜31、32〜47、48〜64に1本ずつパルスがあったとすると、位置数は「66−4=62」になる。
(3)「−1」を「そのパルスの最大の値+1」の位置数に設定する。この場合、実際にパルスが存在する位置数と混同しないように調整しながら値の順番を決める。これにより、パルス#0の位置数は0から73まで、パルス#1の位置数はパルス#0の位置数から74まで、パルス#2の位置数はパルス#1の位置数から75までの範囲に限定され、下位の位置数が上位の位置数を超えないようになる。
(4)そして、組み合わせの符号を求める以下の式(3)に示す統合処理により、位置数(i0,i1,i2)を統合して符号(c)を得る。この統合処理は大きさの順番がある場合に全ての組み合わせを統合する計算処理である。
Figure 0005190445
(5)そして、このcの17ビットと極性のビット3を合わせて20ビットの符号を得る。
なお、上記位置数の中で、パルス#0が「73」、パルス#1が「74」、パルス#2が「75」の場合が、そのパルスが立たない場合を示す位置数となる。例えば3つの位置数が(73、−1、−1)という場合は、前の1つの位置数と「立たない場合」の位置数の関係から、(−1、73、−1)と順番を変え、(73、73、74)とされる。
このように、本例のように、入力スペクトルを8本のパルス列(バンド毎5本、全体3本)で表すモデルの場合、情報ビット45ビットで符号化することができる。
区間探索部121および全体探索部122で探索されたパルスで表現されたスペクトルの例を図7に示す。なお、図7において、より太く表現されたパルスが全体探索部122において探索されたパルスである。
ゲイン量子化部112は、各バンドのゲインを量子化する。8本のパルスは各バンドに配置されているので、ゲイン量子化部112は、そのパルスと入力スペクトルとの相関を分析してゲインを求める。
ゲイン量子化部112は、理想ゲインを求めてからスカラ量子化やベクトル量子化で符号化する場合、まず、以下の式(4)で理想ゲインを求める。なお、式(4)において、gはバンドnの理想ゲイン、s(i+16n)はバンドnの入力スペクトル、v(i)はバンドnのシェイプを復号したベクトルである。
Figure 0005190445
そして、ゲイン量子化部112は、理想ゲインをスカラ量子化(SQ)する、または、5つのゲインをまとめてベクトル量子化により符号化する。ベクトル量子化する場合には、予測量子化、多段VQ、スプリットVQ等により効率良く符号化することができる。また、ゲインは、聴感的には対数で聞こえるため、ゲインを対数変換してからSQ、VQすれば聴感的に良好な合成音が得られる。
なお、理想ゲインを求めるのではなく、符号化歪を直接評価する方法もある。例えば、5つのゲインをVQする場合、以下の式(5)を最小にする。なお、式(5)において、Eはk番目のゲインベクトルの歪み、s(i+16n)はバンドnの入力スペクトル、g (k)はk番目のゲインベクトルのn番目の要素、v(i)はバンドnのシェイプを復号したシェイプベクトルである。
Figure 0005190445
次に、スペクトル復号部203における、全体で探索した3本のパルスの位置の復号方法について説明する。
スペクトル符号化部105の全体探索部122では、上記式(3)を用いて、位置数(
i0,i1,i2)を1つの符号に統合した。スペクトル復号部203では、この逆の処理を行うことになる。すなわち、スペクトル復号部203では、統合式の値を、各位置数を動かしながら順番に計算し、その値を下回る場合にその位置数を固定し、これを低次の位置数から上位に向かって1つずつ行っていくことによって復号する。図8は、スペクトル復号部203の復号アルゴリズムを示すフロー図である。
なお、図8において、エラー処理となっているステップへ進むのは、入力である統合された位置の符号kがビットエラーで異常になってしまった場合である。したがって、この場合には、所定のエラー処理により位置を求めなくてはならない。
また、復号器での計算量は、ループ処理がある分、符号器よりも増えることになる。ただし、それぞれのループは開ループであるのでコーデックの処理の全体量から見れば、復号器の計算量は余り大きなものではない。
このように、本実施の形態によれば、エネルギが存在する周波数(位置)を正確に符号化することができるので、スペクトル符号化に特有の定性的な性能の向上を図ることができ、低ビットレートの場合でも良好な音質を得ることができる。
なお、本実施の形態では、シェイプ符号化の後にゲイン符号化を行う場合について説明したが、本発明では、ゲイン符号化の後にシェイプ符号化を行っても同様の性能を得ることができる。また、バンド毎のゲイン符号化を行ってから復号ゲインでスペクトルを正規化し、本発明のシェイプ符号化を行うという方法でもよい。
また、上記実施の形態では、スペクトルのシェイプの量子化時に、スペクトルの長さを80、バンド数を5、各バンドで探索するパルス数を1本、全区間で探索するパルス数を3本とする場合を例にしたが、本発明は上記数値に全く依存せず、他の場合であっても同様の効果を得ることができる。
また、本発明は、バンド幅が十分細かく比較的多くのゲインを符号化でき、情報ビット数が十分多い場合には、バンド毎のパルス探索だけ、あるいは複数のバンドにまたがる広い区間のパルス探索だけで性能を得ることもできる。
また、上記実施の形態では、同じ位置に2つパルスを立てないという条件を設定したが、本発明では、部分的にこの条件を緩和してもよい。例えば、バンド毎に探索されるパルスと、複数のバンドにまたがる広い区間で探索されるパルスが同じ位置に立つことを認めるとすると、バンド毎のパルスを消すことができたり、振幅が2倍のパルスを立てたりすることができる。この条件を緩和するためには、パルス有無フラグpf[*]をバンド毎のパルスについて格納しなければよい。すなわち、図5の一番下のステップのpf[pos[b]]=1を省略すればよい。また、この条件を緩和する他の方法として、広い区間のパルス探索の際にパルス有無フラグに格納しなければよい。すなわち、図6の一番下のステップの最後のpf[idx_max[i+5]]=1を省略すればよい。ただし、この場合には位置のヴァリエーションが増加する。本実施の形態に示した様に単純な組み合わせではないので、場合分けをしてその場合毎に組み合わせを符号化する必要がある。
また、本実施の形態では直交変換後のスペクトルに対してパルスによる符号化を用いたが、本発明はこれに限られず、他のベクトルにも適用することができる。例えば、FFTや複素DCT等では複素数ベクトルに本発明を適用すれば良いし、ウェーブレット変換などでは時系列のベクトルに本発明を適用すれば良い。また、本発明は、CELPの音源波形等、時系列のベクトルにも適用することができる。CELPの音源波形の場合には合成フィルタを伴うので、コスト関数が行列計算になるだけである。ただし、フィルタを伴う
場合はパルスの探索は開ループでは性能が十分でないので、ある程度閉ループ探索を行わなければならない。パルスが多い場合などはビームサーチ等を行い、計算量を少なく抑えるのも有効である。
また、本発明では、探索する波形がパルス(インパルス)に限定されず、他の固定波形(デュアルパルス、三角波、インパルス応答の有限波、フィルタの係数、適応的に形状を変える固定波形、等)でも全く同様の方法で探索することができ、同様の効果を得ることができる。
また、本実施の形態では、CELPに対して用いる場合について説明したが、本発明はこれに限られず、他のコーデックであっても有効である。
また、本発明に係る信号は、音声信号だけでなく、オーディオ信号でも良い。また、入力信号の代わりに、LPC予測残差信号に対して本発明を適用する構成であっても良い。
また、本発明に係る符号化装置および復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年3月2日出願の特願2007−053497の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明は、音声信号やオーディオ信号を符号化する符号化装置、および符号化された信号を復号する復号装置等に用いるに好適である。
本発明の一実施の形態に係る音声符号化装置の構成を示すブロック図 本発明の一実施の形態に係る音声復号装置の構成を示すブロック図 本発明の一実施の形態に係る区間探索部の探索アルゴリズムのフロー図 本発明の一実施の形態に係る区間探索部において探索されたパルスで表現されたスペクトルの例を示す図 本発明の一実施の形態に係る全体探索部の探索アルゴリズムのフロー図 本発明の一実施の形態に係る全体探索部の探索アルゴリズムのフロー図 本発明の一実施の形態に係る区間探索部および全体探索部において探索されたパルスで表現されたスペクトルの例を示す図 本発明の一実施の形態に係るスペクトル復号部の復号アルゴリズムのフロー図

Claims (5)

  1. 周波数スペクトルを複数の固定波形でモデル化して符号化する符号化装置であって、
    前記固定波形の位置及び極性を探索して符号化するシェイプ量子化手段と、
    前記固定波形のゲインを符号化するゲイン量子化手段と、を具備し、
    前記シェイプ量子化手段は、
    所定の探索区間を複数に区切ったバンド毎に、エネルギが最大となる位置の第1の固定波形を探索する区間探索手段と、
    前記所定の探索区間全体の中で、前記第1の固定波形の位置を除いた位置の中でエネルギが大きい順に所定数の第2の固定波形を探索する全体探索手段と、を具備する、
    符号化装置。
  2. 前記全体探索手段は、入力スペクトルと、シェイプを復号したベクトルから求められる理想ゲインとに基づいた符号化歪を評価しながら前記第2の固定波形を探索する、請求項1に記載の符号化装置。
  3. 前記全体探索手段は、前記第2の固定波形の位置情報を、前記第2の固定波形の位置の組み合わせの数で符号化する請求項1に記載の符号化装置。
  4. 前記ゲイン量子化手段は、前記第1の固定波形および前記第2の固定波形のゲインをバンド毎に算出して符号化する、請求項1に記載の符号化装置。
  5. 周波数スペクトルを複数の固定波形でモデル化して符号化する符号化装置によって行われる符号化方法であって、
    前記符号化装置は、
    前記固定波形の位置及び極性を探索して符号化するシェイプ量子化工程と、
    前記固定波形のゲインを符号化するゲイン量子化工程と、を実行し、
    前記シェイプ量子化工程では、
    所定の探索区間を複数に区切ったバンド毎に、エネルギが最大となる位置の第1の固定波形を探索し、前記所定の探索区間全体の中で、前記第1のパルスの位置を除いた位置の中でエネルギが大きい順に所定数の第2の固定波形を探索する、
    符号化方法。
JP2009502454A 2007-03-02 2008-02-29 符号化装置および符号化方法 Expired - Fee Related JP5190445B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009502454A JP5190445B2 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007053497 2007-03-02
JP2007053497 2007-03-02
PCT/JP2008/000397 WO2008108076A1 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法
JP2009502454A JP5190445B2 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Publications (2)

Publication Number Publication Date
JPWO2008108076A1 JPWO2008108076A1 (ja) 2010-06-10
JP5190445B2 true JP5190445B2 (ja) 2013-04-24

Family

ID=39737974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009502454A Expired - Fee Related JP5190445B2 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Country Status (11)

Country Link
US (1) US8719011B2 (ja)
EP (1) EP2128858B1 (ja)
JP (1) JP5190445B2 (ja)
KR (1) KR101414359B1 (ja)
CN (1) CN101622663B (ja)
BR (1) BRPI0808198A8 (ja)
DK (1) DK2128858T3 (ja)
ES (1) ES2404408T3 (ja)
MX (1) MX2009009229A (ja)
RU (1) RU2463674C2 (ja)
WO (1) WO2008108076A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035214A1 (en) * 2008-04-09 2011-02-10 Panasonic Corporation Encoding device and encoding method
KR101441474B1 (ko) 2009-02-16 2014-09-17 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2010137300A1 (ja) 2009-05-26 2010-12-02 パナソニック株式会社 復号装置及び復号方法
KR101789632B1 (ko) 2009-12-10 2017-10-25 엘지전자 주식회사 음성 신호 부호화 방법 및 장치
CA3025108C (en) 2010-07-02 2020-10-27 Dolby International Ab Audio decoding with selective post filtering
WO2012026741A2 (ko) * 2010-08-24 2012-03-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9558752B2 (en) * 2011-10-07 2017-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method
US9336788B2 (en) * 2014-08-15 2016-05-10 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
WO2017027308A1 (en) 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
JP7016660B2 (ja) * 2017-10-05 2022-02-07 キヤノン株式会社 符号化装置、その制御方法、および制御プログラム、並びに撮像装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113799A (ja) * 1991-08-30 1993-05-07 Oki Electric Ind Co Ltd コード励振線形予測符号化方式
JPH11237899A (ja) * 1998-02-19 1999-08-31 Matsushita Electric Ind Co Ltd 音源信号符号化装置及びその方法、並びに音源信号復号化装置及びその方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3186007B2 (ja) 1994-03-17 2001-07-11 日本電信電話株式会社 変換符号化方法、復号化方法
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
WO1998040877A1 (fr) * 1997-03-12 1998-09-17 Mitsubishi Denki Kabushiki Kaisha Codeur vocal, decodeur vocal, codeur/decodeur vocal, procede de codage vocal, procede de decodage vocal et procede de codage/decodage vocal
JP3147807B2 (ja) 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
JP3063668B2 (ja) * 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
JP3185748B2 (ja) 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
CA2233896C (en) * 1997-04-09 2002-11-19 Kazunori Ozawa Signal coding system
JP3199020B2 (ja) 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
AU2001294974A1 (en) * 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
AU2003234763A1 (en) * 2002-04-26 2003-11-10 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
US20090018828A1 (en) * 2003-11-12 2009-01-15 Honda Motor Co., Ltd. Automatic Speech Recognition System
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP2008503786A (ja) * 2004-06-22 2008-02-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の符号化及び復号化
WO2006080358A1 (ja) * 2005-01-26 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
CN101167126B (zh) * 2005-04-28 2011-09-21 松下电器产业株式会社 语音编码装置和语音编码方法
EP1876585B1 (en) * 2005-04-28 2010-06-16 Panasonic Corporation Audio encoding device and audio encoding method
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
JP2007053497A (ja) 2005-08-16 2007-03-01 Canon Inc 映像表示装置及び映像表示方法
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
US8370138B2 (en) * 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5113799B2 (ja) 2009-04-22 2013-01-09 株式会社ニフコ 回転ダンパー

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113799A (ja) * 1991-08-30 1993-05-07 Oki Electric Ind Co Ltd コード励振線形予測符号化方式
JPH11237899A (ja) * 1998-02-19 1999-08-31 Matsushita Electric Ind Co Ltd 音源信号符号化装置及びその方法、並びに音源信号復号化装置及びその方法

Also Published As

Publication number Publication date
BRPI0808198A8 (pt) 2017-09-12
US20100057446A1 (en) 2010-03-04
EP2128858B1 (en) 2013-04-10
RU2463674C2 (ru) 2012-10-10
CN101622663B (zh) 2012-06-20
BRPI0808198A2 (pt) 2014-07-08
US8719011B2 (en) 2014-05-06
MX2009009229A (es) 2009-09-08
EP2128858A4 (en) 2012-03-14
ES2404408T3 (es) 2013-05-27
KR20090117877A (ko) 2009-11-13
EP2128858A1 (en) 2009-12-02
DK2128858T3 (da) 2013-07-01
KR101414359B1 (ko) 2014-07-22
CN101622663A (zh) 2010-01-06
WO2008108076A1 (ja) 2008-09-12
JPWO2008108076A1 (ja) 2010-06-10
RU2009132936A (ru) 2011-03-10

Similar Documents

Publication Publication Date Title
JP5190445B2 (ja) 符号化装置および符号化方法
JP5241701B2 (ja) 符号化装置および符号化方法
CN103594090B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
JP5340261B2 (ja) ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
EP3125241B1 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
JPWO2008047795A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
JP5300733B2 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
WO2009125588A1 (ja) 符号化装置および符号化方法
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
CN112927703A (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
US20100049508A1 (en) Audio encoding device and audio encoding method
US20100292986A1 (en) encoder
JP5525540B2 (ja) 符号化装置および符号化方法
Bouzid et al. Switched split vector quantizer applied for encoding the LPC parameters of the 2.4 Kbits/s MELP speech coder
Madrid et al. Low bit-rate wideband LP and wideband sinusoidal parametric speech coders
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5190445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees