JPH1097300A - ベクトル量子化方法、音声符号化方法及び装置 - Google Patents
ベクトル量子化方法、音声符号化方法及び装置Info
- Publication number
- JPH1097300A JPH1097300A JP8251616A JP25161696A JPH1097300A JP H1097300 A JPH1097300 A JP H1097300A JP 8251616 A JP8251616 A JP 8251616A JP 25161696 A JP25161696 A JP 25161696A JP H1097300 A JPH1097300 A JP H1097300A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- codebook
- code
- variable
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 557
- 238000000034 method Methods 0.000 title claims description 107
- 238000001228 spectrum Methods 0.000 claims abstract description 87
- 238000006243 chemical reaction Methods 0.000 claims abstract description 70
- 238000013139 quantization Methods 0.000 claims description 260
- 238000004364 calculation method Methods 0.000 claims description 56
- 238000004458 analytical method Methods 0.000 claims description 52
- 238000003786 synthesis reaction Methods 0.000 description 81
- 230000015572 biosynthetic process Effects 0.000 description 80
- 239000011159 matrix material Substances 0.000 description 78
- 238000012545 processing Methods 0.000 description 33
- 230000005236 sound signal Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 29
- 230000014509 gene expression Effects 0.000 description 25
- 230000000875 corresponding effect Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 230000005284 excitation Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000007493 shaping process Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 10
- 230000008859 change Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 206010028735 Nasal congestion Diseases 0.000 description 1
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
る際のコードベクトルのサーチの精度を高める。 【解決手段】 端子541を介して、例えば音声のハー
モニクススペクトル振幅を表す可変個数のデータすなわ
ち可変次元ベクトルvが入力され、可変/固定次元変換
回路542により、固定次元(例えば44次元)のベク
トルxに変換され、選択回路535に送られて、重み付
きの誤差が最小となるようなコードベクトルを符号帳5
30から選択する。また、符号帳530から得られた固
定次元のコードベクトルを固定/可変次元変換回路54
4により元の可変次元の入力ベクトルvと同じ可変次元
に変換し、この可変次元に変換されたコードベクトルを
可変次元の選択回路545に送って、上記入力ベクトル
vとの間の重み付き誤差を最小とするコードベクトルを
符号帳530から選択する。
Description
号帳に蓄えられたコードベクトルと比較して最適のコー
ドベクトルのインデクスを出力するベクトル量子化方
法、入力音声信号をブロックやフレーム等の所定の符号
化単位で区分して、区分された符号化単位毎にベクトル
量子化を含んだ符号化処理を行うような音声符号化方法
及び装置に関する。
タル化し、圧縮符号化を施す場合に、入力データの複数
個をまとめてベクトルとし1つの符号(インデクス)で
表現するようなベクトル量子化が知られている。
る種々のベクトルの代表的なパターンを予め学習等によ
って決定して、それぞれに符号(インデクス)を与えて
符号帳(コードブック)に蓄えておき、入力ベクトルと
符号帳の各パターン(コードベクトル)との比較、すな
わちパターンマッチングを行い、最も類似度や相関性の
高いパターンの符号を出力する。この類似度や相関性
は、入力ベクトルと各コードベクトルとの間の歪尺度や
誤差エネルギ等を計算することにより求められ、歪や誤
差が小さいほど類似度や相関性が高いことになる。
響信号を含む)の時間領域や周波数領域における統計的
性質と人間の聴感上の特性を利用して信号圧縮を行うよ
うな符号化方法が種々知られている。この符号化方法と
しては、大別して時間領域での符号化、周波数領域での
符号化、分析合成符号化等が挙げられる。
ーモニック(Harmonic)符号化、MBE(Multiband Ex
citation: マルチバンド励起)符号化等のサイン波分析
符号化や、SBC(Sub-band Coding:帯域分割符号
化)、LPC(Linear Predictive Coding: 線形予測符
号化)、あるいはDCT(離散コサイン変換)、MDC
T(モデファイドDCT)、FFT(高速フーリエ変
換)等が知られている。
いて、例えば得られたハーモニクススペクトル等のパラ
メータに対して、上述したようなベクトル量子化が採用
されている。
ハーモニック符号化するような場合には、一定の帯域内
でのハーモニクススペクトルの本数がピッチに応じて異
なり、例えば有効帯域を3400kHzまでとするとき、
女声から男声までのピッチ変化に応じて、ハーモニクス
スペクトルは8〜63本と変化することになる。従っ
て、このようなハーモニクススペクトル振幅をベクトル
化すると可変次元ベクトルとなり、これをそのままベク
トル量子化することは困難なので、可変次元ベクトルを
一定の固定次元ベクトルに変換した後ベクトル量子化す
ることが、本件出願人によって、例えば特開平6−51
800号公報において提案されている。
ータを一定の個数、例えば44個のデータにデータ数変
換した後、この固定次元ベクトルをベクトル量子化する
ものである。
固定次元変換を行った後の固定次元ベクトルに対してベ
クトル量子化を行う場合において、符号帳検索(コード
ブックサーチ)を行って得られたコードベクトルは必ず
しも元の可変次元のベクトル(ハーモニクススペクト
ル)との間の歪あるいは誤差を最適に最小化するものと
はならない。
すなわちコードベクトルの個数が多い場合や、複数の符
号帳を組み合わせて構成される多段のベクトル量子化器
の場合には、上記パターンマッチングの際のコードベク
トルの検索(サーチ)の回数が多くなり、演算量が増大
するという欠点がある。特に、複数の符号帳を組み合わ
せる場合には、各符号帳のコードベクトルの個数の積の
回数の類似度演算が必要となるため、コードブックサー
チの演算量がかなり大きくなってしまう。
たものであり、可変次元で与えられるベクトルをベクト
ル量子化する際の精度をさらに高め得るようなベクトル
量子化方法、音声符号化方法及び装置を提供することを
目的とする。また、コードブックサーチの演算量を抑え
ることが可能なベクトル量子化方法、音声符号化方法及
び装置の提供を目的とする。
子化方法は、上述した課題を解決するために、可変次元
の入力ベクトルをベクトル量子化する際に、符号帳(コ
ードブック)から読み出された固定次元のコードベクト
ルを元の入力ベクトルの次元と同じ可変次元に変換し、
この固定/可変次元変換された可変次元のコードベクト
ルについて、元の入力ベクトルとの誤差を最小化する最
適のコードベクトルを符号帳より選択することを特徴と
する。
る符号帳検索(コードブックサーチ)の際には、元の可
変次元の入力ベクトルとの間の誤差あるいは歪が計算さ
れるので、精度が高まる。
符号帳とで構成する場合に、少なくともゲイン符号帳か
らのゲインの最適化を、シェイプ符号帳で選択されたベ
クトルを可変次元に戻してから行うようにすることが挙
げられる。この場合さらに、元の可変次元の入力ベクト
ルをシェイプ符号帳の固定次元に変換し、この可変/固
定次元変換された固定次元の入力ベクトルとシェイプ符
号帳に蓄えられたコードベクトルとの誤差を最小化する
単数又は複数のコードベクトルをシェイプ符号帳より選
択し、シェイプ符号帳から読み出され固定/可変次元変
換された可変次元のコードベクトルと入力ベクトルとに
基づいて、固定/可変次元変換されたコードベクトルに
対する最適ゲインを選択すること挙げられる。
帳の固定次元に変換し、この可変/固定次元変換された
固定次元の入力ベクトルと符号帳に蓄えられたコードベ
クトルとの誤差を最小化する複数のコードベクトルを符
号帳より仮選択し、この仮選択されたコードベクトルに
ついて固定/可変次元変換を行って可変次元で最適のコ
ードベクトルを選択することが挙げられる。
ことにより、符号帳検索(コードブックサーチ)に要す
る演算量を低減することもでき、また、可変次元で本選
択することにより、精度を高めることができる。
力音声信号又は入力音声信号の短期予測残差をサイン波
分析してハーモニクススペクトルを求め、符号化単位毎
の上記ハーモニクススペクトルに基づくパラメータを可
変次元の入力ベクトルとしてベクトル量子化することに
より符号化する音声符号化方法であって、上記ベクトル
量子化は、可変次元の入力ベクトルをベクトル量子化す
る際に、符号帳から読み出された固定次元のコードベク
トルを元の入力ベクトルの次元と同じ可変次元に変換
し、この固定/可変次元変換された可変次元のコードベ
クトルについて、元の入力ベクトルとの誤差を最小化す
る最適のコードベクトルを符号帳より選択することを特
徴とする。
れた音声符号化装置を構成できる。
の形態について説明する。先ず、図1は、本発明に係る
ベクトル量子化方法の実施の形態が適用された音声符号
化装置の基本構成を示している。
的な考え方は、入力音声信号の短期予測残差例えばLP
C(線形予測符号化)残差を求めてサイン波分析(sinu
soidal analysis )符号化、例えばハーモニックコーデ
ィング(harmonic coding )を行う第1の符号化部11
0と、入力音声信号に対して位相再現性のある波形符号
化により符号化する第2の符号化部120とを有し、入
力信号の有声音(V:Voiced)の部分の符号化に第1の
符号化部110を用い、入力信号の無声音(UV:Unvo
iced)の部分の符号化には第2の符号化部120を用い
るようにすることである。
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部120には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
た音声信号が、第1の符号化部110のLPC逆フィル
タ111及びLPC分析・量子化部113に送られてい
る。LPC分析・量子化部113から得られたLPC係
数あるいはいわゆるαパラメータは、LPC逆フィルタ
111に送られて、このLPC逆フィルタ111により
入力音声信号の線形予測残差(LPC残差)が取り出さ
れる。また、LPC分析・量子化部113からは、後述
するようにLSP(線スペクトル対)の量子化出力が取
り出され、これが出力端子102に送られる。LPC逆
フィルタ111からのLPC残差は、サイン波分析符号
化部114に送られる。サイン波分析符号化部114で
は、ピッチ検出やスペクトルエンベロープ振幅計算が行
われると共に、V(有声音)/UV(無声音)判定部1
15によりV/UVの判定が行われる。サイン波分析符
号化部114からのスペクトルエンベロープ振幅データ
がベクトル量子化部116に送られる。スペクトルエン
ベロープのベクトル量子化出力としてのベクトル量子化
部116からのコードブックインデクスは、スイッチ1
17を介して出力端子103に送られ、サイン波分析符
号化部114からの出力は、スイッチ118を介して出
力端子104に送られる。また、V/UV判定部115
からのV/UV判定出力は、出力端子105に送られる
と共に、スイッチ117、118の制御信号として送ら
れており、上述した有声音(V)のとき上記インデクス
及びピッチが選択されて各出力端子103及び104か
らそれぞれ取り出される。
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記V/UV判定部115からのV/UV判定結果
が無声音(UV)のときオンとなるスイッチ127を介
して、出力端子107より取り出される。
法の一実施の形態が適用された音声信号復号化装置とし
て、上記図1の音声信号符号化装置に対応する音声信号
復号化装置の基本構成を示すブロック図である。
記図1の出力端子102からの上記LSP(線スペクト
ル対)の量子化出力としてのコードブックインデクスが
入力される。入力端子203、204、及び205に
は、上記図1の各出力端子103、104、及び105
からの各出力、すなわちエンベロープ量子化出力として
のインデクス、ピッチ、及びV/UV判定出力がそれぞ
れ入力される。また、入力端子207には、上記図1の
出力端子107からのUV(無声音)用のデータとして
のインデクスが入力される。
出力としてのインデクスは、逆ベクトル量子化器212
に送られて逆ベクトル量子化され、LPC残差のスペク
トルエンベロープが求められて有声音合成部211に送
られる。有声音合成部211は、サイン波合成により有
声音部分のLPC(線形予測符号化)残差を合成するも
のであり、この有声音合成部211には入力端子204
及び205からのピッチ及びV/UV判定出力も供給さ
れている。有声音合成部211からの有声音のLPC残
差は、LPC合成フィルタ214に送られる。また、入
力端子207からのUVデータのインデクスは、無声音
合成部220に送られて、雑音符号帳を参照することに
より無声音部分のLPC残差が取り出される。このLP
C残差もLPC合成フィルタ214に送られる。LPC
合成フィルタ214では、上記有声音部分のLPC残差
と無声音部分のLPC残差とがそれぞれ独立に、LPC
合成処理が施される。あるいは、有声音部分のLPC残
差と無声音部分のLPC残差とが加算されたものに対し
てLPC合成処理を施すようにしてもよい。ここで入力
端子202からのLSPのインデクスは、LPCパラメ
ータ再生部213に送られて、LPCのαパラメータが
取り出され、これがLPC合成フィルタ214に送られ
る。LPC合成フィルタ214によりLPC合成されて
得られた音声信号は、出力端子201より取り出され
る。
置のより具体的な構成について、図3を参照しながら説
明する。なお、図3において、上記図1の各部と対応す
る部分には同じ指示符号を付している。
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
回路132は、入力信号波形の256サンプル程度の長
さを符号化単位の1ブロックとしてハミング窓をかけ
て、自己相関法により線形予測係数、いわゆるαパラメ
ータを求める。データ出力の単位となるフレーミングの
間隔は、160サンプル程度とする。サンプリング周波
数fsが例えば8kHzのとき、1フレーム間隔は160
サンプルで20msec となる。
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、20msec を1フレームとし、20msec 毎に算出
されるLSPパラメータを2フレーム分まとめて、マト
リクス量子化及びベクトル量子化している。
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、LSP補間回路136に送られる。
あるいは40msec 毎に量子化されたLSPのベクトル
を補間し、8倍のレートにする。すなわち、2.5mse
c 毎にLSPベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、LPC係数が20
msec 毎に急激に変化すると異音を発生することがある
からである。すなわち、2.5msec 毎にLPC係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125及び聴覚重み付きの合
成フィルタ122とに送られる。
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Amの算出、有
声音(V)/無声音(UV)の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Amの個数を次元変換して一定数にしている。
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。ここ
で上記MBEの分析合成手法については、本件出願人が
先に提案した特願平4−91422号明細書及び図面に
詳細な具体例を開示している。
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。オープンループピッチサーチ部141では、
入力信号のLPC残差をとってオープンループによる比
較的ラフなピッチのサーチが行われ、抽出された粗ピッ
チデータは高精度ピッチサーチ146に送られて、後述
するようなクローズドループによる高精度のピッチサー
チ(ピッチのファインサーチ)が行われる。また、オー
プンループピッチサーチ部141からは、上記粗ピッチ
データと共にLPC残差の自己相関の最大値をパワーで
正規化した正規化自己相関最大値r(p) が取り出され、
V/UV(有声音/無声音)判定部115に送られてい
る。
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146及びスペクトル振幅あるいは
エンベロープを評価するためのスペクトル評価部148
に送られる。
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチデータと、直交変換部145に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部146では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スイッチ118を介して出力端子10
4に送っている。
の直交変換出力としてのスペクトル振幅及びピッチに基
づいて各ハーモニクスの大きさ及びその集合であるスペ
クトルエンベロープが評価され、高精度ピッチサーチ部
146、V/UV(有声音/無声音)判定部115及び
聴覚重み付きのベクトル量子化器116に送られる。
は、直交変換回路145からの出力と、高精度ピッチサ
ーチ部146からの最適ピッチと、スペクトル評価部1
48からのスペクトル振幅データと、オープンループピ
ッチサーチ部141からの正規化自己相関最大値r(p)
と、ゼロクロスカウンタ142からのゼロクロスカウン
ト値とに基づいて、当該フレームのV/UV判定が行わ
れる。さらに、MBEの場合の各バンド毎のV/UV判
定結果の境界位置も当該フレームのV/UV判定の一条
件としてもよい。このV/UV判定部115からの判定
出力は、出力端子105を介して取り出される。
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部119では、この可
変個数mMX+1の振幅データを一定個数M個、例えば4
4個、のデータに変換している。
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。なお、聴覚重み付けフィ
ルタ125の出力から聴覚重み付き合成フィルタの零入
力応答を事前に差し引いておくものとする。この誤差を
距離計算回路124に送って距離計算を行い、誤差が最
小となるような代表値ベクトルを雑音符号帳121でサ
ーチする。このような合成による分析(Analysisby Syn
thesis )法を用いたクローズドループサーチを用いた
時間軸波形のベクトル量子化を行っている。
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
7g及び上記スイッチ117、118は、上記V/UV
判定部115からのV/UV判定結果によりオン/オフ
制御され、スイッチ117、118は、現在伝送しよう
とするフレームの音声信号のV/UV判定結果が有声音
(V)のときオンとなり、スイッチ127s、127g
は、現在伝送しようとするフレームの音声信号が無声音
(UV)のときオンとなる。
係る実施の形態としての音声信号復号化装置のより具体
的な構成を示している。この図4において、上記図2の
各部と対応する部分には、同じ指示符号を付している。
上記図1、3の出力端子102からの出力に相当するL
SPのベクトル量子化出力、いわゆるコードブックのイ
ンデクスが供給されている。
ータ再生部213のLSPの逆ベクトル量子化器231
に送られてLSP(線スペクトル対)データに逆ベクト
ル量子化され、LSP補間回路232、233に送られ
てLSPの補間処理が施された後、LSP→α変換回路
234、235でLPC(線形予測符号)のαパラメー
タに変換され、このαパラメータがLPC合成フィルタ
214に送られる。ここで、LSP補間回路232及び
LSP→α変換回路234は有声音(V)用であり、L
SP補間回路233及びLSP→α変換回路235は無
声音(UV)用である。またLPC合成フィルタ214
は、有声音部分のLPC合成フィルタ236と、無声音
部分のLPC合成フィルタ237とを分離している。す
なわち、有声音部分と無声音部分とでLPCの係数補間
を独立に行うようにして、有声音から無声音への遷移部
や、無声音から有声音への遷移部で、全く性質の異なる
LSP同士を補間することによる悪影響を防止してい
る。
1、図3のエンコーダ側の端子103からの出力に対応
するスペクトルエンベロープ(Am)の重み付けベクト
ル量子化されたコードインデクスデータが供給され、入
力端子204には、上記図1、図3の端子104からの
ピッチのデータが供給され、入力端子205には、上記
図1、図3の端子105からのV/UV判定データが供
給されている。
ープAmのベクトル量子化されたインデクスデータは、
逆ベクトル量子化器212に送られて逆ベクトル量子化
が施され、上記データ数変換に対応する逆変換が施され
て、スペクトルエンベロープのデータとなって、有声音
合成部211のサイン波合成回路215に送られてい
る。
ル量子化に先だってフレーム間差分をとっている場合に
は、ここでの逆ベクトル量子化後にフレーム間差分の復
号を行ってからデータ数変換を行い、スペクトルエンベ
ロープのデータを得る。
04からのピッチ及び入力端子205からの上記V/U
V判定データが供給されている。サイン波合成回路21
5からは、上述した図1、図3のLPC逆フィルタ11
1からの出力に相当するLPC残差データが取り出さ
れ、これが加算器218に送られている。このサイン波
合成の具体的な手法については、例えば本件出願人が先
に提案した、特願平4−91422号の明細書及び図
面、あるいは特願平6−198451号の明細書及び図
面に開示されている。
ンベロープのデータと、入力端子204、205からの
ピッチ、V/UV判定データとは、有声音(V)部分の
ノイズ加算のためのノイズ合成回路216に送られてい
る。このノイズ合成回路216からの出力は、重み付き
重畳加算回路217を介して加算器218に送ってい
る。これは、サイン波合成によって有声音のLPC合成
フィルタへの入力となるエクサイテイション(Excitati
on:励起、励振)を作ると、男声等の低いピッチの音で
鼻づまり感がある点、及びV(有声音)とUV(無声
音)とで音質が急激に変化し不自然に感じる場合がある
点を考慮し、有声音部分のLPC合成フィルタ入力すな
わちエクサイテイションについて、音声符号化データに
基づくパラメータ、例えばピッチ、スペクトルエンベロ
ープ振幅、フレーム内の最大振幅、残差信号のレベル等
を考慮したノイズをLPC残差信号の有声音部分に加え
ているものである。
成フィルタ214の有声音用の合成フィルタ236に送
られてLPCの合成処理が施されることにより時間波形
データとなり、さらに有声音用ポストフィルタ238v
でフィルタ処理された後、加算器239に送られる。
gには、上記図3の出力端子107s及び107gから
のUVデータとしてのシェイプインデクス及びゲインイ
ンデクスがそれぞれ供給され、無声音合成部220に送
られている。端子207sからのシェイプインデクス
は、無声音合成部220の雑音符号帳221に、端子2
07gからのゲインインデクスはゲイン回路222にそ
れぞれ送られている。雑音符号帳221から読み出され
た代表値出力は、無声音のLPC残差に相当するノイズ
信号成分であり、これがゲイン回路222で所定のゲイ
ンの振幅となり、窓かけ回路223に送られて、上記有
声音部分とのつなぎを円滑化するための窓かけ処理が施
される。
成部220からの出力として、LPC合成フィルタ21
4のUV(無声音)用の合成フィルタ237に送られ
る。合成フィルタ237では、LPC合成処理が施され
ることにより無声音部分の時間波形データとなり、この
無声音部分の時間波形データは無声音用ポストフィルタ
238uでフィルタ処理された後、加算器239に送ら
れる。
タ238vからの有声音部分の時間波形信号と、無声音
用ポストフィルタ238uからの無声音部分の時間波形
データとが加算され、出力端子201より取り出され
る。
要求される品質に合わせ異なるビットレートの出力デー
タを出力することができ、出力データのビットレートが
可変されて出力される。
を、低ビットレートと高ビットレートとに切り換えるこ
とができる。例えば、低ビットレートを2kbpsとし、
高ビットレートを6kbpsとする場合には、以下の表1
に示す各ビットレートのデータが出力される。
ては、有声音時に、常に8bits/20msecで出力さ
れ、出力端子105から出力されるV/UV判定出力
は、常に1bit/20msecである。出力端子102から
出力されるLSP量子化のインデクスは、32bits/4
0msecと48bits/40msecとの間で切り換えが行わ
れる。また、出力端子103から出力される有声音時
(V)のインデクスは、15bits/20msecと87bit
s/20msecとの間で切り換えが行われ、出力端子10
7s、107gから出力される無声音時(UV)のイン
デクスは、11bits/10msecと23bits/5msecと
の間で切り換えが行われる。これにより、有声音時
(V)の出力データは、2kbpsでは40bits/20ms
ecとなり、6kbpsでは120bits/20msecとなる。
また、無声音時(UV)の出力データは、2kbpsでは
39bits/20msecとなり、6kbpsでは117bits/
20msecとなる。
音時(V)のインデクス、及び無声音時(UV)のイン
デクスについては、後述する各部の構成と共に説明す
る。
化器134におけるマトリクス量子化及びベクトル量子
化について詳細に説明する。
のαパラメータは、α→LSP変換回路133に送られ
て、LSPパラメータに変換される。例えば、LPC分
析回路132でP次のLPC分析を行う場合には、αパ
ラメータはP個算出される。このP個のαパラメータ
は、LSPパラメータに変換され、バッファ610に保
持される。
のLSPパラメータが出力される。2フレーム分のLS
Pパラメータはマトリクス量子化部620でマトリクス
量子化される。マトリクス量子化部620は、第1のマ
トリクス量子化部6201 と第2のマトリクス量子化部
6202 とから成る。2フレーム分のLSPパラメータ
は、第1のマトリクス量子化部6201 でマトリクス量
子化され、これにより得られる量子化誤差が、第2のマ
トリクス量子化部6202 でさらにマトリクス量子化さ
れる。これらのマトリクス量子化により、時間軸方向及
び周波数軸方向の相関を取り除く。
ーム分の量子化誤差は、ベクトル量子化部640に入力
される。ベクトル量子化部640は、第1のベクトル量
子化部6401 と第2のベクトル量子化部6402 とか
ら成る。さらに、第1のベクトル量子化部6401 は、
2つのベクトル量子化部650、660から成り、第2
のベクトル量子化部6402 は、2つのベクトル量子化
部670、680から成る。第1のベクトル量子化部6
401 のベクトル量子化部650、660で、マトリク
ス量子化部620からの量子化誤差が、それぞれ1フレ
ーム毎にベクトル量子化される。これにより得られる量
子化誤差ベクトルは、第2のベクトル量子化部6402
のベクトル量子化部670、680で、さらにベクトル
量子化される。これらのベクトル量子化により、周波数
軸方向の相関を処理する。
を行うマトリクス量子化部620は、第1のマトリクス
量子化工程を行う第1のマトリクス量子化部6201
と、この第1のマトリクス量子化による量子化誤差をマ
トリクス量子化する第2のマトリクス量子化工程を行う
第2のマトリクス量子化部6202 とを少なくとも有
し、上記ベクトル量子化を施す工程を行うベクトル量子
化部640は、第1のベクトル量子化工程を行う第1の
ベクトル量子化部6401 と、この第1のベクトル量子
化の際の量子化誤差ベクトルをベクトル量子化する第2
のベクトル量子化工程を行う第2のベクトル量子化部6
402 とを少なくとも有する。
化について具体的に説明する。
分のLSPパラメータ、すなわち10×2の行列は、マ
トリクス量子化器6201 に送られる。上記第1のマト
リクス量子化部6201 では、2フレーム分のLSPパ
ラメータが加算器621を介して重み付き距離計算器6
23に送られ、最小となる重み付き距離が算出される。
よるコードブックサーチ時の歪尺度dMQ1は、LSPパ
ラメータX1 、量子化値X1'を用い、(1)式で示す。
番号を示す。
軸方向に重みの制限を考慮しない場合の重みwを(2)
式で示す。
ス量子化及びベクトル量子化でも用いられる。
化器(MQ1) 622に送られて、マトリクス量子化が
行われる。このマトリクス量子化により出力される8ビ
ットのインデクスは信号切換器690に送られる。ま
た、マトリクス量子化による量子化値は、加算器621
で、バッファ610からの2フレーム分のLSPパラメ
ータから減算される。重み付き距離計算器623では、
加算器621からの出力を用いて、重み付き距離が算出
される。このように、2フレーム毎に、順次、重み付き
距離計算器623では重み付き距離が算出されて、マト
リクス量子化器622でマトリクス量子化が行われる。
重み付き距離が最小となる量子化値が選ばれる。また、
加算器621からの出力は、第2のマトリクス量子化部
6202 の加算器631に送られる。
1のマトリクス量子化部6201 と同様にして、マトリ
クス量子化を行う。上記加算器621からの出力は、加
算器631を介して重み付き距離計算器633に送ら
れ、最小となる重み付き距離が算出される。
よるコードブックサーチ時の歪尺度dMQ2 を、第1のマ
トリクス量子化部6201 からの量子化誤差X2 、量子
化値X2'により、(3)式で示す。
(MQ2) 632に送られて、マトリクス量子化が行わ
れる。このマトリクス量子化により出力される8ビット
のインデクスは信号切換器690に送られる。また、マ
トリクス量子化による量子化値は、加算器631で、2
フレーム分の量子化誤差から減算される。重み付き距離
計算器633では、加算器631からの出力を用いて、
重み付き距離が順次算出されて、重み付き距離が最小と
なる量子化値が選ばれる。また、加算器631からの出
力は、第1のベクトル量子化部6401 の加算器65
1、661に1フレームずつ送られる。
は、1フレーム毎にベクトル量子化が行われる。加算器
631からの出力は、1フレーム毎に、加算器651、
661を介して重み付き距離計算器653、663にそ
れぞれ送られ、最小となる重み付き距離が算出される。
は、10×2の行列であり、X2−X2’=[x 3-1,x
3-2]と表すときの、この第1のベクトル量子化部64
01 のベクトル量子化器652、662によるコードブ
ックサーチ時の歪尺度dVQ1、dVQ2を、(4)、(5)
式で示す。
Q1) 652、ベクトル量子化器(VQ2) 662にそ
れぞれ送られて、ベクトル量子化が行われる。このベク
トル量子化により出力される各8ビットのインデクスは
信号切換器690に送られる。また、ベクトル量子化に
よる量子化値は、加算器651、661で、入力された
2フレーム分の量子化誤差ベクトルから減算される。重
み付き距離計算器653、663では、加算器651、
661からの出力を用いて、重み付き距離が順次算出さ
れて、重み付き距離が最小となる量子化値が選ばれる。
また、加算器651、661からの出力は、第2のベク
トル量子化部6402 の加算器671、681にそれぞ
れ送られる。
のベクトル量子化器672、682によるコードブック
サーチ時の歪尺度dVQ3、dVQ4を、(6)、(7)式で
示す。
Q3) 672、ベクトル量子化器(VQ4) 682にそ
れぞれ送られて、ベクトル量子化が行われる。このベク
トル量子化により出力される各8ビットのインデクスは
信号切換器690に送られる。また、ベクトル量子化に
よる量子化値は、加算器671、681で、入力された
2フレーム分の量子化誤差ベクトルから減算される。重
み付き距離計算器673、683では、加算器671、
681からの出力を用いて、重み付き距離が順次算出さ
れて、重み付き距離が最小となる量子化値が選ばれる。
歪尺度をもとにして、一般化ロイドアルゴリズム(GL
A)により学習を行う。
度は、異なる値であっても良い。
ベクトル量子化器652、662、672、682から
の各8ビットのインデクスは、信号切換器690で切り
換えられて、出力端子691から出力される。
第1のマトリクス量子化工程を行う第1のマトリクス量
子化部6201 、上記第2のマトリクス量子化工程を行
う第2のマトリクス量子化部6202 、及び上記第1の
ベクトル量子化工程を行う第1のベクトル量子化部64
01 での出力を取り出し、高ビットレート時には、上記
低ビットレート時の出力に上記第2のベクトル量子化工
程を行う第2のベクトル量子化部6402 での出力を合
わせて取り出す。
40msec のインデクスが出力され、6kbps 時には、
48bits/40msec のインデクスが出力される。
上記ベクトル量子化部640では、上記LPC係数を表
現するパラメータの持つ特性に合わせた、周波数軸方向
又は時間軸方向、あるいは周波数軸及び時間軸方向に制
限を持つ重み付けを行う。
せた、周波数軸方向に制限を持つ重み付けについて説明
する。例えば、次数P=10とするとき、LSPパラメ
ータx(i)を、低域、中域、高域の3つの領域とし
て、 L1={x(i)|1≦i≦2} L2={x(i)|3≦i≦6} L3={x(i)|7≦i≦10} とグループ化する。そして、各グループL1、L2、L3
の重み付けを1/4、1/2、1/4とすると、各グル
ープL1、L2、L3 の周波数軸方向のみに制限を持つ重
みは、(8)、(9)、(10)式となる。
けは、各グループ内でのみ行われ、その重みは各グルー
プに対する重み付けで制限される。
ムの重み付けの総和は、必ず1となるので、時間軸方向
の制限は1フレーム単位である。この時間軸方向のみに
制限を持つ重みは、(11)式となる。
制限のない、フレーム番号t=0,1の2つのフレーム
間で、重み付けが行われる。この時間軸方向にのみ制限
を持つ重み付けは、マトリクス量子化を行う2フレーム
間で行う。
る全ての音声フレーム、即ち全データのフレーム数Tに
ついて、(12)式により、重み付けを行う。
を持つ重み付けについて説明する。例えば、次数P=1
0とするとき、LSPパラメータx(i,t)を、低
域、中域、高域の3つの領域として、 L1={x(i,t)|1≦i≦2,0≦t≦1} L2={x(i,t)|3≦i≦6,0≦t≦1} L3={x(i,t)|7≦i≦10,0≦t≦1} とグループ化する。各グループL1、L2、L3 の重み付
けを1/4、1/2、1/4とすると、各グループ
L1、L2、L3 の周波数軸方向及び時間軸方向に制限を
持つ重み付けは、(13)、(14)、(15)式とな
る。
り、周波数軸方向では3つの帯域毎に、時間軸方向では
マトリクス量子化を行う2フレーム間に重み付けの制限
を加えた重み付けを行う。これは、コードブックサーチ
時及び学習時共に有効となる。
ーム数について重み付けを行う。LSPパラメータx
(i,t)を、低域、中域、高域の3つの領域として、 L1 ={x(i,t)|1≦i≦2,0≦t≦T} L2 ={x(i,t)|3≦i≦6,0≦t≦T} L3 ={x(i,t)|7≦i≦10,0≦t≦T} とグループ化し、各グループL1、L2、L3 の重み付け
を1/4、1/2、1/4とすると、各グループL1、
L2、L3 の周波数軸方向及び時間軸方向に制限を持つ
重み付けは、(16)、(17)、(18)式となる。
り、周波数軸方向では3つの帯域毎に重み付けを行い、
時間軸方向では全フレーム間で重み付けを行うことがで
きる。
び上記ベクトル量子化部640では、上記LSPパラメ
ータの変化の大きさに応じて重み付けを行う。音声フレ
ーム全体においては少数フレームとなる、V→UV、U
V→Vの遷移(トランジェント)部において、子音と母
音との周波数特性の違いから、LSPパラメータは大き
く変化する。そこで、(19)式に示す重みを、上述の
重みw’(i,t)に乗算することにより、上記遷移部
を重視する重み付けを行うことができる。
用いることも考えられる。
2段のマトリクス量子化及び2段のベクトル量子化を行
うことにより、出力するインデクスのビット数を可変に
することができる。
116の基本構成を図7に、図7のベクトル量子化部の
より具体的な構成を図8にそれぞれ示し、ベクトル量子
化部116におけるスペクトルエンベロープ(Am)の
重み付きベクトル量子化の具体例について説明する。
て、スペクトル評価部148の出力側あるいはベクトル
量子化器116の入力側に設けられたスペクトルエンベ
ロープの振幅のデータ数を一定個数にするデータ数変換
の具体例について説明する。
れるが、本実施の形態においては、例えば、周波数軸上
の有効帯域1ブロック分の振幅データに対して、ブロッ
ク内の最後のデータからブロック内の最初のデータまで
の値を補間するようなダミーデータ、あるいはブロック
の最後のデータ、最初のデータを繰り返すような所定の
データを付加してデータ個数をNF 個に拡大した後、帯
域制限型のOS 倍(例えば8倍)のオーバーサンプリン
グを施すことによりOS 倍の個数の振幅データを求め、
このOS 倍の個数((mMX+1)×OS 個)の振幅デー
タを直線補間してさらに多くのNM 個(例えば2048
個)に拡張し、このNM 個のデータを間引いて上記一定
個数M(例えば44個)のデータに変換している。実際
には、最終的に必要なM個のデータを作成するのに必要
なデータのみをオーバーサンプリング及び直線補間で算
出しており、NM 個のデータを全て求めてはいない。
トル量子化器116は、図7に示すように、第1のベク
トル量子化工程を行う第1のベクトル量子化部500
と、この第1のベクトル量子化部500における第1の
ベクトル量子化の際の量子化誤差ベクトルを量子化する
第2のベクトル量子化工程を行う第2のベクトル量子化
部510とを少なくとも有する。この第1のベクトル量
子化部500は、いわゆる1段目のベクトル量子化部で
あり、第2のベクトル量子化部510は、いわゆる2段
目のベクトル量子化部である。
501には、スペクトル評価部148の出力ベクトル
x、即ち一定個数Mのエンベロープデータが入力され
る。この出力ベクトルxは、ベクトル量子化器502で
重み付きベクトル量子化される。これにより、ベクトル
量子化器502から出力されるシェイプインデクスは出
力端子503から出力され、また、量子化値x 0'は出力
端子504から出力されると共に、加算器505、51
3に送られる。加算器505では、ソースベクトルxか
ら量子化値x 0'が減算されて、量子化誤差ベクトルyが
得られる。
トル量子化部510内のベクトル量子化部511に送ら
れる。このベクトル量子化部511は、複数個のベクト
ル量子化器で構成され、図7では、2個のベクトル量子
化器5111、5112から成る。量子化誤差ベクトルy
は次元分割されて、2個のベクトル量子化器5111、
5112で、それぞれ重み付きベクトル量子化される。
これらのベクトル量子化器5111、5112から出力さ
れるシェイプインデクスは、出力端子5121、5122
からそれぞれ出力され、また、量子化値y 1’、y 2’は
次元方向に接続されて、加算器513に送られる。この
加算器513では、量子化値y 1’、y 2’と量子化値x
0’とが加算されて、量子化値x 1’が生成される。この
量子化値x 1’は出力端子514から出力される。
第1のベクトル量子化部500による第1のベクトル量
子化工程での出力を取り出し、高ビットレート時には、
上記第1のベクトル量子化工程での出力及び上記第2の
量子化部510による第2のベクトル量子化工程での出
力を取り出す。
量子化器116内の第1のベクトル量子化部500のベ
クトル量子化器502は、L次元、例えば44次元の2
ステージ構成としている。
が32のベクトル量子化コードブックからの出力ベクト
ルの和に、ゲインgi を乗じたものを、44次元のスペ
クトルエンベロープベクトルxの量子化値x 0’として
使用する。これは、図8に示すように、2つのシェイプ
コードブックをCB0、CB1とし、その出力ベクトル
をs 0i、s 1j、ただし0≦i,j≦31、とする。ま
た、ゲインコードブックCBgの出力をgl 、ただし0
≦l≦31、とする。gl はスカラ値である。この最終
出力x 0'は、gi(s 0i+s 1j) となる。
て得られたスペクトルエンベロープAmを一定次元に変
換したものをxとする。このとき、xをいかに効率的に
量子化するかが重要である。
合成フィルタの周波数軸上での特性であり、Wは聴覚
重み付けの周波数軸上での特性を表す重み付けのための
行列である。
によるαパラメータを、αi (1≦i≦P)として、
の各対応する点の値をサンプルしたものである。
α1、α2、・・・、αp に0詰めして、すなわち、1、
α1、α2、・・・、αp 、0、0、・・・、0として、
例えば256点のデータにする。その後、256点FF
Tを行い、(re2+im2)1/2 を0〜πに対応する点に対
して算出して、その逆数をとる。それをL点、すなわち
例えば44点に間引いたものを対角要素とする行列を、
められる。
析結果である。また、λa、λbは定数であり、一例とし
て、λa=0.4、λb=0.9が挙げられる。
3)式の周波数特性から算出できる。一例として、1、
α1λb、α2λb2、・・・、αpλbp、0、0、・・・、
0として256点のデータとしてFFTを行い、0以上
π以下の区間に対して(re2[i]+im2[i])1/2 、0≦
i≦128、を求める。次に、1、α1λa、α2λa2、
・・・、αpλap 、0、0、・・・、0として分母の周
波数特性を256点FFTで0〜πの区間を128点で
算出する。これを(re'2[i]+im'2[i])1/2、0≦i
≦128、とする。
められる。
対応する点について、以下の方法で求める。より正確に
は、直線補間を用いるべきであるが、以下の例では最も
近い点の値で代用している。
ある。
h(1)、h(2)、・・・、h(L)を求めている。すなわち、
らすのに、H(z)W(z)を先に求めてから、周波数特性
を求めてもよい。すなわち、
β2p、0、0、・・・、0として、例えば256点のデ
ータにする。その後、256点FFTを行い、振幅の周
波数特性を、
て求める。上記FFTのポイント数が少ない場合は、直
線補間で求めるべきであるが、ここでは最寄りの値を使
用している。すなわち、
W’とすると、
一のマトリクスとなる。
(jω))W(exp(jω))|をω=iπ/L(ただし、1
≦i≦L)に関して算出したものをwh[i] に使用しても
よい。又は、(25)式のインパルス応答を適当な長さ
(例えば40点)求めて、それを用いてFFTして振幅
周波数特性を求めて使用してもよい。
ィルタの周波数特性を用いて、上記(21)式を書き直
すと、
ードブックの学習法について説明する。
選択する全てのフレームkに関して歪の期待値を最小化
する。そのようなフレームがM個あるとして、
で、Wk'はk番目のフレームに対する重み、x k はk
番目のフレームの入力、gk はk番目のフレームのゲイ
ン、s 1kはk番目のフレームについてのコードブックC
B1からの出力、をそれぞれ示す。
目のフレームに関しての歪の期待値Jg は、
プs 0i、s 1j及びゲインgl 、0≦i≦31、0≦j≦
31、0≦l≦31の最適なセントロイドコンディショ
ン(Centroid Condition)、すなわち最適なデコーダ出力
を与えるものである。なお、s 1jに関してもs 0iと同様
に求めることができる。
hbour Condition )を考える。
ち、 E=‖W'(x−gl(s 0i+s 1j))‖2 を最小化するs 0i、s 1jを、入力x、重みマトリクス
W' が与えられる毎に、すなわち毎フレームごとに決
定する。
は、総当り的に全てのgl (0≦l≦31)、s 0i(0
≦i≦31)、s 1j(0≦j≦31)の組み合せの、3
2×32×32=32768通りについてEを求めて、
最小のEを与えるgl 、s 0i、s 1jの組を求めるべきで
あるが、膨大な演算量となるので、本実施の形態では、
シェイプとゲインのシーケンシャルサーチを行ってい
る。なお、s 0iとs 1jとの組み合せについては、総当り
サーチを行うものとする。これは、32×32=102
4通りである。以下の説明では、簡単化のため、s 0i+
s 1jをs m と記す。
s m)‖2 となる。さらに簡単のため、x w=W'x、
s w=W's m とすると、
ると仮定すると、
ことができる。元の表記を用いて書き直すと、
条件(Nearest Neighbour Condition)である。
ブックサーチ(符号帳検索)を行う場合の演算量につい
てさらに考察する。
は、s 0i及びs 1jの次元をK、コードブックCB0、C
B1のサイズをそれぞれL0、L1、すなわち0≦i<L
0、0≦j<L1とし、分子の加算、積和、2乗の各演算
量をそれぞれ1、分母の積、積和の各演算量をそれぞれ
1として、概略、 分子 : L0・L1・{K・(1+1)+1} 分母 : L0・L1・K・(1+1) 大小比較 : L0・L1 となり、計L0・L1(4K+2)となる。ここで、L0
=L1=32、K=44とすると、演算量は、1822
72程度のオーダーとなる。
を全て実行せずに、s 0i及びs 1jに関してP個ずつ予備
選択(プリセレクション)を行う。なお、ここでは、負
のゲインエントリを考えていない(許していない)た
め、上記(35)式の(2)’の分子の値は常に正の数
となるように、上記(35)式の(1)’のサーチを行
う。すなわち、x tW'tW'(s 0i+s 1j) の極性
込みで、上記(35)式の(1)’の最大化を行う。
説明すると、先ず、 (手順1)x tW'tW's 0iを最大にするs 0iを上位
からP0 個選択 (手順2)x tW'tW's 1jを最大にするs 1iを上位
からP1 個選択 (手順3)これらP0個のs 0iとP1個のs 1jの全ての組
み合わせについて、上記(35)式の(1)’の式を評
価 という方法が挙げられる。
平方根である、
1jの重み付きノルムが、i、jによらずほぼ一定という
仮定が成立するときに有効である。実際には上記(a
1)式の分母の大きさは一定ではないが、これを考慮し
た予備選択方法については、後述する。
仮定した場合の演算量の削減効果を説明する。上記(手
順1)のサーチにL0・Kの演算量を要し、大小比較
に、 (L0−1)+(L0−2)+・・・+(L0−P0) =P0・L0 − P0(1+P0)/2 を要するから、演算量の計は、L0(K+P0)−P
0(1+P0)/2となる。また、上記(手順2)にも同
様の処理量が必要であり、これらを合計して、予備選択
のための演算処理量は、 L0(K+P0)+L1(K+P1)−P0(1+P0)/2−P1(1+P1)/2 となる。
いては、上記(35)式の(1)’の演算に関して、 分子 : P0・P1・(1+K+1) 分母 : P0・P1・K・(1+1) 大小比較 : P0・P1 となり、計P0・P1(3K+3)となる。
K=44とすると、演算量は、本選択で4860、予備
選択で3158となり、計8018程度のオーダーとな
る。また、予備選択の個数をそれぞれ10個にまで増や
してP0=P1=10としても、本選択で13500、予
備選択で3346となり、16846程度のオーダーと
なる。
を各コードブックそれぞれ10個ずつとした場合でも、
前述した全てを演算する場合の182272と比較し
て、 16846/182272 となり、元の約1/10以下の演算量に抑えることがで
きる。
の分母の大きさは一定ではなく、選択されたコードベク
トルに依存して大小変化する。そこで、ある程度このノ
ルムの概略の大きさを考慮した予備選択(プリセレクシ
ョン)方法について、以下に説明する。
ある上記(a1)式の最大値を求める場合に、
左辺を最大化すればよい。そこで、この左辺を
項、第2項をそれぞれ最大化する。
の関数なので、s 0iに関しての最大化を考える。また上
記(a3)式の第2項の分子はs 1jのみの関数なので、
s 1jに関しての最大化を考える。すなわち、
Q0 個のs 0iを選択 (手順2)上記(a5)式を最大化するものの上位から
Q1 個のs 1jを選択 (手順3)選択されたQ0個のs 0iとQ1個のs 1jの全て
の組み合わせについて、上記(35)式の(1)’の式
を評価 という方法が挙げられる。
WもHも入力ベクトルxの関数であり、当然W’
も入力ベクトルxの関数となる。
を算出し、上記(a4)、(a5)式の分母を計算すべ
きであるが、ここでは予備選択なのであまり演算処理量
を費やしたくない。そこで、これらの分母については、
典型的な、すなわち代表的なW’の値を用いて事前に
各s 0i、s 1jについて計算した値を、s 0i、s 1jと共に
テーブルに格納しておく。なお、実際のサーチ演算で割
り算をすることは処理が重いので、
く。ここで、W* は、次の(a8)式に示すものであ
る。
記述したときの各W[0]〜W[43] の具体例を示すもので
ある。
は、W’を入力ベクトルx毎に算出して使用する。こ
れは、いずれにせよs 0i、s 1jとxとの内積を算出せね
ばならないので、x tW'tW'を一度計算しておけば
演算量増加はごく僅かであることを考慮したものであ
る。
概略を見積もると、上記(手順1)のサーチでは、L0
(K+1)の演算量を要し、大小比較に、 Q0・L0 − Q0(1+Q0)/2 を要する。また、上記(手順2)にも同様の処理量が必
要であり、これらを合計して、予備選択のための演算処
理量は、 L0(K+Q0+1)+L1(K+Q1+1)−Q0(1+Q0)/2−Q1(1+Q1)/2 となる。
いては、上記(35)式の(1)’の演算に関して、 分子 : Q0・Q1・(1+K+1) 分母 : Q0・Q1・K・(1+1) 大小比較 : Q0・Q1 となり、計Q0・Q1(3K+3)となる。
K=44とすると、演算量は、本選択で4860、予備
選択で3222となり、計8082程度のオーダーとな
る。また、予備選択の個数をそれぞれ10個にまで増や
してQ0=Q1=10としても、本選択で13500、予
備選択で3410となり、16910程度のオーダーと
なる。
ルムで割り込まない(ノーマライズ無し)場合のP0=
P1=6としたときの演算量の、計8018程度のオー
ダーや、P0=P1=10としたときの16846程度の
オーダーとほぼ同程度の値であり、予備選択するベクト
ルの個数を各コードブックそれぞれ10個ずつとした場
合でも、前述した全てを演算する場合の182272と
比較して、 16910/182272 となり、元の約1/10以下の演算量に抑えることがで
きる。
分析・合成した音声を基準として、予備選択を行った場
合のSNR(SN比)と、20msecセグメントのときの
セグメンタルSNRとについて具体例を示すと、ノーマ
ライズ無しP0=P1=6のときのSNR:14.8(d
B)、セグメンタルSNR:17.5(dB)に比べ
て、同じ予備選択個数でノーマライズ有り、重み無しの
とき、SNR:16.8(dB)、セグメンタルSN
R:18.7(dB)となり、重み付きノーマライズ有
りのとき、SNR:17.8(dB)、セグメンタルS
NR:19.6(dB)となる。このように、ノーマラ
イズ無しから、重み付きノーマライズ有りとすること
で、2〜3dBだけSNR、セグメンタルSNRが向上
している。
(Centroid Condition)と、(35)式の条件を用い
て、LBG(Linde-Buzo-Gray) アルゴリズム、いわゆ
る一般化ロイドアルゴリズム(Generalized Lloyd Algo
rithm:GLA)によりコードブック(CB0、CB1、
CBg)を同時にトレーニングできる。
入力xのノルムで割り込んだW’を使用している。す
なわち、上記(31)、(32)、(35)式におい
て、事前にW’にW’/‖x‖を代入して使用して
いる。
16でのベクトル量子化の際の聴覚重み付けに用いられ
る重みW’については、上記(26)式で定義されて
いるが、過去のW’も加味して現在のW’を求める
ことにより、テンポラルマスキングも考慮したW’を
求めてもよい。
h(L)に関して、時刻n、すなわち第nフレームで算出さ
れたものをそれぞれwhn(1),whn(2),・・・,whn(L) とす
る。
n(i)、1≦i≦L と定義すると、
すればよい。このようにして求められたAn(i)、1≦i
≦L について、これを対角要素とするマトリクスを上
記重みとして用いればよい。
得られたシェイプインデクスs 0i、s 1jは、出力端子5
20、522からそれぞれ出力され、ゲインインデクス
glは、出力端子521から出力される。また、量子化
値x 0'は、出力端子504から出力されると共に、加算
器505に送られる。
ロープベクトルxから量子化値x 0'が減算されて、量子
化誤差ベクトルyが生成される。この量子化誤差ベクト
ルyは、具体的には、8個のベクトル量子化器5111
〜5118から成るベクトル量子化部511に送られ
て、次元分割され、各ベクトル量子化器5111〜51
18で重み付きのベクトル量子化が施される。
のベクトル量子化部500と比較して、かなり多くのビ
ット数を用いるため、コードブックのメモリ容量及びコ
ードブックサーチのための演算量(Complexity)が非常
に大きくなり、第1のベクトル量子化部500と同じ4
4次元のままでベクトル量子化を行うことは、不可能で
ある。そこで、第2のベクトル量子化部510内のベク
トル量子化部511を複数個のベクトル量子化器で構成
し、入力される量子化値を次元分割して、複数個の低次
元ベクトルとして、重み付きのベクトル量子化を行う。
る各量子化値y 0〜y 7と、次元数と、ビット数との関係
を、表2に示す。
力されるインデクスIdvq0〜Idvq7は、各出力端子52
31〜5238からそれぞれ出力される。これらのインデ
クスの合計は72ビットである。
から出力される量子化値y 0’〜y 7’を次元方向に接続
した値をy’とすると、加算器513では、量子化値
y’と量子化値x 0’とが加算されて、量子化値x 1’が
得られる。よって、この量子化値x 1’は、x 1 ’=x 0’+y’ =x−y+y’ で表される。すなわち、最終的な量子化誤差ベクトル
は、y’−yとなる。
のベクトル量子化部510からの量子化値x 1’ を復号
化するときには、第1のベクトル量子化部500からの
量子化値x 0’ は不要であるが、第1のベクトル量子化
部500及び第2のベクトル量子化部510からのイン
デクスは必要とする。
る学習法及びコードブックサーチについて説明する。
トルy及び重みw’を用い、表2に示すように、8つの
低次元ベクトルy 0〜y 7及びマトリクスに分割する。こ
のとき、重みW’は、例えば44点に間引いたものを
対角要素とする行列、
る。
されたものを、それぞれy i 、Wi’ (1≦i≦8) とする。
であり、歪尺度Eを最小化する、コードブックのコード
ベクトルsがサーチされる。
り、サーチ時には重み付け無し、すなわち単位行列と
し、学習時とコードブックサーチ時とでは異なる値を用
いるようにしてもよい。
イドアルゴリズム(GLA)を用い、さらに重み付けを
行っている。先ず、学習のための最適なセントロイドコ
ンディションについて説明する。コードベクトルsを最
適な量子化結果として選択した入力ベクトルyがM個あ
る場合に、トレーニングデータをy k とすると、歪の期
待値Jは、全てのフレームkに関して重み付け時の歪の
中心を最小化するような(38)式となる。
トルであり、最適なセントロイドコンディションであ
る。
(y i−s)‖2 の値を最小化するsをサーチすればよ
い。ここでサーチ時のWi'は、必ずしも学習時と同じ
Wi'である必要はなく、重み無しで
トル量子化部116を2段のベクトル量子化部から構成
することにより、出力するインデクスのビット数を可変
にすることができる。
ンベロープ評価部148において得られるハーモニクス
スペクトルのデータ数は上記ピッチに応じて変化し、有
効帯域が例えば3400kHzのときには8個から63個
程度までのいずれかの個数のデータとなる。これらのデ
ータをまとめてブロック化したベクトルvは可変次元ベ
クトルであり、上述の具体例では、ベクトル量子化の前
に一定のデータ数、例えば44次元の固定次元の入力ベ
クトルxに次元変換している。この可変/固定次元変換
は、上述したデータ数変換のことであり、具体的には例
えば前述のように、オーバーサンプリング及び直線補間
等を用いて実現することができる。
に対して誤差計算を行って誤差を最小化するようなコー
ドブックサーチを行うと、必ずしも元の可変次元ベクト
ルvに対する誤差を最小化するようなコードベクトルが
選択されるとは限らない。
でのコードベクトルの選択を仮選択として複数のコード
ベクトルを選択するようにし、これらの仮選択された複
数のコードベクトルについて、可変次元で最終的な最適
コードベクトルの本選択を行わせるようにしている。な
お、固定次元での仮選択を行わずに、可変次元での選択
処理のみを行うようにしてもよい。
適ベクトル選択を行うための構成の一例を示しており、
端子541には、上記スペクトルエンベロープ評価部1
48において得られるスペクトルエンベロープの可変個
数のデータ、すなわち可変次元ベクトルvが入力されて
いる。この可変次元の入力ベクトルvは、前述したデー
タ数変換回路である可変/固定次元変換回路542によ
り、一定の個数、例えば44個のデータから成る固定次
元(44次元)のベクトルxに変換され、端子501に
送られている。この固定次元の入力ベクトルxと、固定
次元の符号帳(コードブック)530から読み出される
固定次元のコードベクトルとが固定次元の選択回路53
5に送られて、これらの間の重み付きの誤差あるいは歪
が最小となるようなコードベクトルを符号帳530から
選択するような選択処理あるいはコードブックサーチが
行われる。
元の符号帳530から得られた固定次元のコードベクト
ルを固定/可変次元変換回路544により元の可変次元
の入力ベクトルvと同じ可変次元に変換し、この可変次
元に変換されたコードベクトルを可変次元の選択回路5
45に送って、上記入力ベクトルvとの間の重み付き歪
の計算を行い、その歪を最小とするコードベクトルを符
号帳530から選択するような選択処理あるいはコード
ブックサーチを行っている。
は、仮選択として、重み付き歪を最小化する候補となる
いくつかのコードベクトルを選択しておき、これらの候
補について、可変次元の選択回路545で重み付き歪計
算を行って、歪を最小とするコードベクトルを本選択す
るようにしている。
トル量子化についての適用範囲を簡単に説明する。この
ベクトル量子化は、ハーモニックコーディング、LPC
残差のハーモニックコーディング、本件出願人が先に提
案した特願平4−91422号明細書及び図面に開示し
たようなMBE(マルチバンド励起)符号化、LPC残
差のMBE符号化等におけるハーモニクススペクトルに
対して帯域制限型の次元変換を用いて可変次元のハーモ
ニクスを重み付きベクトル量子化する場合に適用できる
のみならず、その他、入力ベクトルの次元が可変であっ
て、固定次元の符号帳を用いてベクトル量子化するよう
なあらゆる場合に適用できる。
の場合の一部を選択したり、シェイプコードブックとゲ
インコードブックとから成る符号帳の場合にシェイプコ
ードブックのみを仮選択でサーチするようにしゲインに
ついては可変次元での歪計算により決定するようにした
りすることが挙げられる。また、この仮選択について、
前述した予備選択、すなわち、固定次元のベクトルxと
符号帳に蓄えられた全てのコードベクトルとの類似度を
近似計算(重み付き歪の近似計算)により求めて類似度
の高い複数のコードベクトルを選択すること、を適用し
てもよい。この場合、固定次元での仮選択を上記予備選
択とし、予備選択された候補のコードベクトルについて
可変次元での重み付き歪を最小化するような本選択を行
わせてもよく、また、仮選択の工程で上記予備選択のみ
ならず高精度の歪演算による絞り込みをさらに行った後
に本選択に回すようにしてもよい。
たベクトル量子化の具体例について、図面を参照しなが
ら説明する。
イプコードブック531とゲインコードブック532と
から成り、シェイプコードブック531は、さらに2つ
のコードブックCB0,CB1を有している。これらの
シェイプコードブックCB0,CB1からの出力コード
ベクトルをそれぞれs 0,s 1とし、ゲインコードブック
532により決定されるゲイン回路533のゲインをg
とする。入力端子541からの可変次元の入力ベクトル
vは、可変/固定次元変換回路542により次元変換
(これをD1 とする)されて、端子501を介して固定
次元のベクトルxとして選択回路535の減算器536
に送られ、符号帳530から読み出された固定次元のコ
ードベクトルとの差がとられ、重み付け回路537によ
り重み付けがなされて、誤差最小化回路538に送られ
る。この重み付け回路537での重みをW’とする。
また、符号帳530から読み出された固定次元のコード
ベクトルは、固定/可変次元変換回路544により次元
変換(これをD2 とする)されて、可変次元の選択回路
545の減算器546に送られ、可変次元の入力ベクト
ルvとの差がとられ、重み付け回路547により重み付
けがなされて、誤差最小化回路548に送られる。この
重み付け回路547での重みをWv とする。
誤差とは、上記歪あるいは歪尺度のことであり、誤差す
なわち歪が小さくなることは、類似度あるいは相関性が
高まることに相当する。
35では、前記(27)式の説明と同様に、 E1 = ‖W'(x−g(s 0+s 1))‖2 ・・・(b1) で表される歪尺度E1 を最小化するs 0,s 1,gをサー
チする。ここで、重み付け回路537での重みW’
は、 W' = WH/‖x‖ ・・・(b2) であり、HはLPC合成フィルタの周波数応答特性を
対角要素に持つマトリクスを、またWは聴覚重み付け
フィルタの周波数応答特性を対角要素に持つマトリクス
をそれぞれ示している。
化するs 0,s 1,gをサーチする。ここで、s 0,s 1,
gを、上記歪尺度E1 を小さくする順に、上位からL組
とっておき(固定次元での仮選択)、そのL組のs 0,
s 1,gに関して、 E2 = ‖Wv(v−D2g(s 0+s 1))‖2 ・・・(b3) を最小化するs 0,s 1,gの組を最適コードベクトルと
して、最終的な本選択を可変次元で行う。
ついては、前述した(27)式以下の説明の通りであ
る。
ク学習のためのセントロイドコンディションについて説
明する。
イプコードブック531の1つであるコードブックCB
0について、コードベクトルs 0 を選択する全てのフレ
ームkに関して、歪の期待値を最小化する。そのような
フレームがM個あるとして、
小化するために、
行列を、Wvk T はWvkの転置行列をそれぞれ示して
いる。この(b6)式が、シェイプベクトルs 0 の最適
セントロイド条件である。
のシェイプコードブック531のもう1つのコードブッ
クCB1についてのコードベクトルs 1 を選択する場合
も同様であるため、説明を省略する。
のゲインコードブック532からのゲインgについての
セントロイド条件を考察する。
目のフレームに関して、歪の期待値Jg は、
ード条件を考察する。上記(b3)式でサーチせねばな
らないs 0,s 1,gの組は、上記固定次元での仮選択に
よりL組と限定されているので、上記(b3)式をL組
のs 0,s 1,gに関して直接計算し、歪E2 を最小とす
るs 0,s 1,gの組を最適コードベクトルとして選択す
ればよい。
や、上記仮選択を行わず直接的に可変次元でs 0,s 1,
gの選択を行う場合に、有効とされるシェイプとゲイン
のシーケンシャルなサーチの方法について説明する。
ぞれi,j,lのインデクスを付加して書き直すと、 E2 = ‖Wv(v−D2gl(s 0i+s 1j))‖2 ・・・(b10) となる。これを最小化するgl,s 0i,s 1j を総当たり
でサーチすることも可能であるが、例えば0≦l<3
2,0≦i<32,0≦j<32とすると、323=3
2768通りものパターンについて上記(b10)式を計
算することになり、膨大な演算量となる。そこで、シェ
イプとゲインをシーケンシャルにサーチする方法を説明
する。
を決定してから、ゲインgl を決定する。s 0i+s 1j=
s m とおくと、上記(b10)式は、 E2 = ‖Wv(v−D2gl s m)‖2 ・・・(b11) と表せ、さらに、v w=Wv v,s w=WvD2 s mとお
くと、(b11)式は、
るとすると、
15),(b16)式のようになる。
インのセントロイド条件と、上記(b15),(b16)式
の最適エンコード条件(Nearest Neighbour Condition
)を用いて、一般化ロイドアルゴリズム(Generalized
Lloyd Algorithm:GLA)によって、コードブック
(CB0、CB1、CBg)を同時に学習させることが
できる。
(b16)式を用いた学習法は、先に述べた(27)式以
下の説明、特に前記(31),(32),(35)式を
用いる方法に比べて、元の入力ベクトルvの可変次元へ
の変換を行った後の歪を最小化している点で優れてい
る。
(b6)式の演算は、煩雑であるので、例えば上記(b
15),(b16)式の最適エンコード条件のみを用いて、
セントロイド条件は 前記(27)式(すなわち(b
1)式)の最適化から導かれるものを用いてもよい。
前記(27)式以下の説明に述べた方法で行い、サーチ
時のみ上記(b15),(b16)式を用いる方法も挙げら
れる。また、上記固定次元での仮選択を前記(27)式
以下の説明に述べた方法で行い、選ばれた複数個(L
個)の組についてのみ上記(b3)式を直接評価してサ
ーチを行うようにしてもよい。
によるサーチを、上記仮選択後、あるいは総当たり的に
使用することにより、最終的にはより歪の少ないコード
ベクトルサーチあるいは学習を行うことが可能となる。
元で歪計算を行うことが好ましい理由について簡単に述
べる。
元での歪の最小化とが一致すれば、可変次元での歪の最
小化は不要であるが、固定/可変次元変換回路544で
の次元変換D2 が直交行列ではないため、これらの歪の
最小化は一致しない。このため、固定次元で歪を最小化
しても、必ずしもこれは可変次元で最適に歪を最小化す
ることにはならず、最終的に得られる可変次元のベクト
ルを最適化しようとするには、可変次元での最適化が必
要とされるからである。
シェイプコードブックとゲインコードブックとに分ける
ときのゲインを可変次元でのゲインとし、可変次元で最
適化するようにした例を示している。
ら読み出された固定次元のコードベクトルを固定/可変
次元変換回路544に送って可変次元のベクトルに変換
した後、ゲイン回路533に送っている。可変次元での
選択回路545は、ゲイン回路533からの可変次元の
コードベクトルと上記入力ベクトルvとに基づいて、固
定/可変次元変換されたコードベクトルに対するゲイン
回路533での最適ゲインを選択すればよい。あるい
は、ゲイン回路533への入力ベクトルと上記入力ベク
トルvとの内積に基づいて最適ゲインを選択するように
してもよい。他の構成及び動作は、上記図10の例と同
様である。
ては、選択回路535における固定次元での選択時に唯
一のコードベクトルを選択するようにし、可変次元での
選択はゲインのみとしてもよい。
4で変換したコードベクトルに対してゲインを掛けるよ
うな構成とすることにより、上記図10に示すようなゲ
イン倍したコードベクトルを固定/可変次元変換するも
のに比べて、固定/可変次元変換による影響を考慮した
上で最適なゲインを選択することができる。
変次元での本選択とを組み合わせるベクトル量子化の他
の具体例について説明する。
出された固定次元の第1のコードベクトルを入力ベクト
ルの可変次元に次元変換し、第2の符号帳から読み出さ
れた固定次元の第2のコードベクトルを上記固定/可変
次元変換された可変次元の第1のコードベクトルに加算
し、この加算されて得られた加算コードベクトルについ
て上記入力ベクトルとの誤差を最小化する最適のコード
ベクトルを上記少なくとも第2の符号帳より選択するよ
うにしている。
(コードブック)CB0から読み出された固定次元の第
1のコードベクトルs 0 を、固定/可変次元変換回路5
44に送って、端子541の入力ベクトルvに等しい可
変次元に次元変換し、第2の符号帳CB1から読み出さ
れた固定次元の第2のコードベクトルs 1 を加算機54
9に送って、固定/可変次元変換回路544からの可変
次元のコードベクトルに加算し、この加算器549で加
算されて得られた加算コードベクトルを選択回路545
に送り、この選択回路545で、加算器549からの加
算ベクトルと上記入力ベクトルvとの誤差を最小化する
最適のコードベクトルを選択するようにしている。ここ
で、第2の符号帳(コードブック)CB1からのコード
ベクトルは、入力スペクトルのハーモニクスの低域側か
らコードブックCB1の次元にまで適用される。また、
ゲインgのゲイン回路533は、第1の符号帳CB0と
固定/可変次元変換回路544との間にのみ設けられて
いる。他の構成は上記図10と同様であるため、対応す
る部分に同じ指示符号を付して説明を省略する。
定次元のままのコードベクトルを、コードブックCB0
から読み出されて可変次元に変換されたコードベクトル
と加算することにより、固定/可変次元変換を行うこと
によって発生した歪をコードブックCB1からの固定次
元のコードベクトルによって減じることができる。
計算される歪E3 は、 E3 =‖Wv(v−(D2gs 0+s 1))‖2 ・・・(b17) となる。
を加算器549の出力側に配置している。従って、第1
の符号帳CB0から読み出され固定/可変次元変換回路
544で可変次元に変換されたコードベクトルと、第2
の符号帳CB1から読み出されたコードベクトルとの加
算結果に対してゲインgが掛けられる。これは、CB0
からのコードベクトルに乗ずるべきゲインと、その補正
分(量子化誤差の量子化)のためのコードブックCB1
からのコードベクトルに乗ずるべきゲインの相関が強い
ため、共通のゲインを用いている。この図13の選択回
路545で計算される歪E4 は、 E4 =‖Wv(v−g(D2 s 0+s 1))‖2 ・・・(b18) となる。この図13の例の他の構成は、上記図12の例
と同様であるため説明を省略する。
おける第1の符号帳CB0の出力側にゲインgのゲイン
回路5330 を設けるのみならず、第2の符号帳CB1
の出力側にもゲインgのゲイン回路5331 を設けてい
る。この図14の選択回路545で計算される歪は、上
記図13の例と同様に、(b18)式に示す歪E4 とな
る。この図14の例の他の構成は、上記図12の例と同
様であるため説明を省略する。
帳を2つのシェイプコードブックCB0、CB1で構成
した例を示し、これらのシェイプコードブックCB0、
CB1からの各コードベクトルs 0、s 1が加算され、ゲ
イン回路533でゲインgを掛けられて、固定/可変次
元変換回路544に送られている。この固定/可変次元
変換回路544からの可変次元のコードベクトルと、第
2の符号帳CB2からのコードベクトルs 2 とを加算器
549で加算して、選択回路545に送っている。この
図15の選択回路545で計算される歪E5 は、 E5 =‖Wv(v−(gD2(s 0+s 1)+s2))‖2 ・・・(b19) となる。この図15の例の他の構成は、上記図12の例
と同様であるため説明を省略する。
法について説明する。先ず、第1のサーチ方法として
は、 E4' =‖W'(x−gl s 0i))‖2 ・・・(b20) を最小化するs 0i,gl をサーチし、次に E4 =‖Wv(v−gl(D2 s 0i+s 1j))‖2 ・・・(b21) を最小化するs 1jをサーチすることが挙げられる。
0)式のセントロイド条件について説明する。上記コー
ドベクトルs 0iのセントロイドをs 0cとするとき、
イドgc については、上記(b20)式より、
1)式のセントロイド条件として、ベクトルs 1jのセン
トロイドs 1cについては、
ドベクトルs 0iのセントロイドs 0cを求めると、
上記ゲインgのセントロイドgc を求めると、
ルs 0iのセントロイドs 0cの算出方法を(b30)式に、
ゲインgのセントロイドgc の算出方法を(b33)式に
それぞれ示した。また、上記(b21)式によるセントロ
イドの算出方法として、コードベクトルs 1jのセントロ
イドs 1cを(b36)式に、コードベクトルs 0iのセント
ロイドs 0cを(b39)式に、ゲインgのセントロイドg
c を(b40)式にそれぞれ示した。
A)によるコードブックの学習においては、セントロイ
ド条件として、上記(b30)式、(b36)式、(b40)
式を使用してs 0,s 1,gを同時に学習する方法が挙げ
られる。サーチ方法(NearestNeighbour Condition)
は、例えば上記(b22)式、(b23)式、(b24)式を
用いればよい。この他、上記(b30)式、(b33)式、
(b36)式、あるいは、上記(b39)式、(b36)式、
(b40)式といったセントロイド条件の組み合わせも可
能であることは勿論である。
式の歪尺度の場合のサーチ方法について説明する。この
場合には、 E3' =‖W'(x−gl s 0i))‖2 ・・・(b41) を最小化するs 0i,gl をサーチし、次に E3 =‖Wv(v−gl(D2 s 0i+s 1j))‖2 ・・・(b42) を最小化するs 1jをサーチすることが挙げられる。
0iの組を総当たりするのは現実的でないので、次のよう
にしている。
ントロイド条件を導く。この場合も、上述したのと同様
に、どの式を用いるかで変わってくる。
上記コードベクトルs 0iのセントロイドをs 0cとすると
き、
イドgc については、上記(b41)式より、上記(b3
3)式の場合と同様に、次の式が得られる。
1jのセントロイドs 1cを求める場合には、次の通りであ
る。
上記コードベクトルs 0iのセントロイドs 0c、及び上記
ゲインgのセントロイドgc を求めることができる。
A)によるコードブックの学習は、上記(b47)式、
(b48)式、(b51)式を用いて、あるいは、上記(b
51)式、(b52)式、(b55)式を用いて行うようにす
ればよい。
用いた第2の符号化部120は、より具体的には図16
に示すような、多段のベクトル量子化処理部(図16の
例では2段の符号化部1201と1202)の構成を有す
るものとなされている。なお、当該図16の構成は、伝
送ビットレートを例えば前記2kbpsと6kbpsと
で切り換え可能な場合において、6kbpsの伝送ビッ
トレートに対応した構成を示しており、さらにシェイプ
及びゲインインデクス出力を23ビット/5msecと
15ビット/5msecとで切り換えられるようにして
いるものである。また、この図16の構成における処理
の流れは図17に示すようになっている。
1の符号化部300は前記図3の第1の符号化部113
と略々対応し、図16のLPC分析回路302は前記図
3に示したLPC分析回路132と対応し、図16のL
SPパラメータ量子化回路303は図3の前記α→LS
P変換回路133からLSP→α変換回路137までの
構成と対応し、図16の聴覚重み付けフィルタ304は
図3の前記聴覚重み付けフィルタ算出回路139及び聴
覚重み付けフィルタ125と対応している。したがっ
て、この図16において、端子305には前記図3の第
1の符号化部113のLSP→α変換回路137からの
出力と同じものが供給され、また、端子307には前記
図3の聴覚重み付けフィルタ算出回路139からの出力
と同じものが、端子306には前記図3の聴覚重み付け
フィルタ125からの出力と同じものが供給される。た
だし、この図16の聴覚重み付けフィルタ304では、
前記図3の聴覚重み付けフィルタ125とは異なり、前
記LSP→α変換回路137の出力を用いずに、入力音
声データと量子化前のαパラメータとから、前記聴覚重
み付けした信号(すなわち前記図3の聴覚重み付けフィ
ルタ125からの出力と同じ信号)を生成している。
符号化部1201及び1202において、減算器313及
び323は図3の減算器123と対応し、距離計算回路
314及び324は図3の距離計算回路124と、ゲイ
ン回路311及び321は図3のゲイン回路126と、
ストキャスティックコードブック310,320及びゲ
インコードブック315,325は図3の雑音符号帳1
21とそれぞれ対応している。
図17のステップS1に示すように、LPC分析回路3
02では、端子301から供給された入力音声データx
を前述同様に適当なフレームに分割してLPC分析を行
い、αパラメータを求める。LSPパラメータ量子化回
路303では、上記LPC分析回路302からのαパラ
メータをLSPパラメータに変換して量子化し、さらに
この量子化したLSPパラメータを補間した後、αパラ
メータに変換する。次に、当該LSPパラメータ量子化
回路303では、当該量子化したLSPパラメータを変
換したαパラメータ、すなわち量子化されたαパラメー
タから、LPC合成フィルタ関数1/H(z)を生成
し、これを端子305を介して1段目の第2の符号化部
1201の聴覚重み付き合成フィルタ312に送る。
LPC分析回路302からのαパラメータ(すなわち量
子化前のαパラメータ)から、前記図3の聴覚重み付け
フィルタ算出回路139によるものと同じ聴覚重み付け
のためのデータを求め、この重み付けのためのデータが
端子307を介して、1段目の第2の符号化部1201
の聴覚重み付き合成フィルタ312に送られる。また、
当該聴覚重み付けフィルタ304では、図17のステッ
プS2に示すように、入力音声データと量子化前のαパ
ラメータとから、前記聴覚重み付けした信号(前記図3
の聴覚重み付けフィルタ125からの出力と同じ信号)
を生成する。すなわち、先ず、量子化前のαパラメータ
から聴覚重み付けフィルタ関数W(z)を生成し、さら
に入力音声データxに当該フィルタ関数W(z)を適用
してx W を生成し、これを上記聴覚重み付けした信号と
して、端子306を介して1段目の第2の符号化部12
01 の減算器313に送る。
ビットシェイプインデクス出力のストキャスティックコ
ードブック(stochastic code book)310からの代表
値出力(無声音のLPC残差に相当するノイズ出力)が
ゲイン回路311に送られ、このゲイン回路311に
て、ストキャスティックコードブック310からの代表
値出力に6ビットゲインインデクス出力のゲインコード
ブック315からのゲイン(スカラ値)を乗じ、このゲ
イン回路311にてゲインが乗じられた代表値出力が、
1/A(z)=(1/H(z))・W(z)の聴覚重み
付きの合成フィルタ312に送られる。この重み付きの
合成フィルタ312からは、図17のステップS3のよ
うに、1/A(z)のゼロ入力応答出力が減算器313
に送られる。当該減算器313では、上記聴覚重み付き
合成フィルタ312からのゼロ入力応答出力と、上記聴
覚重み付けフィルタ304からの上記聴覚重み付けした
信号x W とを用いた減算が行われ、この差分或いは誤差
が参照ベクトルrとして取り出される。図17のステッ
プS4に示すように、1段目の第2の符号化部1201
でのサーチ時には、この参照ベクトルrが、距離計算回
路314に送られ、ここで距離計算が行われ、量子化誤
差エネルギEを最小にするシェイプベクトルsとゲイン
gがサーチされる。ただし、ここでの1/A(z)はゼ
ロ状態である。すなわち、コードブック中のシェイプベ
クトルsをゼロ状態の1/A(z)で合成したものをs
synとするとき、式(40)を最小にするシェイプベク
トルsとゲインgをサーチする。
るsとgをフルサーチしてもよいが、計算量を減らすた
めに、以下のような方法をとることができる。なお、r
(n)等は、ベクトルr等の要素を表している。
義するEsを最小とするシェイプベクトルsをサーチす
る。
れたsより、理想的なゲインは、式(42)のようにな
るから、式(43)を最小とするgをサーチする。
るgはEを最小化する。
とgより、量子化誤差ベクトルeは次の式(44)のよ
うに計算できる。
ス入力として1段目と同様にして量子化する。
201 の聴覚重み付き合成フィルタ312からは、端子
305及び端子307に供給された信号がそのまま2段
目の第2の符号化部1202の聴覚重み付き合成フィル
タ322に送られる。また、当該2段目の第2の符号化
部1202減算器323には、1段目の第2の符号化部
1201にて求めた上記量子化誤差ベクトルeが供給さ
れる。
該2段目の第2の符号化部1202でも1段目と同様に
処理が行われる。すなわち、5ビットシェイプインデク
ス出力のストキャスティックコードブック320からの
代表値出力がゲイン回路321に送られ、このゲイン回
路321にて、当該コードブック320からの代表値出
力に3ビットゲインインデクス出力のゲインコードブッ
ク325からのゲインを乗じ、このゲイン回路321の
出力が、聴覚重み付きの合成フィルタ322に送られ
る。当該重み付きの合成フィルタ322からの出力は減
算器323に送られ、当該減算器323にて上記聴覚重
み付き合成フィルタ322からの出力と1段目の量子化
誤差ベクトルeとの差分が求められ、この差分が距離計
算回路324に送られてここで距離計算が行われ、量子
化誤差エネルギEを最小にするシェイプベクトルsとゲ
インgがサーチされる。
201 のストキャストコードブック310からのシェイ
プインデクス出力及びゲインコードブック315からの
ゲインインデクス出力と、2段目の第2の符号化部12
02 のストキャストコードブック320からのインデク
ス出力及びゲインコードブック325からのインデクス
出力は、インデクス出力切り換え回路330に送られる
ようになっている。ここで、当該第2の符号化部120
から23ビット出力を行うときには、上記1段目と2段
目の第2の符号化部1201及び1202のストキャスト
コードブック310,320及びゲインコードブック3
15,325からの各インデクスを合わせて出力し、一
方、15ビット出力を行うときには、上記1段目の第2
の符号化部1201 のストキャストコードブック310
とゲインコードブック315からの各インデクスを出力
する。
状態がアップデートされる。
2の符号化部1202 のインデクスビット数が、シェイ
プベクトルについては5ビットで、ゲインについては3
ビットと非常に少ない。このような場合、適切なシェイ
プ、ゲインがコードブックに存在しないと、量子化誤差
を減らすどころか逆に増やしてしまう可能性がある。
意しておけばよいが、ゲインは3ビットしかなく、その
うちの一つを0にしてしまうのは量子化器の性能を大き
く低下させてしまう。そこで、比較的多いビット数を割
り当てたシェイプベクトルに、要素が全て0のベクトル
を用意する。そして、このゼロベクトルを除いて、前述
のサーチを行い、量子化誤差が最終的に増えてしまった
場合に、ゼロベクトルを選択するようにする。なお、こ
のときのゲインは任意である。これにより、2段目の第
2の符号化部1202が量子化誤差を増すことを防ぐこ
とができる。
例に挙げているが、2段に限らず複数段構成とすること
ができる。この場合、1段目のクローズドループサーチ
によるベクトル量子化が終了したら、N段目(2≦N)
ではN−1段目の量子化誤差をリファレンス入力として
量子化を行い、さらにその量子化誤差をN+1段目のリ
ファレンス入力とする。
第2の符号化部に多段のベクトル量子化器を用いること
により、従来のような同じビット数のストレートベクト
ル量子化や共役コードブックなどを用いたものと比較し
て、計算量が少なくなる。特に、CELP符号化では、
合成による分析(Analysis by Synthesis )法を用いた
クローズドループサーチを用いた時間軸波形のベクトル
量子化を行っているため、サーチの回数が少ないことが
重要である。また、2段の第2の符号化部1201と1
202の両インデクス出力を用いる場合と、1段目の第
2の符号化部1201のインデクス出力のみを用いる
(2段目の第2の符号化部1202の出力インデクスを
用いない)場合とを切り換えることにより、簡単にビッ
ト数を切り換えることが可能となっている。さらに上述
したように、1段目と2段目の第2の符号化部1201
と1202の両インデクス出力を合わせて出力するよう
なことを行えば、後のデコーダ側において例えば何れか
を選ぶようにすることで、デコーダ側でも容易に対応で
きることになる。すなわち例えば6kbpsでエンコー
ドしたパラメータを、2kbpsのデコーダでデコード
するときに、デコーダ側で容易に対応できることにな
る。またさらに、例えば2段目の第2の符号化部120
2のシェイプコードブックにゼロベクトルを含ませるこ
とにより、割り当てられたビット数が少ない場合でも、
ゲインに0を加えるよりは少ない性能劣化で量子化誤差
が増加することを防ぐことが可能となっている。
クのコードベクトル(シェイプベクトル)は例えば以下
のようにして生成することができる。
のコードベクトルは、いわゆるガウシアンノイズのクリ
ッピングにより生成することができる。具体的には、ガ
ウシアンノイズを発生させ、これを適当なスレシホール
ド値でクリッピングし、それを正規化することで、コー
ドブックを構成することができる。
えば「さ,し,す,せ,そ」のようなノイズに近い子音
の音声には、ガウシアンノイズが適しているが、例えば
「ぱ,ぴ,ぷ,ぺ,ぽ」のような立ち上がりの激しい子
音(急峻な子音)の音声については、対応しきれない。
うち、適当な数はガウシアンノイズとし、残りを学習に
より求めて上記立ち上がりの激しい子音とノイズに近い
子音の何れにも対応できるようにする。例えば、スレシ
ホールド値を大きくとると、大きなピークを幾つか持つ
ようなベクトルが得られ、一方、スレシホールド値を小
さくとると、ガウシアンノイズそのものに近くなる。し
たがって、このようにクリッピングスレシホールド値の
バリエーションを増やすことにより、例えば「ぱ,ぴ,
ぷ,ぺ,ぽ」のような立ち上がりの激しい子音や、例え
ば「さ,し,す,せ,そ」のようなノイズに近い子音な
どに対応でき、明瞭度を向上させることができるように
なる。なお、図18には、図中実線で示すガウシアンノ
イズと図中点線で示すクリッピング後のノイズの様子を
示している。また、図18の(A)はクリッピングスレ
シホールド値が1.0の場合(すなわちスレシホールド
値が大きい場合)を、図18の(B)にはクリッピング
スレシホールド値が0.4の場合(すなわちスレシホー
ルド値が小さい場合)を示している。この図18の
(A)及び(B)から、スレシホールド値を大きくとる
と、大きなピークを幾つか持つようなベクトルが得ら
れ、一方、スレシホールド値を小さくとると、ガウシア
ンノイズそのものに近くなることが判る。
ウシアンノイズのクリッピングにより初期コードブック
を構成し、さらに予め適当な数だけ学習を行わないコー
ドベクトルを決めておく。この学習しないコードベクト
ルは、その分散値が小さいものから順に選ぶようにす
る。これは、例えば「さ,し,す,せ,そ」のようなノ
イズに近い子音に対応させるためである。一方、学習を
行って求めるコードベクトルは、当該学習のアルゴリズ
ムとしてLBGアルゴリズムを用いるようにする。ここ
で最適エンコード条件(Nearest Neighbour Conditio
n) でのエンコードは固定したコードベクトルと、学習
対象のコードベクトル両方を使用して行う。セントロイ
ドコンディション(Centroid Condition)においては、
学習対象のコードベクトルのみをアップデートする。こ
れにより、学習対象となったコードベクトルは「ぱ,
ぴ,ぷ,ぺ,ぽ」などの立ち上がりの激しい子音に対応
するようになる。
で、これらのコードベクトルに対して最適なものが学習
できる。
によるコードブックの構成のための処理の流れを図19
に示す。
は、初期化として、学習回数n=0とし、誤差D0=∞
とし、最大学習回数nmaxを決定し、学習終了条件を決
めるスレシホールド値εを決定する。
ズのクリッピングによる初期コードブックを生成し、ス
テップS12では学習を行わないコードベクトルとして
一部のコードベクトルを固定する。
を用いてエンコードを行い、ステップS14では誤差を
算出し、ステップS15では(Dn-1−Dn)/Dn<
ε、若しくはn=nmaxか否かを判断し、Yesと判断
した場合には処理を終了し、Noと判断した場合にはス
テップS16に進む。
なかったコードベクトルの処理を行い、次のステップS
17ではコードブックのアップデートを行う。次にステ
ップS18では学習回数nを1インクリメントし、その
後ステップS13に戻る。
て、V/UV(有声音/無声音)判定部115の具体例
について説明する。
交変換回路145からの出力と、高精度ピッチサーチ部
146からの最適ピッチと、スペクトル評価部148か
らのスペクトル振幅データと、オープンループピッチサ
ーチ部141からの正規化自己相関最大値r(p) と、ゼ
ロクロスカウンタ412からのゼロクロスカウント値と
に基づいて、当該フレームのV/UV判定が行われる。
さらに、MBEの場合と同様な各バンド毎のV/UV判
定結果の境界位置も当該フレームのV/UV判定の一条
件としている。
判定結果を用いたV/UV判定条件について以下に説明
する。
大きさを表すパラメータあるいは振幅|Am| は、
| は、LPC残差をDFTしたスペクトルであり、|
E(j)| は、基底信号のスペクトル、具体的には256
ポイントのハミング窓をDFTしたものである。また、
am及びbmは、第m番目のハーモニクスに対応する第m
バンドに対応する周波数をインデクスjで表現したとき
の下限値及び上限値である。また、各バンド毎のV/U
V判定のために、NSR(ノイズtoシグナル比)を利用
する。この第mバンドのNSRは、
ば0.3 )より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の近
似が良くない(上記励起信号|E(j) |が基底として不
適当である)と判断でき、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
NSRは、各ハーモニクス毎のスペクトル類似度をあら
わしている。NSRのハーモニクスのゲインによる重み
付け和をとったものをNSRall として次のように定義
する。
(Σm |Am |) このスペクトル類似度NSRall がある閾値より大きい
か小さいかにより、V/UV判定に用いるルールベース
を決定する。ここでは、この閾値をThNSR =0.3 とし
ておく。このルールベースは、フレームパワー、ゼロク
ロス、LPC残差の自己相関の最大値に関するものであ
り、NSRall <ThNSR のときに用いられるルールベ
ースでは、ルールが適用されるとVとなり適用されるル
ールがなかった場合はUVとなる。
られるルールベースでは、ルールが適用されるとUV、
適用されないとVとなる。
のである。NSRall <ThNSR のとき、 if numZeroXP<24、& frmPow>340、& r0>0.32
then V NSRall ≧ThNSR のとき、 if numZeroXP>30、& frmPow<900、& r0<0.23
then UV ただし、各変数は次のように定義される。 numZeroXP:1フレーム当たりのゼロクロス回数 frmPow :フレームパワー r0 :自己相関最大値 上記のようなルールの集合であるルールに照合すること
で、V/UVを判定する。
の要部のより具体的な構成及び動作について説明する。
化器212においては、上述したような音声符号化装置
(エンコーダ)側でのベクトル量子化器の構成に対応し
た逆ベクトル量子化構成が用いられる。
た構成によりベクトル量子化が施されている場合に、デ
コーダ側では、与えられたインデクスに応じて符号帳5
30のシェイプコードブックCB0,CB1及びゲイン
コードブックDBg から、コードベクトルs 0,s 1及び
ゲインgがそれぞれ読み出され、g(s 0+s 1)の固定
次元(例えば44次元)のベクトルとして取り出され、
元のハーモニクススペクトルのベクトルの次元数に対応
する可変次元のベクトルに変換(固定/可変次元変換)
される。
ように、可変次元ベクトルに固定次元コードベクトルを
加算するようなベクトル量子化器の構成を有する場合に
は、デコーダ側では、可変次元用のコードブック(例え
ば図12のコードブックCB0)から読み出されたコー
ドベクトルについては固定/可変次元変換し、これに固
定次元用のコードブック(図12ではコードブックCB
1)から読み出された固定次元のコードベクトルをハー
モニクスの低域側から次元数分だけ加算して、取り出す
ようにしている。
は、上述したように、V(有声音)用の合成フィルタ2
36と、UV(無声音)用の合成フィルタ237とに分
離されている。すなわち、合成フィルタを分離せずにV
/UVの区別なしに連続的にLSPの補間を20サンプ
ルすなわち2.5msec 毎に行う場合には、V→UV、
UV→Vの遷移(トランジェント)部において、全く性
質の異なるLSP同士を補間することになり、Vの残差
にUVのLPCが、UVの残差にVのLPCが用いられ
ることにより異音が発生するが、このような悪影響を防
止するために、LPC合成フィルタをV用とUV用とで
分離し、LPCの係数補間をVとUVとで独立に行わせ
たものである。
237の係数補間方法について説明する。これは、次の
表3に示すように、V/UVの状態に応じてLSPの補
間を切り換えている。
例えば10次のLPC分析の例で述べると、フィルタの
特性がフラットでゲインが1のときのαパラメータ、す
なわち α0=1,α1=α2=・・・=α10=0に対応す
るLSPであり、 LSPi =(π/11)×i 0≦i≦10 である。
10次のLSPの場合は、図20に示す通り、0〜πの
間を11等分した位置に均等間隔で配置されたLSP
で、完全にフラットなスペクトルに対応している。合成
フィルタの全帯域ゲインはこのときが最小のスルー特性
となる。
す図であり、UV(無声音)部分からV(有声音)部分
への遷移時における1/HUV(z) のゲイン及び1/H
V(z)のゲインの変化の様子を示している。
が160サンプル(20msec )のとき、1/HV(z)の
係数は2.5msec (20サンプル)毎、また1/HUV
(z)の係数は、ビットレートが2kbps で10msec
(80サンプル)、6kbps で5msec (40サンプ
ル)毎である。なお、UV時はエンコード側の第2の符
号化部120で合成による分析法を用いた波形マッチン
グを行っているので、必ずしも均等間隔LSPと補間せ
ずとも、隣接するV部分のLSPとの補間を行ってもよ
い。ここで、第2の符号化部120におけるUV部の符
号化処理においては、V→UVへの遷移部で1/A(z)
の重み付き合成フィルタ122の内部状態をクリアする
ことによりゼロインプットレスポンスを0にする。
7からの出力は、それぞれ独立に設けられたポストフィ
ルタ238v、238uに送られており、ポストフィル
タもVとUVとで独立にかけることにより、ポストフィ
ルタの強度、周波数特性をVとUVとで異なる値に設定
している。
成フィルタ入力であるエクサイテイションの、V部とU
V部のつなぎ部分の窓かけについて説明する。これは、
図4の有声音合成部211のサイン波合成回路215
と、無声音合成部220の窓かけ回路223とによりそ
れぞれ行われるものである。なお、エクサイテイション
のV部の合成方法については、本件出願人が先に提案し
た特願平4−91422号の明細書及び図面に具体的な
説明が、また、V部の高速合成方法については、本件出
願人が先に提案した特願平6−198451号の明細書
及び図面に具体的な説明が、それぞれ開示されている。
今回の具体例では、この高速合成方法を用いてV部のエ
クサイテイションを生成している。
のスペクトルを用いてスペクトルを補間してサイン波合
成するため、図22に示すように、第nフレームと第n
+1フレームとの間にかかる全ての波形を作ることがで
きる。しかし、図22の第n+1フレームと第n+2フ
レームとのように、VとUV(無声音)に跨る部分、あ
るいはその逆の部分では、UV部分は、フレーム中に±
80サンプル(全160サンプル=1フレーム間隔)の
データのみをエンコード及びデコードしている。このた
め、図23に示すように、V側ではフレームとフレーム
との間の中心点CNを越えて窓かけを行い、UV側では
中心点CN移行の窓かけを行って、接続部分をオーバー
ラップさせている。UV→Vの遷移(トランジェント)
部分では、その逆を行っている。なお、V側の窓かけは
破線のようにしてもよい。
びノイズ加算について説明する。これは、図4のノイズ
合成回路216、重み付き重畳回路217、及び加算器
218を用いて、有声音部分のLPC合成フィルタ入力
となるエクサイテイションについて、次のパラメータを
考慮したノイズをLPC残差信号の有声音部分に加える
ことにより行われる。
チラグPch、有声音のスペクトル振幅Am[i]、フレーム
内の最大スペクトル振幅Amax 、及び残差信号のレベル
Levを挙げることができる。ここで、ピッチラグPch
は、所定のサンプリング周波数fs (例えばfs=8kH
z)でのピッチ周期内のサンプル数であり、スペクトル
振幅Am[i]のiは、fs/2 の帯域内でのハーモニック
スの本数をI=Pch/2とするとき、0<i<Iの範囲
内の整数である。
例えばMBE(マルチバンド励起)符号化の無声音の合
成と同様な方法で行われる。図24は、ノイズ合成回路
216の具体例を示している。
発生部401からは、時間軸上のホワイトノイズ信号波
形に所定の長さ(例えば256サンプル)で適当な窓関
数(例えばハミング窓)により窓かけされたガウシャン
ノイズが出力され、これがSTFT処理部402により
STFT(ショートタームフーリエ変換)処理を施すこ
とにより、ノイズの周波数軸上のパワースペクトルを得
る。このSTFT処理部402からのパワースペクトル
を振幅処理のための乗算器403に送り、ノイズ振幅制
御回路410からの出力を乗算している。乗算器403
からの出力は、ISTFT処理部404に送られ、位相
は元のホワイトノイズの位相を用いて逆STFT処理を
施すことにより時間軸上の信号に変換する。ISTFT
処理部404からの出力は、重み付き重畳加算回路21
7に送られる。
トノイズ発生部401から時間領域のノイズを発生して
それをSTFT等の直交変換を行うことで周波数領域の
ノイズを得ていたが、ノイズ発生部から直接的に周波数
領域のノイズを発生するようにしてもよい。すなわち、
周波数領域のパラメータを直接発生することにより、S
TFTやFFT等の直交変換処理が節約できる。
れをFFTスペクトルの実部と虚部として扱うようにす
る方法や、0から最大値(max)までの範囲の正の乱
数を発生しそれをFFTスペクトルの振幅として扱い、
−πからπまでの乱数を発生しそれをFFTスペクトル
の位相として扱う方法などが挙げられる。
理部402が不要となり、構成の簡略化あるいは演算量
の低減が図れる。
5のような基本構成を有し、上記図4のスペクトルエン
ベロープの逆量子化器212から端子411を介して与
えられるV(有声音)についての上記スペクトル振幅A
m[i]と、上記図4の入力端子204から端子412を介
して与えられる上記ピッチラグPchに基づいて、乗算器
403での乗算係数を制御することにより、合成される
ノイズ振幅Am_noise[i]を求めている。すなわち図25
において、スペクトル振幅Am[i]とピッチラグPchとが
入力される最適なnoise_mix 値の算出回路416からの
出力をノイズの重み付け回路417で重み付けし、得ら
れた出力を乗算器418に送ってスペクトル振幅Am[i]
と乗算することにより、ノイズ振幅Am_noise[i]を得て
いる。
して、ノイズ振幅Am_noise[i]が、上記4つのパラメー
タの内の2つ、すなわちピッチラグPch及びスペクトル
振幅Am[i]の関数f1(Pch,Am[i])となる場合について説
明する。
して、 f1(Pch,Am[i])=0 (0<i<Noise_b×I) f1(Pch,Am[i])=Am[i]×noise_mix (Noise_b×I≦i<I) noise_mix = K×Pch/2.0 とすることが挙げられる。
x_max とし、その値でクリップする。一例として、K=
0.02、noise_mix_max=0.3、Noise_b=0.7とする
ことが挙げられる。ここで、Noise_b は、全帯域の何割
からこのノイズの付加を行うかを決める定数である。本
例では、7割より高域側、すなわちfs=8kHzのとき、
4000×0.7=2800Hzから4000Hzの間でノ
イズを付加するようにしている。
て、上記ノイズ振幅Am_noise[i]を、上記4つのパラメ
ータの内の3つ、すなわちピッチラグPch、スペクトル
振幅Am[i]及び最大スペクトル振幅Amax の関数f2(Pc
h,Am[i],Amax) とする場合について説明する。
体例として、 f2(Pch,Am[i],Amax)=0 (0<i<Noise_b×I) f2(Pch,Am[i],Amax)=Am[i]×noise_mix (Noise_b×I≦i<I) noise_mix = K×Pch/2.0 を挙げることができる。ただし、noise_mix の最大値
は、noise_mix_max とし、一例として、K=0.02、no
ise_mix_max=0.3、Noise_b=0.7とすることが挙げ
られる。
C×noise_mix ならば、 f2(Pch,Am[i],Amax)=Amax×C×noise_mix とする。ここで、定数Cは、C=0.3 としている。こ
の条件式によりノイズレベルが大きくなり過ぎることを
防止できるため、上記K、noise_mix_max をさらに大き
くしてもよく、高域のレベルも比較的大きいときにノイ
ズレベルを高めることができる。
て、上記ノイズ振幅Am_noise[i]を、上記4つのパラメ
ータの内の4つ全ての関数f3(Pch,Am[i],Amax,Lev) と
することもできる。
の具体例は、基本的には上記第2の具体例の関数f2(Pc
h,Am[i],Amax) と同様である。ただし、残差信号レベル
Levは、スペクトル振幅Am[i]のrms(root m
ean square)、あるいは時間軸上で測定した信号レベル
である。上記第2の具体例との違いは、Kの値とnoise_
mix_max の値とをLev の関数とする点である。すなわ
ち、Lev が小さくなったときには、K、noise_mix_max
の各値を大きめに設定し、Lev が大きいときは小さめに
設定する。あるいは、連続的にLev の値を逆比例させて
もよい。
について説明する。
8v、238uとして用いられるポストフィルタを示し
ており、ポストフィルタの要部となるスペクトル整形フ
ィルタ440は、ホルマント強調フィルタ441と高域
強調フィルタ442とから成っている。このスペクトル
整形フィルタ440からの出力は、スペクトル整形によ
るゲイン変化を補正するためのゲイン調整回路443に
送られており、このゲイン調整回路443のゲインG
は、ゲイン制御回路445により、スペクトル整形フィ
ルタ440の入力xと出力yと比較してゲイン変化を計
算し、補正値を算出することで決定される。
(z) は、LPC合成フィルタの分母Hv(z)、Huv(z) の
係数、いわゆるαパラメータをαi とすると、
強調フィルタ特性を、(1−kz-1)の部分が高域強調
フィルタ特性をそれぞれ表す。また、β、γ、kは定数
であり、一例としてβ=0.6、γ=0.8、k=0.
3を挙げることができる。
は、
ル整形フィルタ440の入力、y(i)はスペクトル整形
フィルタ440の出力である。
0の係数の更新周期は、図27に示すように、LPC合
成フィルタの係数であるαパラメータの更新周期と同じ
く20サンプル、2.5msec であるのに対して、ゲイ
ン調整回路443のゲインGの更新周期は、160サン
プル、20msec である。
整形フィルタ440の係数の更新周期に比較して、ゲイ
ン調整回路443のゲインGの更新周期を長くとること
により、ゲイン調整の変動による悪影響を防止してい
る。
は、スペクトル整形フィルタの係数の更新周期とゲイン
の更新周期とを同じにしており、このとき、ゲインの更
新周期を20サンプル、2.5msec とすると、図27
からも明らかなように、1ピッチ周期の中で変動するこ
とになり、クリックノイズを生じる原因となる。そこで
本例においては、ゲインの切換周期をより長く、例えば
1フレーム分の160サンプル、20msec とすること
により、急激なゲインの変動を防止することができる。
また逆に、スペクトル整形フィルタの係数の更新周期を
160サンプル、20msec とするときには、円滑なフ
ィルタ特性の変化が得られず、合成波形に悪影響が生じ
るが、このフィルタ係数の更新周期を20サンプル、
2.5msec と短くすることにより、効果的なポストフ
ィルタ処理が可能となる。
なぎ処理は、図28に示すように、前フレームのフィル
タ係数及びゲインと、現フレームのフィルタ係数及びゲ
インとを用いて算出した結果に、次のような三角窓 W(i) = i/20 (0≦i≦20) と 1−W(i) (0≦i≦20) をかけてフェードイン、フェードアウトを行って加算す
る。図28では、前フレームのゲインG1 が現フレーム
のゲインG2 に変化する様子を示している。すなわち、
オーバーラップ部分では、前フレームのゲイン、フィル
タ係数を使用する割合が徐々に減衰し、現フレームのゲ
イン、フィルタ係数の使用が徐々に増大する。なお、図
28の時刻Tにおけるフィルタの内部状態は、現フレー
ムのフィルタ、前フレームのフィルタ共に同じもの、す
なわち前フレームの最終状態からスタートする。
号復号化装置は、例えば図29及び図30に示すような
携帯通信端末あるいは携帯電話機等に使用される音声コ
ーデックとして用いることができる。
したような構成を有する音声符号化部160を用いて成
る携帯端末の送信側構成を示している。この図29のマ
イクロホン161で集音された音声信号は、アンプ16
2で増幅され、A/D(アナログ/ディジタル)変換器
163でディジタル信号に変換されて、音声符号化部1
60に送られる。この音声符号化部160は、上述した
図1、図3に示すような構成を有しており、この入力端
子101に上記A/D変換器163からのディジタル信
号が入力される。音声符号化部160では、上記図1、
図3と共に説明したような符号化処理が行われ、図1、
図2の各出力端子からの出力信号は、音声符号化部16
0の出力信号として、伝送路符号化部164に送られ
る。伝送路符号化部164では、いわゆるチャネルコー
ディング処理が施され、その出力信号が変調回路165
に送られて変調され、D/A(ディジタル/アナログ)
変換器166、RFアンプ167を介して、アンテナ1
68に送られる。
ような構成を有する音声復号化部260を用いて成る携
帯端末の受信側構成を示している。この図30のアンテ
ナ261で受信された音声信号は、RFアンプ262で
増幅され、A/D(アナログ/ディジタル)変換器26
3を介して、復調回路264に送られ、復調信号が伝送
路復号化部265に送られる。264からの出力信号
は、上記図2、図4に示すような構成を有する音声復号
化部260に送られる。音声復号化部260では、上記
図2、図4と共に説明したような復号化処理が施され、
図2、図4の出力端子201からの出力信号が、音声復
号化部260からの信号としてD/A(ディジタル/ア
ナログ)変換器266に送られる。このD/A変換器2
66からのアナログ音声信号がスピーカ268に送られ
る。
されるものではなく、例えば上記図1、図3の音声分析
側(エンコード側)の構成や、図2、図4の音声合成側
(デコード側)の構成については、各部をハードウェア
的に記載しているが、いわゆるDSP(ディジタル信号
プロセッサ)等を用いてソフトウェアプログラムにより
実現することも可能である。また、ベクトル量子化は、
音声符号化のみならず、他の種々の信号のベクトル量子
化に適用できる。さらに、本発明の音声符号化方法や装
置の適用範囲は、伝送や記録再生に限定されず、ピッチ
変換やスピード変換、規則音声合成、あるいは雑音抑圧
のような種々の用途に応用できることは勿論である。
によれば、可変次元の入力ベクトルをベクトル量子化す
る際に、符号帳(コードブック)から読み出された固定
次元のコードベクトルを元の入力ベクトルの次元と同じ
可変次元に変換し、この固定/可変次元変換された可変
次元のコードベクトルについて、元の入力ベクトルとの
誤差を最小化する最適のコードベクトルを符号帳より選
択しているため、最適のコードベクトルを符号帳から選
択する符号帳検索(コードブックサーチ)の際には、元
の可変次元の入力ベクトルとの間の誤差あるいは歪が計
算され、量子化ベクトル精度を高めることができる。
符号帳とで構成する場合に、少なくともゲイン符号帳か
らのゲインの最適化を可変次元のシェイプベクトルと入
力ベクトルとに基づいて行うようにすることが挙げられ
る。この場合さらに、元の可変次元の入力ベクトルをシ
ェイプ符号帳の固定次元に変換し、この可変/固定次元
変換された固定次元の入力ベクトルとシェイプ符号帳に
蓄えられたコードベクトルとの誤差を最小化する単数又
は複数のコードベクトルをシェイプ符号帳より選択し、
シェイプ符号帳から読み出され固定/可変次元変換され
た可変次元のコードベクトルと入力ベクトルとに基づい
て、固定/可変次元変換されたコードベクトルに対する
最適ゲインを選択すること挙げられる。
された可変次元のコードベクトルに対して適用すること
により、固定次元コードベクトルをゲイン倍したものを
固定/可変次元変換する場合に比べて、固定/可変次元
変換による歪の影響を少なく抑えることができる。
帳の固定次元に変換し、この可変/固定次元変換された
固定次元の入力ベクトルと符号帳に蓄えられたコードベ
クトルとの誤差を最小化する複数のコードベクトルをシ
ェイプ符号帳より仮選択し、この仮選択されたコードベ
クトルについて固定/可変次元変換を行って可変次元で
最適のコードベクトルを選択することが挙げられる。
ことにより、符号帳検索(コードブックサーチ)に要す
る演算量を低減することもでき、また、可変次元で本選
択することにより、精度を高めることができる。
適用することができ、例えば、入力音声信号又は入力音
声信号の短期予測残差をサイン波分析してハーモニクス
スペクトルを求め、符号化単位毎の上記ハーモニクスス
ペクトルに基づくパラメータを入力ベクトルとしてベク
トル量子化する際に適用することができ、精度の高いコ
ードブックサーチによる音質の向上を図ることができ
る。
音声符号化方法の実施の形態となる音声符号化装置の基
本構成を示すブロック図である。
を復号化するための音声復号化装置の基本構成を示すブ
ロック図である。
り具体的な構成を示すブロック図である。
すブロック図である。
ある。
ック図である。
である。
ロック図である。
器の構成例を示すブロック回路図である。
器の他の構成例を示すブロック回路図である。
を用いるベクトル量子化器の第1の構成例を示すブロッ
ク回路図である。
を用いるベクトル量子化器の第2の構成例を示すブロッ
ク回路図である。
を用いるベクトル量子化器の第3の構成例を示すブロッ
ク回路図である。
を用いるベクトル量子化器の第5の構成例を示すブロッ
ク回路図である。
化部分(第2の符号化部)の具体的構成を示すブロック
回路図である。
ーチャートである。
値でのクリッピング後のノイズの様子を示す図である。
る際の処理の流れを示すフローチャートである。
ータに基づく10次のLSP(線スペクトル対)を示す
図である。
レームへのゲイン変化の様子を説明するための図であ
る。
補間処理を説明するための図である。
ームとの接続部でのオーバーラップを説明するための図
である。
ための図である。
算の例を示す図である。
イン更新周期とを説明するための図である。
レーム境界部分でのつなぎ処理を説明するための図であ
る。
置が用いられる携帯端末の送信側構成を示すブロック図
である。
置が用いられる携帯端末の受信側構成を示すブロック図
である。
タ、 113 LPC分析・量子化部、 114 サイ
ン波分析符号化部、 115 V/UV判定部、116
ベクトル量子化器、 120 第2の符号化部、 1
21 雑音符号帳、 122 重み付き合成フィルタ、
123 減算器、 124 距離計算回路、 125
聴覚重み付けフィルタ、 530 符号帳(コードブ
ック)、531 シェイプコードブック、 532 ゲ
インコードブック、 533ゲイン回路、 535 仮
選択用の選択回路、 542 可変/固定次元変換回
路、 544 固定/可変次元変換回路、 545 本
選択用の選択回路
Claims (16)
- 【請求項1】 可変次元の入力ベクトルに対して符号帳
に蓄えられた固定次元のコードベクトルより最適のコー
ドベクトルを選択してそのインデクスを出力するベクト
ル量子化方法であって、 上記符号帳から読み出された固定次元のコードベクトル
を入力ベクトルの可変次元に次元変換する固定/可変次
元変換工程と、 この固定/可変次元変換工程により次元変換された可変
次元のコードベクトルについて上記入力ベクトルとの誤
差を最小化する最適のコードベクトルを上記符号帳より
選択する選択工程とを有することを特徴とするベクトル
量子化方法。 - 【請求項2】 上記符号帳はシェイプ符号帳であり、 上記選択工程では、上記可変次元のコードベクトルと上
記入力ベクトルとに基づいて、上記固定/可変次元変換
されたコードベクトルに対する最適ゲインを選択するこ
とを特徴とする請求項1記載のベクトル量子化方法。 - 【請求項3】 上記符号帳はシェイプ符号帳であり、 上記可変次元の入力ベクトルを上記シェイプ符号帳の固
定次元に変換する可変/固定次元変換工程と、 この可変/固定次元変換工程により変換された固定次元
の入力ベクトルと上記シェイプ符号帳に蓄えられたコー
ドベクトルとの誤差を最小化する単数又は複数のコード
ベクトルを上記符号帳より選択する工程とをさらに有
し、 上記選択工程では、上記シェイプ符号帳から読み出され
上記固定/可変次元変換された可変次元のコードベクト
ルと上記入力ベクトルとに基づいて、上記固定/可変次
元変換されたコードベクトルに対する最適ゲインを選択
することを特徴とする請求項2記載のベクトル量子化方
法。 - 【請求項4】 上記可変次元の入力ベクトルを上記符号
帳の固定次元に変換する可変/固定次元変換工程と、 この可変/固定次元変換工程により変換された固定次元
の入力ベクトルと上記符号帳に蓄えられたコードベクト
ルとの誤差を最小化する複数のコードベクトルを上記符
号帳より選択する仮選択工程とをさらに有し、 この仮選択工程で選択されたコードベクトルについて上
記固定/可変次元変換を行い、この可変次元で上記最適
のコードベクトル選択を行うことを特徴とする請求項1
記載のベクトル量子化方法。 - 【請求項5】 上記符号帳は、複数の符号帳を組み合わ
せて構成され、最適の組み合わせを構成するコードベク
トルが各符号帳毎にそれぞれ選択されることを特徴とす
る請求項1記載のベクトル量子化方法。 - 【請求項6】 上記可変次元の入力ベクトルを上記符号
帳の固定次元に変換する可変/固定次元変換工程と、 この可変/固定次元変換工程により変換された固定次元
の入力ベクトルと上記符号帳に蓄えられたコードベクト
ルとの誤差を最小化する複数のコードベクトルを上記符
号帳より選択する仮選択工程とをさらに有し、 この仮選択工程で選択されたコードベクトルについて上
記固定/可変次元変換を行い、この可変次元で上記最適
のコードベクトル選択を行うことを特徴とする請求項5
記載のベクトル量子化方法。 - 【請求項7】 上記入力ベクトルと上記符号帳に蓄えら
れた全てのコードベクトルとの類似度を近似計算により
求めて類似度の高い複数のコードベクトルを選択する予
備選択工程と、 この予備選択工程により選択された複数のコードベクト
ルについて上記入力ベクトルとの誤差を最小化する最適
のコードベクトルを選択する本選択工程とをさらに有す
ることを特徴とする請求項6記載のベクトル量子化方
法。 - 【請求項8】 上記入力ベクトルと上記符号帳に蓄えら
れた全てのコードベクトルとの類似度を近似計算により
求めて類似度の高い複数のコードベクトルを選択する予
備選択工程と、 この予備選択工程により選択された複数のコードベクト
ルについて上記入力ベクトルとの誤差を最小化する最適
のコードベクトルを選択する本選択工程とをさらに有す
ることを特徴とする請求項1記載のベクトル量子化方
法。 - 【請求項9】 入力音声信号を時間軸上で所定の符号化
単位で区分して各符号化単位で符号化を行う音声符号化
方法において、 入力音声信号に基づく信号をサイン波分析してハーモニ
クススペクトルを求める工程と、 上記符号化単位毎の上記ハーモニクススペクトルを可変
次元の入力ベクトルとしてベクトル量子化することによ
り符号化する工程とを有し、 上記ベクトル量子化は、 符号帳から読み出された固定次元のコードベクトルを入
力ベクトルの可変次元に次元変換する固定/可変次元変
換工程と、 この固定/可変次元変換工程により次元変換された可変
次元のコードベクトルについて上記入力ベクトルとの誤
差を最小化する最適のコードベクトルを上記符号帳より
選択する選択工程とを有することを特徴とする音声符号
化方法。 - 【請求項10】 上記可変次元の入力ベクトルを上記符
号帳の固定次元に変換する可変/固定次元変換工程と、 この可変/固定次元変換工程により変換された固定次元
の入力ベクトルと上記符号帳に蓄えられたコードベクト
ルとの誤差を最小化する複数のコードベクトルを上記符
号帳より選択する仮選択工程とをさらに有し、 この仮選択工程で選択されたコードベクトルについて上
記固定/可変次元変換を行い、この可変次元で上記最適
のコードベクトル選択を行うことを特徴とする請求項9
記載の音声符号化方法。 - 【請求項11】 上記入力ベクトルと上記符号帳に蓄え
られた全てのコードベクトルとの類似度を近似計算によ
り求めて類似度の高い複数のコードベクトルを選択する
予備選択工程と、 この予備選択工程により選択された複数のコードベクト
ルについて上記入力ベクトルとの誤差を最小化する最適
のコードベクトルを選択する本選択工程とをさらに有す
ることを特徴とする請求項10記載の音声符号化方法。 - 【請求項12】 上記符号帳は、複数の符号帳を組み合
わせて構成され、最適の組み合わせを構成するコードベ
クトルが各符号帳毎にそれぞれ選択されることを特徴と
する請求項9記載の音声符号化方法。 - 【請求項13】 入力音声信号を時間軸上で所定の符号
化単位で区分して各符号化単位で符号化を行う音声符号
化装置において、 入力音声信号の短期予測残差を求める予測符号化手段
と、 求められた短期予測残差に対してサイン波分析符号化を
施すサイン波分析符号化手段とを有し、 上記サイン波分析符号化手段は、上記ハーモニクススペ
クトルを可変次元の入力ベクトルとしてベクトル量子化
するベクトル量子化手段を有し、 上記ベクトル量子化手段は、 符号帳から読み出された固定次元のコードベクトルを入
力ベクトルの可変次元に次元変換する固定/可変次元変
換手段と、 この次元変換された可変次元のコードベクトルについて
上記入力ベクトルとの誤差を最小化する最適のコードベ
クトルを上記符号帳より選択する選択手段とを有して成
ることを特徴とする音声符号化装置。 - 【請求項14】 上記ベクトル量子化手段は、 上記可変次元の入力ベクトルを上記符号帳の固定次元に
変換する可変/固定次元変換手段と、 この可変/固定次元変換手段により変換された固定次元
の入力ベクトルと上記符号帳に蓄えられたコードベクト
ルとの誤差を最小化する複数のコードベクトルを上記符
号帳より選択する仮選択手段とをさらに有し、 上記選択手段は、上記仮選択手段で選択されたコードベ
クトルについて上記固定/可変次元変換を行い、この可
変次元で上記最適のコードベクトル選択を行うことを特
徴とする請求項13記載の音声符号化装置。 - 【請求項15】 上記ベクトル量子化手段は、 上記入力ベクトルと上記符号帳に蓄えられた全てのコー
ドベクトルとの類似度を近似計算により求めて類似度の
高い複数のコードベクトルを予備選択し、これらの予備
選択された複数のコードベクトルについて上記入力ベク
トルとの誤差を最小化する最適のコードベクトルを選択
することを特徴とする請求項14記載の音声符号化装
置。 - 【請求項16】 上記符号帳は、複数の符号帳を組み合
わせて構成され、各符号帳毎にそれぞれ最適のコードベ
クトルを選択することを特徴とする請求項13記載の音
声符号化装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25161696A JP3707154B2 (ja) | 1996-09-24 | 1996-09-24 | 音声符号化方法及び装置 |
US08/924,122 US6018707A (en) | 1996-09-24 | 1997-09-05 | Vector quantization method, speech encoding method and apparatus |
KR1019970046629A KR100535366B1 (ko) | 1996-09-24 | 1997-09-10 | 음성신호부호화방법및장치 |
SG1997003550A SG53077A1 (en) | 1996-09-24 | 1997-09-24 | Vector quantization method speech encoding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25161696A JP3707154B2 (ja) | 1996-09-24 | 1996-09-24 | 音声符号化方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1097300A true JPH1097300A (ja) | 1998-04-14 |
JP3707154B2 JP3707154B2 (ja) | 2005-10-19 |
Family
ID=17225482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25161696A Expired - Lifetime JP3707154B2 (ja) | 1996-09-24 | 1996-09-24 | 音声符号化方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6018707A (ja) |
JP (1) | JP3707154B2 (ja) |
KR (1) | KR100535366B1 (ja) |
SG (1) | SG53077A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100492965B1 (ko) * | 2002-09-27 | 2005-06-07 | 삼성전자주식회사 | 벡터 양자화를 위한 고속 탐색방법 |
JP2008102521A (ja) * | 2006-10-18 | 2008-05-01 | Polycom Inc | 高速格子ベクトル量子化 |
JP2009094666A (ja) * | 2007-10-05 | 2009-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
WO2009090876A1 (ja) * | 2008-01-16 | 2009-07-23 | Panasonic Corporation | ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法 |
JP2009182855A (ja) * | 2008-01-31 | 2009-08-13 | Nippon Telegr & Teleph Corp <Ntt> | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
JP4830026B2 (ja) * | 2008-01-31 | 2011-12-07 | 日本電信電話株式会社 | 極性付多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
JP3707153B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
IL136722A0 (en) * | 1997-12-24 | 2001-06-14 | Mitsubishi Electric Corp | A method for speech coding, method for speech decoding and their apparatuses |
JP3553356B2 (ja) * | 1998-02-23 | 2004-08-11 | パイオニア株式会社 | 線形予測パラメータのコードブック設計方法及び線形予測パラメータ符号化装置並びにコードブック設計プログラムが記録された記録媒体 |
US6199040B1 (en) * | 1998-07-27 | 2001-03-06 | Motorola, Inc. | System and method for communicating a perceptually encoded speech spectrum signal |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6377914B1 (en) * | 1999-03-12 | 2002-04-23 | Comsat Corporation | Efficient quantization of speech spectral amplitudes based on optimal interpolation technique |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
FI116992B (fi) * | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
JP2001075600A (ja) * | 1999-09-07 | 2001-03-23 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
US6678653B1 (en) * | 1999-09-07 | 2004-01-13 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for coding audio data at high speed using precision information |
KR100474833B1 (ko) * | 1999-11-17 | 2005-03-08 | 삼성전자주식회사 | 예측 및 멜-스케일 이진 벡터를 이용한 가변 차원스펙트럼 진폭 양자화 방법 및 그 장치 |
JP4063508B2 (ja) * | 2001-07-04 | 2008-03-19 | 日本電気株式会社 | ビットレート変換装置およびビットレート変換方法 |
WO2004084181A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Simple noise suppression model |
JP4579930B2 (ja) * | 2004-01-30 | 2010-11-10 | フランス・テレコム | 次元ベクトルおよび可変解像度量子化 |
US7587441B2 (en) * | 2005-06-29 | 2009-09-08 | L-3 Communications Integrated Systems L.P. | Systems and methods for weighted overlap and add processing |
KR100712409B1 (ko) * | 2005-07-28 | 2007-04-27 | 한국전자통신연구원 | 벡터의 차원변환 방법 |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
US7953595B2 (en) * | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
GB2464447B (en) | 2008-07-01 | 2011-02-23 | Toshiba Res Europ Ltd | Wireless communications apparatus |
CA2972812C (en) * | 2008-07-10 | 2018-07-24 | Voiceage Corporation | Device and method for quantizing and inverse quantizing lpc filters in a super-frame |
WO2011087333A2 (ko) * | 2010-01-15 | 2011-07-21 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9153238B2 (en) | 2010-04-08 | 2015-10-06 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
US9008811B2 (en) | 2010-09-17 | 2015-04-14 | Xiph.org Foundation | Methods and systems for adaptive time-frequency resolution in digital data coding |
WO2012122303A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
WO2012122299A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012122297A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
JPH0451200A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化方式 |
JPH0451199A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化・復号化方式 |
CA2054849C (en) * | 1990-11-02 | 1996-03-12 | Kazunori Ozawa | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5502441A (en) * | 1993-11-24 | 1996-03-26 | Utah State University Foundation | Analog switched-capacitor vector quantizer |
FR2729245B1 (fr) * | 1995-01-06 | 1997-04-11 | Lamblin Claude | Procede de codage de parole a prediction lineaire et excitation par codes algebriques |
-
1996
- 1996-09-24 JP JP25161696A patent/JP3707154B2/ja not_active Expired - Lifetime
-
1997
- 1997-09-05 US US08/924,122 patent/US6018707A/en not_active Expired - Lifetime
- 1997-09-10 KR KR1019970046629A patent/KR100535366B1/ko not_active IP Right Cessation
- 1997-09-24 SG SG1997003550A patent/SG53077A1/en unknown
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100492965B1 (ko) * | 2002-09-27 | 2005-06-07 | 삼성전자주식회사 | 벡터 양자화를 위한 고속 탐색방법 |
JP2008102521A (ja) * | 2006-10-18 | 2008-05-01 | Polycom Inc | 高速格子ベクトル量子化 |
US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
JP2009094666A (ja) * | 2007-10-05 | 2009-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
JP4633774B2 (ja) * | 2007-10-05 | 2011-02-16 | 日本電信電話株式会社 | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
WO2009090876A1 (ja) * | 2008-01-16 | 2009-07-23 | Panasonic Corporation | ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法 |
US8306007B2 (en) | 2008-01-16 | 2012-11-06 | Panasonic Corporation | Vector quantizer, vector inverse quantizer, and methods therefor |
JP5419714B2 (ja) * | 2008-01-16 | 2014-02-19 | パナソニック株式会社 | ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法 |
JP2009182855A (ja) * | 2008-01-31 | 2009-08-13 | Nippon Telegr & Teleph Corp <Ntt> | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
JP4616891B2 (ja) * | 2008-01-31 | 2011-01-19 | 日本電信電話株式会社 | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
JP4830026B2 (ja) * | 2008-01-31 | 2011-12-07 | 日本電信電話株式会社 | 極性付多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP3707154B2 (ja) | 2005-10-19 |
US6018707A (en) | 2000-01-25 |
KR100535366B1 (ko) | 2006-08-21 |
SG53077A1 (en) | 1998-09-28 |
KR19980024519A (ko) | 1998-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3707153B2 (ja) | ベクトル量子化方法、音声符号化方法及び装置 | |
JP3707154B2 (ja) | 音声符号化方法及び装置 | |
JP3707116B2 (ja) | 音声復号化方法及び装置 | |
KR100487136B1 (ko) | 음성복호화방법및장치 | |
JP4005154B2 (ja) | 音声復号化方法及び装置 | |
JP3680380B2 (ja) | 音声符号化方法及び装置 | |
US7392179B2 (en) | LPC vector quantization apparatus | |
JPH10124092A (ja) | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 | |
JPH10214100A (ja) | 音声合成方法 | |
JP3675054B2 (ja) | ベクトル量子化方法、音声符号化方法及び装置、並びに音声復号化方法 | |
JPH09127997A (ja) | 音声符号化方法及び装置 | |
JPH09127993A (ja) | 音声符号化方法及び音声符号化装置 | |
JPH0455899A (ja) | 音声信号符号化方式 | |
AU7201300A (en) | Speech encoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050613 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050725 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080812 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090812 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100812 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110812 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120812 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130812 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |