JP3680380B2

JP3680380B2 - 音声符号化方法及び装置

Info

Publication number: JP3680380B2
Application number: JP27941795A
Authority: JP
Inventors: 和幸飯島; 正之西口; 淳松本; 士郎大森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-10-26
Filing date: 1995-10-26
Publication date: 2005-08-10
Anticipated expiration: 2015-10-26
Also published as: CN1156872A; KR970024627A; JPH09127990A; DE69619054T2; ATE213086T1; KR100427752B1; EP0770989A3; US5828996A; SG43428A1; EP0770989A2; DE69619054D1; EP0770989B1

Description

【０００１】
【産業上の利用分野】
本発明は、入力音声信号をブロック単位で区分して、この区分されたブロックを単位として符号化処理を行うような音声符号化方法及び装置に関する。
【０００２】
【発明の属する技術分野】
オーディオ信号（音声信号や音響信号を含む）の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。この符号化方法としては、大別して時間領域での符号化、周波数領域での符号化、分析合成符号化等が挙げられる。
【０００３】
音声信号等の高能率符号化の例として、ハーモニック（Harmonic）符号化、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化等のサイン波分析符号化や、ＳＢＣ（Sub-band Coding:帯域分割符号化）、ＬＰＣ（Linear Predictive Coding: 線形予測符号化）、あるいはＤＣＴ（離散コサイン変換）、ＭＤＣＴ（モデファイドＤＣＴ）、ＦＦＴ（高速フーリエ変換）等が知られている。また、音声信号等の高能率符号化の例としては、合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測（ＣＥＬＰ）符号化も存在する。
【０００４】
【発明が解決しようとする課題】
ところで、上記音声信号の高能率符号化の一例としての符号励起線形予測符号化において、符号化の品質は、符号化する音声信号の特性によって大きく左右される。例えば、音声には様々な形態があり、例えば「さ，し，す，せ，そ」のようなノイズに近い子音を含む音声や、例えば「ぱ，ぴ，ぷ，ぺ，ぽ」のような立ち上がりの激しい子音（急峻な子音）を含む音声の全てに対して、良好な符号化を行うことは困難である。
【０００５】
そこで本発明は、このような実情に鑑みてなされたものであり、様々な音声の形態に対して良好な符号化が可能な音声符号化方法及び装置の提供を目的とする。
【０００６】
【課題を解決するための手段】
本発明に係る音声符号化方法及び装置は、入力音声信号を時間軸上で区分した各ブロック単位で符号化を行うものであり、合成による分析法を用いて最適ベクトルのクローズドループサーチによる時間軸波形のベクトル量子化を行う符号化において、ベクトル量子化のコードブックにはガウシアンノイズを複数の異なるスレシホールド値でセンタークリッピングして生成したコードベクトルと、当該ガウシアンノイズをセンタークリッピングして生成したコードベクトルを初期値にして学習により求めたコードベクトルとを有してなるものを用いることにより、上述の課題を解決する。
【０００７】
すなわち、本発明によれば、ガウシアンノイズを複数の異なるスレシホールド値でクリッピングして生成したコードベクトルを用いてベクトル量子化することで、様々な音声の形態に対応できるようにしている。
【０００８】
【発明の実施の形態】
以下、本発明に係る好ましい実施の形態について説明する。
先ず、図１は、本発明に係る音声符号化方法の実施の形態が適用された符号化装置の基本構成を示している。
【０００９】
ここで、図１の音声信号符号化装置の基本的な考え方は、入力音声信号の短期予測残差例えばＬＰＣ（線形予測符号化）残差を求めてサイン波分析（sinusoidal analysis ）符号化、例えばハーモニックコーディング（harmonic coding ）を行う第１の符号化部１１０と、入力音声信号に対して位相伝送を行う波形符号化により符号化する第２の符号化部１２０とを有し、入力信号の有声音（Ｖ：Voiced）の部分の符号化に第１の符号化部１１０を用い、入力信号の無声音（ＵＶ：Unvoiced）の部分の符号化には第２の符号化部１２０を用いるようにすることである。
【００１０】
上記第１の符号化部１１０には、例えばＬＰＣ残差をハーモニック符号化やマルチバンド励起（ＭＢＥ）符号化のようなサイン波分析符号化を行う構成が用いられる。上記第２の符号化部１２０には、例えば合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測（ＣＥＬＰ）符号化の構成が用いられる。
【００１１】
図１の例では、入力端子１０１に供給された音声信号が、第１の符号化部１１０のＬＰＣ逆フィルタ１１１及びＬＰＣ分析・量子化部１１３に送られている。ＬＰＣ分析・量子化部１１３から得られたＬＰＣ係数あるいはいわゆるαパラメータは、ＬＰＣ逆フィルタ１１１に送られて、このＬＰＣ逆フィルタ１１１により入力音声信号の線形予測残差（ＬＰＣ残差）が取り出される。また、ＬＰＣ分析・量子化部１１３からは、後述するようにＬＳＰ（線スペクトル対）の量子化出力が取り出され、これが出力端子１０２に送られる。ＬＰＣ逆フィルタ１１１からのＬＰＣ残差は、サイン波分析符号化部１１４に送られる。サイン波分析符号化部１１４では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、Ｖ（有声音）／ＵＶ（無声音）判定部１１５によりＶ／ＵＶの判定が行われる。サイン波分析符号化部１１４からのスペクトルエンベロープ振幅データがベクトル量子化部１１６に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部１１６からのコードブックインデクスは、スイッチ１１７を介して出力端子１０３に送られ、サイン波分析符号化部１１４からの出力は、スイッチ１１８を介して出力端子１０４に送られる。また、Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定出力は、出力端子１０５に送られると共に、スイッチ１１７、１１８の制御信号として送られており、上述した有声音（Ｖ）のとき上記インデクス及びピッチが選択されて各出力端子１０３及び１０４からそれぞれ取り出される。
【００１２】
図１の第２の符号化部１２０は、この例ではＣＥＬＰ（符号励起線形予測）符号化構成を有しており、雑音符号帳１２１からの出力を、重み付きの合成フィルタ１２２により合成処理し、得られた重み付き音声を減算器１２３に送り、入力端子１０１に供給された音声信号を聴覚重み付けフィルタ１２５を介して得られた音声との誤差を取り出し、この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳１２１でサーチするような、合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このＣＥＬＰ符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳１２１からのＵＶデータとしてのコードブックインデクスは、上記Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定結果が無声音（ＵＶ）のときオンとなるスイッチ１２７を介して、出力端子１０７より取り出される。
【００１３】
次に、図２は、本発明に係る音声復号化方法の一実施の形態が適用された音声信号復号化装置として、上記図１の音声信号符号化装置に対応する音声信号復号化装置の基本構成を示すブロック図である。
【００１４】
この図２において、入力端子２０２には上記図１の出力端子１０２からの上記ＬＳＰ（線スペクトル対）の量子化出力としてのコードブックインデクスが入力される。入力端子２０３、２０４、及び２０５には、上記図１の各出力端子１０３、１０４、及び１０５からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、及びＶ／ＵＶ判定出力がそれぞれ入力される。また、入力端子２０７には、上記図１の出力端子１０７からのＵＶ（無声音）用のデータとしてのインデクスが入力される。
【００１５】
入力端子２０３からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化され、ＬＰＣ残差のスペクトルエンベロープが求められて有声音合成部２１１に送られる。有声音合成部２１１は、サイン波合成により有声音部分のＬＰＣ（線形予測符号化）残差を合成するものであり、この有声音合成部２１１には入力端子２０４及び２０５からのピッチ及びＶ／ＵＶ判定出力も供給されている。有声音合成部２１１からの有声音のＬＰＣ残差は、ＬＰＣ合成フィルタ２１４に送られる。また、入力端子２０７からのＵＶデータのインデクスは、無声音合成部２２０に送られて、雑音符号帳を参照することにより無声音部分のＬＰＣ残差が取り出される。このＬＰＣ残差もＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４では、上記有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とがそれぞれ独立に、ＬＰＣ合成処理が施される。あるいは、有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とが加算されたものに対してＬＰＣ合成処理を施すようにしてもよい。ここで入力端子２０２からのＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３に送られて、ＬＰＣのαパラメータが取り出され、これがＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成されて得られた音声信号は、出力端子２０１より取り出される。
【００１６】
次に、上記図１に示した音声信号符号化装置のより具体的な構成について、図３を参照しながら説明する。なお、図３において、上記図１の各部と対応する部分には同じ指示符号を付している。
【００１７】
この図３に示された音声信号符号化装置において、入力端子１０１に供給された音声信号は、ハイパスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を除去するフィルタ処理が施された後、ＬＰＣ（線形予測符号化）分析・量子化部１１３のＬＰＣ分析回路１３２と、ＬＰＣ逆フィルタ回路１１１とに送られる。
【００１８】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２は、入力信号波形の２５６サンプル程度の長さを１ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、１６０サンプル程度とする。サンプリング周波数ｆｓが例えば８ｋHzのとき、１フレーム間隔は１６０サンプルで２０ｍsec となる。
【００１９】
ＬＰＣ分析回路１３２からのαパラメータは、α→ＬＳＰ変換回路１３３に送られて、線スペクトル対（ＬＳＰ）パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば１０個、すなわち５対のＬＳＰパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このＬＳＰパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【００２０】
α→ＬＳＰ変換回路１３３からのＬＳＰパラメータは、ＬＳＰ量子化器１３４によりマトリクスあるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、２０ｍsec を１フレームとし、２０ｍsec 毎に算出されるＬＳＰパラメータを２フレーム分まとめて、マトリクス量子化及びベクトル量子化している。
【００２１】
このＬＳＰ量子化器１３４からの量子化出力、すなわちＬＳＰ量子化のインデクスは、端子１０２を介して取り出され、また量子化済みのＬＳＰベクトルは、ＬＳＰ補間回路１３６に送られる。
【００２２】
ＬＳＰ補間回路１３６は、上記２０ｍsec あるいは４０ｍsec 毎に量子化されたＬＳＰのベクトルを補間し、８倍のレートにする。すなわち、２．５ｍsec 毎にＬＳＰベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、ＬＰＣ係数が２０ｍsec 毎に急激に変化すると異音を発生することがあるからである。すなわち、２．５ｍsec 毎にＬＰＣ係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【００２３】
このような補間が行われた２．５ｍsec 毎のＬＳＰベクトルを用いて入力音声の逆フィルタリングを実行するために、ＬＳＰ→α変換回路１３７により、ＬＳＰパラメータを例えば１０次程度の直接型フィルタの係数であるαパラメータに変換する。このＬＳＰ→α変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回路１１１に送られ、このＬＰＣ逆フィルタ１１１では、２．５ｍsec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このＬＰＣ逆フィルタ１１１からの出力は、サイン波分析符号化部１１４、具体的には例えばハーモニック符号化回路、の直交変換回路１４５、例えばＤＦＴ（離散フーリエ変換）回路に送られる。
【００２４】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２からのαパラメータは、聴覚重み付けフィルタ算出回路１３９に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器１１６と、第２の符号化部１２０の聴覚重み付けフィルタ１２５及び聴覚重み付きの合成フィルタ１２２とに送られる。
【００２５】
ハーモニック符号化回路等のサイン波分析符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Ａｍの算出、有声音（Ｖ）／無声音（ＵＶ）の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Ａｍの個数を次元変換して一定数にしている。
【００２６】
図３に示すサイン波分析符号化部１１４の具体例においては、一般のハーモニック符号化を想定しているが、特に、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化の場合には、同時刻（同じブロックあるいはフレーム内）の周波数軸領域いわゆるバンド毎に有声音（Voiced）部分と無声音（Unvoiced）部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、１ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のＶ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バンドがＵＶのときを当該フレームのＵＶとしている。
【００２７】
図３のサイン波分析符号化部１１４のオープンループピッチサーチ部１４１には、上記入力端子１０１からの入力音声信号が、またゼロクロスカウンタ１４２には、上記ＨＰＦ（ハイパスフィルタ）１０９からの信号がそれぞれ供給されている。サイン波分析符号化部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ１１１からのＬＰＣ残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部１４１では、入力信号のＬＰＣ残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ１４６に送られて、後述するようなクローズドループによる高精度のピッチサーチ（ピッチのファインサーチ）が行われる。また、オープンループピッチサーチ部１４１からは、上記粗ピッチデータと共にＬＰＣ残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値ｒ(p) が取り出され、Ｖ／ＵＶ（有声音／無声音）判定部１１５に送られている。
【００２８】
直交変換回路１４５では例えばＤＦＴ（離散フーリエ変換）等の直交変換処理が施されて、時間軸上のＬＰＣ残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路１４５からの出力は、高精度ピッチサーチ部１４６及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部１４８に送られる。
【００２９】
高精度（ファイン）ピッチサーチ部１４６には、オープンループピッチサーチ部１４１で抽出された比較的ラフな粗ピッチデータと、直交変換部１４５により例えばＤＦＴされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部１４６では、上記粗ピッチデータ値を中心に、0.２〜0.５きざみで±数サンプルずつ振って、最適な小数点付き（フローティング）のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部１４６からのピッチデータについては、スイッチ１１８を介して出力端子１０４に送っている。
【００３０】
スペクトル評価部１４８では、ＬＰＣ残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部１４６、Ｖ／ＵＶ（有声音／無声音）判定部１１５及び聴覚重み付きのベクトル量子化器１１６に送られる。
【００３１】
Ｖ／ＵＶ（有声音／無声音）判定部１１５は、直交変換回路１４５からの出力と、高精度ピッチサーチ部１４６からの最適ピッチと、スペクトル評価部１４８からのスペクトル振幅データと、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ(p) と、ゼロクロスカウンタ４１２からのゼロクロスカウント値とに基づいて、当該フレームのＶ／ＵＶ判定が行われる。さらに、ＭＢＥの場合の各バンド毎のＶ／ＵＶ判定結果の境界位置も当該フレームのＶ／ＵＶ判定の一条件としてもよい。このＶ／ＵＶ判定部１１５からの判定出力は、出力端子１０５を介して取り出される。
【００３２】
ところで、スペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部には、データ数変換（一種のサンプリングレート変換）部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ｜Ａ_m｜を一定の個数にするためのものである。すなわち、例えば有効帯域を３４００ｋHzまでとすると、この有効帯域が上記ピッチに応じて、８バンド〜６３バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ｜Ａ_m｜の個数ｍ_MX＋１も８〜６３と変化することになる。このためデータ数変換部１１９では、この可変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４４個、のデータに変換している。
【００３３】
このスペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部に設けられたデータ数変換部からの上記一定個数Ｍ個（例えば４４個）の振幅データあるいはエンベロープデータが、ベクトル量子化器１１６により、所定個数、例えば４４個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路１３９からの出力により与えられる。ベクトル量子化器１１６からの上記エンベロープのインデクスは、スイッチ１１７を介して出力端子１０３より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【００３４】
次に、第２の符号化部１２０について説明する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符号励起線形予測）符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のＣＥＬＰ符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック（stochastic code book）１２１からの代表値出力である無声音のＬＰＣ残差に相当するノイズ出力を、ゲイン回路１２６を介して、聴覚重み付きの合成フィルタ１２２に送っている。重み付きの合成フィルタ１２２では、入力されたノイズをＬＰＣ合成処理し、得られた重み付き無声音の信号を減算器１２３に送っている。減算器１２３には、上記入力端子１０１からＨＰＦ（ハイパスフィルタ）１０９を介して供給された音声信号を聴覚重み付けフィルタ１２５で聴覚重み付けした信号が入力されており、合成フィルタ１２２からの信号との差分あるいは誤差を取り出している。この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳１２１でサーチする。このような合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【００３５】
このＣＥＬＰ符号化構成を用いた第２の符号化部１２０からのＵＶ（無声音）部分用のデータとしては、雑音符号帳１２１からのコードブックのシェイプインデクスと、ゲイン回路１２６からのコードブックのゲインインデクスとが取り出される。雑音符号帳１２１からのＵＶデータであるシェイプインデクスは、スイッチ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン回路１２６のＵＶデータであるゲインインデクスは、スイッチ１２７ｇを介して出力端子１０７ｇに送られている。
【００３６】
ここで、これらのスイッチ１２７ｓ、１２７ｇ及び上記スイッチ１１７、１１８は、上記Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定結果によりオン／オフ制御され、スイッチ１１７、１１８は、現在伝送しようとするフレームの音声信号のＶ／ＵＶ判定結果が有声音（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７ｇは、現在伝送しようとするフレームの音声信号が無声音（ＵＶ）のときオンとなる。
【００３７】
次に、図４は、上記図２に示した本発明に係る実施の形態としての音声信号復号化装置のより具体的な構成を示している。この図４において、上記図２の各部と対応する部分には、同じ指示符号を付している。
【００３８】
この図４において、入力端子２０２には、上記図１、３の出力端子１０２からの出力に相当するＬＳＰのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【００３９】
このＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３のＬＳＰの逆ベクトル量子化器２３１に送られてＬＳＰ（線スペクトル対）データに逆ベクトル量子化され、ＬＳＰ補間回路２３２、２３３に送られてＬＳＰの補間処理が施された後、ＬＳＰ→α変換回路２３４、２３５でＬＰＣ（線形予測符号）のαパラメータに変換され、このαパラメータがＬＰＣ合成フィルタ２１４に送られる。ここで、ＬＳＰ補間回路２３２及びＬＳＰ→α変換回路２３４は有声音（Ｖ）用であり、ＬＳＰ補間回路２３３及びＬＳＰ→α変換回路２３５は無声音（ＵＶ）用である。またＬＰＣ合成フィルタ２１４は、有声音部分のＬＰＣ合成フィルタ２３６と、無声音部分のＬＰＣ合成フィルタ２３７とを分離している。すなわち、有声音部分と無声音部分とでＬＰＣの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるＬＳＰ同士を補間することによる悪影響を防止している。
【００４０】
また、図４の入力端子２０３には、上記図１、図３のエンコーダ側の端子１０３からの出力に対応するスペクトルエンベロープ（Ａｍ）の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子２０４には、上記図１、図３の端子１０４からのピッチのデータが供給され、入力端子２０５には、上記図１、図３の端子１０５からのＶ／ＵＶ判定データが供給されている。
【００４１】
入力端子２０３からのスペクトルエンベロープＡｍのベクトル量子化されたインデクスデータは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部２１１のサイン波合成回路２１５に送られている。
【００４２】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【００４３】
サイン波合成回路２１５には、入力端子２０４からのピッチ及び入力端子２０５からの上記Ｖ／ＵＶ判定データが供給されている。サイン波合成回路２１５からは、上述した図１、図３のＬＰＣ逆フィルタ１１１からの出力に相当するＬＰＣ残差データが取り出され、これが加算器２１８に送られている。
【００４４】
また、逆ベクトル量子化器２１２からのエンベロープのデータと、入力端子２０４、２０５からのピッチ、Ｖ／ＵＶ判定データとは、有声音（Ｖ）部分のノイズ加算のためのノイズ合成回路２１６に送られている。このノイズ合成回路２１６からの出力は、重み付き重畳加算回路２１７を介して加算器２１８に送っている。これは、サイン波合成によって有声音のＬＰＣ合成フィルタへの入力となるエクサイテイション（Excitation：励起、励振）を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びＶ（有声音）とＵＶ（無声音）とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のＬＰＣ合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅、残差信号のレベル等を考慮したノイズをＬＰＣ残差信号の有声音部分に加えているものである。
【００４５】
加算器２１８からの加算出力は、ＬＰＣ合成フィルタ２１４の有声音用の合成フィルタ２３６に送られてＬＰＣの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ２３８ｖでフィルタ処理された後、加算器２３９に送られる。
【００４６】
次に、図４の入力端子２０７ｓ及び２０７ｇには、上記図３の出力端子１０７ｓ及び１０７ｇからのＵＶデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部２２０に送られている。端子２０７ｓからのシェイプインデクスは、無声音合成部２２０の雑音符号帳２２１に、端子２０７ｇからのゲインインデクスはゲイン回路２２２にそれぞれ送られている。雑音符号帳２２１から読み出された代表値出力は、無声音のＬＰＣ残差に相当するノイズ信号成分であり、これがゲイン回路２２２で所定のゲインの振幅となり、窓かけ回路２２３に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。
【００４７】
窓かけ回路２２３からの出力は、無声音合成部２２０からの出力として、ＬＰＣ合成フィルタ２１４のＵＶ（無声音）用の合成フィルタ２３７に送られる。合成フィルタ２３７では、ＬＰＣ合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ２３８ｕでフィルタ処理された後、加算器２３９に送られる。
【００４８】
加算器２３９では、有声音用ポストフィルタ２３８ｖからの有声音部分の時間波形信号と、無声音用ポストフィルタ２３８ｕからの無声音部分の時間波形データとが加算され、出力端子２０１より取り出される。
【００４９】
上記音声信号符号化装置では、出力データのビットレートが可変されて出力される。具体的には、出力データのビットレートを、低ビットレートと高ビットレートとに切り換えることができる。例えば、低ビットレートを２ｋbpsとし、高ビットレートを６ｋbpsとする場合には、以下の表１に示す各ビットレートのデータが出力される。
【００５０】
【表１】

【００５１】
出力端子１０４からのピッチデータについては、有声音時に、常に８bits／２０ｍsecで出力され、出力端子１０５から出力されるＶ／ＵＶ判定出力は、常に１bit／２０ｍsecである。出力端子１０２から出力されるＬＳＰ量子化のインデクスは、３２bits／４０ｍsecと４８bits／４０ｍsecとの間で切り換えが行われる。また、出力端子１０３から出力される有声音時（Ｖ）のインデクスは、１５bits／２０ｍsecと８７bits／２０ｍsecとの間で切り換えが行われ、出力端子１０７ｓ、１０７ｇから出力される無声音時（ＵＶ）のインデクスは、１１bits／１０ｍsecと２３bits／５ｍsecとの間で切り換えが行われる。これにより、有声音時（Ｖ）の出力データは、２ｋbpsでは４０bits／２０ｍsecとなり、６ｋbpsでは１２０bits／２０ｍsecとなる。また、無声音時（ＵＶ）の出力データは、２ｋbpsでは３９bits／２０ｍsecとなり、６ｋbpsでは１１７bits／２０ｍsecとなる。
【００５２】
尚、上記ＬＳＰ量子化のインデクス、有声音時（Ｖ）のインデクス、及び無声音時（ＵＶ）のインデクスについては、後述する各部の構成と共に説明する。
【００５３】
次に、図５及び図６を用いて、ＬＳＰ量子化器１３４におけるマトリクス量子化及びベクトル量子化について詳細に説明する。
【００５４】
上述のように、ＬＰＣ分析回路１３２からのαパラメータは、α→ＬＳＰ変換回路１３３に送られて、ＬＳＰパラメータに変換される。例えば、ＬＰＣ分析回路１３２でＰ次のＬＰＣ分析を行う場合には、αパラメータはＰ個算出される。このＰ個のαパラメータは、ＬＳＰパラメータに変換され、バッファ６１０に保持される。
【００５５】
このバッファ６１０からは、２フレーム分のＬＳＰパラメータが出力される。２フレーム分のＬＳＰパラメータはマトリクス量子化部６２０でマトリクス量子化される。マトリクス量子化部６２０は、第１のマトリクス量子化部６２０₁と第２のマトリクス量子化部６２０₂とから成る。２フレーム分のＬＳＰパラメータは、第１のマトリクス量子化部６２０₁でマトリクス量子化され、これにより得られる量子化誤差が、第２のマトリクス量子化部６２０₂でさらにマトリクス量子化される。これらのマトリクス量子化により、時間軸方向の相関を取り除く。
【００５６】
マトリクス量子化部６２０₂からの２フレーム分の量子化誤差は、ベクトル量子化部６４０に入力される。ベクトル量子化部６４０は、第１のベクトル量子化部６４０₁と第２のベクトル量子化部６４０₂とから成る。さらに、第１のベクトル量子化部６４０₁は、２つのベクトル量子化部６５０、６６０から成り、第２のベクトル量子化部６４０₂は、２つのベクトル量子化部６７０、６８０から成る。第１のベクトル量子化部６４０₁のベクトル量子化部６５０、６６０で、マトリクス量子化部６２０からの量子化誤差が、それぞれ１フレーム毎にベクトル量子化される。これにより得られる量子化誤差ベクトルは、第２のベクトル量子化部６４０₂のベクトル量子化部６７０、６８０で、さらにベクトル量子化される。これらのベクトル量子化により、周波数軸方向の相関を処理する。
【００５７】
このように、マトリクス量子化を施す工程を行うマトリクス量子化部６２０は、第１のマトリクス量子化工程を行う第１のマトリクス量子化部６２０₁と、この第１のマトリクス量子化による量子化誤差をマトリクス量子化する第２のマトリクス量子化工程を行う第２のマトリクス量子化部６２０₂とを少なくとも有し、上記ベクトル量子化を施す工程を行うベクトル量子化部６４０は、第１のベクトル量子化工程を行う第１のベクトル量子化部６４０₁と、この第１のベクトル量子化の際の量子化誤差ベクトルをベクトル量子化する第２のベクトル量子化工程を行う第２のベクトル量子化部６４０₂とを少なくとも有する。
【００５８】
次に、マトリクス量子化及びベクトル量子化について具体的に説明する。
【００５９】
バッファ６１０に保持された、２フレーム分のＬＳＰパラメータ、すなわち１０×２の行列は、マトリクス量子化器６２０₁に送られる。上記第１のマトリクス量子化部６１０₁では、２フレーム分のＬＳＰパラメータが加算器６２１を介して重み付き距離計算器６２３に送られ、最小となる重み付き距離が算出される。
【００６０】
この第１のマトリクス量子化部６２０₁によるコードブックサーチ時の歪尺度ｄ_MQ1は、ＬＳＰパラメータＸ₁、量子化値Ｘ ₁を用い、（１）式で示す。
【００６１】
【数１】

【００６２】
ここで、ｔはフレーム番号、ｉはＰ次元の番号を示す。
【００６３】
また、このときの、周波数軸方向及び時間軸方向に重みの制限を考慮しない場合の重みＷを（２）式で示す。
【００６４】
【数２】

【００６５】
この（２）式の重みＷは、後段のマトリクス量子化及びベクトル量子化でも用いられる。
【００６６】
算出された重み付き距離はマトリクス量子化器（ＭＱ₁）６２２に送られて、マトリクス量子化が行われる。このマトリクス量子化により出力される８ビットのインデクスは信号切換器６９０に送られる。また、マトリクス量子化による量子化値は、加算器６２１で、バッファ６１０からの次の２フレーム分のＬＳＰパラメータから減算される。重み付き距離計算器６２３では、加算器６２１からの出力を用いて、最小となる重み付き距離が算出される。このように、２フレーム毎に、順次、重み付き距離計算器６２３では重み付き距離が算出されて、マトリクス量子化器６２２でマトリクス量子化が行われる。また、加算器６２１からの出力は、第２のマトリクス量子化部６２０₂の加算器６３１に送られる。
【００６７】
第２のマトリクス量子化部６２０₂でも第１のマトリクス量子化部６２０₁と同様にして、マトリクス量子化を行う。上記加算器６２１からの出力は、加算器６３１を介して重み付き距離計算器６３３に送られ、最小となる重み付き距離が算出される。
【００６８】
この第２のマトリクス量子化部６２０₂によるコードブックサーチ時の歪尺度ｄ_MQ2を、第１のマトリクス量子化部６２０₁からの量子化誤差Ｘ₂、量子化値Ｘ ₂により、（３）式で示す。
【００６９】
【数３】

【００７０】
この重み付き距離はマトリクス量子化器（ＭＱ₂）６３２に送られて、マトリクス量子化が行われる。このマトリクス量子化により出力される８ビットのインデクスは信号切換器６９０に送られる。また、マトリクス量子化による量子化値は、加算器６３１で、次の２フレーム分の量子化誤差から減算される。重み付き距離計算器６３３では、加算器６３１からの出力を用いて、最小となる重み付き距離が順次算出される。また、加算器６３１からの出力は、第１のベクトル量子化部６４０₁の加算器６５１、６６１に１フレームずつ送られる。
【００７１】
この第１のベクトル量子化部６４０₁では、１フレーム毎にベクトル量子化が行われる。加算器６３１からの出力は、１フレーム毎に、加算器６５１、６６１を介して重み付き距離計算器６５３、６６３にそれぞれ送られ、最小となる重み付き距離が算出される。
【００７２】
量子化誤差Ｘ₂と量子化値Ｘ ₂との差分は、１０×２の行列であり、
Ｘ₂−Ｘ₂’＝［Ｘ _3-1，Ｘ _3-2］
と表すときの、この第１のベクトル量子化部６４０₁のベクトル量子化器６５２、６６２によるコードブックサーチ時の歪尺度ｄ_VQ1、ｄ_VQ2を、（４）、（５）式で示す。
【００７３】
【数４】

【００７４】
この重み付き距離はベクトル量子化器（ＶＱ₁）６５２、ベクトル量子化器（ＶＱ₂）６６２にそれぞれ送られて、ベクトル量子化が行われる。このベクトル量子化により出力される各８ビットのインデクスは信号切換器６９０に送られる。また、ベクトル量子化による量子化値は、加算器６５１、６６１で、次に入力される２フレーム分の量子化誤差ベクトルから減算される。重み付き距離計算器６５３、６６３では、加算器６５１、６６１からの出力を用いて、最小となる重み付き距離が順次算出される。また、加算器６５１、６６１からの出力は、第２のベクトル量子化部６４０₂の加算器６７１、６８１にそれぞれ送られる。
【００７５】
ここで、
Ｘ _4-1＝Ｘ_3-1−Ｘ’_3-1
Ｘ _4-2＝Ｘ_3-2−Ｘ’_3-2
と表すときの、この第２のベクトル量子化部６４０₂のベクトル量子化器６７２、６８２によるコードブックサーチ時の歪尺度ｄ_VQ3、ｄ_VQ4を、（６）、（７）式で示す。
【００７６】
【数５】

【００７７】
この重み付き距離はベクトル量子化器（ＶＱ₃）６７２、ベクトル量子化器（ＶＱ₄）６８２にそれぞれ送られて、ベクトル量子化が行われる。このベクトル量子化により出力される各８ビットのインデクスは信号切換器６９０に送られる。また、ベクトル量子化による量子化値は、加算器６７１、６８１で、次に入力される２フレーム分の量子化誤差ベクトルから減算される。重み付き距離計算器６７３、６８３では、加算器６７１、６８１からの出力を用いて、最小となる重み付き距離が順次算出される。
【００７８】
また、コードブックの学習時には、上記各歪尺度をもとにして、一般化ロイドアルゴリズム（ＧＬＡ）により学習を行う。
【００７９】
尚、コードブックサーチ時と学習時の歪尺度は、異なる値であっても良い。
【００８０】
上記マトリクス量子化器６２２、６３２、ベクトル量子化器６５２、６６２、６７２、６８２からの各８ビットのインデクスは、信号切換器６９０で切り換えられて、出力端子６９１から出力される。
【００８１】
具体的には、低ビットレート時には、上記第１のマトリクス量子化工程を行う第１のマトリクス量子化部６２０₁、上記第２のマトリクス量子化工程を行う第２のマトリクス量子化部６２０₂、及び上記第１のベクトル量子化工程を行う第１のベクトル量子化部６４０₁での出力を取り出し、高ビットレート時には、上記低ビットレート時の出力に上記第２のベクトル量子化工程を行う第２のベクトル量子化部６４０₂での出力を合わせて取り出す。
【００８２】
これにより、２ｋbps時には、３２bits／４０ｍsecのインデクスが出力され、６ｋbps時には、４８bits／４０ｍsecのインデクスが出力される。
【００８３】
また、上記マトリクス量子化部６２０及び上記ベクトル量子化部６４０では、上記ＬＰＣ係数を表現するパラメータの持つ特性に合わせた、周波数軸方向又は時間軸方向、あるいは周波数軸及び時間軸方向に制限を持つ重み付けを行う。
【００８４】
先ず、ＬＳＰパラメータの持つ特性に合わせた、周波数軸方向に制限を持つ重み付けについて説明する。例えば、次数Ｐ＝１０とするとき、ＬＳＰパラメータＸ（ｉ）を、低域、中域、高域の３つの領域として、
Ｌ₁＝｛Ｘ（ｉ）｜１≦ｉ≦２｝
Ｌ₂＝｛Ｘ（ｉ）｜３≦ｉ≦６｝
Ｌ₃＝｛Ｘ（ｉ）｜７≦ｉ≦１０｝
とグループ化する。そして、各グループＬ₁、Ｌ₂、Ｌ₃の重み付けを１／４、１／２、１／４とすると、各グループＬ₁、Ｌ₂、Ｌ₃の周波数軸方向のみに制限を持つ重みは、（８）、（９）、（１０）式となる。
【００８５】
【数６】

【００８６】
これにより、各ＬＳＰパラメータの重み付けは、各グループ内でのみ行われ、その重みは各グループに対する重み付けで制限される。
【００８７】
ここで、時間軸方向からみると、各フレームの重み付けの総和は、必ず１となるので、時間軸方向の制限は１フレーム単位である。この時間軸方向のみに制限を持つ重みは、（１１）式となる。
【００８８】
【数７】

【００８９】
この（１１）式により、周波数軸方向での制限のない、フレーム番号ｔ＝０，１の２つのフレーム間で、重み付けが行われる。この時間軸方向にのみ制限を持つ重み付けは、マトリクス量子化を行う２フレーム間で行う。
【００９０】
また、学習時には、学習データとして用いる全ての音声フレーム、即ち全データのフレーム数Ｔについて、（１２）式により、重み付けを行う。
【００９１】
【数８】

【００９２】
また、周波数軸方向及び時間軸方向に制限を持つ重み付けについて説明する。例えば、次数Ｐ＝１０とするとき、ＬＳＰパラメータＸ（ｉ，ｔ）を、低域、中域、高域の３つの領域として、
Ｌ₁＝｛Ｘ（ｉ，ｔ）｜１≦ｉ≦２，０≦ｔ≦１｝
Ｌ₂＝｛Ｘ（ｉ，ｔ）｜３≦ｉ≦６，０≦ｔ≦１｝
Ｌ₃＝｛Ｘ（ｉ，ｔ）｜７≦ｉ≦１０，０≦ｔ≦１｝
とグループ化する。各グループＬ₁、Ｌ₂、Ｌ₃の重み付けを１／４、１／２、１／４とすると、各グループＬ₁、Ｌ₂、Ｌ₃の周波数軸方向及び時間軸方向に制限を持つ重み付けは、（１３）、（１４）、（１５）式となる。
【００９３】
【数９】

【００９４】
この（１３）、（１４）、（１５）式により、周波数軸方向では３つの帯域毎に、時間軸方向ではマトリクス量子化を行う２フレーム間に重み付けの制限を加えた重み付けを行う。これは、コードブックサーチ時及び学習時共に有効となる。
【００９５】
また、学習時においては、全データのフレーム数について重み付けを行う。ＬＳＰパラメータＸ（ｉ，ｔ）を、低域、中域、高域の３つの領域として、
Ｌ₁＝｛Ｘ（ｉ，ｔ）｜１≦ｉ≦２，０≦ｔ≦Ｔ｝
Ｌ₂＝｛Ｘ（ｉ，ｔ）｜３≦ｉ≦６，０≦ｔ≦Ｔ｝
Ｌ₃＝｛Ｘ（ｉ，ｔ）｜７≦ｉ≦１０，０≦ｔ≦Ｔ｝
とグループ化し、各グループＬ₁、Ｌ₂、Ｌ₃の重み付けを１／４、１／２、１／４とすると、各グループＬ₁、Ｌ₂、Ｌ₃の周波数軸方向及び時間軸方向に制限を持つ重み付けは、（１６）、（１７）、（１８）式となる。
【００９６】
【数１０】

【００９７】
この（１６）、（１７）、（１８）式により、周波数軸方向では３つの帯域毎に重み付けを行い、時間軸方向では全フレーム間で重み付けを行うことができる。
【００９８】
さらに、上記マトリクス量子化部６２０及び上記ベクトル量子化部６４０では、上記ＬＳＰパラメータの変化の大きさに応じて重み付けを行う。音声フレーム全体においては少数フレームとなる、Ｖ→ＵＶ、ＵＶ→Ｖの遷移（トランジェント）部において、子音と母音との周波数特性の違いから、ＬＳＰパラメータは大きく変化する。そこで、（１９）式に示す重みを、上述の重みＷ’（ｉ，ｔ）に乗算することにより、上記遷移部を重視する重み付けを行うことができる。
【００９９】
【数１１】

【０１００】
尚、（１９）式の代わりに、（２０）式を用いることも考えられる。
【０１０１】
【数１２】

【０１０２】
このように、ＬＳＰ量子化器１３４では、２段のマトリクス量子化及び２段のベクトル量子化を行うことにより、出力するインデクスのビット数を可変にすることができる。
【０１０３】
次に、ベクトル量子化部１１６の基本構成を図７、図７のベクトル量子化部１１６のより具体的な構成を図８に示し、ベクトル量子化器１１６におけるスペクトルエンベロープ（Ａｍ）の重み付きベクトル量子化の具体例について説明する。
【０１０４】
先ず、図３の音声信号符号化装置において、スペクトル評価部１４８の出力側あるいはベクトル量子化器１１６の入力側に設けられたスペクトルエンベロープの振幅のデータ数を一定個数にするデータ数変換の具体例について説明する。
【０１０５】
このデータ数変換には種々の方法が考えられるが、本実施の形態においては、例えば、周波数軸上の有効帯域１ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータを付加してデータ個数をＮ_F個に拡大した後、帯域制限型のＯ_S倍（例えば８倍）のオーバーサンプリングを施すことによりＯ_S倍の個数の振幅データを求め、このＯ_S倍の個数（（ｍ_MX＋１）×Ｏ_S個）の振幅データを直線補間してさらに多くのＮ_M個（例えば２０４８個）に拡張し、このＮ_M個のデータを間引いて上記一定個数Ｍ（例えば４４個）のデータに変換している。
【０１０６】
図７の重み付きベクトル量子化を行うベクトル量子化器１１６は、第１のベクトル量子化工程を行う第１のベクトル量子化部５００と、この第１のベクトル量子化部５００における第１のベクトル量子化の際の量子化誤差ベクトルを量子化する第２のベクトル量子化工程を行う第２のベクトル量子化部５１０とを少なくとも有する。この第１のベクトル量子化部５００は、いわゆる１段目のベクトル量子化部であり、第２のベクトル量子化部５１０は、いわゆる２段目のベクトル量子化部である。
【０１０７】
第１のベクトル量子化部５００の入力端子５０１には、スペクトル評価部１４８の出力ベクトルＸ、即ち一定個数Ｍのエンベロープデータが入力される。この出力ベクトルＸは、ベクトル量子化器５０２で重み付きベクトル量子化される。これにより、ベクトル量子化器５０２から出力されるシェイプインデクスは出力端子５０３から出力され、また、量子化値Ｘ ₀’は出力端子５０４から出力されると共に、加算器５０５、５１３に送られる。加算器５０５では、出力ベクトルＸから量子化値Ｘ ₀’が減算されて、複数次元の量子化誤差ベクトルＹが得られる。
【０１０８】
この量子化誤差ベクトルＹは、第２のベクトル量子化部５１０内のベクトル量子化部５１１に送られる。このベクトル量子化部５１１は、複数個のベクトル量子化器で構成され、図７では、２個のベクトル量子化器５１１₁、５１１₂から成る。量子化誤差ベクトルＹは次元分割されて、２個のベクトル量子化器５１１₁、５１１₂で、それぞれ重み付きベクトル量子化される。これらのベクトル量子化器５１１₁、５１１₂から出力されるシェイプインデクスは、出力端子５１２₁、５１２₂からそれぞれ出力され、また、量子化値Ｙ ₁’、Ｙ ₂’は次元方向に接続されて、加算器５１３に送られる。この加算器５１３では、量子化値Ｙ ₁’、Ｙ ₂’と量子化値Ｘ ₀’とが加算されて、量子化値Ｘ ₁’が生成される。この量子化値Ｘ ₁’は出力端子５１４から出力される。
【０１０９】
これにより、低ビットレート時には、上記第１のベクトル量子化部５００による第１のベクトル量子化工程での出力を取り出し、高ビットレート時には、上記第１のベクトル量子化工程での出力及び上記第２の量子化部５１０による第２のベクトル量子化工程での出力を取り出す。
【０１１０】
具体的には、図８に示すように、ベクトル量子化器１１６内の第１のベクトル量子化部５００のベクトル量子化器５０２は、Ｌ次元、例えば４４次元の２ステージ構成としている。
【０１１１】
すなわち、４４次元でコードブックサイズが３２のベクトル量子化コードブックからの出力ベクトルの和に、ゲインｇ_iを乗じたものを、４４次元のスペクトルエンベロープベクトルＸの量子化値Ｘ ₀’として使用する。これは、図８に示すように、２つのシェイプコードブックをＣＢ０、ＣＢ１とし、その出力ベクトルをｓ _0i、ｓ _1j、ただし０≦ｉ，ｊ≦３１、とする。また、ゲインコードブックＣＢｇの出力をｇ_l、ただし０≦ｌ≦３１、とする。ｇ_lはスカラ値である。この最終出力Ｘ ₀’は、ｇ_i（ｓ _0i＋ｓ _1j）となる。
【０１１２】
ＬＰＣ残差について上記ＭＢＥ分析によって得られたスペクトルエンベロープＡｍを一定次元に変換したものをＸとする。このとき、Ｘをいかに効率的に量子化するかが重要である。
【０１１３】
ここで、量子化誤差エネルギＥを、

と定義する。この（２１）式において、ＨはＬＰＣの合成フィルタの周波数軸上での特性であり、Ｗは聴覚重み付けの周波数軸上での特性を表す重み付けのための行列である。
【０１１４】
現フレームのＬＰＣ分析結果によるαパラメータを、α_i（１≦ｉ≦Ｐ）として、
【０１１５】
【数１３】

【０１１６】
の周波数特性からＬ次元、例えば４４次元の各対応する点の値をサンプルしたものである。
【０１１７】
算出手順としては、一例として、１、α₁、α₂、・・・、α_pに０詰めして、すなわち、１、α₁、α₂、・・・、α_p、０、０、・・・、０として、例えば２５６点のデータにする。その後、２５６点ＦＦＴを行い、（ｒ_e ²＋Ｉ_m ²）^1/2を０〜πに対応する点に対して算出して、その逆数をとる。それをＬ点、すなわち例えば４４点に間引いたものを対角要素とする行列を、
【０１１８】
【数１４】

【０１１９】
とする。
【０１２０】
聴覚重み付け行列Ｗは、
【０１２１】
【数１５】

【０１２２】
とする。この（２３）式で、α_iは入力のＬＰＣ分析結果である。また、λa、λbは定数であり、一例として、λa＝０．４、λb＝０．９が挙げられる。
【０１２３】
行列あるいはマトリクスＷは、上記（２３）式の周波数特性から算出できる。一例として、１、α₁λb、α₂λb²、・・・、α_pλb^p、０、０、・・・、０として２５６点のデータとしてＦＦＴを行い、０以上π以下の区間に対して（ｒ_e ²[ｉ]＋Ｉ_m ²[ｉ]）^1/2、０≦ｉ≦１２８、を求める。次に、１、α₁λa、α₂λa²、・・・、α_pλa^p 、０、０、・・・、０として分母の周波数特性を２５６点ＦＦＴで０〜πの区間を１２８点で算出する。これを（ｒ_e'²[ｉ]＋Ｉ_m'²[ｉ]）^1/2、０≦ｉ≦１２８、とする。
【０１２４】
【数１６】

【０１２５】
として、上記（２３）式の周波数特性が求められる。
【０１２６】
これをＬ次元、例えば４４次元ベクトルの対応する点について、以下の方法で求める。より正確には、直線補間を用いるべきであるが、以下の例では最も近い点の値で代用している。
【０１２７】
すなわち、
ω[ｉ]＝ω₀［nint(128ｉ/L)］１≦ｉ≦Ｌ
ただし、nint（Ｘ）は、Ｘに最も近い整数を返す関数
である。
【０１２８】
また、上記Ｈに関しても同様の方法で、h(1)、h(2)、・・・、h(L)を求めている。すなわち、
【０１２９】
【数１７】

【０１３０】
となる。
【０１３１】
ここで、他の例として、ＦＦＴの回数を減らすのに、Ｈ(ｚ)Ｗ(ｚ)を先に求めてから、周波数特性を求めてもよい。すなわち、
【０１３２】
【数１８】

【０１３３】
この（２５）式の分母を展開した結果を、
【０１３４】
【数１９】

【０１３５】
とする。ここで、１、β₁、β₂、・・・、β_2p、０、０、・・・、０として、例えば２５６点のデータにする。その後、２５６点ＦＦＴを行い、振幅の周波数特性を、
【０１３６】
【数２０】

【０１３７】
とする。これより、
【０１３８】
【数２１】

【０１３９】
これをＬ次元ベクトルの対応する点について求める。上記ＦＦＴのポイント数が少ない場合は、直線補間で求めるべきであるが、ここでは最寄りの値を使用している。すなわち、
【０１４０】
【数２２】

【０１４１】
である。これを対角要素とする行列をＷ’とすると、
【０１４２】
【数２３】

【０１４３】
となる。（２６）式は上記（２４）式と同一のマトリクスとなる。
【０１４４】
このマトリクス、すなわち重み付き合成フィルタの周波数特性を用いて、上記（２１）式を書き直すと、
【０１４５】
【数２４】

【０１４６】
となる。
【０１４７】
ここで、シェイプコードブックとゲインコードブックの学習法について説明する。
【０１４８】
先ず、ＣＢ０に関しコードベクトルｓ _0cを選択する全てのフレームｋに関して歪の期待値を最小化する。そのようなフレームがＭ個あるとして、
【０１４９】
【数２５】

【０１５０】
を最小化すればよい。この（２８）式中で、Ｗ'_kはｋ番目のフレームに対する重み、Ｘ _kはｋ番目のフレームの入力、ｇ_kはｋ番目のフレームのゲイン、ｓ _1kはｋ番目のフレームについてのコードブックＣＢ１からの出力、をそれぞれ示す。
【０１５１】
この（２８）式を最小化するには、
【０１５２】
【数２６】

【０１５３】
【数２７】

【０１５４】
次に、ゲインに関しての最適化を考える。
【０１５５】
ゲインのコードワードｇ_cを選択するｋ番目のフレームに関しての歪の期待値Ｊ_gは、
【０１５６】
【数２８】

【０１５７】
上記（３１）式及び（３２）式は、シェイプｓ _0i、ｓ _1i及びゲインｇ_i、０≦ｉ≦３１の最適なセントロイドコンディション(Centroid Condition)、すなわち最適なデコーダ出力を与えるものである。なお、ｓ _1iに関してもｓ _0iと同様に求めることができる。
【０１５８】
次に、最適エンコード条件（Nearest Neighbour Condition ）を考える。
【０１５９】
歪尺度を求める上記（２７）式、すなわち、Ｅ＝‖Ｗ'（Ｘ−ｇ_l（ｓ _0i＋ｓ _1j））‖²を最小化するｓ _0i、ｓ _1jを、入力Ｘ、重みマトリクスＷ' が与えられる毎に、すなわち毎フレームごとに決定する。
【０１６０】
本来は、総当り的に全てのｇ_l（０≦ｌ≦３１）、ｓ _0i（０≦ｉ≦３１）、ｓ _1j（０≦ｊ≦３１）の組み合せの、３２×３２×３２＝３２７６８通りについてＥを求めて、最小のＥを与えるｇ_l 、ｓ _0i、ｓ _1jの組を求めるべきであるが、膨大な演算量となるので、本実施の形態では、シェイプとゲインのシーケンシャルサーチを行っている。なお、ｓ _0iとｓ _1jとの組み合せについては、総当りサーチを行うものとする。これは、３２×３２＝１０２４通りである。以下の説明では、簡単化のため、ｓ _0i＋ｓ _1jをｓ _mと記す。
【０１６１】
上記（２７）式は、Ｅ＝‖Ｗ'（Ｘ−ｇ_lｓ_m）‖² となる。さらに簡単のため、Ｘ _w＝Ｗ'Ｘ、ｓ _w＝Ｗ'ｓ _mとすると、
【０１６２】
【数２９】

【０１６３】
となる。従って、ｇ_l の精度が充分にとれると仮定すると、
【０１６４】
【数３０】

【０１６５】
という２つのステップに分けてサーチすることができる。元の表記を用いて書き直すと、
【０１６６】
【数３１】

【０１６７】
となる。この（３５）式が最適エンコード条件(Nearest Neighbour Condition) である。
【０１６８】
ここで上記（３１）、（３２）式の条件（Centroid Condition）と、（３５）式の条件を用いて、ＬＢＧ(Linde-Buzo-Gray)アルゴリズム、いわゆる一般化ロイドアルゴリズム（Generalized Lloyd Algorithm:ＧＬＡ）によりコードブック（ＣＢ０、ＣＢ１、ＣＢｇ）を同時にトレーニングできる。
【０１６９】
ところで、ベクトル量子化器１１６でのベクトル量子化の際の聴覚重み付けに用いられる重みＷ’については、上記（２６）式で定義されているが、過去のＷ’も加味して現在のＷ’を求めることにより、テンポラルマスキングも考慮したＷ’が求められる。
【０１７０】
上記（２６）式中のwh(1),wh(2),・・・,wh(L)に関して、時刻ｎ、すなわち第ｎフレームで算出されたものをそれぞれwh_n(1),wh_n(2),・・・,wh_n(L) とする。
【０１７１】
時刻ｎで過去の値を考慮した重みをＡ_n(i)、１≦ｉ≦Ｌと定義すると、

とする。ここで、λは例えばλ＝０．２とすればよい。このようにして求められたＡ_n(i)、１≦ｉ≦Ｌについて、これを対角要素とするマトリクスを上記重みとして用いればよい。
【０１７２】
このように重み付きベクトル量子化により得られたシェイプインデクスｓ _0i、ｓ _1jは、出力端子５２０、５２２からそれぞれ出力され、ゲインインデクスｇ_l は、出力端子５２１から出力される。また、量子化値Ｘ ₀’は、出力端子５０４から出力されると共に、加算器５０５に送られる。
【０１７３】
この加算器５０５では、出力ベクトルＸから量子化値Ｘ ₀’が減算されて、量子化誤差ベクトルＹが生成される。この量子化誤差ベクトルＹは、具体的には、８個のベクトル量子化器５１１₁〜５１１₈から成るベクトル量子化部５１１に送られて、次元分割され、各ベクトル量子化器５１１₁〜５１１₈で重み付きのベクトル量子化が施される。
【０１７４】
第２のベクトル量子化部５１０では、第１のベクトル量子化部５００と比較して、かなり多くのビット数を用いるため、コードブックのメモリ容量及びコードブックサーチのための演算量（Complexity）が非常に大きくなり、第１のベクトル量子化部５００と同じ４４次元のままでベクトル量子化を行うことは、不可能である。そこで、第２のベクトル量子化部５１０内のベクトル量子化部５１１を複数個のベクトル量子化器で構成し、入力される量子化値を次元分割して、複数個の低次元ベクトルとして、重み付きのベクトル量子化を行う。
【０１７５】
ベクトル量子化器５１１₁〜５１１₈で用いる各量子化値Ｙ ₀〜Ｙ ₇と、次元数と、ビット数との関係を、表２に示す。
【０１７６】
【表２】

【０１７７】
ベクトル量子化器５１１₁〜５１１₈から出力されるインデクスＩｄｖｑ₀〜Ｉｄｖｑ₇は、各出力端子５２３₁〜５２３₈からそれぞれ出力される。これらのインデクスの合計は７２ビットである。
【０１７８】
また、ベクトル量子化器５１１₁〜５１１₈から出力される量子化値Ｙ ₀’〜Ｙ ₇’を次元方向に接続した値をＹ’とすると、加算器５１３では、量子化値Ｙ’と量子化値Ｘ ₀’とが加算されて、量子化値Ｘ ₁’が得られる。よって、この量子化値Ｘ ₁’は、

で表される。すなわち、最終的な量子化誤差ベクトルは、Ｙ’−Ｙとなる。
【０１７９】
尚、音声信号復号化装置側では、この第２のベクトル量子化部５１０からの量子化値Ｘ ₁’を復号化するときには、第１のベクトル量子化部５００からの量子化値Ｘ ₀’は不要であるが、第１のベクトル量子化部５００及び第２のベクトル量子化部５１０からのインデクスは必要とする。
【０１８０】
次に、上記ベクトル量子化部５１１における学習法及びコードブックサーチについて説明する。
【０１８１】
先ず、学習法においては、量子化誤差ベクトルＹ及び重みＷ’を用い、表２に示すように、８つの低次元ベクトルＹ ₀〜Ｙ ₇及びマトリクスに分割する。このとき、重みＷ’は、例えば４４点に間引いたものを対角要素とする行列、
【０１８２】
【数３２】

【０１８３】
とすると、以下の８つの行列に分割される。
【０１８４】
【数３３】

【０１８５】
このように、Ｙ及びＷ’の低次元に分割されたものを、それぞれ
Ｙ _i、Ｗ_i’ （１≦ｉ≦８）
とする。
【０１８６】
ここで、歪尺度Ｅを、
Ｅ＝‖Ｗ_i'（Ｙ _i−ｓ）‖² ・・・（３７）
と定義する。このコードベクトルｓはＹ _iの量子化結果であり、歪尺度Ｅを最小化する、コードブックのコードベクトルｓがサーチされる。
【０１８７】
尚、Ｗ_i’は、学習時には重み付けがあり、サーチ時には重み付け無し、すなわち単位行列とし、学習時とコードブックサーチ時とでは異なる値を用いるようにしてもよい。
【０１８８】
また、コードブックの学習では、一般化ロイドアルゴリズム（ＧＬＡ）を用い、さらに重み付けを行っている。先ず、学習のための最適なセントロイドコンディションについて説明する。コードベクトルｓを最適な量子化結果として選択した入力ベクトルＹがＭ個ある場合に、トレーニングデータをＹ _kとすると、歪の期待値Ｊは、全てのフレームｋに関して重み付け時の歪の中心を最小化するような（３８）式となる。
【０１８９】
【数３４】

【０１９０】
上記（３９）式で示すｓは最適な代表ベクトルであり、最適なセントロイドコンディションである。
【０１９１】
また、最適エンコード条件は、‖Ｗ_i'（Ｙ _i−ｓ）‖² の値を最小化するｓをサーチすればよい。ここで、サーチ時のＷ_i'は、必ずしも学習時と同じＷ_i'である必要はなく、重み無しで
【０１９２】
【数３５】

【０１９３】
のマトリクスとしてもよい。
【０１９４】
このように、音声信号符号化装置内のベクトル量子化部１１６を２段のベクトル量子化部から構成することにより、出力するインデクスのビット数を可変にすることができる。
【０１９５】
次に、本発明の前記ＣＥＬＰ符号化構成を用いた第２の符号化部１２０は、より具体的には図９に示すような、多段のベクトル量子化処理部（図９の例では２段の符号化部１２０₁と１２０₂）の構成を有するものとなされている。なお、当該図９の構成は、伝送ビットレートを例えば前記２ｋｂｐｓと６ｋｂｐｓとで切り換え可能な場合において、６ｋｂｐｓの伝送ビットレートに対応した構成を示しており、さらにシェイプ及びゲインインデクス出力を２３ビット／５ｍｓｅｃと１５ビット／５ｍｓｅｃとで切り換えられるようにしているものである。また、この図９の構成における処理の流れは図１０に示すようになっている。
【０１９６】
この図９において、例えば、図９の第１の符号化部２００は前記図３の第１の符号化部１１３と略々対応し、図９のＬＰＣ分析回路３０２は前記図３に示したＬＰＣ分析回路１３２と対応し、図９のＬＳＰパラメータ量子化回路３０３は図３の前記α→ＬＳＰ変換回路１３３からＬＳＰ→α変換回路１３７までの構成と対応し、図９の聴覚重み付けフィルタ３０４は図３の前記聴覚重み付けフィルタ算出回路１３９及び聴覚重み付けフィルタ１２５と対応している。したがって、この図９において、端子３０５には前記図３の第１の符号化部１１３のＬＳＰ→α変換回路１３７からの出力と同じものが供給され、また、端子３０７には前記図３の聴覚重み付けフィルタ算出回路１３９からの出力と同じものが、端子３０６には前記図３の聴覚重み付けフィルタ１２５からの出力と同じものが供給される。ただし、この図５の聴覚重み付けフィルタ３０４では、前記図３の聴覚重み付けフィルタ１２５とは異なり、前記ＬＳＰ→α変換回路１３７の出力を用いずに、入力音声データと量子化前のαパラメータとから、前記聴覚重み付けした信号（すなわち前記図３の聴覚重み付けフィルタ１２５からの出力と同じ信号）を生成している。
【０１９７】
また、この図９に示す２段構成の第２の符号化部１２０₁及び１２０₂において、減算器３１３及び３２３は図３の減算器１２３と対応し、距離計算回路３１４及び３２４は図３の距離計算回路１２４と、ゲイン回路３１１及び３２１は図３のゲイン回路１２６と、ストキャスティックコードブック３１０，３２０及びゲインコードブック３１５，３２５は図３の雑音符号帳１２１とそれぞれ対応している。
【０１９８】
このような図９の構成において、先ず、図１０のステップＳ１に示すように、ＬＰＣ分析回路３０２では、端子３０１から供給された入力音声データｘを前述同様に適当なフレームに分割してＬＰＣ分析を行い、αパラメータを求める。ＬＳＰパラメータ量子化回路３０３では、上記ＬＰＣ分析回路３０２からのαパラメータをＬＳＰパラメータに変換して量子化し、さらにこの量子化したＬＳＰパラメータを補間した後、αパラメータに変換する。次に、当該ＬＳＰパラメータ量子化回路３０３では、当該量子化したＬＳＰパラメータを変換したαパラメータ、すなわち量子化されたαパラメータから、ＬＰＣ合成フィルタ関数１／Ｈ（ｚ）を生成し、これを端子３０５を介して１段目の第２の符号化部１２０₁の聴覚重み付き合成フィルタ３１２に送る。
【０１９９】
一方、聴覚重み付けフィルタ３０４では、ＬＰＣ分析回路３０２からのαパラメータ（すなわち量子化前のαパラメータ）から、前記図３の聴覚重み付けフィルタ算出回路１３９によるものと同じ聴覚重み付けのためのデータを求め、この重み付けのためのデータが端子３０７を介して、１段目の第２の符号化部１２０₁の聴覚重み付き合成フィルタ３１２に送られる。また、当該聴覚重み付けフィルタ３０４では、図１０のステップＳ２に示すように、入力音声データと量子化前のαパラメータとから、前記聴覚重み付けした信号（前記図３の聴覚重み付けフィルタ１２５からの出力と同じ信号）を生成する。すなわち、先ず、量子化前のαパラメータから聴覚重み付けフィルタ関数Ｗ（ｚ）を生成し、さらに入力音声データｘに当該フィルタ関数Ｗ（ｚ）をかけてｘ _Wを生成し、これを上記聴覚重み付けした信号として、端子３０６を介して１段目の第２の符号化部１２０₁の減算器３１３に送る。
【０２００】
１段目の第２の符号化部１２０₁では、９ビットシェイプインデクス出力のストキャスティックコードブック（stochastic code book）３１０からの代表値出力（無声音のＬＰＣ残差に相当するノイズ出力）がゲイン回路３１１に送られ、このゲイン回路３１１にて、ストキャスティックコードブック３１０からの代表値出力に６ビットゲインインデクス出力のゲインコードブック３１５からのゲイン（スカラ値）を乗じ、このゲイン回路３１１にてゲインが乗じられた代表値出力が、１／Ａ（ｚ）＝（１／Ｈ（ｚ））・Ｗ（ｚ）の聴覚重み付きの合成フィルタ３１２に送られる。この重み付きの合成フィルタ３１２からは、図１０のステップＳ３のように、１／Ａ（ｚ）のゼロ入力応答出力が減算器３１３に送られる。当該減算器３１３では、上記聴覚重み付き合成フィルタ３１２からのゼロ入力応答出力と、上記聴覚重み付けフィルタ３０４からの上記聴覚重み付けした信号ｘ _Wとを用いた減算が行われ、この差分或いは誤差が参照ベクトルｒとして取り出される。図１０のステップＳ４に示すように、１段目の第２の符号化部１２０₁でのサーチ時には、この参照ベクトルｒが、距離計算回路３１４に送られ、ここで距離計算が行われ、量子化誤差エネルギＥを最小にするシェイプベクトルｓとゲインｇがサーチされる。ただし、ここでの１／Ａ（ｚ）はゼロ状態である。すなわち、コードブック中のシェイプベクトルｓをゼロ状態の１／Ａ（ｚ）で合成したものをｓ _synとするとき、式（４０）を最小にするシェイプベクトルｓとゲインｇをサーチする。
【０２０１】
【数３６】

【０２０２】
ここで、量子化誤差エネルギＥを最小とするｓとｇをフルサーチしてもよいが、計算量を減らすために、以下のような方法をとることができる。
【０２０３】
第１の方法として、以下の式（４１）に定義するＥ_sを最小とするシェイプベクトルｓをサーチする。
【０２０４】
【数３７】

【０２０５】
第２の方法として、第１の方法により得られたｓより、理想的なゲインは、式（４２）のようになるから、式（４３）を最小とするｇをサーチする。
【０２０６】
【数３８】

【０２０７】
Ｅ_g＝（ｇ_ref−ｇ）² （４３）
ここで、Ｅはｇの二次関数であるから、Ｅ_gを最小にするｇはＥを最小化する。
【０２０８】
上記第１，第２の方法によって得られたｓとｇより、量子化誤差ベクトルｅ（ｎ）は次の式（４４）のように計算できる。
【０２０９】
ｅ（ｎ）＝ｒ（ｎ）−ｇｓ _syn（ｎ）（４４）
これを、２段目の第２の符号化部１２０₂のリファレンス入力として１段目と同様にして量子化する。
【０２１０】
すなわち、上記１段目の第２の符号化部１２０₁の聴覚重み付き合成フィルタ３１２からは、端子３０５及び端子３０７に供給された信号がそのまま２段目の第２の符号化部１２０₂の聴覚重み付き合成フィルタ３２２に送られる。また、当該２段目の第２の符号化部１２０₂減算器３２３には、１段目の第２の符号化部１２０₁にて求めた上記量子化誤差ベクトルｅ（ｎ）が供給される。
【０２１１】
次に、図１０のステップＳ５において、当該２段目の第２の符号化部１２０₂でも１段目と同様に処理が行われる。すなわち、５ビットシェイプインデクス出力のストキャスティックコードブック３２０からの代表値出力がゲイン回路３２１に送られ、このゲイン回路３２１にて、当該コードブック３２０からの代表値出力に３ビットゲインインデクス出力のゲインコードブック３２５からのゲインを乗じ、このゲイン回路３２１の出力が、聴覚重み付きの合成フィルタ３２２に送られる。当該重み付きの合成フィルタ３２２からの出力は減算器３２３に送られ、当該減算器３２３にて上記聴覚重み付き合成フィルタ３２２からの出力と１段目の量子化誤差ベクトルｅ（ｎ）との差分が求められ、この差分が距離計算回路３２４に送られてここで距離計算が行われ、量子化誤差エネルギＥを最小にするシェイプベクトルｓとゲインｇがサーチされる。
【０２１２】
上述したような１段目の第２の符号化部１２０₁のストキャストコードブック３１０からのシェイプインデクス出力及びゲインコードブック３１５からのゲインインデクス出力と、２段目の第２の符号化部１２０₂のストキャストコードブック３２０からのインデクス出力及びゲインコードブック３２５からのインデクス出力は、インデクス出力切り換え回路３３０に送られるようになっている。ここで、当該第２の符号化部１２０から前記２３ビット出力を行うときには、上記１段目と２段目の第２の符号化部１２０₁及び１２０₂のストキャストコードブック３１０，３２０及びゲインコードブック３１５，３２５からの各インデクスを合わせて出力し、一方、前記１５ビット出力を行うときには、上記１段目の第２の符号化部１２０₁のストキャストコードブック３１０とゲインコードブック３１５からの各インデクスを出力する。
【０２１３】
その後は、ステップＳ６のようにフィルタ状態がアップデートされる。
【０２１４】
ところで、本実施の形態では、２段目の第２の符号化部１２０₂のインデクスビット数が、シェイプベクトルについては５ビットで、ゲインについては３ビットと非常に少ない。このような場合、適切なシェイプ、ゲインがコードブックに存在しないと、量子化誤差を減らすどころか逆に増やしてしまう可能性がある。
【０２１５】
この問題を防ぐためには、ゲインに０を用意しておけばよいが、ゲインは３ビットしかなく、そのうちの一つを０にしてしまうのは量子化器の性能を大きく低下させてしまう。そこで、比較的多いビット数を割り当てたシェイプベクトルに、要素が全て０のベクトルを用意する。そして、このゼロベクトルを除いて、前述のサーチを行い、量子化誤差が最終的に増えてしまった場合に、ゼロベクトルを選択するようにする。なお、このときのゲインは任意である。これにより、２段目の第２の符号化部１２０₂が量子化誤差を増すことを防ぐことができる。
【０２１６】
なお、図９の例では、２段構成の場合を例に挙げているが、２段に限らず複数段構成とすることができる。この場合、１段目のクローズドループサーチによるベクトル量子化が終了したら、Ｎ段目（２≦Ｎ）ではＮ−１段目の量子化誤差をリファレンス入力として量子化を行い、さらにその量子化誤差をＮ＋１段目のリファレンス入力とする。
【０２１７】
上述したように、図９及び図１０から、第２の符号化部に多段のベクトル量子化器を用いることにより、従来のような同じビット数のストレートベクトル量子化や共役コードブックなどを用いたものと比較して、計算量が少なくなる。特に、ＣＥＬＰ符号化では、合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っているため、サーチの回数が少ないことが重要である。また、２段の第２の符号化部１２０₁と１２０₂の両インデクス出力を用いる場合と、１段目の第２の符号化部１２０₁のインデクス出力のみを用いる（２段目の第２の符号化部１２０₂の出力インデクスを用いない）場合とを切り換えることにより、簡単にビット数を切り換えることが可能となっている。さらに上述したように、１段目と２段目の第２の符号化部１２０₁と１２０₂の両インデクス出力を合わせて出力するようなことを行えば、後のデコーダ側において例えば何れかを選ぶようにすることで、デコーダ側でも容易に対応できることになる。すなわち例えば６ｋｂｐｓでエンコードしたパラメータを、２ｋｂｐｓのデコーダでデコードするときに、デコーダ側で容易に対応できることになる。またさらに、例えば２段目の第２の符号化部１２０₂のシェイプコードブックにゼロベクトルを含ませることにより、割り当てられたビット数が少ない場合でも、ゲインに０を加えるよりは少ない性能劣化で量子化誤差が増加することを防ぐことが可能となっている。
【０２１８】
次に、上記ストキャスティックコードブックのコードベクトル（シェイプベクトル）は例えば以下のようにして生成することができる。
【０２１９】
例えば、ストキャスティックコードブックのコードベクトルは、いわゆるガウシアンノイズのクリッピングにより生成することができる。具体的には、ガウシアンノイズを発生させ、これを適当なスレシホールド値でクリッピングし、それを正規化することで、コードブックを構成することができる。
【０２２０】
ところが、音声には様々な形態があり、例えば「さ，し，す，せ，そ」のようなノイズに近い子音の音声には、ガウシアンノイズが適しているが、例えば「ぱ，ぴ，ぷ，ぺ，ぽ」のような立ち上がりの激しい子音（急峻な子音）の音声については、対応しきれない。
【０２２１】
そこで、本発明では、全コードベクトルのうち、適当な数はガウシアンノイズとし、残りを学習により求めて上記立ち上がりの激しい子音とノイズに近い子音の何れにも対応できるようにする。例えば、スレシホールド値を大きくとると、大きなピークを幾つか持つようなベクトルが得られ、一方、スレシホールド値を小さくとると、ガウシアンノイズそのものに近くなる。したがって、このようにクリッピングスレシホールド値のバリエーションを増やすことにより、例えば「ぱ，ぴ，ぷ，ぺ，ぽ」のような立ち上がりの激しい子音や、例えば「さ，し，す，せ，そ」のようなノイズに近い子音などに対応でき、明瞭度を向上させることができるようになる。なお、図１１には、図中実線で示すガウシアンノイズと図中点線で示すクリッピング後のノイズの様子を示している。また、図１１の（Ａ）はクリッピングスレシホールド値が１．０の場合（すなわちスレシホールド値が大きい場合）を、図１１の（Ｂ）にはクリッピングスレシホールド値が０．４の場合（すなわちスレシホールド値が小さい場合）を示している。この図１１の（Ａ）及び（Ｂ）から、スレシホールド値を大きくとると、大きなピークを幾つか持つようなベクトルが得られ、一方、スレシホールド値を小さくとると、ガウシアンノイズそのものに近くなることが判る。
【０２２２】
このようなことを実現するため、先ず、ガウシアンノイズのクリッピングにより初期コードブックを構成し、さらに予め適当な数だけ学習を行わないコードベクトルを決めておく。この学習しないコードベクトルは、その分散値が小さいものから順に選ぶようにする。これは、例えば「さ，し，す，せ，そ」のようなノイズに近い子音に対応させるためである。一方、学習を行って求めるコードベクトルは、当該学習のアルゴリズムとしてＬＢＧアルゴリズムを用いるようにする。ここで最適エンコード条件（Nearest Neighbour Condition）でのエンコードは固定したコードベクトルと、学習対象のコードベクトル両方を使用して行う。セントロイドコンディション（Centroid Condition）においては、学習対象のコードベクトルのみをアップデートする。これにより、学習対象となったコードベクトルは「ぱ，ぴ，ぷ，ぺ，ぽ」などの立ち上がりの激しい子音に対応するようになる。
【０２２３】
なお、ゲインは通常通りの学習を行うことで、これらのコードベクトルに対して最適なものが学習できる。
【０２２４】
上述したガウシアンノイズのクリッピングによるコードブックの構成のための処理の流れを図１２に示す。
【０２２５】
この図１２において、ステップＳ１０では、初期化として、学習回数ｎ＝０とし、誤差Ｄ₀＝∞とし、最大学習回数ｎ_maxを決定し、学習終了条件を決めるスレシホールド値εを決定する。
【０２２６】
次のステップＳ１１では、ガウシアンノイズのクリッピングによる初期コードブックを生成し、ステップＳ１２では学習を行わないコードベクトルとして一部のコードベクトルを固定する。
【０２２７】
次にステップＳ１３では上記コードブックを用いてエンコードを行い、ステップＳ１４では誤差を算出し、ステップＳ１５では（Ｄ_n-1−Ｄ_n）／Ｄ_n＜ε、若しくはｎ＝ｎ_maxか否かを判断し、Ｙｅｓと判断した場合には処理を終了し、Ｎｏと判断した場合にはステップＳ１６に進む。
【０２２８】
ステップＳ１６ではエンコードに使用されなかったコードベクトルの処理を行い、次のステップＳ１７ではコードブックのアップデートを行う。次にステップＳ１８では学習回数ｎを１インクリメントし、その後ステップＳ１３に戻る。
【０２２９】
以上説明したような信号符号化装置及び信号復号化装置は、例えば図１３及び図１４に示すような携帯通信端末あるいは携帯電話機等に使用される音声コーデックとして用いることができる。
【０２３０】
すなわち、図１３は、上記図１、図３に示したような構成を有する音声符号化部１６０を用いて成る携帯端末の送信側構成を示している。この図１３のマイクロホン１６１で集音された音声信号は、アンプ１６２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器１６３でディジタル信号に変換されて、音声符号化部１６０に送られる。この音声符号化部１６０は、上述した図１、図３に示すような構成を有しており、この入力端子１０１に上記Ａ／Ｄ変換器１６３からのディジタル信号が入力される。音声符号化部１６０では、上記図１、図３と共に説明したような符号化処理が行われ、図１、図２の各出力端子からの出力信号は、音声符号化部１６０の出力信号として、伝送路符号化部１６４に送られる。伝送路符号化部１６４では、いわゆるチャネルコーディング処理が施され、その出力信号が変調回路１６５に送られて変調され、Ｄ／Ａ（ディジタル／アナログ）変換器１６６、ＲＦアンプ１６７を介して、アンテナ１６８に送られる。
【０２３１】
また、図１４は、上記図２、図４に示したような構成を有する音声復号化部２６０を用いて成る携帯端末の受信側構成を示している。この図１４のアンテナ２６１で受信された音声信号は、ＲＦアンプ２６２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器２６３を介して、復調回路２６４に送られ、復調信号が伝送路復号化部２６５に送られる。２６４からの出力信号は、上記図２、図４に示すような構成を有する音声復号化部２６０に送られる。音声復号化部２６０では、上記図２、図４と共に説明したような復号化処理が施され、図２、図４の出力端子２０１からの出力信号が、音声復号化部２６０からの信号としてＤ／Ａ（ディジタル／アナログ）変換器２６６に送られる。このＤ／Ａ変換器２６６からのアナログ音声信号がスピーカ２６８に送られる。
【０２３２】
なお、本発明は上記実施の形態のみに限定されるものではなく、例えば音声分析側（エンコード側）の構成や、音声合成側（デコード側）の構成については、各部をハードウェア的に記載しているが、いわゆるＤＳＰ（ディジタル信号プロセッサ）等を用いてソフトウェアプログラムにより実現することも可能である。また、上記ベクトル量子化の代わりに、複数フレームのデータをまとめてマトリクス量子化を施してもよい。さらに、本発明が適用される音声符号化方法やこれに対応する復号化方法は、上記マルチバンド励起を用いた音声分析／合成方法に限定されるものではなく、有声音部分に正弦波合成を用いたり、無声音部分をノイズ信号に基づいて合成するような種々の音声分析／合成方法に適用でき、用途としても、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【０２３３】
【発明の効果】
以上の説明から明らかなように、本発明に係る音声符号化方法によれば、合成による分析法を用いて最適ベクトルのクローズドループサーチによる時間軸波形のベクトル量子化を行う符号化において、ベクトル量子化のコードブックには、ガウシアンノイズを複数の異なるスレシホールド値でクリッピングして生成したコードベクトルからなるものを用いることで、様々な音声の形態に対して良好な符号化を可能にしている。
【図面の簡単な説明】
【図１】本発明に係る音声符号化方法の実施の形態が適用される音声信号符号化装置の基本構成を示すブロック回路図である。
【図２】本発明に係る音声復号化方法の実施の形態が適用される音声信号復号化装置の基本構成を示すブロック回路図である。
【図３】本発明の実施の形態となる音声信号符号化装置のより具体的な構成を示すブロック回路図である。
【図４】本発明の実施の形態となる音声信号復号化装置のより具体的な構成を示すブロック回路図である。
【図５】ＬＳＰ量子化部の基本構成を示すブロック図である。
【図６】ＬＳＰ量子化部のより具体的な構成を示すブロック図である。
【図７】ベクトル量子化部の基本構成を示すブロック図である。
【図８】ベクトル量子化部のより具体的な構成を示すブロック図である。
【図９】本発明の音声信号符号化装置のＣＥＬＰ符号化部分（第２の符号化部）の具体的構成を示すブロック回路図である。
【図１０】図９の構成における処理の流れを示すフローチャートである。
【図１１】ガウシアンノイズと、異なるスレシホールド値でのクリッピング後のノイズの様子を示す図である。
【図１２】学習によってシェイプコードブックを生成する際の処理の流れを示すフローチャートである。
【図１３】本発明の音声信号符号化装置が適用される携帯端末の送信側構成を示すブロック回路図である。
【図１４】本発明の音声信号復号化装置が適用される携帯端末の受信側構成を示すブロック回路図である。
【符号の説明】
１１０第１の符号化部
１１１ＬＰＣ逆フィルタ
１１３ＬＰＣ分析・量子化部
１１４サイン波分析符号化部
１１５Ｖ／ＵＶ判定部
１２０，１２０₁，１２０₂ 第２の符号化部
１２１雑音符号帳
１２２，３１２，３２２重み付き合成フィルタ
１２３，３１３，３２３減算器
１２４，３１４，３２４距離計算回路
１２５聴覚重み付けフィルタ
３０２ＬＰＣ分析回路
３０３ＬＰＣパラメータ量子化回路
３０４聴覚重み付けフィルタ
３１０，３２０ストキャスティックコードブック
３１５，３２５ゲインコードブック
３３０インデクス出力切り換え回路

Claims

入力音声信号を時間軸上でブロック単位に区分し、各ブロック単位で符号化を行う音声符号化方法において、
合成による分析法を用いて最適ベクトルのクローズドループサーチによる時間軸波形のベクトル量子化を行う符号化工程を有し、
上記ベクトル量子化のコードブックは、ガウシアンノイズを複数の異なるスレシホールド値でセンタークリッピングして生成したコードベクトルと、当該ガウシアンノイズをセンタークリッピングして生成したコードベクトルを初期値にして学習により求めたコードベクトルとを有してなることを特徴とする音声符号化方法。
入力音声信号を時間軸上でブロック単位に区分し、各ブロック単位で符号化を行う音声符号化装置において、
合成による分析法を用いて最適ベクトルのクローズドループサーチによる時間軸波形のベクトル量子化を行う符号化手段を有し、
上記ベクトル量子化のコードブックは、ガウシアンノイズを複数の異なるスレシホールド値でセンタークリッピングして生成したコードベクトルと、当該ガウシアンノイズをセンタークリッピングして生成したコードベクトルを初期値にして学習により求めたコードベクトルとを有してなることを特徴とする音声符号化装置。