JP3824810B2

JP3824810B2 - 音声符号化方法、音声符号化装置、及び音声復号装置

Info

Publication number: JP3824810B2
Application number: JP18195999A
Authority: JP
Inventors: 恭士大田; 政直鈴木; 義照土永
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-09-01
Filing date: 1999-06-28
Publication date: 2006-09-20
Anticipated expiration: 2019-06-28
Also published as: US7089179B2; EP0984432A2; US20030083868A1; EP0984432A3; JP2000148194A; DE69937477D1; EP0984432B1; DE69937477T2

Description

【０００１】
【発明の属する技術分野】
本発明は、Ａ−ｂ−Ｓ（Ａｎａｌｙｓｉｓ−ｂｙ−Ｓｙｎｔｈｅｓｉｓ；合成による分析）型ベクトル量子化を用いる音声符号化／復号技術に関する。
【０００２】
【従来の技術】
ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅｒＰｒｅｄｉｃｔｉｏｎ；符号励振線形予測）符号化方式に代表されるＡ−ｂ−Ｓ型ベクトル量子化による音声符号化方式は、ＰＣＭ音声信号の伝送レートを例えば６４ｋｂｉｔｓ／ｓｅｃ（キロビット／秒）から４〜１６ｋｂｉｔｓ／ｓｅｃ程度に圧縮する場合に適用されている。このような音声符号化方式は、企業内通信システムやディジタル移動無線システム等において音声品質を保持しながら情報圧縮を行うものとして、その要望が高いものである。
【０００３】
図１３は、従来のＡ−ｂ−Ｓ型ベクトル量子化方式の説明図である。５１は符号帳、５２は係数器、５３は線形予測合成フィルタ、５４は減算器、５５は誤差電力評価部を示す。
【０００４】
Ａ−ｂ−Ｓ型ベクトル量子化符号器では、まず、係数器５２が、符号帳５１から読み出されたコードベクトルＣにゲインｇを乗算する。次に、線形予測合成フィルタ５３が、上記乗算結果を入力し、再生信号ｇＡＣを出力する。続いて、減算器５４が、入力信号Ｘから上記再生信号ｇＡＣを減算することにより、それらの差分である誤差信号Ｅを出力する。更に、誤差電力評価部５５が、誤差信号Ｅに基づいて誤差電力を算出する。以上の処理が、符号帳５１内の全てコードベクトルＣと複数種類のゲインｇに対して実行され、上記誤差電力が最小となるコードベクトルＣのインデックスとゲインｇとが算出され、それらが復号器に伝送される。
【０００５】
Ａ−ｂ−Ｓ型ベクトル量子化復号器では、まず、符号器から伝送されてきたインデックスに対応するコードベクトルＣが、符号帳５１から読み出される。次に、係数器５２が、上記コードベクトルＣに、符号器から伝送されてきたゲインｇを乗算する。そして、線形予測合成フィルタ５３が、上記乗算結果を入力し、復号された再生信号ｇＡＣを出力する。復号器では、減算器５４と誤差電力評価部５５は不要である。
【０００６】
以上のようにして、Ａ−ｂ−Ｓ型ベクトル量子化の符号器においては、コードベクトルＣに対して合成（復号）処理が実行されながら分析が行われることが特徴である。
【０００７】
図１４は、上述のＡ−ｂ−Ｓ型ベクトル量子化方式に基づく、従来の代表的なＣＥＬＰ方式の説明図である。
このＣＥＬＰ方式では、符号帳として、周期（ピッチ）性音源に対応する適応符号帳と、雑音（ランダム）性音源に対応する固定符号帳の２種類が備えられる。そして、それぞれの符号帳に基づいて、主に周期性音声（有声音等）のためのＡ−ｂ−Ｓ型ベクトル量子化処理と、それに続く主に雑音性音声（無声音又は背景音等）のためのＡ−ｂ−Ｓ型ベクトル量子化処理とが、順次実行されることが特徴である。
【０００８】
図１４において、６１は固定符号帳、６２は適応符号帳、６３及び６４は係数器、６５及び６６は線形予測合成フィルタ、６７及び６８は誤差電力評価部、６９及び７０は減算器である。ランダム性音源に対応する固定符号帳６１と、ピッチ性音源に対応する適応符号帳６２は、それぞれメモリによって構成されている。また、係数器６３及び６４と線形予測合成フィルタ６５及び６６と誤差電力評価部６７及び６８と減算器６９及び７０は、ＤＳＰ（ディジタル・シグナル・プロセッサ）等の演算素子によって実現することができる。
【０００９】
上記構成を有するＣＥＬＰ符号器において、適応符号帳６２、係数器６４、線形予測合成フィルタ６６、減算器７０、及び誤差電力評価部６８からなる部分は、周期性音声に対して有効な伝送パラメータを出力する。また、Ｐは適応符号帳から出力される適応コードベクトル、ｂは係数器６４におけるゲイン、Ａは線形予測合成フィルタ６６の伝達特性である。
【００１０】
この部分における符号化処理は、図１３で説明した、符号帳５１、係数器５２、線形予測合成フィルタ５３、減算器５４、及び誤差電力評価部５５による符号化処理と原理は同様である。但し、適応符号帳６２内のサンプルは、過去の励起信号が帰還されることにより、適応的に変化する。復号器についても、図１３で説明した、符号帳５１、係数器５２、及び線形予測合成フィルタ５３による復号処理と同様の処理が実行される。但しこの場合も、適応符号帳６２内のサンプルは、過去の励起信号が帰還されることにより、適応的に変化する。
【００１１】
一方、固定符号帳６１、係数器６３、線形予測合成フィルタ６５、減算器６９、及び誤差電力評価部６７からなる部分は、減算器７０が入力信号Ｘから線形予測合成フィルタ６６より出力される最適な再生信号ｂＡＰを減算することにより出力する雑音性信号Ｘ′に対して有効な伝送パラメータを出力する。この部分における符号化処理も、図１３で説明した、符号帳５１、係数器５２、線形予測合成フィルタ５３、減算器５４、及び誤差電力評価部５５による符号化処理と原理は同じである。この場合、固定符号帳６１には、予め固定サンプルが格納される。復号器についても、図１３で説明した、符号帳５１、係数器５２、及び線形予測合成フィルタ５３による復号処理と同様の処理が実行される。
【００１２】
ここで、固定符号帳６１は、予め固定サンプル値に対応する雑音コードベクトルＣを格納するものである。従って、例えば、ベクトル次元長を４０（サンプリング周波数が８ｋＨｚである場合における５ｍｓｅｃ（ミリ秒）の期間内のサンプル数に相当する）、基本ベクトル数を１０２４とすると、固定符号帳６１は、４０ｋ（キロ）ワードのメモリ容量を必要とすることになる。
【００１３】
即ち、固定符号帳６１が、全てのサンプル値を独立に格納するためには、膨大なメモリ容量が必要となり、ＣＥＬＰ音声コーデックの実現上の大きな問題となっていた。
【００１４】
そこで、この問題点を解決する目的で、少数の非零サンプル値が固定位置に配置されることにより代数的解法で音源探索処理が可能とされるＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）方式が提案されている（Ｊ．Ｐ．Ａｄｏｕｌ他“ＦａｓｔＣＥＬＰｃｏｄｉｎｇｂａｓｅｄｏｎａｌｇｅｂｒａｉｃｃｏｄｅｓ " Ｐｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎａｃｏｕｓｔｉｃｓｓｐｅｅｃｈａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，ｐｐ．１９５７−１９６０（Ａｐｒｉｌ，１９８７）参照）。
【００１５】
図１５は、代数符号帳を用いた従来のＡＣＥＬＰ方式の構成図である。代数符号帳７１は図１４の固定符号帳６１に対応し、係数器７２は図１４の係数器６３に対応し、線形予測合成フィルタ７３は図１４の線形予測合成フィルタ６５に対応し、減算器７４は図１４の減算器６９に対応し、誤差電力評価部７５は図１４の誤差電力評価部６７に対応する。図１５におけるＡ−ｂ−Ｓ処理では、図１３又は図１４で説明した処理と同様に、インデックスｉに対応して代数符号帳７１から生成されるコードベクトルＣ_iとゲインｇとを用いて、Ａ−ｂ−Ｓ処理が実行される。
【００１６】
このＡＣＥＬＰ方式では、非零サンプルの振幅値と位置に制約が加えられることにより、演算量及びメモリ量の大幅な削減が実現されている。このとき、例えば図１６に示されるように、コードベクトルＣ₀，Ｃ₁，・・・Ｃ_M-1を格納したＮ次元、Ｍサイズの代数符号帳７１が用意されるが、フレーム内の非零サンプルの個数が固定化されかつ非零サンプルが等間隔に配置されるという制約から、各コードベクトルＣ₀，Ｃ₁、・・・Ｃ_M-1を代数的解法により生成することが可能となる。図１６の例では、４個の非零サンプルｉ₀，ｉ₁，ｉ₂，ｉ₃の各サンプル位置が規格化され、その振幅値が±１．０とされる。この４サンプル位置以外の他のサンプル位置の振幅は、零とされる。
【００１７】
また図１６に示す代数符号帳７１の右側に示されるように、ｉ₀，ｉ₁，ｉ₂，ｉ₃に対応するコードベクトルのサンプル値パターンは、例えば、コードベクトルＣ0 に対応するパターン（０，・・０，＋１，０，・・・０，−１，０，・・・０，＋１，０，・・・０，−１，０，・・・）のように、振幅が零であるサンプル位置を除く、振幅が±１であるサンプル位置がｉ₀，ｉ₁，ｉ₂，ｉ₃に従って決定される。即ち４個の非零サンプルとＮ−４個の零サンプルとの合計Ｎサンプルを要素としたコードベクトルについて、４個の非零サンプルｉ_n（ｎ＝０，１，２，３）のそれぞれは、振幅情報（振幅の絶対値が１に固定されて極性のみを示す）のための１ビットと、２^k通りの候補の中の１つを指定する位置情報ｍ_nのためのＫビットとの、合計Ｋ＋１ビットで表すことができる。
【００１８】
非零サンプルの位置は、ＩＴＵ−Ｔ（国際電気通信連合の電機通信標準化部門）のＧ．７２９又はＧ．７２３．１によって標準化されている。
例えば標準規格Ｇ．７２９に対応した図１６の表７７において、１フレームに対応する４０サンプルについて、非零サンプルｉ₀〜ｉ₂の各位置情報ｍ₀〜ｍ₂は、それぞれ８か所の候補を有するため、それぞれその中の１か所を指定するために３ビットで表現することができる。また、非零サンプルｉ₃の位置情報ｍ₃は、１６か所の候補を有するため、その中の１か所を指定するために４ビットで表現することができる。また、非零サンプルｉ₀〜ｉ₃の各振幅情報ｓ₀〜ｓ₃は、各振幅の絶対値が１．０で固定され、その極性が表現されればよいから、それぞれ１ビットで表現することができる。以上より、Ｇ．７２９では非零サンプルｉ₀〜ｉ₃は、図１６の７６として示されるように、それぞれ１ビットで構成される振幅情報ｓ₀〜ｓ₃と、それぞれ３ビット又は４ビットで構成される位置情報ｍ₀〜ｍ₃とからなる、１７ビットのデータにより構成することができる。
【００１９】
また、標準規格Ｇ．７２３．１に対応した図１６の表７８においては、非零サンプルｉ₀〜ｉ₃の各位置候補が、各非零サンプル間で１サンプルおきになるように決定される。これにより、非零サンプルｉ0 〜ｉ3 の各位置情報ｍ0 〜ｍ3 は、それぞれ３ビットで表現することができる。非零サンプルｉ₀〜ｉ₃の各振幅情報ｓ₀〜ｓ₃は、標準規格Ｇ．７２９の場合と同様に、それぞれ１ビットで表現することができる。以上より、Ｇ．７２３．１では非零サンプルｉ₀〜ｉ₃は、図１６の７６として示されるように、それぞれ１ビットで構成される振幅情報ｓ₀〜ｓ₃と、それぞれ３ビットで構成される位置情報ｍ₀〜ｍ₃とからなる、１６ビットのデータにより構成することができる。
【００２０】
ここで例えば、第ｉ番目の符号語がｓⁱ _n，ｍⁱ _n（但し、ｎ＝０，１，２，３）の値を待つ時に、符号語サンプルｃⁱ（ｎ）は、次式により定義することができる。
【００２１】
【数１】
ｃⁱ（ｎ）＝ｓⁱ ₀δ（ｎ−ｍⁱ ₁）＋ｓⁱ ₁δ（ｎ−ｍⁱ ₁）＋ｓⁱ ₂δ（ｎ−ｍⁱ ₂）＋ｓⁱ ₃（ｎ−ｍⁱ ₃）
ここで、ｓⁱ _nは非零サンプルの振幅情報、ｍⁱ _nは非零サンプルの位置情報である。また、δ（）はデルタ関数であり、
δ（ｎ）＝１ｆｏｒｎ＝０
δ（ｎ）＝０ｆｏｒｎ≠０
である。
【００２２】
また、誤差電力Ｅ²は、図１５に示される入力信号Ｘと、ゲインｇと、コードベクトルＣi と、線形予測合成フィルタ７３のインパルス応答の行列Ｈとを用いて、次式で表現できる。
【００２３】
【数２】
Ｅ²＝（Ｘ−ｇＨＣ_i）²
この誤差電力Ｅ2 を最小とするための評価関数ａｒｇｍａｘ（Ｆｉ）は、次式で表現できる。
【００２４】
【数３】
ａｒｇｍａｘ（Ｆｉ）＝〔（Ｘ^TＨＣ_i）2 ／｛（ＨＣ_i）^T（ＨＣ_i）｝〕
ここで、
【００２５】
【数４】
Ｘ^TＨ＝Ｄ＝ｄ（ｉ）
【００２６】
【数５】
Ｈ^TＨ＝Φ＝φ（ｉ，ｊ）
とすると、数３式に示される評価関数ａｒｇｍａｘ（Ｆｉ）は、次式で表現することができる。
【００２７】
【数６】
ａｒｇｍａｘ（Ｆｉ）＝〔（Ｄ^TＣ_i）2 ／｛（Ｃ_i）^TΦＣ_i｝〕
なお、大文字はベクトルを示す。
【００２８】
前述の数４式及び数５式には、コードベクトルＣ_iの要素が含まれないから、符号語のパターン数（サイズ）Ｍが多い場合でも、予め計算しておくことができる。従って、数６式は、数３式に比較して、高速な演算が可能となる。
【００２９】
また、コードベクトルＣ_iに関する処理は、前述のように、振幅が±１．０の４サンプルについて行うもので、数６式の分母と分子とは、それぞれ以下の数７式及び数８式で示される演算となる。
【００３０】
【数７】
（Ｄ^TＣ_i）2 ＝｛Σ³ _i=0ｓ_iｄ（ｍ_i）｝²
【００３１】
【数８】
（Ｃ_i）^TΦＣ_i＝Σ³ _i=0φ（ｍ_i，ｍ_i）＋２Σ² _i=0Σ³ _j=i+1ｓ_iｓ_jφ（ｍ_i，ｍ_j）
なお、Σ³ _i=0は、ｉ＝０からｉ＝３までの累算を示す。
【００３２】
上記数７式及び数８式の演算量は、パラメータ（次元数）Ｎには依存せずかつ演算量も少ないため、符号語パターン数Ｍに対応する回数だけ演算が実行されたとしても演算量は膨大にはならない。従って、図１５に示される代数符号帳７１を用いる構成では、図１４に示される固定符号帳６１を用いる構成に比較して、大幅に演算量を低減することができる。また、代数符号帳７１から出力される各コードベクトルは、振幅情報（極性情報）と位置情報とから代数的に生成することができるから、メモリに各コードベクトルを記憶させる必要がなく、メモリ量の大幅な削減が可能となる。
【００３３】
【発明が解決しようとする課題】
前述のＡＣＥＬＰ方式では、メモリ量の削減及び演算量の削減を図ることができるものであるが、フレーム内の非零サンプルの本数が４本に固定され、かつサンプル位置が等間隔になるような制約が加えられているため、フレーム長と非零サンプル数との２つのパラメータにより符号語インデックスを表現するビットレートが決定され、符号語インデックスを表現するために比較的多くのビットが必要となるという問題点を有している。
【００３４】
例えばＩＴＵ−Ｔの標準規格Ｇ．７２９において、１フレームを４０サンプルとしたとき、図１６の表７７に示すように、符号語インデックスとして合計１７ビットが使用されることになる。このビット数は、Ｇ．７２９が規定する総伝送容量（８ｋｂｉｔｓ／ｓｅｃ，８０ｂｉｔｓ／１０ｍｓｅｃ）の４２％に相当することになる。
【００３５】
また１フレームを８０サンプルとすると、非零サンプルの位置情報を表現するために必要なビット数は、前述の場合よりそれぞれ１ビット分増加する。このため、符号語インデックスとして合計２１ビットが使用されることになる。このビット数は、Ｇ．７２９が規定する総伝送容量の６２．５％にも相当することになり、１フレーム４０サンプルの場合より大幅に増加する。
【００３６】
一般に４ｋｂｉｔｓ／ｓｅｃ程度の極低ビットレート音声ＣＯＤＥＣを実現するためには、フレーム長の拡張が必須となる。しかし、このような要求に上述した従来のＡＣＥＬＰ方式を適用すると、符号語インデックスの伝送ビットレートの大幅な増加が問題となってくるのである。即ち、従来のＡＣＥＬＰ方式は、伝送効率を上げて単位時間あたりのパラメータ伝送ビット数を削減することにより低ビットレート化を図るという要求を、阻害してしまうという問題点を有している。
【００３７】
この問題と共に、従来のＡＣＥＬＰ方式は、フレーム長が拡張されたときに、フレーム長以下のピッチ周期に対する同定能力が低下するという問題も有している。
【００３８】
本発明の課題は、非零振幅値のみで構成される音源符号語を用いるＡ−ｂ−Ｓ型ベクトル量子化に基づく音声符号化／復号方式において、符号語インデックスの伝送量の一定化とピッチ周期に対する同定能力の維持を図ることにある。
【００３９】
【課題を解決するための手段】
本発明は、（１）音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化技術であって、非零振幅値のサンプル位置を、インデックスと、音声の特徴量を表す伝送パラメータを用いて可変制御するものである。この場合の伝送パラメータとして、ピッチ周期に対応するラグ値を用いることができる。更に、ピッチゲイン値を用いることができる。また、ラグ値の大小関係又はピッチゲイン値に対応して、非零振幅値のサンプル位置をラグ値に対応する区間内で再構成するように構成することができる。
【００４０】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態について詳細に説明する。
図１及び図２は本発明の原理説明図であり、１及び１′は構成可変符号帳、２及び２′は係数器、３及び３′は線形予測合成フィルタ、４は減算器、５は誤差電力評価部を示す。
【００４１】
構成可変符号帳１及び１′は、例えば複数の非零サンプル値からなるコードベクトルを出力する代数符号帳に相当するものであるが、インデックスｉと、ピッチ周期（ラグ値）等の伝送パラメータｐとに基づいて、非零サンプルの位置を制御することにより、自身を再構成する機能を有する。このとき、構成可変符号帳１及び１′は、非零サンプル数を変化させることなく、非零サンプル位置を可変制御する。これにより、符号語インデックスの伝送に必要なビット数の増加を抑制することが可能となる。
【００４２】
図１に示される本発明の原理構成の符号器では、まず、係数器２が、インデックスｉと伝送パラメータｐとに基づいて非零サンプルの位置が制御された上で構成可変符号帳１から出力されるコードベクトルＣ_iに、ゲインｇを乗算する。次に、線形予測合成フィルタ３が、上記乗算結果を入力し、再生信号ｇＡＣ_iを出力する。続いて、減算器４が、入力信号Ｘから上記再生信号ｇＡＣ_iを減算することにより、それらの差分である誤差信号Ｅを出力する。更に、誤差電力評価部５が、誤差信号Ｅに基づいて誤差電力を算出する。以上の処理が、構成可変符号帳１から出力される全てコードベクトルＣ_iと複数種類のゲインｇに対して実行され、上記誤差電力が最小となるコードベクトルＣ_iのインデックスｉとゲインｇとが算出され、それらが復号器に伝送される。
【００４３】
図２に示される本発明の原理構成の復号器ではまず、パラメータ分離部６が、符号器から伝送されてきた受信データから各パラメータを分離する。次に、構成可変符号帳１′は、上記分離されたパラメータのうちのインデックスｉと伝送パラメータｐに基づいて、コードベクトルＣ_iを出力する。次に、係数器２′が、上記コードベクトルＣ_iに、パラメータ分離部６で分離されたゲインｇを乗算する。そして、線形予測合成フィルタ３′が、上記乗算結果を入力し、復号された再生信号ｇＡＣを出力する。なお、特には図示しないが、線形予測合成フィルタ３′には、パラメータ分離部６から、線形予測パラメータが与えられる。
【００４４】
図１及び図２の構成における伝送パラメータｐとしては、音声信号の特性に対応して種々選択することが可能であり、例えば、ピッチ周期（ラグ値）やゲイン等を採用することができる。
【００４５】
図３及び図４は上述した図１及び図２の原理構成に基づく本発明の第１の実施の形態の説明図であり、１１及び１１′は構成可変符号帳、１２及び１２′は係数器、１３及び１３′は線形予測合成フィルタ、１４は減算器、１５は誤差電力評価部、１６は非零サンプル位置制御部、１７はピッチ強調フィルタ、１８はパラメータ分離部を示す。
【００４６】
構成可変符号帳１１及び１１′は、図３中下部（図４も同様）に示されるように、インデックスｉと伝送パラメータであるピッチ周期（ラグ値）ｌ（Ｌの小文字）とを入力する非零サンプル位置制御部１６と、この非零サンプル位置制御部１６の出力信号とピッチ周期（ラグ値）ｌ（エル）とを入力するピッチ強調フィルタ１７とから構成される。非零サンプル位置制御部１６は、非零サンプル数は変化させないが、ピッチ周期（ラグ値）ｌ（エル）によって非零サンプルの位置を可変制御する。ピッチ強調フィルタ１７は、ラグ値がフレーム長よりも短い場合に、ラグ値に対応する長さ以上のサンプルを過去のラグ値から合成するための帰還フィルタである。
【００４７】
なお、図３及び図４に示される各部の機能は、ＤＳＰ（ディジタル・シグナル・プロセッサ）等の演算素子によって実現することもできる。
従来のＡＣＥＬＰ方式では、フレーム長に応じてその範囲全体に格納されるように非零サンプルが割り当てられていた。しかし、ピッチ周期に対応するラグ値がフレーム長よりも短い場合に、ラグ値に対応する長さ以上のサンプルは帰還フィルタを使って過去のラグ値から合成するような構成を採用することができる。このような場合に、非零サンプルを、フレーム内のラグ値に対応する範囲より広い範囲にわたって割り当てるのは、無駄である。
【００４８】
そこで、本実施の形態では、非零サンプル位置制御部１６が、まず非零サンプルをラグ値の範囲内でのみ割り当てる。これと同時に、同制御部１６は、ラグ値がフレーム長の半分に対応する値を越えるような場合には、ラグ値の範囲内に割り当てられる非零サンプルのうち、ピッチ強調フィルタ１７による帰還処理の影響が少ないの後半部分に割り当てられる非零サンプルを間引いてその位置を可変制御する。これにより、ラグ値及びフレーム長が変化しても、非零サンプル数を一定数に保つことが可能となって、符号語インデックスの伝送に必要なビット数の増加を抑制することが可能となる。
【００４９】
まず、図３及び図４の第１の実施の形態の構成の全体的な動作は、図１及び図２で説明した原理構成の動作と同様である。
図５は、図３及び図４の構成可変符号帳１１及び１１′内に構成される非零サンプル位置制御部１６が実行する演算処理を示すフローチャートである。以下、１フレーム＝８０サンプル（８ｋＨｚサンプリング）、非零サンプル数＝４、ラグ（ｌａｇ）値＝２０サンプル（４００Ｈｚ）〜１４７サンプル（５４．４Ｈｚ）、インデックス伝送ビット＝１７ビットとした場合を例として説明する。
【００５０】
まず、非零サンプル位置の初期化が行われる（図５のステップＡ１）。ここでは、４０要素からなる配列データｓｍｐ＿ｐｏｓ〔ｉ〕（０≦ｉ＜４０＞に、等間隔の非零サンプル位置ｉ＝０〜３９がセットされる。
【００５１】
次に、入力するピッチ周期に対応するラグ値が判定される。ここで、ラグ値は、図３及び図４では特には図示しないが、ＡＣＥＬＰ処理の前段の処理である適応符号帳を用いたＡ−ｂ−Ｓ処理（図１４の上半分の構成に対応）によって算出されている。
【００５２】
まず、ラグ値が第１の設定値：４０以下か否かが判定され（図５のステップＡ２）、この判定がＹＥＳならば、図５のステップＡ６が実行されることにより、各非零サンプル位置が登録される。
【００５３】
この結果、ピッチ周期に対応するラグ値が４０以下ならば、非零サンプル位置が、図６（ａ）に示されるように決定される。この配置は、前述したＩＴＵ−Ｔ標準規格Ｇ．７２９に対応する図１６の表７７に示されるものと同一である。
【００５４】
一方、図５のステップＡ２の判定がＮＯならば、ラグ値が第２の設定値：８０以上か否かが判定され（図５のステップＡ３）、この判定がＮＯの場合には、図５のステップＡ５の非零サンプル位置の制御処理におけるｆｏｒループ処理によって配列データｓｍｐ＿ｐｏｓ［］の内容が順次変更され、その後その変更された配列データを使って、ステップＡ６の非零サンプル位置の登録処理が実行される。
【００５５】
この結果、ピッチ周期に対応するラグ値が４０より大きく８０よりも小さい場合、例えば４５である場合には、非零サンプル位置が例えば図６（ｂ）に示されるように決定される。この配置は、図７の説明図に示されるように、図６（ａ）の表で示される配置において、サンプル位置３５、３７、３９が省略されその代わりにサンプル位置４０、４２、４４が追加されたものである。
【００５６】
より具体的には、例えばラグ値＝４５の場合に、初期値として、ｉ＝０，ｉｘ＝４０，ｉｙ＝０とされ、（ｌａｇ−４１）／２＋１＝３となるから、３個のサンプル位置について位置制御が行われる。即ち、ｓｍｐ＿ｐｏｓ〔３９−ｉｙ〕＝ｉｘの演算により、まず、ｉｘ＝４０，ｉｙ＝０であるから、サンプル位置データｓｍｐ＿ｐｏｓ〔３９〕にサンプル位置３９の代わりにサンプル位置４０が設定され、次に、ｉｘ＋＝２，ｉｙ＋＝２によりｉｘ＝４２，ｉｙ＝２となるから、サンプル位置データｓｍｐ＿ｐｏｓ〔３７〕にサンプル位置３７の代わりにサンプル位置４２が設定され、更に、ｉｘ＝４４，ｉｙ４となるから、サンプル位置データｓｍｐ＿ｐｏｓ〔３５〕にサンプル位置３５の代わりにサンプル位置４４設定される。
【００５７】
このように、本実施の形態では、ピッチ周期に対応するラグ値が４０より大きく８０よりも小さい場合には、ラグ値が４０から増加した分に応じたサンプル数だけサンプル位置が間引かれてラグ値の範囲内で再構成されることにより、非零サンプル数を変更することなくその位置が再構成される。
【００５８】
続いて、図５のステップＡ３の判定がＹＥＳであった場合には、図５のステップＡ４のクリッピング処理が実行される。即ち、ラグ値がフレーム長に対応する８０を越えた場合には、フレーム長の範囲外にまで非零サンプルを割り当てることは無意味であるため、ラグ値が８０にクリップされた上で、図５のステップＡ５の非零サンプルの位置制御処理とそれに続くステップＡ６の非零サンプル位置の登録処理が実行される。この結果、非零サンプル位置が例えば図６（ｃ）に示されるように決定される。
【００５９】
以上の制御処理により、ラグ値が増加した場合でも、ラグ値に対応して非零サンプル位置が再構成されることにより、非零サンプル数を変更しないで符号語インデックスの必要伝送ビット数を１７ビットのままとすることが可能となる。
【００６０】
図８は、図３及び図４の構成可変符号帳１１及び１１′を構成するピッチ強調フィルタ１７が行うピッチ強調処理の説明図であり、３１及び３４は係数器、３２は加算器、３３は遅延回路を示す。
【００６１】
図８において、係数器３１及び３４と加算器３２と遅延回路３３とを含む構成部分の伝達関数は、Ｐ（ｚ）＝α／（１−βｚ^-lag）となる。なお、αは係数器３１の係数、βは係数器３４の係数、ｌａｇはラグ値を示す。例えば、係数器３１の係数αは、０〜（ｌａｇ−１）の範囲では、α＝１．０、１ａｇ〜７９の範囲ではα＝０．０とし、係数器３４の係数βは１．０とすることができる。なお、係数α，βはこれらの値に限定されるものではなく、他の値を設定することももちろん可能である。
【００６２】
上記構成を有する回路構成により、ラグ値がフレーム長よりも短い場合に、フレーム内のラグ値に対応する長さ以上のサンプルが過去のラグ値から帰還させられて合成される。この結果、ピッチ周期に同期した系列生成を行うことができ、ピッチ同定能力の低下を回避することができる。
【００６３】
図９及び図１０は前述の図１及び図２の原理構成に基づく本発明の第２の実施の形態の説明図であり、２１及び２１′は構成可変符号帳、２２及び２２′は係数器、２３及び２３′は線形予測合成フィルタ、２４は減算器、２５は誤差電力評価部、２６は非零サンプル位置制御部、２７はピッチ同期フィルタ、２８はパラメータ分離部を示す。
【００６４】
上述の図９及び図１０の第２の実施の形態の構成の全体的な動作は、図１及び図２で説明した原理構成の動作と同様である。
構成可変符号帳２１及び２１′は、本発明の第１の実施の形態に対応する構成符号帳１１及び１１′（図３及び図４）の場合と同様に、非零サンプル位置制御部２６とピッチ同期フィルタ２７とから構成される。この第２の実施の形態の構成が第１の実施の形態の構成と異なる点は、非零サンプル位置制御部２６とピッチ同期フィルタ２７が、伝送パラメータとして、ピッチ周期に対応するラグ値ｌ（エル）に加えてピッチゲインＧも入力している点である。
【００６５】
適応符号帳を用いたＡ−ｂ−Ｓ処理（図１４の上半分の構成に対応）によって算出されるピッチ周期に対応したラグ値としては、入力音声が明確なピッチ周期を有しない場合でも、探索範囲内で最も可能性の高い値が選択される。従って、雑音性音源が適当であると言われている無声音や背景音の区間でも、擬似的なピッチ周期が抽出され、このピッチ周期の情報が符号器から復号器へ伝送される。この場合に、ピッチゲインＧが大きいことはピッチ周期性が大きいことを示しており、ピッチゲインＧが小さいことは無声音や背景音などのようにピッチ周期性が小さいことを示している。そこで、本発明の第２の実施の形態では、伝送パラメータの１つとして、ピッチゲインＧが採用されるものである。
【００６６】
図１１は、図９及び図１０の構成可変符号帳２１及び２１′内に構成される非零サンプル位置制御部２６が実行する演算処理を示すフローチャートである。このフローチャートにおいて、ステップＢ１、Ｂ３、Ｂ４、Ｂ７、Ｂ５、及びＢ６の各制御処理は、この順でそれぞれ、本発明の第１の実施の形態に対応する図５のフローチャートのステップＡ１、Ａ２、Ａ３、Ａ４、Ａ５、及びＡ６と同じ処理である。
【００６７】
第２の実施の形態が第１の実施の形態と異なる点は、ピッチゲインＧが閾値よりも小さい場合の処理である。即ち、図１１のステップＢ２において、ピッチゲインＧが閾値よりも小さいか否かが判定され、その判定がＹＥＳの場合には、ピッチ周期の設定が意味をなさないため、ステップＢ７においてラグ値がフレーム長と同じ８０にクリップされた上で、第１の実施の形態の場合と同様の処理が実行される。
【００６８】
以上の制御処理により、更なる特性向上を図ることが可能となる。
図１２は、入力音声Ｘ（図中Ａ、図１４のＸに対応）と、本実施の形態への雑音性入力信号Ｘ′（図中Ｂ、図１等のＸ′に対応）と、本発明における構成可変符号帳（図１の１等）からの出力信号の各波形例を示す図である。
【００６９】
以上、本発明の各実施の形態について説明したが、本発明は、前述の各実施の形態のみに限定されるものではなく、種々付加変更することができる。例えば、フレーム長、サンプル数等は適用システムに対応して任意に選定することができる。また、伝送パラメータとしては、例えば音声のホルマントに対応するようなものを用いてもよい。更に、本発明は、ＡＣＥＬＰ方式のみでなく、非零サンプルを複数用い、その非零サンプル位置を伝送パラメータによって制御する音声符号化方式に適用できるものである。
【００７０】
【発明の効果】
本発明によれば、Ａ−ｂ−Ｓ型ベクトル量子化において符号帳から出力される非零サンプルの位置を、インデックスと、ラグ値やピッチゲイン等の音声の特徴量を表す伝送パラメータを用いて、非零サンプル数を増加させることなく変更制御することができる。この結果、本発明は、フレーム長の拡張によっても所要伝送ビット数を増加する必要がなく、伝送効率の低下を回避できるという利点を有する。
【００７１】
また、本発明は、ピッチ同定能力をピッチ強調処理等によって容易に確保できるという利点を有する。
【図面の簡単な説明】
【図１】本発明の原理説明図（符号化探索処理）である。
【図２】本発明の原理説明図（復号側再生処理）である。
【図３】本発明の第１の実施の形態の説明図（符号化探索処理）である。
【図４】本発明の第１の実施の形態の説明図（復号側再生処理）である。
【図５】本発明の第１の実施の形態のフローチャートである。
【図６】本発明の実施の形態のラグ値による構成可変符号帳の説明図である。
【図７】本発明の実施の形態のラグ値に応じた非零サンプル位置の説明図である。
【図８】ピッチ強調処理の説明図である。
【図９】本発明の第２の実施の形態の説明図（符号化探索処理）である。
【図１０】本発明の第２の実施の形態の説明図（復号側再生処理）である。
【図１１】本発明の第２の実施の形態のフローチャートである。
【図１２】各信号の波形例を示す図である。
【図１３】従来のＡ−ｂ−Ｓ型ベクトル量子化の説明図である。
【図１４】従来のＣＥＬＰ方式の説明図である。
【図１５】従来のＡＣＥＬＰ方式の構成図である。
【図１６】ＡＣＥＬＰ方式の概要の説明図である。
【符号の説明】
１、１′ 構成可変符号帳
２、２′ 係数器
３、３′ 線形予測合成フィルタ
４減算器
５誤差電力評価部

Claims

音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化方法であって、
前記各非零振幅値のサンプル位置を、インデックスと、音声の特徴量を示す伝送パラメータであるピッチ周期に対応するラグ値及びピッチゲイン値を用いて可変制御する過程を含み、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声符号化方法。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化方法によって符号化された音声信号を復号する音声復号方法であって、
前記各非零振幅値のサンプル位置を、インデックスと、音声の特徴量を示す伝送パラメータであるピッチ周期に対応するラグ値及びピッチゲイン値を用いて可変制御する過程を含み、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声復号方法。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化方法であって、
前記非零振幅値のサンプル位置を、ピッチゲイン値と所定の閾値との比較により、ラグ値に対応する区間内で再構成する過程を含み、
前記ピッチゲイン値が前記所定の閾値より大きいとき、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声符号化方法。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化方法によって符号化された音声信号を復号する音声復号方法であって、
前記非零振幅値のサンプル位置を、伝送パラメータであるピッチゲイン値と所定の閾値との比較により、伝送パラメータのラグ値に対応する区間内で再構成する過程を含み、
前記ピッチゲイン値が前記所定の閾値より大きいとき、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声復号方法。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化装置であって、
前記各非零振幅値のサンプル位置を、インデックスと、音声の特徴量を示す伝送パラメータであるピッチ周期に対応するラグ値及びピッチゲイン値を用いて可変制御する構成可変符号帳手段を含み、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声符号化装置。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化装置によって符号化された音声信号を復号する音声復号装置であって、
前記各非零振幅値のサンプル位置を、インデックスと、音声の特徴量を示す伝送パラメータであるピッチ周期に対応するラグ値及びピッチゲイン値を用いて可変制御する構成可変符号帳手段を含み、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声復号装置。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化装置であって、
前記非零振幅値のサンプル位置を、ピッチゲイン値と所定の閾値との比較により、ラグ値に対応する区間内で再構成する構成可変符号帳手段を含み、
前記ピッチゲイン値が前記所定の閾値より大きいとき、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声符号化装置。
音源符号語を複数の非零振幅値のみで構成した符号帳を用いる、合成による分析型のベクトル量子化に基づく音声符号化装置によって符号化された音声信号を復号する音声復号装置であって、
前記非零振幅値のサンプル位置を、伝送パラメータであるピッチゲイン値と所定の閾値との比較により、伝送パラメータのラグ値に対応する区間内で再構成する構成可変符号帳手段を含み、
前記ピッチゲイン値が前記所定の閾値より大きいとき、
前記ラグ値が所定の区間に属するとき、該ラグ値が該区間の最小値より増加した分に応じたサンプル数だけ、前記各非零振幅値のサンプル位置を再構成し、
前記ラグ値がフレーム長を超えたとき、該区間の最大値に対応したサンプル数だけ、前記各非零振幅値のサンプル位置を再構成する
ことを特徴とする音声復号装置。