JP4040126B2

JP4040126B2 - 音声復号化方法および装置

Info

Publication number: JP4040126B2
Application number: JP25066396A
Authority: JP
Inventors: 正之西口; 和幸飯島; 淳松本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 2008-01-30
Anticipated expiration: 2016-09-20
Also published as: US6047253A; KR19980024790A; ID18305A; KR100526829B1; JPH1097296A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力音声信号を時間軸上で所定の符号化単位で区分し、その区分された符号化単位に符号化処理を施して得られた符号化音声信号を復号化する音声復号化方法および装置に関する。
【０００２】
【従来の技術】
音声信号や音響信号を含むオーディオ信号の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行う符号化方法が種々知られている。このような符号化方法は、時間領域での符号化、周波数領域での符号化、分析合成符号化等に大別される。
【０００３】
音声信号等の高能率符号化の例として、ハーモニック（Harmonic）符号化、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化等のサイン波分析符号化や、ＳＢＣ（Sub-band Coding:帯域分割符号化）、ＬＰＣ（Linear Predictive Coding: 線形予測符号化）、あるいはＤＣＴ（離散コサイン変換）、ＭＤＣＴ（モデファイドＤＣＴ）、ＦＦＴ（高速フーリエ変換）等が知られている。
【０００４】
【発明が解決しようとする課題】
ところで、従来の、例えばＬＰＣ残差に対するハーモニック符号化では、音声信号のＶ／ＵＶ判定がＶであるかＵＶであるかの択一的な判定であったため、有声音部分では再生音声が鼻づまり感のある声（いわゆるバジーな声）になりがちであった。
【０００５】
また、それを防ぐために、デコーダ側で、有声音部分にノイズを付加して再生音声を出力することが行われていた。しかし、この方法では、ノイズを加えすぎると再生音声がノイジーになり、ノイズが少なすぎると再生音声がバジーになってしまうため、ノイズ付加の程度加減がむずかしかった。
【０００６】
本発明は、このような実情に鑑みてなされたものであり、エンコーダ側で入力音声信号のピッチ強度を検出し、その検出されたピッチ強度に応じたピッチ強度情報を生成してデコーダ側に送信し、デコーダ側ではその送信されたピッチ強度情報に応じて上記のノイズ付加の程度を可変することにより、自然な再生有声音声を得ることができる音声復号化方法および装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述の課題を解決するために、本発明に係る音声復号化方法は、入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化方法であって、入力音声信号の有声音部分の全帯域におけるピッチ強度に基づくパラメータであるピッチ強度情報に基づいてノイズ成分をサイン波合成波形の高域側に付加する工程を有し、上記サイン波合成波形に付加するノイズ成分のレベルおよび帯域幅は、上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御されることを特徴とするものである。
【０００８】
また、本発明に係る音声復号化装置は、入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化装置であって、サイン波合成波形の高域側に付加するノイズ成分のレベルと帯域幅を上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御する手段と、有声音／無声音判定結果に基づいて上記入力音声信号の有声音と判断された部分に対して上記サイン波合成復号化を行う手段と、上記入力音声信号の無声音と判断された部分に対して符号励起線形予測復号化を行う手段とを有することにより、上述の課題を解決する。
【０００９】
上記の特徴を備えた本発明に係る音声復号化方法、音声復号化方法および装置によれば、携帯電話システム等に適用して好適な、自然な再生音声を得ることができる。
【００１０】
【発明の実施の形態】
以下に、本発明に係る好ましい実施の形態について説明する。
【００１１】
先ず、図１は、本発明に係る音声符号化方法の実施の形態が適用された符号化装置の基本構成を示している。
【００１２】
ここで、図１の音声符号化装置の基本的な考え方は、入力音声信号の短期予測残差例えばＬＰＣ（線形予測符号化）残差を求めてサイン波分析（sinusoidal analysis ）符号化、例えばハーモニックコーディング（harmonic coding ）を行う第１の符号化部１１０と、入力音声信号に対して位相再現性のある波形符号化により符号化する第２の符号化部１２０とを有し、入力信号の有声音（Ｖ：Voiced）の部分の符号化に第１の符号化部１１０を用い、入力信号の無声音（ＵＶ：Unvoiced）の部分の符号化には第２の符号化部１２０を用いるようにすることである。
【００１３】
上記第１の符号化部１１０には、例えばＬＰＣ残差をハーモニック符号化やマルチバンド励起（ＭＢＥ）符号化のようなサイン波分析符号化を行う構成が用いられる。上記第２の符号化部１２０には、例えば合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測（ＣＥＬＰ）符号化の構成が用いられる。
【００１４】
図１の例では、入力端子１０１に供給された音声信号が、第１の符号化部１１０のＬＰＣ逆フィルタ１１１及びＬＰＣ分析・量子化部１１３に送られている。ＬＰＣ分析・量子化部１１３から得られたＬＰＣ係数あるいはいわゆるαパラメータは、ＬＰＣ逆フィルタ１１１に送られて、このＬＰＣ逆フィルタ１１１により入力音声信号の線形予測残差（ＬＰＣ残差）が取り出される。また、ＬＰＣ分析・量子化部１１３からは、後述するようにＬＳＰ（線スペクトル対）の量子化出力が取り出され、これが出力端子１０２に送られる。ＬＰＣ逆フィルタ１１１からのＬＰＣ残差は、サイン波分析符号化部１１４に送られる。
【００１５】
サイン波分析符号化部１１４では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、Ｖ（有声音）／ＵＶ（無声音）判定部及びピッチ強度情報生成部１１５により入力音声信号の符号化単位毎にＶ／ＵＶの判定および上記音声信号中の有声音（Ｖ）のピッチ強度情報の生成が行われる。ここで、上記ピッチ強度情報とは、音声信号のピッチ強度を表すだけでなく、音声信号の有声音らしさや無声音らしさを表す情報を含むものである。
【００１６】
サイン波分析符号化部１１４からのスペクトルエンベロープ振幅データはベクトル量子化部１１６に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部１１６からのコードブックインデクスは、スイッチ１１７を介して出力端子１０３に送られ、サイン波分析符号化部１１４からの出力は、スイッチ１１８を介して出力端子１０４に送られる。また、Ｖ／ＵＶ判定及びピッチ強度情報生成部１１５からのＶ／ＵＶ判定結果は、スイッチ１１７、１１８の制御信号として送られており、上述した有声音（Ｖ）のとき上記インデクス及びピッチが選択されて各出力端子１０３及び１０４からそれぞれ取り出される。また、Ｖ／ＵＶ判定及びピッチ強度情報生成部１１５からのピッチ強度情報は出力端子１０５から取り出される。
【００１７】
図１の第２の符号化部１２０は、この例ではＣＥＬＰ（符号励起線形予測）符号化構成を有しており、雑音符号帳１２１からの出力を、重み付きの合成フィルタ１２２により合成処理し、得られた重み付き音声を減算器１２３に送り、入力端子１０１に供給された音声信号を聴覚重み付けフィルタ１２５を介して得られた音声との誤差を取り出し、この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳１２１でサーチするような、合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このＣＥＬＰ符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳１２１からのＵＶデータとしてのコードブックインデクスは、上記Ｖ／ＵＶ判定及びピッチ強度情報生成部１１５からの有声音（Ｖ）のピッチ強度情報が、無声音（ＵＶ）を示すときオンとなるスイッチ１２７を介して出力端子１０７より取り出される。
【００１８】
次に、図２は、本発明に係る音声復号化方法の一実施の形態が適用された音声復号化装置として、上記図１の音声符号化装置に対応する音声復号化装置の基本構成を示すブロック図である。
【００１９】
図２において、入力端子２０２には上記図１の出力端子１０２からの上記ＬＳＰ（線スペクトル対）の量子化出力としてのコードブックインデクスが入力される。入力端子２０３、２０４、及び２０５には、上記図１の各出力端子１０３、１０４、及び１０５からの各出力、すなわちエンベロープ量子化出力としてのインデクス，ピッチ、およびピッチ強度に基づくパラメータでありＶ／ＵＶ判定結果をも含むピッチ強度情報がそれぞれ入力される。また、入力端子２０７には、上記図１の出力端子１０７からのＵＶ（無声音）用のデータとしてのインデクスが入力される。
【００２０】
入力端子２０３からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化され、ＬＰＣ残差のスペクトルエンベロープが求められて有声音合成部２１１に送られる。有声音合成部２１１は、サイン波合成により有声音部分のＬＰＣ（線形予測符号化）残差を合成するものであり、この有声音合成部２１１には入力端子２０４及び２０５からのピッチ及びピッチ強度情報も供給されている。有声音合成部２１１からの有声音のＬＰＣ残差は、ＬＰＣ合成フィルタ２１４に送られる。また、入力端子２０７からのＵＶデータのインデクスおよび入力端子２０５からのピッチ強度情報は、無声音合成部２２０に送られて、雑音符号帳を参照することにより無声音部分のＬＰＣ残差が取り出される。このＬＰＣ残差もＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４では、上記有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とがそれぞれ独立に、ＬＰＣ合成処理が施される。あるいは、有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とが加算されたものに対してＬＰＣ合成処理を施すようにしてもよい。ここで入力端子２０２からのＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３に送られて、ＬＰＣのαパラメータが取り出され、これがＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成されて得られた音声信号は、出力端子２０１より取り出される。
【００２１】
次に、上記図１に示した音声符号化装置のより具体的な構成について、図３を参照しながら説明する。なお、図３において、上記図１の各部と対応する部分には同じ指示符号を付している。
【００２２】
この図３に示された音声符号化装置において、入力端子１０１に供給された音声信号は、ハイパスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を除去するフィルタリング処理が施された後、ＬＰＣ（線形予測符号化）分析・量子化部１１３のＬＰＣ分析回路１３２と、ＬＰＣ逆フィルタ回路１１１とに送られる。
【００２３】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２は、入力信号波形の２５６サンプル程度の長さを符号化単位の１ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、１６０サンプル程度とする。サンプリング周波数ｆ_Sが例えば８ｋHzのとき、１フレーム間隔は１６０サンプルで２０ｍsecとなる。
【００２４】
ＬＰＣ分析回路１３２からのαパラメータは、α→ＬＳＰ変換回路１３３に送られて、線スペクトル対（ＬＳＰ）パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば１０個、すなわち５対のＬＳＰパラメータに変換する。この変換は、例えばニュートン−ラプソン法等を用いて行う。ＬＳＰパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【００２５】
α→ＬＳＰ変換回路１３３からのＬＳＰパラメータは、ＬＳＰ量子化器１３４によりマトリクスあるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、２０ｍsec を１フレームとし、２０ｍsec 毎に算出されるＬＳＰパラメータを２フレーム分まとめて、マトリクス量子化及びベクトル量子化している。
【００２６】
このＬＳＰ量子化器１３４からの量子化出力、すなわちＬＳＰ量子化のインデクスは端子１０２を介して取り出され、また量子化済みのＬＳＰベクトルはＬＳＰ補間回路１３６に送られる。
【００２７】
ＬＳＰ補間回路１３６は、上記２０ｍsec あるいは４０ｍsec 毎に量子化されたＬＳＰのベクトルを補間し、８倍のレートにする。すなわち、２．５ｍsec 毎にＬＳＰベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープが非常になだらかでスムーズな波形になるため、ＬＰＣ係数が２０ｍsec 毎に急激に変化すると異音を発生することがあるからである。すなわち、２．５ｍsec 毎にＬＰＣ係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【００２８】
このような補間が行われた２．５ｍsec 毎のＬＳＰベクトルを用いて入力音声の逆フィルタリングを実行するために、ＬＳＰ→α変換回路１３７により、ＬＳＰパラメータを例えば１０次程度の直接型フィルタの係数であるαパラメータに変換する。このＬＳＰ→α変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回路１１１に送られ、このＬＰＣ逆フィルタ１１１では、２．５ｍsec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このＬＰＣ逆フィルタ１１１からの出力は、サイン波分析符号化部１１４、具体的には例えばハーモニック符号化回路の直交変換回路１４５、例えばＤＦＴ（離散フーリエ変換）回路に送られる。
【００２９】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２からのαパラメータは、聴覚重み付けフィルタ算出回路１３９に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器１１６と、第２の符号化部１２０の聴覚重み付けフィルタ１２５及び聴覚重み付きの合成フィルタ１２２とに送られる。
【００３０】
ハーモニック符号化回路等のサイン波分析符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Ａmの算出、有声音（Ｖ）／無声音（ＵＶ）の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Ａmの個数を次元変換して一定数にしている。
【００３１】
図３に示すサイン波分析符号化部１１４の具体例においては、一般のハーモニック符号化を想定しているが、特に、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化の場合には、同時刻（同じブロックあるいはフレーム内）の周波数軸領域いわゆるバンド毎に有声音（Voiced）部分と無声音（Unvoiced）部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、１ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のＶ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バンドがＵＶのときを当該フレームのＵＶとしている。ここで上記ＭＢＥの分析合成手法については、本件出願人が先に提案した特願平４−９１４２２号明細書及び図面に詳細な具体例を開示している。
【００３２】
図３のサイン波分析符号化部１１４のオープンループピッチサーチ部１４１には、上記入力端子１０１からの入力音声信号が、またゼロクロスカウンタ１４２には、上記ＨＰＦ（ハイパスフィルタ）１０９からの信号がそれぞれ供給されている。サイン波分析符号化部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ１１１からのＬＰＣ残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部１４１では、入力信号のＬＰＣ残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ１４６に送られて、後述するようなクローズドループによる高精度のピッチサーチ（ピッチのファインサーチ）が行われる。
【００３３】
上記オープンループによる比較的ラフなピッチサーチは、具体的には、Ｐ次のＬＰＣ係数α_p（１≦ｐ≦Ｐ）を自己相関法などで求めるものである。すなわち、１フレームあたりＮサンプルの入力をｘ(ｎ)（０≦ｎ＜Ｎ）とし、上記ｘ(ｎ)にハミング窓をかけたｘ_w(ｎ)（０≦ｎ＜Ｎ）からＰ次のＬＰＣ係数α_p（１≦ｐ≦Ｐ）を自己相関法などで求める（１）式によって逆フィルタをかけて得られたＬＰＣ残差をresi(ｎ)（０≦ｎ＜Ｎ）とする。
【００３４】
【数１】

【００３５】
resi(ｎ)のトランジェント部（０≦ｎ＜Ｐ）においては、その残差が正しく求められていないので、０で置き替える。それをresi'(ｎ)（０≦ｎ＜Ｎ）とする。そして、resiｒ'(ｎ)そのもの、またはｆ_c ＝１ｋＨｚ程度のＬＰＦ，ＨＰＦによりフィルタリング処理したものの自己相関値Ｒ_kを（２）式により算出する。ここで、ｋは自己相関値を求める際にサンプルをずらす量である。
【００３６】
【数２】

【００３７】
なお、（２）式を直接に計算する代わりにresi'(ｎ)にＮ個、例えば２５６個の０を詰めてＦＦＴ→パワースペクトル→逆ＦＦＴによって自己相関値Ｒ_kを算出してもよい。
【００３８】
ここで、算出したＲ_kを自己相関の０番目のピークＲ₀（パワー）で規格化し、大きい順に並べたものをｒ'(ｎ)とする。
【００３９】
ｒ'(０)はＲ₀／Ｒ₀＝１であり、
１＝ｒ'(０)＞ｒ'(１)＞ｒ'(２)・・・（かっこ内は順番を表す）
となる。
【００４０】
このフレーム内の正規化自己相関の最大値ｒ'(１)を与えるｋがピッチの候補となる。通常の有声音区間では、０．４＜ｒ'(１)＜０．９程度の範囲にはいる。
【００４１】
また、本件出願人が先に提案した特願平８−１６４３３号明細書及び図面に詳細な具体例を開示しているように、残差のＬＦＰ後の最大ピークｒ'_L(１)および残差のＨＰＦ後の最大ｒ'_H(１)から、より信頼性が高い方をｒ'(１)として選択して使用してもよい。
【００４２】
特願平８−１６４３３号明細書中で開示されている例においては、１フレーム先行したフレームのｒ'(１)を算出し、それをｒ_p[２]に代入している。ｒ_p[０]，ｒ_p[１]，ｒ_p[２]が、過去、現在、未来のフレームに対応しているので、ｒ_p[１]の値を現在のフレームの最大ピークｒ'(１)として使用できる。
【００４３】
オープンループピッチサーチ部１４１からは、上記粗ピッチデータと共にＬＰＣ残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値ｒ'(１) が取り出され、Ｖ／ＵＶ（有声音／無声音）判定及びピッチ強度情報生成部１１５に送られている。そして、この正規化自己相関最大値ｒ'(１) の大小がＬＰＣ残差信号のピッチ強度を概略表現している。
【００４４】
そこで、この自己相関最大値ｒ'(１)の大きさを適切な閾値で切り、その大きさに応じて有声音の程度（すなわちピッチ強度）をｋ種類に分類する。このｋ種類の分類を表現するビットパターンをエンコーダより出力し、デコーダ側ではそのビットパターン（フラグ）情報に基づいて、サイン波合成によって生成された有声音の励起に、可変帯域幅，可変ゲインのノイズを付加する。
【００４５】
直交変換回路１４５では、例えばＤＦＴ（離散フーリエ変換）等の直交変換処理が施されて、時間軸上のＬＰＣ残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路１４５からの出力は、高精度ピッチサーチ部１４６及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部１４８に送られる。
【００４６】
高精度（ファイン）ピッチサーチ部１４６には、オープンループピッチサーチ部１４１で抽出された比較的ラフな粗ピッチデータと、直交変換部１４５により例えばＤＦＴされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部１４６では、上記粗ピッチデータ値を中心に、0.２〜0.５きざみで±数サンプルずつ振って、最適な小数点付き（フローティング）のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部１４６からのピッチデータについては、スペクトル評価部１４８に送られると共に、スイッチ１１８を介して出力端子１０４に送られている。
【００４７】
スペクトル評価部１４８では、ＬＰＣ残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部１４６、Ｖ／ＵＶ（有声音／無声音）判定部及びピッチ強度情報生成部１１５及び聴覚重み付きのベクトル量子化器１１６に送られる。
【００４８】
Ｖ／ＵＶ（有声音／無声音）判定部及びピッチ強度情報生成部１１５では、直交変換回路１４５からの出力と、高精度ピッチサーチ部１４６からの最適ピッチと、スペクトル評価部１４８からのスペクトル振幅データと、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ'(１) と、ゼロクロスカウンタ１４２からのゼロクロスカウント値とに基づいて、当該フレームのＶ／ＵＶ判定およびピッチ強度データの生成が行われる。さらに、ＭＢＥの場合の各バンド毎のＶ／ＵＶ判定結果の境界位置を当該フレームのＶ／ＵＶ判定の一条件としてもよい。このＶ／ＵＶ判定及びピッチ強度情報生成部１１５からのＶ／ＵＶ判定結果は、スイッチ１１７、１１８の制御信号として送られており、上述した有声音（Ｖ）のとき上記インデクス及びピッチが選択されて各出力端子１０３及び１０４からそれぞれ取り出される。また、Ｖ／ＵＶ判定及びピッチ強度情報生成部１１５からのピッチ強度情報は出力端子１０５から取り出される。
【００４９】
ところで、スペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部には、データ数変換（一種のサンプリングレート変換）部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ｜Ａm｜を一定の個数にするためのものである。すなわち、例えば有効帯域を３４００ｋHzまでとすると、この有効帯域が上記ピッチに応じて、８バンド〜６３バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ｜Ａm｜の個数ｍ_MX＋１も８〜６３と変化することになる。このためデータ数変換部１１９では、この可変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４４個のデータに変換している。
【００５０】
このスペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部に設けられたデータ数変換部からの上記一定個数Ｍ個（例えば４４個）の振幅データあるいはエンベロープデータが、ベクトル量子化器１１６により、所定個数、例えば４４個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路１３９からの出力により与えられる。ベクトル量子化器１１６からの上記エンベロープのインデクスは、スイッチ１１７を介して出力端子１０３より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【００５１】
次に、第２の符号化部１２０について説明する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符号励起線形予測）符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のＣＥＬＰ符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック（stochastic code book）１２１からの代表値出力である無声音のＬＰＣ残差に相当するノイズ出力を、ゲイン回路１２６を介して、聴覚重み付きの合成フィルタ１２２に送っている。重み付きの合成フィルタ１２２では、入力されたノイズをＬＰＣ合成処理し、得られた重み付き無声音の信号を減算器１２３に送っている。減算器１２３には、上記入力端子１０１からＨＰＦ（ハイパスフィルタ）１０９を介して供給された音声信号を聴覚重み付けフィルタ１２５で聴覚重み付けした信号が入力されており、合成フィルタ１２２からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ１２５の出力から聴覚重み付き合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳１２１でサーチする。このような合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【００５２】
このＣＥＬＰ符号化構成を用いた第２の符号化部１２０からのＵＶ（無声音）部分用のデータとしては、雑音符号帳１２１からのコードブックのシェイプインデクスと、ゲイン回路１２６からのコードブックのゲインインデクスとが取り出される。雑音符号帳１２１からのＵＶデータであるシェイプインデクスは、スイッチ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン回路１２６のＵＶデータであるゲインインデクスは、スイッチ１２７ｇを介して出力端子１０７ｇに送られている。
【００５３】
ここで、これらのスイッチ１２７ｓ、１２７ｇ及び上記スイッチ１１７、１１８は、上記Ｖ／ＵＶ判定及びピッチ強度情報生成部１１５からのＶ／ＵＶ判定結果によりオン／オフ制御され、スイッチ１１７、１１８は、現在伝送しようとするフレームの音声信号のＶ／ＵＶ判定結果が有声音（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７ｇは、現在伝送しようとするフレームの音声信号が無声音（ＵＶ）のときオンとなる。
【００５４】
次に、図４は、上記図２に示した本発明に係る実施の形態としての音声復号化装置のより具体的な構成を示している。この図４において、上記図２の各部と対応する部分には、同じ指示符号を付している。
【００５５】
この図４において、入力端子２０２には、上記図１、３の出力端子１０２からの出力に相当するＬＳＰのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【００５６】
このＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３のＬＳＰの逆ベクトル量子化器２３１に送られてＬＳＰ（線スペクトル対）データに逆ベクトル量子化され、ＬＳＰ補間回路２３２、２３３に送られてＬＳＰの補間処理が施された後、ＬＳＰ→α変換回路２３４、２３５でＬＰＣ（線形予測符号）のαパラメータに変換され、このαパラメータがＬＰＣ合成フィルタ２１４に送られる。ここで、ＬＳＰ補間回路２３２及びＬＳＰ→α変換回路２３４は有声音（Ｖ）用であり、ＬＳＰ補間回路２３３及びＬＳＰ→α変換回路２３５は無声音（ＵＶ）用である。またＬＰＣ合成フィルタ２１４は、有声音部分のＬＰＣ合成フィルタ２３６と、無声音部分のＬＰＣ合成フィルタ２３７とを分離している。すなわち、有声音部分と無声音部分とでＬＰＣの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるＬＳＰ同士を補間することによる悪影響を防止している。
【００５７】
また、図４の入力端子２０３には、上記図１、図３のエンコーダ側の端子１０３からの出力に対応するスペクトルエンベロープ（Ａm）の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子２０４には、上記図１、図３の端子１０４からのピッチのデータが供給され、入力端子２０５には、上記図１、図３の端子１０５からのピッチ強度情報が供給されている。
【００５８】
入力端子２０３からのスペクトルエンベロープＡmのベクトル量子化されたインデクスデータは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部２１１のサイン波合成回路２１５に送られている。
【００５９】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【００６０】
サイン波合成回路２１５には、入力端子２０４からのピッチ及び入力端子２０５からの上記ピッチ強度情報が供給されている。サイン波合成回路２１５からは、上述した図１、図３のＬＰＣ逆フィルタ１１１からの出力に相当するＬＰＣ残差データが取り出され、これが加算器２１８に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平４−９１４２２号の明細書及び図面、あるいは特願平６−１９８４５１号の明細書及び図面に開示されている。
【００６１】
また、逆ベクトル量子化器２１２からのエンベロープのデータと、入力端子２０４、２０５からのピッチと、ピッチ強度に基づくパラメータでありＶ／ＵＶ判定結果をも含むピッチ強度情報とは、有声音（Ｖ）部分のノイズ加算のためのノイズ合成回路２１６に送られている。このノイズ合成回路２１６からの出力は、重み付き重畳加算回路２１７を介して加算器２１８に送られると共に、サイン波合成回路２１５にも送られる。これは、サイン波合成によって有声音のＬＰＣ合成フィルタへの入力となるエクサイテイション（Excitation：励起、励振）を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びＶ（有声音）とＵＶ（無声音）とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のＬＰＣ合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ，スペクトルエンベロープ振幅，フレーム内の最大振幅，残差信号のレベル等を考慮したノイズをＬＰＣ残差信号の有声音部分に加えているものである。
【００６２】
なお、ノイズ合成回路２１６から重み付き重畳加算回路２１７を介して加算器２１８に送られて上記有声音（Ｖ）部分に付加されるノイズ成分は、上記ピッチ強度情報に基づいてそのレベルが制御されるだけでなく、例えば、上記有声音部分に付加するノイズ成分の帯域幅が上記ピッチ強度情報に基づいて制御されたり、上記付加するノイズ成分のレベルと帯域幅とが上記ピッチ強度情報に基づいて制御されたり、上記付加するノイズ成分のレベルに応じて、上記合成される有声音のためにハーモニクス振幅も制御されるようにしてもよい。
【００６３】
加算器２１８からの加算出力は、ＬＰＣ合成フィルタ２１４の有声音用の合成フィルタ２３６に送られてＬＰＣの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ２３８ｖでフィルタ処理された後、加算器２３９に送られる。
【００６４】
次に、図４の入力端子２０７ｓ及び２０７ｇには、上記図３の出力端子１０７ｓ及び１０７ｇからのＵＶデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部２２０に送られている。端子２０７ｓからのシェイプインデクスは、無声音合成部２２０の雑音符号帳２２１に、端子２０７ｇからのゲインインデクスはゲイン回路２２２にそれぞれ送られている。雑音符号帳２２１から読み出された代表値出力は、無声音のＬＰＣ残差に相当するノイズ信号成分であり、これがゲイン回路２２２で所定のゲインの振幅となり、窓かけ回路２２３に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。なお、この窓かけ回路２２３には、入力端子２０５からのピッチ強度情報も送られている。
【００６５】
窓かけ回路２２３からの出力は、無声音合成部２２０からの出力として、ＬＰＣ合成フィルタ２１４のＵＶ（無声音）用の合成フィルタ２３７に送られる。合成フィルタ２３７では、ＬＰＣ合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ２３８ｕでフィルタ処理された後、加算器２３９に送られる。
【００６６】
加算器２３９では、有声音用ポストフィルタ２３８ｖからの有声音部分の時間波形信号と、無声音用ポストフィルタ２３８ｕからの無声音部分の時間波形データとが加算され、出力端子２０１より取り出される。
【００６７】
ところで、図３に示す音声符号化装置では、要求される品質に合わせ異なるビットレートの出力データを出力することができ、出力データのビットレートが可変されて出力される。
【００６８】
具体的には、出力データのビットレートを、低ビットレートと高ビットレートとに切り換えることができる。例えば、低ビットレートを２ｋbpsとし、高ビットレートを６ｋbpsとする場合には、以下の表１に示す各ビットレートのデータが出力される。
【００６９】
【表１】

【００７０】
出力端子１０４からのピッチデータについては、有声音時に、常に７bits／２０ｍsecで出力され、出力端子１０５から出力されるピッチ強度情報は、常に２bits／２０ｍsecである。出力端子１０２から出力されるＬＳＰ量子化のインデクスは、３２bits／４０ｍsecと４８bits／４０ｍsecとの間で切り換えが行われる。また、出力端子１０３から出力される有声音時（Ｖ）のインデクスは、１５bits／２０ｍsecと８７bits／２０ｍsecとの間で切り換えが行われ、出力端子１０７ｓ、１０７ｇから出力される無声音時（ＵＶ）のインデクスは、１１bits／１０ｍsecと２３bits／５ｍsecとの間で切り換えが行われる。これにより、有声音時（Ｖ）の出力データは、２ｋbpsでは４０bits／２０ｍsecとなり、６ｋbpsでは１２０bits／２０ｍsecとなる。また、無声音時（ＵＶ）の出力データは、２ｋbpsでは３９bits／２０ｍsecとなり、６ｋbpsでは１１７bits／２０ｍsecとなる。
【００７１】
尚、上記ＬＳＰ量子化のインデクス、有声音時（Ｖ）のインデクス、及び無声音時（ＵＶ）のインデクスについては、後述する各部の構成と共に説明する。
【００７２】
次に、図３の音声符号化装置において、Ｖ／ＵＶ（有声音／無声音）判定部及びピッチ強度情報生成部１１５の具体例について説明する。
【００７３】
このＶ／ＵＶ判定及びピッチ強度情報生成部１１５においては、直交変換回路１４５からの出力と、高精度ピッチサーチ部１４６からの最適ピッチと、スペクトル評価部１４８からのスペクトル振幅データと、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ(p) と、ゼロクロスカウンタ４１２からのゼロクロスカウント値とに基づいて、当該フレームのＶ／ＵＶ判定およびピッチ強度情報probＶの生成が行われる。さらに、ＭＢＥの場合と同様な各バンド毎のＶ／ＵＶ判定結果の境界位置も当該フレームのＶ／ＵＶ判定の一条件としている。
【００７４】
このＭＢＥの場合の各バンド毎のＶ／ＵＶ判定結果を用いたＶ／ＵＶ判定条件について以下に説明する。
【００７５】
ＭＢＥの場合の第ｍ番目のハーモニックスの大きさを表すパラメータあるいは振幅｜Ａm｜は、
【００７６】
【数３】

【００７７】
により表せる。この式において、｜Ｓ(j)｜はＬＰＣ残差をＤＦＴしたスペクトルであり、｜Ｅ(j)｜は基底信号のスペクトル、具体的には２５６ポイントのハミング窓をＤＦＴしたものである。また、各バンド毎のＶ／ＵＶ判定のために、ＮＳＲ（ノイズtoシグナル比）を利用する。この第ｍバンドのＮＳＲは、
【００７８】
【数４】

【００７９】
と表せ、このＮＳＲ値が所定の閾値（例えば0.3 ）より大のとき（エラーが大きい）ときには、そのバンドでの｜Ａm ｜｜Ｅ(j) ｜による｜Ｓ(j) ｜の近似が良くない（上記励起信号｜Ｅ(j) ｜が基底として不適当である）と判断でき、当該バンドをＵＶ（Unvoiced、無声音）と判別する。これ以外のときは、近似がある程度良好に行われていると判断でき、そのバンドをＶ（Voiced、有声音）と判別する。
【００８０】
ここで、上記各バンド（ハーモニクス）のＮＳＲは、各ハーモニクス毎のスペクトル類似度をあらわしている。ＮＳＲのハーモニクスのゲインによる重み付け和をとったものをＮＳＲ_all として次のように定義する。
【００８１】
ＮＳＲ_all ＝（Σ_m ｜Ａm ｜ＮＳＲ_m ）／（Σ_m ｜Ａm ｜）
このスペクトル類似度ＮＳＲ_all がある閾値より大きいか小さいかにより、Ｖ／ＵＶ判定に用いるルールベースを決定する。ここでは、この閾値をＴｈ_NSR ＝0.3 としておく。このルールベースは、フレームパワー、ゼロクロス、ＬＰＣ残差の自己相関の最大値に関するものであり、ＮＳＲ_all ＜Ｔｈ_NSR のときに用いられるルールベースでは、ルールが適用されるとＶとなり適用されるルールがなかった場合はＵＶとなる。
【００８２】
また、ＮＳＲ_all ≧Ｔｈ_NSR のときに用いられるルールベースでは、ルールが適用されるとＵＶ、適用されないとＶとなる。
【００８３】
ここで、具体的なルールは、次のようなものである。
ＮＳＲ_all ＜Ｔｈ_NSR のとき、
if numZeroＸＰ＜２４，& frmPow＞３４０，& ｒ'(１)＞0.32 then Ｖ
ＮＳＲ_all ≧Ｔｈ_NSR のとき、
if numZeroＸＰ＞３０，& frmPow＜９００，& ｒ'(１)＜0.23 then ＵＶ
ただし、上記各変数は次のように定義される。
numZeroＸＰ：１フレーム当たりのゼロクロス回数
frmPow ：フレームパワー
ｒ'(１) ：自己相関最大値
上記のようなルールの集合であるルールに照合することで、Ｖ／ＵＶを判定する。
【００８４】
次に、上述したＶ／ＵＶ判定及びピッチ強度情報生成部１１５において、音声信号中の有声音（Ｖ）のピッチ強度を表すパラメータであるピッチ強度情報probＶを生成する手順を説明する。表２は、Ｖ／ＵＶ判定結果と、自己相関を求める際にサンプルをずらす量をｋとし、求められた自己相関値Ｒkを０番目のピークＲ0（パワー）で規格化して大きい順に並べたｒ'(ｎ)のフレーム内の最大値ｒ'(１)を適切な閾値で切り、その大きさに応じて有声音の程度（すなわちピッチ強度）をｋ種類に分類するための２種類の閾値ＴＨ１およびＴＨ２とに基づいてprobＶの値が設定される条件を示している。
【００８５】
【表２】

【００８６】
すなわち、Ｖ／ＵＶ判定結果が完全に無声音（ＵＶ：unvoiced）であることを示すときには、有声音部分のピッチ強度を表すピッチ強度情報probＶの値は０となる。そして、このときは、前述した有声音部分（Ｖ）へのノイズ付加は行われず、ＣＥＬＰ符号化のみによる歯切れのよい、よりクリアな子音を生成する。
【００８７】
また、Ｖ／ＵＶ判定結果がｒ'(１)＜ＴＨ１を満足するとき（Mixed Voiced-0）には、ピッチ強度情報probＶの値が１となる。そして、このprobＶの値に応じて有声音部（Ｖ）へのノイズ付加が行われる。
【００８８】
Ｖ／ＵＶ判定結果がＴＨ１≦ｒ'(１)＜ＴＨ２を満足するとき（Mixed Voiced-1）には、ピッチ強度情報probＶの値が２となる。そして、このprobＶの値に応じて有声音部分（Ｖ）へのノイズ付加が行われる。
【００８９】
そして、Ｖ／ＵＶ判定結果が完全に有声音（Ｖ）（Full voiced無声音）であるときには、probＶの値は３となる。
【００９０】
このように、ピッチ強度を表すパラメータであるピッチ強度情報probＶを２bitsで符号化することにより、従来のＶ／ＵＶ判断結果に加えて、さらに有声音時にその有声音の強さを３段階に表現することができる。なお、従来Ｖ／ＵＶ判定結果は１bitで表現されていたが、本発明では、表１に示したようにピッチデータを８bitsから７bitsに減らし、余った１bitを用いて２bitsのprobＶを表現している。なお、上記２種類の閾値ＴＨ１およびＴＨ２の具体的な値は、例えばＴＨ１＝０．５５，ＴＨ２＝０．７などである。
【００９１】
次に、上記ピッチ強度を表すパラメータであるピッチ強度情報probＶを生成する手順を図５のフローチャートを参照しながら説明する。ここでは、２種類の閾値ＴＨ１，ＴＨ２が設定され、音声信号の現在のフレームのＶ／ＵＶはすでに判定済みであるものとする。
【００９２】
まず、ステップＳ１において入力音声信号に対して前述した方法でＶ／ＵＶ判定が行われる。ステップＳ１の判定結果がＵＶである場合には、ステップＳ２において有声音（Ｖ）のピッチ強度情報probＶが０とされて出力される。一方、ステップＳ１の判定結果がＶである場合には、ステップＳ３において、ｒ'(１)＜ＴＨ１の判定が行われる。
【００９３】
ステップＳ３の判定結果がＹｅｓである場合には、ステップＳ４において有声音（Ｖ）のピッチ強度情報probＶが１とされて出力される。一方、ステップＳ３の判定結果がＮｏである場合には、ステップＳ５において、ｒ'(１)＜ＴＨ２の判定が行われる。
【００９４】
ステップＳ５の判定結果がＹｅｓである場合には、ステップＳ６において有声音（Ｖ）のピッチ強度情報probＶが２とされて出力される。一方、ステップＳ５の判定結果がＮｏである場合には、ステップＳ７において有声音（Ｖ）のピッチ強度情報probＶが３とされて出力される。
【００９５】
次に図４に具体的な構成例を示した音声復号化装置において、符号化音声信号が復号される様子を説明する。このときの出力データのビットレートは、表１に示す通りであるとする。そして、基本的には従来のＭＢＥの無声音の合成と同様の方法でノイズ合成が行われる。
【００９６】
ここで、図４の音声復号化装置の要部のより具体的な構成及び動作について説明する。
【００９７】
ＬＰＣ合成フィルタ２１４は、上述したように、Ｖ（有声音）用の合成フィルタ２３６と、ＵＶ（無声音）用の合成フィルタ２３７とに分離されている。すなわち、合成フィルタを分離せずにＶ／ＵＶの区別なしに連続的にＬＳＰの補間を２０サンプルすなわち２．５ｍsec 毎に行う場合には、Ｖ→ＵＶ、ＵＶ→Ｖの遷移（トランジェント）部において、全く性質の異なるＬＳＰ同士を補間することになり、Ｖの残差にＵＶのＬＰＣが、ＵＶの残差にＶのＬＰＣが用いられることにより異音が発生するが、このような悪影響を防止するために、ＬＰＣ合成フィルタをＶ用とＵＶ用とで分離し、ＬＰＣの係数補間をＶとＵＶとで独立に行わせたものである。
【００９８】
この場合の、ＬＰＣ合成フィルタ２３６、２３７の係数補間方法について説明する。これは、次の表３に示すように、Ｖ／ＵＶの状態に応じてＬＳＰの補間を切り換えている。
【００９９】
【表３】

【０１００】
この表３において、均等間隔ＬＳＰとは、例えば１０次のＬＰＣ分析の例で述べると、フィルタの特性がフラットでゲインが１のときのαパラメータ、すなわち α₀＝１，α₁＝α₂＝・・・＝α₁₀＝０に対応するＬＳＰであり、
ＬＳＰ_i ＝（π／１１）×ｉ０≦ｉ≦１０
である。
【０１０１】
このような１０次のＬＰＣ分析、すなわち１０次のＬＳＰの場合は、図６に示す通り、０〜πの間を１１等分した位置に均等間隔で配置されたＬＳＰで、完全にフラットなスペクトルに対応している。合成フィルタの全帯域ゲインはこのときが最小のスルー特性となる。
【０１０２】
図７は、ゲイン変化の様子を概略的に示す図であり、ＵＶ（無声音）部分からＶ（有声音）部分への遷移時における１／Ｈ_UV(z) のゲイン及び１／Ｈ_V(z)のゲインの変化の様子を示している。ここで、１／Ｈ(z)は、量子化されたαパラメータから生成されるＬＰＣ合成フィルタ関数である。
【０１０３】
ここで、補間を行う単位は、フレーム間隔が１６０サンプル（２０ｍsec ）のとき、１／Ｈ_V(z)の係数は２．５ｍsec （２０サンプル）毎、また１／Ｈ_UV(z) の係数は、ビットレートが２ｋbps で１０ｍsec （８０サンプル）、６ｋbps で５ｍsec （４０サンプル）毎である。なお、ＵＶ時はエンコード側の第２の符号化部１２０で合成による分析法を用いた波形マッチングを行っているので、必ずしも均等間隔ＬＳＰと補間せずとも、隣接するＶ部分のＬＳＰとの補間を行ってもよい。ここで、第２の符号化部１２０におけるＵＶ部の符号化処理においては、Ｖ→ＵＶへの遷移部で１／Ａ(z) の重み付き合成フィルタ１２２の内部状態をクリアすることによりゼロインプットレスポンスを０にする。
【０１０４】
これらのＬＰＣ合成フィルタ２３６、２３７からの出力は、それぞれ独立に設けられたポストフィルタ２３８ｖ、２３８ｕに送られており、ポストフィルタもＶとＵＶとで独立にかけることにより、ポストフィルタの強度、周波数特性をＶとＵＶとで異なる値に設定している。
【０１０５】
次に、ＬＰＣ残差信号、すなわちＬＰＣ合成フィルタ入力であるエクサイテイションの、Ｖ部とＵＶ部のつなぎ部分の窓かけについて説明する。これは、図４の有声音合成部２１１のサイン波合成回路２１５と、無声音合成部２２０の窓かけ回路２２３とによりそれぞれ行われるものである。なお、エクサイテイションのＶ部の合成方法については、本件出願人が先に提案した特願平４−９１４２２号の明細書及び図面に具体的な説明が、また、Ｖ部の高速合成方法については、本件出願人が先に提案した特願平６−１９８４５１号の明細書及び図面に具体的な説明が、それぞれ開示されている。今回の具体例では、この高速合成方法を用いてＶ部のエクサイテイションを生成している。
【０１０６】
Ｖ（有声音）部分では、隣接するフレームのスペクトルを用いてスペクトルを補間してサイン波合成するため、図８に示すように、第ｎフレームと第ｎ＋１フレームとの間にかかる全ての波形を作ることができる。しかし、図８の第ｎ＋１フレームと第ｎ＋２フレームとのように、ＶとＵＶ（無声音）に跨る部分、あるいはその逆の部分では、ＵＶ部分は、フレーム中に±８０サンプル（全１６０サンプル＝１フレーム間隔）のデータのみをエンコード及びデコードしている。
【０１０７】
このため、図９に示すように、Ｖ側ではフレームとフレームとの間の中心点ＣＮを越えて窓かけを行い、ＵＶ側では中心点ＣＮ移行の窓かけを行って、接続部分をオーバーラップさせている。ＵＶ→Ｖの遷移（トランジェント）部分では、その逆を行っている。なお、Ｖ側の窓かけは破線のようにしてもよい。
【０１０８】
次に、Ｖ（有声音）部分でのノイズ合成及びノイズ加算について説明する。これは、図４のノイズ合成回路２１６、重み付き重畳回路２１７、及び加算器２１８を用いて、有声音部分のＬＰＣ合成フィルタ入力となるエクサイテイションについて、次のパラメータを考慮したノイズをＬＰＣ残差信号の有声音部分に加えることにより行われる。
【０１０９】
すなわち、上記パラメータとしては、ピッチラグＰch、有声音のスペクトル振幅Ａm[i]、フレーム内の最大スペクトル振幅Ａ_max 、及び残差信号のレベルＬevを挙げることができる。ここで、ピッチラグＰchは、所定のサンプリング周波数ｆ_s （例えばｆs＝８kHz）でのピッチ周期内のサンプル数であり、スペクトル振幅Ａm[i]のｉは、ｆ_s／２の帯域内でのハーモニックスの本数をＩ＝Ｐch／２とするとき、０＜ｉ＜Ｉの範囲内の整数である。
【０１１０】
以下では、ハーモニクスの振幅Ａm[i]とピッチ強度情報probＶとに基づいて、有声音合成の際にノイズ付加処理を行う場合について説明する。
【０１１１】
図１０は、図４に示すノイズ合成回路２１６の基本構成を、図１１は、図１０に示すノイズ振幅・ハーモニクス振幅制御回路４１０の基本構成をそれぞれ示している。
【０１１２】
まず、図１０において、ノイズ振幅・ハーモニクス振幅制御回路４１０には、入力端子４１１からハーモニクスの振幅Ａm[i]が、入力端子４１２からピッチ強度情報probＶがそれぞれ入力される。そして、ノイズ振幅・ハーモニクス振幅制御回路４１０からは、上記ハーモニクスの振幅Ａm[i]をスケールダウンしたＡm_h[i]とＡm_noise[i]とが出力される。なお、Ａm_h[i]およびＡm_noise[i]については後述する。そして、上記のＡm_h[i]は有声音合成部２１１に送られ、Ａm_noise[i]は乗算器４０３に送られる。一方、ホワイトノイズ発生部４０１からは、時間軸上のホワイトノイズ信号波形に所定の長さ（例えば２５６サンプル）で適当な窓関数（例えばハミング窓）により窓かけされたガウシャンノイズが出力され、これがＳＴＦＴ処理部４０２によりＳＴＦＴ（ショートタームフーリエ変換）処理を施すことにより、ノイズの周波数軸上のパワースペクトルを得る。このＳＴＦＴ処理部４０２からのパワースペクトルを振幅処理のための乗算器４０３に送り、ノイズ振幅制御回路４１０からの出力を乗算している。乗算器４０３からの出力は、ＩＳＴＦＴ処理部４０４に送られ、位相は元のホワイトノイズの位相を用いて逆ＳＴＦＴ処理を施すことにより時間軸上の信号に変換する。ＩＳＴＦＴ処理部４０４からの出力は、重み付き重畳加算回路２１７に送られる。
【０１１３】
なお、上記図１０の例においては、ホワイトノイズ発生部４０１から時間領域のノイズを発生してそれをＳＴＦＴ等の直交変換を行うことで周波数領域のノイズを得ていたが、ノイズ発生部から直接的に周波数領域のノイズを発生するようにしてもよい。すなわち、周波数領域のパラメータを直接発生することにより、ＳＴＦＴやＦＦＴ等の直交変換処理が節約できる。
【０１１４】
具体的には、±ｘの範囲の乱数を発生しそれをＦＦＴスペクトルの実部と虚部として扱うようにする方法や、０から最大値（ｍａｘ）までの範囲の正の乱数を発生しそれをＦＦＴスペクトルの振幅として扱い、−πからπまでの乱数を発生しそれをＦＦＴスペクトルの位相として扱う方法などが挙げられる。
【０１１５】
こうすることにより、図１０のＳＴＦＴ処理部４０２が不要となり、構成の簡略化あるいは演算量の低減が図れる。
【０１１６】
また、図１０のホワイトノイズ発生＋ＳＴＦＴ部分は、別法として乱数を発生させ、それをホワイトノイズのスペクトルの実部，虚部または振幅，位相と見なして処理を行うこともできる。このようにすると、図１０のＳＴＦＴが省略でき、演算量が減らせる。
【０１１７】
このノイズ合成のために、ノイズの振幅情報Ａm_noise[i]が必要があるが、それは伝送されていないので有声音のハーモニクスの振幅情報Ａm[i]から生成する。また、上記ノイズ合成を行う際に、振幅情報Ａm[i]からＡm_noise[i]を生成すると同時に、ノイズの振幅情報Ａm_noise[i]に基づいてノイズを加える有声音部分の振幅情報Ａm[i]をスケールダウンしたＡm_h[i]を生成する。そして、ハーモニック合成（サイン波合成）には、Ａm[i]のかわりにＡm_h[i]を使用する。
【０１１８】
以下に、上述したＡm_noise[i]およびＡm_h[i]を生成する手順を示す。
【０１１９】
現在のピッチにおける４０００Ｈｚまでのハーモニクスの本数をsendとすると
【０１２０】
【数５】

【０１２１】
である。また、ＡＮ１,ＡＮ２，ＡＮ３，ＡＨ１，ＡＨ２，ＡＨ３，Ｂは定数（乗算係数）であり、ＴＨ１，ＴＨ２，ＴＨ３は閾値である。
【０１２２】
そして、ノイズ振幅制御回路４１０は、例えば図１１のような基本構成を有し、上記図４のスペクトルエンベロープの逆量子化器２１２から端子４１１を介して与えられるＶ（有声音）についての上記スペクトル振幅Ａm[i]と、上記図４の入力端子２０５から入力端子４１２を介して与えられる上記ピッチ強度情報probＶに基づいて、乗算器４０３での乗算係数となるノイズ振幅Ａm_noise[i]を求めている。このＡm_noise[i]によって、合成されるノイズ振幅が制御されることになる。すなわち図１１において、ピッチ強度情報probＶは、最適なＡＮ，Ｂ＿ＴＨ値の算出回路４１５および最適なＡＨ，Ｂ＿ＴＨ値の算出回路４１６とに入力される。最適なＡＮ，Ｂ＿ＴＨ値の算出回路４１５からの出力はノイズの重み付け回路４１７で重み付けし、得られた出力を乗算器４１９に送って、入力端子４１１から入力されたスペクトル振幅Ａm[i]と乗算することによりノイズ振幅Ａm_noise[i]を得ている。一方、最適なＡＨ，Ｂ＿ＴＨ値の算出回路４１６からの出力はハーモニクスの重み付け回路４１８で重み付けし、得られた出力を乗算器４２０に送って入力端子４１１から入力されたスペクトル振幅Ａm[i]と乗算することによりスケールダウンしたハーモニクス振幅Ａm_h[i]を得ている。
【０１２３】
具体的には以下のように、Ａm[i]およびprobＶからＡm_h[i]，Ａm_noise[i]（いずれも０≦ｉ≦send）を決定する。
【０１２４】
probＶ＝０のとき、すなわち無声音（ＵＶ）時にはＡm[i]情報が存在せず、ＣＥＬＰ符号化のみを行う。
【０１２５】
probＶ＝１のとき（Mixed Voiced-0）
Ａm_noise[i]は
Ａm_noise[i]＝０（０≦ｉ＜send×Ｂ＿ＴＨ１）
Ａm_noise[i]＝ＡＮ１×Ａm[i] （send×Ｂ＿ＴＨ１≦ｉ≦send）
Ａm_h[i]は
Ａm_h[i]＝Ａm[i] （０≦ｉ＜send×Ｂ＿ＴＨ１）
Ａm_h[i]＝ＡＨ１×Ａm[i] （send×Ｂ＿ＴＨ１≦ｉ≦send）
probＶ＝２のとき（Mixed Voiced-1）
Ａm_noise[i]は
Ａm_noise[i]＝０（０≦ｉ＜send×Ｂ＿ＴＨ２）
Ａm_noise[i]＝ＡＮ２×Ａm[i] （send×Ｂ＿ＴＨ２≦ｉ≦send）
Ａm_h[i]は
Ａm_h[i]＝Ａm[i] （０≦ｉ＜send×Ｂ＿ＴＨ２）
Ａm_h[i]＝ＡＨ２×Ａm[i] （send×Ｂ＿ＴＨ２≦ｉ≦send）
probＶ＝３のとき（Full Voiced）
Ａm_noise[i]は
Ａm_noise[i]＝０（０≦ｉ＜send×Ｂ＿ＴＨ３）
Ａm_noise[i]＝ＡＮ３×Ａm[i] （send×Ｂ＿ＴＨ３≦ｉ≦send）
Ａm_h[i]は
Ａm_h[i]＝Ａm[i] （０≦ｉ＜send×Ｂ＿ＴＨ３）
Ａm_h[i]＝ＡＨ３×Ａm[i] （send×Ｂ＿ＴＨ３≦ｉ≦send）
ここで、ノイズ合成加算の第１の具体例として、有声音部分に加えるノイズの帯域は一定、レベル（係数）を可変とする場合について説明する。このような場合の具体例は、
probＶ＝１Ｂ＿ＴＨ１＝０．５
ＡＮ１＝０．５
ＡＨ１＝０．６
probＶ＝２Ｂ＿ＴＨ２＝０．５
ＡＮ２＝０．３
ＡＨ２＝０．８
probＶ＝３Ｂ＿ＴＨ３＝０．７
ＡＮ３＝０．２
ＡＨ３＝１．０
とすることが挙げられる。
【０１２６】
次に、ノイズ合成加算の第２の具体例として、有声音部分に加えるノイズのレベル（係数）は一定、帯域を可変とする場合について説明する。このような場合の具体例は、
probＶ＝１Ｂ＿ＴＨ１＝０．６
ＡＮ１＝０．５
ＡＨ１＝０．２
probＶ＝２Ｂ＿ＴＨ２＝０．８
ＡＮ２＝０．５
ＡＨ２＝０．２
probＶ＝３Ｂ＿ＴＨ３＝１．０
ＡＮ３＝０．５（Don't care）
ＡＨ３＝０（Don't care）
を挙げることができる。
【０１２７】
次に、ノイズ合成加算の第３の具体例として、有声音部分に加えるノイズのレベル（係数）も帯域も可変とする場合について説明する。このような場合の具体例は、
probＶ＝１Ｂ＿ＴＨ１＝０．５
ＡＮ１＝０．５
ＡＨ１＝０．６
probＶ＝２Ｂ＿ＴＨ２＝０．７
ＡＮ２＝０．４
ＡＨ２＝０．８
probＶ＝３Ｂ＿ＴＨ３＝１．０
ＡＮ３＝ × （Don't care）
ＡＨ３＝ × （Don't care）
を挙げることができる。
【０１２８】
このようにして有声音部分にノイズを加算することで、より自然な有声音を得ることができる。
【０１２９】
次に、ポストフィルタ２３８ｖ、２３８ｕについて説明する。
【０１３０】
図１２は、図４の例のポストフィルタ２３８ｖ、２３８ｕとして用いられるポストフィルタを示しており、ポストフィルタの要部となるスペクトル整形フィルタ４４０は、ホルマント強調フィルタ４４１と高域強調フィルタ４４２とから成っている。このスペクトル整形フィルタ４４０からの出力は、スペクトル整形によるゲイン変化を補正するためのゲイン調整回路４４３に送られており、このゲイン調整回路４４３のゲインＧは、ゲイン制御回路４４５により、スペクトル整形フィルタ４４０の入力ｘと出力ｙと比較してゲイン変化を計算し、補正値を算出することで決定される。
【０１３１】
スペクトル整形フィルタの４４０特性ＰＦ(z) は、ＬＰＣ合成フィルタの分母Ｈv(z)、Ｈuv(z) の係数、いわゆるαパラメータをα_iとすると、
【０１３２】
【数６】

【０１３３】
と表せる。この式の分数部分がホルマント強調フィルタ特性を、（１−ｋｚ^-1）の部分が高域強調フィルタ特性をそれぞれ表す。また、β、γ、ｋは定数であり、一例としてβ＝０．６、γ＝０．８、ｋ＝０．３を挙げることができる。
【０１３４】
また、ゲイン調整回路４４３のゲインＧは、
【０１３５】
【数７】

【０１３６】
としている。この式中のｘ(i) はスペクトル整形フィルタ４４０の入力、ｙ(i) はスペクトル整形フィルタ４４０の出力である。
【０１３７】
ここで、上記スペクトル整形フィルタ４４０の係数の更新周期は、図１３に示すように、ＬＰＣ合成フィルタの係数であるαパラメータの更新周期と同じく２０サンプル、２．５ｍsec であるのに対して、ゲイン調整回路４４３のゲインＧの更新周期は、１６０サンプル、２０ｍsec である。
【０１３８】
このように、ポストフィルタのスペクトル整形フィルタ４４０の係数の更新周期に比較して、ゲイン調整回路４４３のゲインＧの更新周期を長くとることにより、ゲイン調整の変動による悪影響を防止している。
【０１３９】
すなわち、一般のポストフィルタにおいては、スペクトル整形フィルタの係数の更新周期とゲインの更新周期とを同じにしており、このとき、ゲインの更新周期を２０サンプル、２．５ｍsec とすると、図１３からも明らかなように、１ピッチ周期の中で変動することになり、クリックノイズを生じる原因となる。そこで本例においては、ゲインの切換周期をより長く、例えば１フレーム分の１６０サンプル、２０ｍsec とすることにより、急激なゲインの変動を防止することができる。また逆に、スペクトル整形フィルタの係数の更新周期を１６０サンプル、２０ｍsec とするときには、円滑なフィルタ特性の変化が得られず、合成波形に悪影響が生じるが、このフィルタ係数の更新周期を２０サンプル、２．５ｍsec と短くすることにより、効果的なポストフィルタ処理が可能となる。
【０１４０】
なお、隣接するフレーム間でのゲインのつなぎ処理は、図１４に示すように、前フレームのフィルタ係数及びゲインと、現フレームのフィルタ係数及びゲインとを用いて算出した結果に、次のような三角窓
Ｗ(i) ＝ｉ／２０（０≦ｉ≦２０）
と
１−Ｗ(i) （０≦ｉ≦２０）
をかけてフェードイン、フェードアウトを行って加算する。図１４では、前フレームのゲインＧ₁が現フレームのゲインＧ₂に変化する様子を示している。すなわち、オーバーラップ部分では、前フレームのゲイン、フィルタ係数を使用する割合が徐々に減衰し、現フレームのゲイン、フィルタ係数の使用が徐々に増大する。なお、図１４の時刻Ｔにおけるフィルタの内部状態は、現フレームのフィルタ、前フレームのフィルタ共に同じもの、すなわち前フレームの最終状態からスタートする。
【０１４１】
以上説明したような信号符号化装置及び信号復号化装置は、例えば図１５及び図１６に示すような携帯通信端末あるいは携帯電話機等に使用される音声コーデックとして用いることができる。
【０１４２】
すなわち、図１５は、上記図１、図３に示したような構成を有する音声符号化部１６０を用いて成る携帯端末の送信側構成を示している。この図１５のマイクロホン１６１で集音された音声信号は、アンプ１６２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器１６３でディジタル信号に変換されて、音声符号化部１６０に送られる。この音声符号化部１６０は、上述した図１、図３に示すような構成を有しており、この入力端子１０１に上記Ａ／Ｄ変換器１６３からのディジタル信号が入力される。音声符号化部１６０では、上記図１、図３と共に説明したような符号化処理が行われ、図１、図２の各出力端子からの出力信号は、音声符号化部１６０の出力信号として、伝送路符号化部１６４に送られる。伝送路符号化部１６４では、いわゆるチャネルコーディング処理が施され、その出力信号が変調回路１６５に送られて変調され、Ｄ／Ａ（ディジタル／アナログ）変換器１６６、ＲＦアンプ１６７を介して、アンテナ１６８に送られる。
【０１４３】
また、図１６は、上記図２、図４に示したような構成を有する音声復号化部２６０を用いて成る携帯端末の受信側構成を示している。この図１６のアンテナ２６１で受信された音声信号は、ＲＦアンプ２６２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器２６３を介して、復調回路２６４に送られ、復調信号が伝送路復号化部２６５に送られる。２６４からの出力信号は、上記図２、図４に示すような構成を有する音声復号化部２６０に送られる。音声復号化部２６０では、上記図２、図４と共に説明したような復号化処理が施され、図２、図４の出力端子２０１からの出力信号が、音声復号化部２６０からの信号としてＤ／Ａ（ディジタル／アナログ）変換器２６６に送られる。このＤ／Ａ変換器２６６からのアナログ音声信号がスピーカ２６８に送られる。
【０１４４】
なお、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図１、図３の音声分析側（エンコード側）の構成や、図２、図４の音声合成側（デコード側）の構成については、各部をハードウェア的に記載しているが、いわゆるＤＳＰ（ディジタル信号プロセッサ）等を用いてソフトウェアプログラムにより実現することも可能である。また、デコーダ側の合成フィルタ２３６、２３７や、ポストフィルタ２３８ｖ、２３８ｕは、図４のように有声音用と無声音用とで分離しなくとも、有声音及び無声音の共用のＬＰＣ合成フィルタやポストフィルタを用いるようにしてもよい。さらに、本発明の適用範囲は、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【０１４５】
【発明の効果】
以上説明したように、本発明の音声符号化方法、音声復号化方法および装置によれば、エンコーダ側で入力音声信号のピッチ強度を検出し、そのピッチ強度に応じたピッチ強度情報をデコーダ側に送信し、デコーダ側ではそのピッチ強度情報に応じてノイズ付加の程度加減を可変とすることにより、有声音部分の再生音声が鼻づまり感のある、いわゆるバジーな音声にならず、自然な再生音声を得ることができる。
【図面の簡単な説明】
【図１】本発明に係る音声符号化方法の実施の形態が適用される音声符号化装置の基本構成を示すブロック図である。
【図２】本発明に係る音声復号化方法の実施の形態が適用される音声復号化装置の基本構成を示すブロック図である。
【図３】本発明の実施の形態となる音声符号化装置のより具体的な構成を示すブロック図である。
【図４】本発明の実施の形態となる音声復号化装置のより具体的な構成を示すブロック図である。
【図５】ピッチ強度情報probＶを生成する手順を示すフローチャートである。
【図６】１０次のＬＰＣ分析により得られたαパラメータに基づく１０次のＬＳＰ（線スペクトル対）を示す図である。
【図７】ＵＶ（無声音）フレームからＶ（有声音）フレームへのゲイン変化の様子を説明するための図である。
【図８】フレーム毎に合成されるスペクトルや波形の補間処理を説明するための図である。
【図９】Ｖ（有声音）フレームとＵＶ（無声音）フレームとの接続部でのオーバーラップを説明するための図である。
【図１０】有声音合成の際のノイズ加算処理を説明するための図である。
【図１１】有声音合成の際に加算されるノイズの振幅計算の例を示す図である。
【図１２】ポストフィルタの構成例を示す図である。
【図１３】ポストフィルタのフィルタ係数更新周期とゲイン更新周期とを説明するための図である。
【図１４】ポストフィルタのゲイン、フィルタ係数のフレーム境界部分でのつなぎ処理を説明するための図である。
【図１５】本発明の実施の形態となる音声信号符号化装置が用いられる携帯端末の送信側構成を示すブロック図である。
【図１６】本発明の実施の形態となる音声信号復号化装置が用いられる携帯端末の受信側構成を示すブロック図である。
【符号の説明】
１１０第１の符号化部、１１１ＬＰＣ逆フィルタ、１１３ＬＰＣ分析・量子化部、１１４サイン波分析符号化部、１１５Ｖ／ＵＶ判定及びピッチ強度情報生成部、１２０第２の符号化部、１２１雑音符号帳、１２２重み付き合成フィルタ、１２３減算器、１２４距離計算回路、１２５聴覚重み付けフィルタ

Claims

入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化方法であって、
入力音声信号の有声音部分の全帯域におけるピッチ強度に基づくパラメータであるピッチ強度情報に基づいてノイズ成分をサイン波合成波形の高域側に付加する工程を有し、
上記サイン波合成波形に付加するノイズ成分のレベルおよび帯域幅は、上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御されること
を特徴とする音声復号化方法。
上記サイン波合成波形に付加するノイズ成分のレベルに応じて、上記サイン波合成される有声音のためにハーモニクス振幅も制御されることを特徴とする請求項１記載の音声復号化方法。
上記符号化音声信号の無声音部分に対して符号励起線形予測復号化方法による音声復号化が施されることを特徴とする請求項１記載の音声復号化方法。
上記符号化音声信号の有声音と判断された部分に対して上記サイン波合成復号化を行い、
上記入力音声信号の無声音と判断された部分に対して符号励起線形予測復号化を行うこと
を特徴とする請求項１記載の音声復号化方法。
入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化装置であって、
サイン波合成波形の高域側に付加するノイズ成分のレベルと帯域幅を上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御する手段と、
有声音／無声音判定結果に基づいて上記入力音声信号の有声音と判断された部分に対して上記サイン波合成復号化を行う手段と、
上記入力音声信号の無声音と判断された部分に対して符号励起線形予測復号化を行う手段と
を有することを特徴とする音声復号化装置。