JP4040126B2 - 音声復号化方法および装置 - Google Patents
音声復号化方法および装置 Download PDFInfo
- Publication number
- JP4040126B2 JP4040126B2 JP25066396A JP25066396A JP4040126B2 JP 4040126 B2 JP4040126 B2 JP 4040126B2 JP 25066396 A JP25066396 A JP 25066396A JP 25066396 A JP25066396 A JP 25066396A JP 4040126 B2 JP4040126 B2 JP 4040126B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- pitch
- voiced
- noise
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 88
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 88
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims description 22
- 239000002131 composite material Substances 0.000 claims description 4
- 230000002269 spontaneous effect Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 119
- 238000001228 spectrum Methods 0.000 description 58
- 239000013598 vector Substances 0.000 description 36
- 238000013139 quantization Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 15
- 230000005284 excitation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000007493 shaping process Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000001308 synthesis method Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、入力音声信号を時間軸上で所定の符号化単位で区分し、その区分された符号化単位に符号化処理を施して得られた符号化音声信号を復号化する音声復号化方法および装置に関する。
【0002】
【従来の技術】
音声信号や音響信号を含むオーディオ信号の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行う符号化方法が種々知られている。このような符号化方法は、時間領域での符号化、周波数領域での符号化、分析合成符号化等に大別される。
【0003】
音声信号等の高能率符号化の例として、ハーモニック(Harmonic)符号化、MBE(Multiband Excitation: マルチバンド励起)符号化等のサイン波分析符号化や、SBC(Sub-band Coding:帯域分割符号化)、LPC(Linear Predictive Coding: 線形予測符号化)、あるいはDCT(離散コサイン変換)、MDCT(モデファイドDCT)、FFT(高速フーリエ変換)等が知られている。
【0004】
【発明が解決しようとする課題】
ところで、従来の、例えばLPC残差に対するハーモニック符号化では、音声信号のV/UV判定がVであるかUVであるかの択一的な判定であったため、有声音部分では再生音声が鼻づまり感のある声(いわゆるバジーな声)になりがちであった。
【0005】
また、それを防ぐために、デコーダ側で、有声音部分にノイズを付加して再生音声を出力することが行われていた。しかし、この方法では、ノイズを加えすぎると再生音声がノイジーになり、ノイズが少なすぎると再生音声がバジーになってしまうため、ノイズ付加の程度加減がむずかしかった。
【0006】
本発明は、このような実情に鑑みてなされたものであり、エンコーダ側で入力音声信号のピッチ強度を検出し、その検出されたピッチ強度に応じたピッチ強度情報を生成してデコーダ側に送信し、デコーダ側ではその送信されたピッチ強度情報に応じて上記のノイズ付加の程度を可変することにより、自然な再生有声音声を得ることができる音声復号化方法および装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上述の課題を解決するために、本発明に係る音声復号化方法は、入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化方法であって、入力音声信号の有声音部分の全帯域におけるピッチ強度に基づくパラメータであるピッチ強度情報に基づいてノイズ成分をサイン波合成波形の高域側に付加する工程を有し、上記サイン波合成波形に付加するノイズ成分のレベルおよび帯域幅は、上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御されることを特徴とするものである。
【0008】
また、本発明に係る音声復号化装置は、入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化装置であって、サイン波合成波形の高域側に付加するノイズ成分のレベルと帯域幅を上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御する手段と、有声音/無声音判定結果に基づいて上記入力音声信号の有声音と判断された部分に対して上記サイン波合成復号化を行う手段と、上記入力音声信号の無声音と判断された部分に対して符号励起線形予測復号化を行う手段とを有することにより、上述の課題を解決する。
【0009】
上記の特徴を備えた本発明に係る音声復号化方法、音声復号化方法および装置によれば、携帯電話システム等に適用して好適な、自然な再生音声を得ることができる。
【0010】
【発明の実施の形態】
以下に、本発明に係る好ましい実施の形態について説明する。
【0011】
先ず、図1は、本発明に係る音声符号化方法の実施の形態が適用された符号化装置の基本構成を示している。
【0012】
ここで、図1の音声符号化装置の基本的な考え方は、入力音声信号の短期予測残差例えばLPC(線形予測符号化)残差を求めてサイン波分析(sinusoidal analysis )符号化、例えばハーモニックコーディング(harmonic coding )を行う第1の符号化部110と、入力音声信号に対して位相再現性のある波形符号化により符号化する第2の符号化部120とを有し、入力信号の有声音(V:Voiced)の部分の符号化に第1の符号化部110を用い、入力信号の無声音(UV:Unvoiced)の部分の符号化には第2の符号化部120を用いるようにすることである。
【0013】
上記第1の符号化部110には、例えばLPC残差をハーモニック符号化やマルチバンド励起(MBE)符号化のようなサイン波分析符号化を行う構成が用いられる。上記第2の符号化部120には、例えば合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測(CELP)符号化の構成が用いられる。
【0014】
図1の例では、入力端子101に供給された音声信号が、第1の符号化部110のLPC逆フィルタ111及びLPC分析・量子化部113に送られている。LPC分析・量子化部113から得られたLPC係数あるいはいわゆるαパラメータは、LPC逆フィルタ111に送られて、このLPC逆フィルタ111により入力音声信号の線形予測残差(LPC残差)が取り出される。また、LPC分析・量子化部113からは、後述するようにLSP(線スペクトル対)の量子化出力が取り出され、これが出力端子102に送られる。LPC逆フィルタ111からのLPC残差は、サイン波分析符号化部114に送られる。
【0015】
サイン波分析符号化部114では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、V(有声音)/UV(無声音)判定部及びピッチ強度情報生成部115により入力音声信号の符号化単位毎にV/UVの判定および上記音声信号中の有声音(V)のピッチ強度情報の生成が行われる。ここで、上記ピッチ強度情報とは、音声信号のピッチ強度を表すだけでなく、音声信号の有声音らしさや無声音らしさを表す情報を含むものである。
【0016】
サイン波分析符号化部114からのスペクトルエンベロープ振幅データはベクトル量子化部116に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部116からのコードブックインデクスは、スイッチ117を介して出力端子103に送られ、サイン波分析符号化部114からの出力は、スイッチ118を介して出力端子104に送られる。また、V/UV判定及びピッチ強度情報生成部115からのV/UV判定結果は、スイッチ117、118の制御信号として送られており、上述した有声音(V)のとき上記インデクス及びピッチが選択されて各出力端子103及び104からそれぞれ取り出される。また、V/UV判定及びピッチ強度情報生成部115からのピッチ強度情報は出力端子105から取り出される。
【0017】
図1の第2の符号化部120は、この例ではCELP(符号励起線形予測)符号化構成を有しており、雑音符号帳121からの出力を、重み付きの合成フィルタ122により合成処理し、得られた重み付き音声を減算器123に送り、入力端子101に供給された音声信号を聴覚重み付けフィルタ125を介して得られた音声との誤差を取り出し、この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳121でサーチするような、合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このCELP符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳121からのUVデータとしてのコードブックインデクスは、上記V/UV判定及びピッチ強度情報生成部115からの有声音(V)のピッチ強度情報が、無声音(UV)を示すときオンとなるスイッチ127を介して出力端子107より取り出される。
【0018】
次に、図2は、本発明に係る音声復号化方法の一実施の形態が適用された音声復号化装置として、上記図1の音声符号化装置に対応する音声復号化装置の基本構成を示すブロック図である。
【0019】
図2において、入力端子202には上記図1の出力端子102からの上記LSP(線スペクトル対)の量子化出力としてのコードブックインデクスが入力される。入力端子203、204、及び205には、上記図1の各出力端子103、104、及び105からの各出力、すなわちエンベロープ量子化出力としてのインデクス,ピッチ、およびピッチ強度に基づくパラメータでありV/UV判定結果をも含むピッチ強度情報がそれぞれ入力される。また、入力端子207には、上記図1の出力端子107からのUV(無声音)用のデータとしてのインデクスが入力される。
【0020】
入力端子203からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器212に送られて逆ベクトル量子化され、LPC残差のスペクトルエンベロープが求められて有声音合成部211に送られる。有声音合成部211は、サイン波合成により有声音部分のLPC(線形予測符号化)残差を合成するものであり、この有声音合成部211には入力端子204及び205からのピッチ及びピッチ強度情報も供給されている。有声音合成部211からの有声音のLPC残差は、LPC合成フィルタ214に送られる。また、入力端子207からのUVデータのインデクスおよび入力端子205からのピッチ強度情報は、無声音合成部220に送られて、雑音符号帳を参照することにより無声音部分のLPC残差が取り出される。このLPC残差もLPC合成フィルタ214に送られる。LPC合成フィルタ214では、上記有声音部分のLPC残差と無声音部分のLPC残差とがそれぞれ独立に、LPC合成処理が施される。あるいは、有声音部分のLPC残差と無声音部分のLPC残差とが加算されたものに対してLPC合成処理を施すようにしてもよい。ここで入力端子202からのLSPのインデクスは、LPCパラメータ再生部213に送られて、LPCのαパラメータが取り出され、これがLPC合成フィルタ214に送られる。LPC合成フィルタ214によりLPC合成されて得られた音声信号は、出力端子201より取り出される。
【0021】
次に、上記図1に示した音声符号化装置のより具体的な構成について、図3を参照しながら説明する。なお、図3において、上記図1の各部と対応する部分には同じ指示符号を付している。
【0022】
この図3に示された音声符号化装置において、入力端子101に供給された音声信号は、ハイパスフィルタ(HPF)109にて不要な帯域の信号を除去するフィルタリング処理が施された後、LPC(線形予測符号化)分析・量子化部113のLPC分析回路132と、LPC逆フィルタ回路111とに送られる。
【0023】
LPC分析・量子化部113のLPC分析回路132は、入力信号波形の256サンプル程度の長さを符号化単位の1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。サンプリング周波数fSが例えば8kHzのとき、1フレーム間隔は160サンプルで20msecとなる。
【0024】
LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。この変換は、例えばニュートン−ラプソン法等を用いて行う。LSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【0025】
α→LSP変換回路133からのLSPパラメータは、LSP量子化器134によりマトリクスあるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータを2フレーム分まとめて、マトリクス量子化及びベクトル量子化している。
【0026】
このLSP量子化器134からの量子化出力、すなわちLSP量子化のインデクスは端子102を介して取り出され、また量子化済みのLSPベクトルはLSP補間回路136に送られる。
【0027】
LSP補間回路136は、上記20msec あるいは40msec 毎に量子化されたLSPのベクトルを補間し、8倍のレートにする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープが非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【0028】
このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路137により、LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路137からの出力は、上記LPC逆フィルタ回路111に送られ、このLPC逆フィルタ111では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このLPC逆フィルタ111からの出力は、サイン波分析符号化部114、具体的には例えばハーモニック符号化回路の直交変換回路145、例えばDFT(離散フーリエ変換)回路に送られる。
【0029】
LPC分析・量子化部113のLPC分析回路132からのαパラメータは、聴覚重み付けフィルタ算出回路139に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器116と、第2の符号化部120の聴覚重み付けフィルタ125及び聴覚重み付きの合成フィルタ122とに送られる。
【0030】
ハーモニック符号化回路等のサイン波分析符号化部114では、LPC逆フィルタ111からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Amの算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Amの個数を次元変換して一定数にしている。
【0031】
図3に示すサイン波分析符号化部114の具体例においては、一般のハーモニック符号化を想定しているが、特に、MBE(Multiband Excitation: マルチバンド励起)符号化の場合には、同時刻(同じブロックあるいはフレーム内)の周波数軸領域いわゆるバンド毎に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、1ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のV/UVとは、MBE符号化に適用した場合には全バンドがUVのときを当該フレームのUVとしている。ここで上記MBEの分析合成手法については、本件出願人が先に提案した特願平4−91422号明細書及び図面に詳細な具体例を開示している。
【0032】
図3のサイン波分析符号化部114のオープンループピッチサーチ部141には、上記入力端子101からの入力音声信号が、またゼロクロスカウンタ142には、上記HPF(ハイパスフィルタ)109からの信号がそれぞれ供給されている。サイン波分析符号化部114の直交変換回路145には、LPC逆フィルタ111からのLPC残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部141では、入力信号のLPC残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ146に送られて、後述するようなクローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。
【0033】
上記オープンループによる比較的ラフなピッチサーチは、具体的には、P次のLPC係数αp(1≦p≦P)を自己相関法などで求めるものである。すなわち、1フレームあたりNサンプルの入力をx(n)(0≦n<N)とし、上記x(n)にハミング窓をかけたxw(n)(0≦n<N)からP次のLPC係数αp(1≦p≦P)を自己相関法などで求める(1)式によって逆フィルタをかけて得られたLPC残差をresi(n)(0≦n<N)とする。
【0034】
【数1】
【0035】
resi(n)のトランジェント部(0≦n<P)においては、その残差が正しく求められていないので、0で置き替える。それをresi'(n)(0≦n<N)とする。そして、resir'(n)そのもの、またはfc =1kHz程度のLPF,HPFによりフィルタリング処理したものの自己相関値Rkを(2)式により算出する。ここで、kは自己相関値を求める際にサンプルをずらす量である。
【0036】
【数2】
【0037】
なお、(2)式を直接に計算する代わりにresi'(n)にN個、例えば256個の0を詰めてFFT→パワースペクトル→逆FFTによって自己相関値Rkを算出してもよい。
【0038】
ここで、算出したRkを自己相関の0番目のピークR0(パワー)で規格化し、大きい順に並べたものをr'(n)とする。
【0039】
r'(0)はR0/R0=1であり、
1=r'(0)>r'(1)>r'(2)・・・ (かっこ内は順番を表す)
となる。
【0040】
このフレーム内の正規化自己相関の最大値r'(1)を与えるkがピッチの候補となる。通常の有声音区間では、0.4<r'(1)<0.9程度の範囲にはいる。
【0041】
また、本件出願人が先に提案した特願平8−16433号明細書及び図面に詳細な具体例を開示しているように、残差のLFP後の最大ピークr'L(1)および残差のHPF後の最大r'H(1)から、より信頼性が高い方をr'(1)として選択して使用してもよい。
【0042】
特願平8−16433号明細書中で開示されている例においては、1フレーム先行したフレームのr'(1)を算出し、それをrp[2]に代入している。rp[0],rp[1],rp[2]が、過去、現在、未来のフレームに対応しているので、rp[1]の値を現在のフレームの最大ピークr'(1)として使用できる。
【0043】
オープンループピッチサーチ部141からは、上記粗ピッチデータと共にLPC残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値r'(1) が取り出され、V/UV(有声音/無声音)判定及びピッチ強度情報生成部115に送られている。そして、この正規化自己相関最大値r'(1) の大小がLPC残差信号のピッチ強度を概略表現している。
【0044】
そこで、この自己相関最大値r'(1)の大きさを適切な閾値で切り、その大きさに応じて有声音の程度(すなわちピッチ強度)をk種類に分類する。このk種類の分類を表現するビットパターンをエンコーダより出力し、デコーダ側ではそのビットパターン(フラグ)情報に基づいて、サイン波合成によって生成された有声音の励起に、可変帯域幅,可変ゲインのノイズを付加する。
【0045】
直交変換回路145では、例えばDFT(離散フーリエ変換)等の直交変換処理が施されて、時間軸上のLPC残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路145からの出力は、高精度ピッチサーチ部146及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部148に送られる。
【0046】
高精度(ファイン)ピッチサーチ部146には、オープンループピッチサーチ部141で抽出された比較的ラフな粗ピッチデータと、直交変換部145により例えばDFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部146では、上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サンプルずつ振って、最適な小数点付き(フローティング)のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部146からのピッチデータについては、スペクトル評価部148に送られると共に、スイッチ118を介して出力端子104に送られている。
【0047】
スペクトル評価部148では、LPC残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部146、V/UV(有声音/無声音)判定部及びピッチ強度情報生成部115及び聴覚重み付きのベクトル量子化器116に送られる。
【0048】
V/UV(有声音/無声音)判定部及びピッチ強度情報生成部115では、直交変換回路145からの出力と、高精度ピッチサーチ部146からの最適ピッチと、スペクトル評価部148からのスペクトル振幅データと、オープンループピッチサーチ部141からの正規化自己相関最大値r'(1) と、ゼロクロスカウンタ142からのゼロクロスカウント値とに基づいて、当該フレームのV/UV判定およびピッチ強度データの生成が行われる。さらに、MBEの場合の各バンド毎のV/UV判定結果の境界位置を当該フレームのV/UV判定の一条件としてもよい。このV/UV判定及びピッチ強度情報生成部115からのV/UV判定結果は、スイッチ117、118の制御信号として送られており、上述した有声音(V)のとき上記インデクス及びピッチが選択されて各出力端子103及び104からそれぞれ取り出される。また、V/UV判定及びピッチ強度情報生成部115からのピッチ強度情報は出力端子105から取り出される。
【0049】
ところで、スペクトル評価部148の出力部あるいはベクトル量子化器116の入力部には、データ数変換(一種のサンプリングレート変換)部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ|Am| を一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ|Am| の個数mMX+1も8〜63と変化することになる。このためデータ数変換部119では、この可変個数mMX+1の振幅データを一定個数M個、例えば44個のデータに変換している。
【0050】
このスペクトル評価部148の出力部あるいはベクトル量子化器116の入力部に設けられたデータ数変換部からの上記一定個数M個(例えば44個)の振幅データあるいはエンベロープデータが、ベクトル量子化器116により、所定個数、例えば44個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路139からの出力により与えられる。ベクトル量子化器116からの上記エンベロープのインデクスは、スイッチ117を介して出力端子103より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【0051】
次に、第2の符号化部120について説明する。第2の符号化部120は、いわゆるCELP(符号励起線形予測)符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のCELP符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック(stochastic code book)121からの代表値出力である無声音のLPC残差に相当するノイズ出力を、ゲイン回路126を介して、聴覚重み付きの合成フィルタ122に送っている。重み付きの合成フィルタ122では、入力されたノイズをLPC合成処理し、得られた重み付き無声音の信号を減算器123に送っている。減算器123には、上記入力端子101からHPF(ハイパスフィルタ)109を介して供給された音声信号を聴覚重み付けフィルタ125で聴覚重み付けした信号が入力されており、合成フィルタ122からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ125の出力から聴覚重み付き合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳121でサーチする。このような合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【0052】
このCELP符号化構成を用いた第2の符号化部120からのUV(無声音)部分用のデータとしては、雑音符号帳121からのコードブックのシェイプインデクスと、ゲイン回路126からのコードブックのゲインインデクスとが取り出される。雑音符号帳121からのUVデータであるシェイプインデクスは、スイッチ127sを介して出力端子107sに送られ、ゲイン回路126のUVデータであるゲインインデクスは、スイッチ127gを介して出力端子107gに送られている。
【0053】
ここで、これらのスイッチ127s、127g及び上記スイッチ117、118は、上記V/UV判定及びピッチ強度情報生成部115からのV/UV判定結果によりオン/オフ制御され、スイッチ117、118は、現在伝送しようとするフレームの音声信号のV/UV判定結果が有声音(V)のときオンとなり、スイッチ127s、127gは、現在伝送しようとするフレームの音声信号が無声音(UV)のときオンとなる。
【0054】
次に、図4は、上記図2に示した本発明に係る実施の形態としての音声復号化装置のより具体的な構成を示している。この図4において、上記図2の各部と対応する部分には、同じ指示符号を付している。
【0055】
この図4において、入力端子202には、上記図1、3の出力端子102からの出力に相当するLSPのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【0056】
このLSPのインデクスは、LPCパラメータ再生部213のLSPの逆ベクトル量子化器231に送られてLSP(線スペクトル対)データに逆ベクトル量子化され、LSP補間回路232、233に送られてLSPの補間処理が施された後、LSP→α変換回路234、235でLPC(線形予測符号)のαパラメータに変換され、このαパラメータがLPC合成フィルタ214に送られる。ここで、LSP補間回路232及びLSP→α変換回路234は有声音(V)用であり、LSP補間回路233及びLSP→α変換回路235は無声音(UV)用である。またLPC合成フィルタ214は、有声音部分のLPC合成フィルタ236と、無声音部分のLPC合成フィルタ237とを分離している。すなわち、有声音部分と無声音部分とでLPCの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるLSP同士を補間することによる悪影響を防止している。
【0057】
また、図4の入力端子203には、上記図1、図3のエンコーダ側の端子103からの出力に対応するスペクトルエンベロープ(Am)の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子204には、上記図1、図3の端子104からのピッチのデータが供給され、入力端子205には、上記図1、図3の端子105からのピッチ強度情報が供給されている。
【0058】
入力端子203からのスペクトルエンベロープAmのベクトル量子化されたインデクスデータは、逆ベクトル量子化器212に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部211のサイン波合成回路215に送られている。
【0059】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【0060】
サイン波合成回路215には、入力端子204からのピッチ及び入力端子205からの上記ピッチ強度情報が供給されている。サイン波合成回路215からは、上述した図1、図3のLPC逆フィルタ111からの出力に相当するLPC残差データが取り出され、これが加算器218に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平4−91422号の明細書及び図面、あるいは特願平6−198451号の明細書及び図面に開示されている。
【0061】
また、逆ベクトル量子化器212からのエンベロープのデータと、入力端子204、205からのピッチと、ピッチ強度に基づくパラメータでありV/UV判定結果をも含むピッチ強度情報とは、有声音(V)部分のノイズ加算のためのノイズ合成回路216に送られている。このノイズ合成回路216からの出力は、重み付き重畳加算回路217を介して加算器218に送られると共に、サイン波合成回路215にも送られる。これは、サイン波合成によって有声音のLPC合成フィルタへの入力となるエクサイテイション(Excitation:励起、励振)を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びV(有声音)とUV(無声音)とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のLPC合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ,スペクトルエンベロープ振幅,フレーム内の最大振幅,残差信号のレベル等を考慮したノイズをLPC残差信号の有声音部分に加えているものである。
【0062】
なお、ノイズ合成回路216から重み付き重畳加算回路217を介して加算器218に送られて上記有声音(V)部分に付加されるノイズ成分は、上記ピッチ強度情報に基づいてそのレベルが制御されるだけでなく、例えば、上記有声音部分に付加するノイズ成分の帯域幅が上記ピッチ強度情報に基づいて制御されたり、上記付加するノイズ成分のレベルと帯域幅とが上記ピッチ強度情報に基づいて制御されたり、上記付加するノイズ成分のレベルに応じて、上記合成される有声音のためにハーモニクス振幅も制御されるようにしてもよい。
【0063】
加算器218からの加算出力は、LPC合成フィルタ214の有声音用の合成フィルタ236に送られてLPCの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ238vでフィルタ処理された後、加算器239に送られる。
【0064】
次に、図4の入力端子207s及び207gには、上記図3の出力端子107s及び107gからのUVデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部220に送られている。端子207sからのシェイプインデクスは、無声音合成部220の雑音符号帳221に、端子207gからのゲインインデクスはゲイン回路222にそれぞれ送られている。雑音符号帳221から読み出された代表値出力は、無声音のLPC残差に相当するノイズ信号成分であり、これがゲイン回路222で所定のゲインの振幅となり、窓かけ回路223に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。なお、この窓かけ回路223には、入力端子205からのピッチ強度情報も送られている。
【0065】
窓かけ回路223からの出力は、無声音合成部220からの出力として、LPC合成フィルタ214のUV(無声音)用の合成フィルタ237に送られる。合成フィルタ237では、LPC合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ238uでフィルタ処理された後、加算器239に送られる。
【0066】
加算器239では、有声音用ポストフィルタ238vからの有声音部分の時間波形信号と、無声音用ポストフィルタ238uからの無声音部分の時間波形データとが加算され、出力端子201より取り出される。
【0067】
ところで、図3に示す音声符号化装置では、要求される品質に合わせ異なるビットレートの出力データを出力することができ、出力データのビットレートが可変されて出力される。
【0068】
具体的には、出力データのビットレートを、低ビットレートと高ビットレートとに切り換えることができる。例えば、低ビットレートを2kbpsとし、高ビットレートを6kbpsとする場合には、以下の表1に示す各ビットレートのデータが出力される。
【0069】
【表1】
【0070】
出力端子104からのピッチデータについては、有声音時に、常に7bits/20msecで出力され、出力端子105から出力されるピッチ強度情報は、常に2bits/20msecである。出力端子102から出力されるLSP量子化のインデクスは、32bits/40msecと48bits/40msecとの間で切り換えが行われる。また、出力端子103から出力される有声音時(V)のインデクスは、15bits/20msecと87bits/20msecとの間で切り換えが行われ、出力端子107s、107gから出力される無声音時(UV)のインデクスは、11bits/10msecと23bits/5msecとの間で切り換えが行われる。これにより、有声音時(V)の出力データは、2kbpsでは40bits/20msecとなり、6kbpsでは120bits/20msecとなる。また、無声音時(UV)の出力データは、2kbpsでは39bits/20msecとなり、6kbpsでは117bits/20msecとなる。
【0071】
尚、上記LSP量子化のインデクス、有声音時(V)のインデクス、及び無声音時(UV)のインデクスについては、後述する各部の構成と共に説明する。
【0072】
次に、図3の音声符号化装置において、V/UV(有声音/無声音)判定部及びピッチ強度情報生成部115の具体例について説明する。
【0073】
このV/UV判定及びピッチ強度情報生成部115においては、直交変換回路145からの出力と、高精度ピッチサーチ部146からの最適ピッチと、スペクトル評価部148からのスペクトル振幅データと、オープンループピッチサーチ部141からの正規化自己相関最大値r(p) と、ゼロクロスカウンタ412からのゼロクロスカウント値とに基づいて、当該フレームのV/UV判定およびピッチ強度情報probVの生成が行われる。さらに、MBEの場合と同様な各バンド毎のV/UV判定結果の境界位置も当該フレームのV/UV判定の一条件としている。
【0074】
このMBEの場合の各バンド毎のV/UV判定結果を用いたV/UV判定条件について以下に説明する。
【0075】
MBEの場合の第m番目のハーモニックスの大きさを表すパラメータあるいは振幅|Am| は、
【0076】
【数3】
【0077】
により表せる。この式において、|S(j)| はLPC残差をDFTしたスペクトルであり、|E(j)| は基底信号のスペクトル、具体的には256ポイントのハミング窓をDFTしたものである。また、各バンド毎のV/UV判定のために、NSR(ノイズtoシグナル比)を利用する。この第mバンドのNSRは、
【0078】
【数4】
【0079】
と表せ、このNSR値が所定の閾値(例えば0.3 )より大のとき(エラーが大きい)ときには、そのバンドでの|Am ||E(j) |による|S(j) |の近似が良くない(上記励起信号|E(j) |が基底として不適当である)と判断でき、当該バンドをUV(Unvoiced、無声音)と判別する。これ以外のときは、近似がある程度良好に行われていると判断でき、そのバンドをV(Voiced、有声音)と判別する。
【0080】
ここで、上記各バンド(ハーモニクス)のNSRは、各ハーモニクス毎のスペクトル類似度をあらわしている。NSRのハーモニクスのゲインによる重み付け和をとったものをNSRall として次のように定義する。
【0081】
NSRall =(Σm |Am |NSRm )/(Σm |Am |)
このスペクトル類似度NSRall がある閾値より大きいか小さいかにより、V/UV判定に用いるルールベースを決定する。ここでは、この閾値をThNSR =0.3 としておく。このルールベースは、フレームパワー、ゼロクロス、LPC残差の自己相関の最大値に関するものであり、NSRall <ThNSR のときに用いられるルールベースでは、ルールが適用されるとVとなり適用されるルールがなかった場合はUVとなる。
【0082】
また、NSRall ≧ThNSR のときに用いられるルールベースでは、ルールが適用されるとUV、適用されないとVとなる。
【0083】
ここで、具体的なルールは、次のようなものである。
NSRall <ThNSR のとき、
if numZeroXP<24,& frmPow>340,& r'(1)>0.32 then V
NSRall ≧ThNSR のとき、
if numZeroXP>30,& frmPow<900,& r'(1)<0.23 then UV
ただし、上記各変数は次のように定義される。
numZeroXP:1フレーム当たりのゼロクロス回数
frmPow :フレームパワー
r'(1) :自己相関最大値
上記のようなルールの集合であるルールに照合することで、V/UVを判定する。
【0084】
次に、上述したV/UV判定及びピッチ強度情報生成部115において、音声信号中の有声音(V)のピッチ強度を表すパラメータであるピッチ強度情報probVを生成する手順を説明する。表2は、V/UV判定結果と、自己相関を求める際にサンプルをずらす量をkとし、求められた自己相関値Rkを0番目のピークR0(パワー)で規格化して大きい順に並べたr'(n)のフレーム内の最大値r'(1)を適切な閾値で切り、その大きさに応じて有声音の程度(すなわちピッチ強度)をk種類に分類するための2種類の閾値TH1およびTH2とに基づいてprobVの値が設定される条件を示している。
【0085】
【表2】
【0086】
すなわち、V/UV判定結果が完全に無声音(UV:unvoiced)であることを示すときには、有声音部分のピッチ強度を表すピッチ強度情報probVの値は0となる。そして、このときは、前述した有声音部分(V)へのノイズ付加は行われず、CELP符号化のみによる歯切れのよい、よりクリアな子音を生成する。
【0087】
また、V/UV判定結果がr'(1)<TH1を満足するとき(Mixed Voiced-0)には、ピッチ強度情報probVの値が1となる。そして、このprobVの値に応じて有声音部(V)へのノイズ付加が行われる。
【0088】
V/UV判定結果がTH1≦r'(1)<TH2を満足するとき(Mixed Voiced-1)には、ピッチ強度情報probVの値が2となる。そして、このprobVの値に応じて有声音部分(V)へのノイズ付加が行われる。
【0089】
そして、V/UV判定結果が完全に有声音(V)(Full voiced無声音)であるときには、probVの値は3となる。
【0090】
このように、ピッチ強度を表すパラメータであるピッチ強度情報probVを2bitsで符号化することにより、従来のV/UV判断結果に加えて、さらに有声音時にその有声音の強さを3段階に表現することができる。なお、従来V/UV判定結果は1bitで表現されていたが、本発明では、表1に示したようにピッチデータを8bitsから7bitsに減らし、余った1bitを用いて2bitsのprobVを表現している。なお、上記2種類の閾値TH1およびTH2の具体的な値は、例えばTH1=0.55,TH2=0.7などである。
【0091】
次に、上記ピッチ強度を表すパラメータであるピッチ強度情報probVを生成する手順を図5のフローチャートを参照しながら説明する。ここでは、2種類の閾値TH1,TH2が設定され、音声信号の現在のフレームのV/UVはすでに判定済みであるものとする。
【0092】
まず、ステップS1において入力音声信号に対して前述した方法でV/UV判定が行われる。ステップS1の判定結果がUVである場合には、ステップS2において有声音(V)のピッチ強度情報probVが0とされて出力される。一方、ステップS1の判定結果がVである場合には、ステップS3において、r'(1)<TH1の判定が行われる。
【0093】
ステップS3の判定結果がYesである場合には、ステップS4において有声音(V)のピッチ強度情報probVが1とされて出力される。一方、ステップS3の判定結果がNoである場合には、ステップS5において、r'(1)<TH2の判定が行われる。
【0094】
ステップS5の判定結果がYesである場合には、ステップS6において有声音(V)のピッチ強度情報probVが2とされて出力される。一方、ステップS5の判定結果がNoである場合には、ステップS7において有声音(V)のピッチ強度情報probVが3とされて出力される。
【0095】
次に図4に具体的な構成例を示した音声復号化装置において、符号化音声信号が復号される様子を説明する。このときの出力データのビットレートは、表1に示す通りであるとする。そして、基本的には従来のMBEの無声音の合成と同様の方法でノイズ合成が行われる。
【0096】
ここで、図4の音声復号化装置の要部のより具体的な構成及び動作について説明する。
【0097】
LPC合成フィルタ214は、上述したように、V(有声音)用の合成フィルタ236と、UV(無声音)用の合成フィルタ237とに分離されている。すなわち、合成フィルタを分離せずにV/UVの区別なしに連続的にLSPの補間を20サンプルすなわち2.5msec 毎に行う場合には、V→UV、UV→Vの遷移(トランジェント)部において、全く性質の異なるLSP同士を補間することになり、Vの残差にUVのLPCが、UVの残差にVのLPCが用いられることにより異音が発生するが、このような悪影響を防止するために、LPC合成フィルタをV用とUV用とで分離し、LPCの係数補間をVとUVとで独立に行わせたものである。
【0098】
この場合の、LPC合成フィルタ236、237の係数補間方法について説明する。これは、次の表3に示すように、V/UVの状態に応じてLSPの補間を切り換えている。
【0099】
【表3】
【0100】
この表3において、均等間隔LSPとは、例えば10次のLPC分析の例で述べると、フィルタの特性がフラットでゲインが1のときのαパラメータ、すなわち α0=1,α1=α2=・・・=α10=0に対応するLSPであり、
LSPi =(π/11)×i 0≦i≦10
である。
【0101】
このような10次のLPC分析、すなわち10次のLSPの場合は、図6に示す通り、0〜πの間を11等分した位置に均等間隔で配置されたLSPで、完全にフラットなスペクトルに対応している。合成フィルタの全帯域ゲインはこのときが最小のスルー特性となる。
【0102】
図7は、ゲイン変化の様子を概略的に示す図であり、UV(無声音)部分からV(有声音)部分への遷移時における1/HUV(z) のゲイン及び1/HV(z)のゲインの変化の様子を示している。ここで、1/H(z)は、量子化されたαパラメータから生成されるLPC合成フィルタ関数である。
【0103】
ここで、補間を行う単位は、フレーム間隔が160サンプル(20msec )のとき、1/HV(z)の係数は2.5msec (20サンプル)毎、また1/HUV(z) の係数は、ビットレートが2kbps で10msec (80サンプル)、6kbps で5msec (40サンプル)毎である。なお、UV時はエンコード側の第2の符号化部120で合成による分析法を用いた波形マッチングを行っているので、必ずしも均等間隔LSPと補間せずとも、隣接するV部分のLSPとの補間を行ってもよい。ここで、第2の符号化部120におけるUV部の符号化処理においては、V→UVへの遷移部で1/A(z) の重み付き合成フィルタ122の内部状態をクリアすることによりゼロインプットレスポンスを0にする。
【0104】
これらのLPC合成フィルタ236、237からの出力は、それぞれ独立に設けられたポストフィルタ238v、238uに送られており、ポストフィルタもVとUVとで独立にかけることにより、ポストフィルタの強度、周波数特性をVとUVとで異なる値に設定している。
【0105】
次に、LPC残差信号、すなわちLPC合成フィルタ入力であるエクサイテイションの、V部とUV部のつなぎ部分の窓かけについて説明する。これは、図4の有声音合成部211のサイン波合成回路215と、無声音合成部220の窓かけ回路223とによりそれぞれ行われるものである。なお、エクサイテイションのV部の合成方法については、本件出願人が先に提案した特願平4−91422号の明細書及び図面に具体的な説明が、また、V部の高速合成方法については、本件出願人が先に提案した特願平6−198451号の明細書及び図面に具体的な説明が、それぞれ開示されている。今回の具体例では、この高速合成方法を用いてV部のエクサイテイションを生成している。
【0106】
V(有声音)部分では、隣接するフレームのスペクトルを用いてスペクトルを補間してサイン波合成するため、図8に示すように、第nフレームと第n+1フレームとの間にかかる全ての波形を作ることができる。しかし、図8の第n+1フレームと第n+2フレームとのように、VとUV(無声音)に跨る部分、あるいはその逆の部分では、UV部分は、フレーム中に±80サンプル(全160サンプル=1フレーム間隔)のデータのみをエンコード及びデコードしている。
【0107】
このため、図9に示すように、V側ではフレームとフレームとの間の中心点CNを越えて窓かけを行い、UV側では中心点CN移行の窓かけを行って、接続部分をオーバーラップさせている。UV→Vの遷移(トランジェント)部分では、その逆を行っている。なお、V側の窓かけは破線のようにしてもよい。
【0108】
次に、V(有声音)部分でのノイズ合成及びノイズ加算について説明する。これは、図4のノイズ合成回路216、重み付き重畳回路217、及び加算器218を用いて、有声音部分のLPC合成フィルタ入力となるエクサイテイションについて、次のパラメータを考慮したノイズをLPC残差信号の有声音部分に加えることにより行われる。
【0109】
すなわち、上記パラメータとしては、ピッチラグPch、有声音のスペクトル振幅Am[i]、フレーム内の最大スペクトル振幅Amax 、及び残差信号のレベルLevを挙げることができる。ここで、ピッチラグPchは、所定のサンプリング周波数fs (例えばfs=8kHz)でのピッチ周期内のサンプル数であり、スペクトル振幅Am[i]のiは、fs/2 の帯域内でのハーモニックスの本数をI=Pch/2とするとき、0<i<Iの範囲内の整数である。
【0110】
以下では、ハーモニクスの振幅Am[i]とピッチ強度情報probVとに基づいて、有声音合成の際にノイズ付加処理を行う場合について説明する。
【0111】
図10は、図4に示すノイズ合成回路216の基本構成を、図11は、図10に示すノイズ振幅・ハーモニクス振幅制御回路410の基本構成をそれぞれ示している。
【0112】
まず、図10において、ノイズ振幅・ハーモニクス振幅制御回路410には、入力端子411からハーモニクスの振幅Am[i]が、入力端子412からピッチ強度情報probVがそれぞれ入力される。そして、ノイズ振幅・ハーモニクス振幅制御回路410からは、上記ハーモニクスの振幅Am[i]をスケールダウンしたAm_h[i]とAm_noise[i]とが出力される。なお、Am_h[i]およびAm_noise[i]については後述する。そして、上記のAm_h[i]は有声音合成部211に送られ、Am_noise[i]は乗算器403に送られる。一方、ホワイトノイズ発生部401からは、時間軸上のホワイトノイズ信号波形に所定の長さ(例えば256サンプル)で適当な窓関数(例えばハミング窓)により窓かけされたガウシャンノイズが出力され、これがSTFT処理部402によりSTFT(ショートタームフーリエ変換)処理を施すことにより、ノイズの周波数軸上のパワースペクトルを得る。このSTFT処理部402からのパワースペクトルを振幅処理のための乗算器403に送り、ノイズ振幅制御回路410からの出力を乗算している。乗算器403からの出力は、ISTFT処理部404に送られ、位相は元のホワイトノイズの位相を用いて逆STFT処理を施すことにより時間軸上の信号に変換する。ISTFT処理部404からの出力は、重み付き重畳加算回路217に送られる。
【0113】
なお、上記図10の例においては、ホワイトノイズ発生部401から時間領域のノイズを発生してそれをSTFT等の直交変換を行うことで周波数領域のノイズを得ていたが、ノイズ発生部から直接的に周波数領域のノイズを発生するようにしてもよい。すなわち、周波数領域のパラメータを直接発生することにより、STFTやFFT等の直交変換処理が節約できる。
【0114】
具体的には、±xの範囲の乱数を発生しそれをFFTスペクトルの実部と虚部として扱うようにする方法や、0から最大値(max)までの範囲の正の乱数を発生しそれをFFTスペクトルの振幅として扱い、−πからπまでの乱数を発生しそれをFFTスペクトルの位相として扱う方法などが挙げられる。
【0115】
こうすることにより、図10のSTFT処理部402が不要となり、構成の簡略化あるいは演算量の低減が図れる。
【0116】
また、図10のホワイトノイズ発生+STFT部分は、別法として乱数を発生させ、それをホワイトノイズのスペクトルの実部,虚部または振幅,位相と見なして処理を行うこともできる。このようにすると、図10のSTFTが省略でき、演算量が減らせる。
【0117】
このノイズ合成のために、ノイズの振幅情報Am_noise[i]が必要があるが、それは伝送されていないので有声音のハーモニクスの振幅情報Am[i]から生成する。また、上記ノイズ合成を行う際に、振幅情報Am[i]からAm_noise[i]を生成すると同時に、ノイズの振幅情報Am_noise[i]に基づいてノイズを加える有声音部分の振幅情報Am[i]をスケールダウンしたAm_h[i]を生成する。そして、ハーモニック合成(サイン波合成)には、Am[i]のかわりにAm_h[i]を使用する。
【0118】
以下に、上述したAm_noise[i]およびAm_h[i]を生成する手順を示す。
【0119】
現在のピッチにおける4000Hzまでのハーモニクスの本数をsendとすると
【0120】
【数5】
【0121】
である。また、AN1,AN2,AN3,AH1,AH2,AH3,Bは定数(乗算係数)であり、TH1,TH2,TH3は閾値である。
【0122】
そして、ノイズ振幅制御回路410は、例えば図11のような基本構成を有し、上記図4のスペクトルエンベロープの逆量子化器212から端子411を介して与えられるV(有声音)についての上記スペクトル振幅Am[i]と、上記図4の入力端子205から入力端子412を介して与えられる上記ピッチ強度情報probVに基づいて、乗算器403での乗算係数となるノイズ振幅Am_noise[i]を求めている。このAm_noise[i]によって、合成されるノイズ振幅が制御されることになる。すなわち図11において、ピッチ強度情報probVは、最適なAN,B_TH値の算出回路415および最適なAH,B_TH値の算出回路416とに入力される。最適なAN,B_TH値の算出回路415からの出力はノイズの重み付け回路417で重み付けし、得られた出力を乗算器419に送って、入力端子411から入力されたスペクトル振幅Am[i]と乗算することによりノイズ振幅Am_noise[i]を得ている。一方、最適なAH,B_TH値の算出回路416からの出力はハーモニクスの重み付け回路418で重み付けし、得られた出力を乗算器420に送って入力端子411から入力されたスペクトル振幅Am[i]と乗算することによりスケールダウンしたハーモニクス振幅Am_h[i]を得ている。
【0123】
具体的には以下のように、Am[i]およびprobVからAm_h[i],Am_noise[i](いずれも0≦i≦send)を決定する。
【0124】
probV=0のとき、すなわち無声音(UV)時にはAm[i]情報が存在せず、CELP符号化のみを行う。
【0125】
probV=1のとき(Mixed Voiced-0)
Am_noise[i]は
Am_noise[i]=0 (0≦i<send×B_TH1)
Am_noise[i]=AN1×Am[i] (send×B_TH1≦i≦send)
Am_h[i]は
Am_h[i]=Am[i] (0≦i<send×B_TH1)
Am_h[i]=AH1×Am[i] (send×B_TH1≦i≦send)
probV=2のとき(Mixed Voiced-1)
Am_noise[i]は
Am_noise[i]=0 (0≦i<send×B_TH2)
Am_noise[i]=AN2×Am[i] (send×B_TH2≦i≦send)
Am_h[i]は
Am_h[i]=Am[i] (0≦i<send×B_TH2)
Am_h[i]=AH2×Am[i] (send×B_TH2≦i≦send)
probV=3のとき(Full Voiced)
Am_noise[i]は
Am_noise[i]=0 (0≦i<send×B_TH3)
Am_noise[i]=AN3×Am[i] (send×B_TH3≦i≦send)
Am_h[i]は
Am_h[i]=Am[i] (0≦i<send×B_TH3)
Am_h[i]=AH3×Am[i] (send×B_TH3≦i≦send)
ここで、ノイズ合成加算の第1の具体例として、有声音部分に加えるノイズの帯域は一定、レベル(係数)を可変とする場合について説明する。このような場合の具体例は、
probV=1 B_TH1=0.5
AN1=0.5
AH1=0.6
probV=2 B_TH2=0.5
AN2=0.3
AH2=0.8
probV=3 B_TH3=0.7
AN3=0.2
AH3=1.0
とすることが挙げられる。
【0126】
次に、ノイズ合成加算の第2の具体例として、有声音部分に加えるノイズのレベル(係数)は一定、帯域を可変とする場合について説明する。このような場合の具体例は、
probV=1 B_TH1=0.6
AN1=0.5
AH1=0.2
probV=2 B_TH2=0.8
AN2=0.5
AH2=0.2
probV=3 B_TH3=1.0
AN3=0.5 (Don't care)
AH3=0 (Don't care)
を挙げることができる。
【0127】
次に、ノイズ合成加算の第3の具体例として、有声音部分に加えるノイズのレベル(係数)も帯域も可変とする場合について説明する。このような場合の具体例は、
probV=1 B_TH1=0.5
AN1=0.5
AH1=0.6
probV=2 B_TH2=0.7
AN2=0.4
AH2=0.8
probV=3 B_TH3=1.0
AN3= × (Don't care)
AH3= × (Don't care)
を挙げることができる。
【0128】
このようにして有声音部分にノイズを加算することで、より自然な有声音を得ることができる。
【0129】
次に、ポストフィルタ238v、238uについて説明する。
【0130】
図12は、図4の例のポストフィルタ238v、238uとして用いられるポストフィルタを示しており、ポストフィルタの要部となるスペクトル整形フィルタ440は、ホルマント強調フィルタ441と高域強調フィルタ442とから成っている。このスペクトル整形フィルタ440からの出力は、スペクトル整形によるゲイン変化を補正するためのゲイン調整回路443に送られており、このゲイン調整回路443のゲインGは、ゲイン制御回路445により、スペクトル整形フィルタ440の入力xと出力yと比較してゲイン変化を計算し、補正値を算出することで決定される。
【0131】
スペクトル整形フィルタの440特性PF(z) は、LPC合成フィルタの分母Hv(z)、Huv(z) の係数、いわゆるαパラメータをαi とすると、
【0132】
【数6】
【0133】
と表せる。この式の分数部分がホルマント強調フィルタ特性を、(1−kz-1)の部分が高域強調フィルタ特性をそれぞれ表す。また、β、γ、kは定数であり、一例としてβ=0.6、γ=0.8、k=0.3を挙げることができる。
【0134】
また、ゲイン調整回路443のゲインGは、
【0135】
【数7】
【0136】
としている。この式中のx(i) はスペクトル整形フィルタ440の入力、y(i) はスペクトル整形フィルタ440の出力である。
【0137】
ここで、上記スペクトル整形フィルタ440の係数の更新周期は、図13に示すように、LPC合成フィルタの係数であるαパラメータの更新周期と同じく20サンプル、2.5msec であるのに対して、ゲイン調整回路443のゲインGの更新周期は、160サンプル、20msec である。
【0138】
このように、ポストフィルタのスペクトル整形フィルタ440の係数の更新周期に比較して、ゲイン調整回路443のゲインGの更新周期を長くとることにより、ゲイン調整の変動による悪影響を防止している。
【0139】
すなわち、一般のポストフィルタにおいては、スペクトル整形フィルタの係数の更新周期とゲインの更新周期とを同じにしており、このとき、ゲインの更新周期を20サンプル、2.5msec とすると、図13からも明らかなように、1ピッチ周期の中で変動することになり、クリックノイズを生じる原因となる。そこで本例においては、ゲインの切換周期をより長く、例えば1フレーム分の160サンプル、20msec とすることにより、急激なゲインの変動を防止することができる。また逆に、スペクトル整形フィルタの係数の更新周期を160サンプル、20msec とするときには、円滑なフィルタ特性の変化が得られず、合成波形に悪影響が生じるが、このフィルタ係数の更新周期を20サンプル、2.5msec と短くすることにより、効果的なポストフィルタ処理が可能となる。
【0140】
なお、隣接するフレーム間でのゲインのつなぎ処理は、図14に示すように、前フレームのフィルタ係数及びゲインと、現フレームのフィルタ係数及びゲインとを用いて算出した結果に、次のような三角窓
W(i) = i/20 (0≦i≦20)
と
1−W(i) (0≦i≦20)
をかけてフェードイン、フェードアウトを行って加算する。図14では、前フレームのゲインG1 が現フレームのゲインG2 に変化する様子を示している。すなわち、オーバーラップ部分では、前フレームのゲイン、フィルタ係数を使用する割合が徐々に減衰し、現フレームのゲイン、フィルタ係数の使用が徐々に増大する。なお、図14の時刻Tにおけるフィルタの内部状態は、現フレームのフィルタ、前フレームのフィルタ共に同じもの、すなわち前フレームの最終状態からスタートする。
【0141】
以上説明したような信号符号化装置及び信号復号化装置は、例えば図15及び図16に示すような携帯通信端末あるいは携帯電話機等に使用される音声コーデックとして用いることができる。
【0142】
すなわち、図15は、上記図1、図3に示したような構成を有する音声符号化部160を用いて成る携帯端末の送信側構成を示している。この図15のマイクロホン161で集音された音声信号は、アンプ162で増幅され、A/D(アナログ/ディジタル)変換器163でディジタル信号に変換されて、音声符号化部160に送られる。この音声符号化部160は、上述した図1、図3に示すような構成を有しており、この入力端子101に上記A/D変換器163からのディジタル信号が入力される。音声符号化部160では、上記図1、図3と共に説明したような符号化処理が行われ、図1、図2の各出力端子からの出力信号は、音声符号化部160の出力信号として、伝送路符号化部164に送られる。伝送路符号化部164では、いわゆるチャネルコーディング処理が施され、その出力信号が変調回路165に送られて変調され、D/A(ディジタル/アナログ)変換器166、RFアンプ167を介して、アンテナ168に送られる。
【0143】
また、図16は、上記図2、図4に示したような構成を有する音声復号化部260を用いて成る携帯端末の受信側構成を示している。この図16のアンテナ261で受信された音声信号は、RFアンプ262で増幅され、A/D(アナログ/ディジタル)変換器263を介して、復調回路264に送られ、復調信号が伝送路復号化部265に送られる。264からの出力信号は、上記図2、図4に示すような構成を有する音声復号化部260に送られる。音声復号化部260では、上記図2、図4と共に説明したような復号化処理が施され、図2、図4の出力端子201からの出力信号が、音声復号化部260からの信号としてD/A(ディジタル/アナログ)変換器266に送られる。このD/A変換器266からのアナログ音声信号がスピーカ268に送られる。
【0144】
なお、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図1、図3の音声分析側(エンコード側)の構成や、図2、図4の音声合成側(デコード側)の構成については、各部をハードウェア的に記載しているが、いわゆるDSP(ディジタル信号プロセッサ)等を用いてソフトウェアプログラムにより実現することも可能である。また、デコーダ側の合成フィルタ236、237や、ポストフィルタ238v、238uは、図4のように有声音用と無声音用とで分離しなくとも、有声音及び無声音の共用のLPC合成フィルタやポストフィルタを用いるようにしてもよい。さらに、本発明の適用範囲は、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【0145】
【発明の効果】
以上説明したように、本発明の音声符号化方法、音声復号化方法および装置によれば、エンコーダ側で入力音声信号のピッチ強度を検出し、そのピッチ強度に応じたピッチ強度情報をデコーダ側に送信し、デコーダ側ではそのピッチ強度情報に応じてノイズ付加の程度加減を可変とすることにより、有声音部分の再生音声が鼻づまり感のある、いわゆるバジーな音声にならず、自然な再生音声を得ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声符号化方法の実施の形態が適用される音声符号化装置の基本構成を示すブロック図である。
【図2】本発明に係る音声復号化方法の実施の形態が適用される音声復号化装置の基本構成を示すブロック図である。
【図3】本発明の実施の形態となる音声符号化装置のより具体的な構成を示すブロック図である。
【図4】本発明の実施の形態となる音声復号化装置のより具体的な構成を示すブロック図である。
【図5】ピッチ強度情報probVを生成する手順を示すフローチャートである。
【図6】10次のLPC分析により得られたαパラメータに基づく10次のLSP(線スペクトル対)を示す図である。
【図7】UV(無声音)フレームからV(有声音)フレームへのゲイン変化の様子を説明するための図である。
【図8】フレーム毎に合成されるスペクトルや波形の補間処理を説明するための図である。
【図9】V(有声音)フレームとUV(無声音)フレームとの接続部でのオーバーラップを説明するための図である。
【図10】有声音合成の際のノイズ加算処理を説明するための図である。
【図11】有声音合成の際に加算されるノイズの振幅計算の例を示す図である。
【図12】ポストフィルタの構成例を示す図である。
【図13】ポストフィルタのフィルタ係数更新周期とゲイン更新周期とを説明するための図である。
【図14】ポストフィルタのゲイン、フィルタ係数のフレーム境界部分でのつなぎ処理を説明するための図である。
【図15】本発明の実施の形態となる音声信号符号化装置が用いられる携帯端末の送信側構成を示すブロック図である。
【図16】本発明の実施の形態となる音声信号復号化装置が用いられる携帯端末の受信側構成を示すブロック図である。
【符号の説明】
110 第1の符号化部、111 LPC逆フィルタ、113 LPC分析・量子化部、114 サイン波分析符号化部、115 V/UV判定及びピッチ強度情報生成部、120 第2の符号化部、121 雑音符号帳、122 重み付き合成フィルタ、123 減算器、124 距離計算回路、125 聴覚重み付けフィルタ
Claims (5)
- 入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化方法であって、
入力音声信号の有声音部分の全帯域におけるピッチ強度に基づくパラメータであるピッチ強度情報に基づいてノイズ成分をサイン波合成波形の高域側に付加する工程を有し、
上記サイン波合成波形に付加するノイズ成分のレベルおよび帯域幅は、上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御されること
を特徴とする音声復号化方法。 - 上記サイン波合成波形に付加するノイズ成分のレベルに応じて、上記サイン波合成される有声音のためにハーモニクス振幅も制御されることを特徴とする請求項1記載の音声復号化方法。
- 上記符号化音声信号の無声音部分に対して符号励起線形予測復号化方法による音声復号化が施されることを特徴とする請求項1記載の音声復号化方法。
- 上記符号化音声信号の有声音と判断された部分に対して上記サイン波合成復号化を行い、
上記入力音声信号の無声音と判断された部分に対して符号励起線形予測復号化を行うこと
を特徴とする請求項1記載の音声復号化方法。 - 入力音声信号に対してサイン波分析符号化を施して得られた符号化音声信号を復号化する音声復号化装置であって、
サイン波合成波形の高域側に付加するノイズ成分のレベルと帯域幅を上記ピッチ強度情報に基づいて、ノイジーでなくバジーでもない自然な再生有声音を得るレベルおよび帯域幅に制御する手段と、
有声音/無声音判定結果に基づいて上記入力音声信号の有声音と判断された部分に対して上記サイン波合成復号化を行う手段と、
上記入力音声信号の無声音と判断された部分に対して符号励起線形予測復号化を行う手段と
を有することを特徴とする音声復号化装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25066396A JP4040126B2 (ja) | 1996-09-20 | 1996-09-20 | 音声復号化方法および装置 |
US08/925,182 US6047253A (en) | 1996-09-20 | 1997-09-08 | Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal |
IDP973189A ID18305A (id) | 1996-09-20 | 1997-09-15 | Aparat dan metode penulisan kode percakapan dan aparat dan metode penterjemahan kode percakapan |
KR1019970047832A KR100526829B1 (ko) | 1996-09-20 | 1997-09-19 | 음성부호화방법및장치음성복호화방법및장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25066396A JP4040126B2 (ja) | 1996-09-20 | 1996-09-20 | 音声復号化方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1097296A JPH1097296A (ja) | 1998-04-14 |
JP4040126B2 true JP4040126B2 (ja) | 2008-01-30 |
Family
ID=17211203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25066396A Expired - Lifetime JP4040126B2 (ja) | 1996-09-20 | 1996-09-20 | 音声復号化方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6047253A (ja) |
JP (1) | JP4040126B2 (ja) |
KR (1) | KR100526829B1 (ja) |
ID (1) | ID18305A (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
JP4063508B2 (ja) * | 2001-07-04 | 2008-03-19 | 日本電気株式会社 | ビットレート変換装置およびビットレート変換方法 |
US6985857B2 (en) * | 2001-09-27 | 2006-01-10 | Motorola, Inc. | Method and apparatus for speech coding using training and quantizing |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
JP2003280691A (ja) | 2002-03-19 | 2003-10-02 | Sanyo Electric Co Ltd | 音声処理方法および音声処理装置 |
DE60305944T2 (de) * | 2002-09-17 | 2007-02-01 | Koninklijke Philips Electronics N.V. | Verfahren zur synthese eines stationären klangsignals |
US8086448B1 (en) * | 2003-06-24 | 2011-12-27 | Creative Technology Ltd | Dynamic modification of a high-order perceptual attribute of an audio signal |
KR100640865B1 (ko) | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 품질 향상 방법 및 장치 |
KR100744352B1 (ko) * | 2005-08-01 | 2007-07-30 | 삼성전자주식회사 | 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치 |
KR100735343B1 (ko) | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
KR100827153B1 (ko) | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
KR100794140B1 (ko) * | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
US8726125B1 (en) * | 2007-06-06 | 2014-05-13 | Nvidia Corporation | Reducing interpolation error |
US8725504B1 (en) | 2007-06-06 | 2014-05-13 | Nvidia Corporation | Inverse quantization in audio decoding |
US8934539B2 (en) * | 2007-12-03 | 2015-01-13 | Nvidia Corporation | Vector processor acceleration for media quantization |
KR101547344B1 (ko) | 2008-10-31 | 2015-08-27 | 삼성전자 주식회사 | 음성복원장치 및 그 방법 |
US8798992B2 (en) * | 2010-05-19 | 2014-08-05 | Disney Enterprises, Inc. | Audio noise modification for event broadcasting |
EP2737479B1 (en) * | 2011-07-29 | 2017-01-18 | Dts Llc | Adaptive voice intelligibility enhancement |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058676A (en) * | 1975-07-07 | 1977-11-15 | International Communication Sciences | Speech analysis and synthesis system |
US4890328A (en) * | 1985-08-28 | 1989-12-26 | American Telephone And Telegraph Company | Voice synthesis utilizing multi-level filter excitation |
US5060269A (en) * | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
JPH0612098A (ja) * | 1992-03-16 | 1994-01-21 | Sanyo Electric Co Ltd | 音声符号化装置 |
JP3475446B2 (ja) * | 1993-07-27 | 2003-12-08 | ソニー株式会社 | 符号化方法 |
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
KR0155798B1 (ko) * | 1995-01-27 | 1998-12-15 | 김광호 | 음성신호 부호화 및 복호화 방법 |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
JP4005154B2 (ja) * | 1995-10-26 | 2007-11-07 | ソニー株式会社 | 音声復号化方法及び装置 |
JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
-
1996
- 1996-09-20 JP JP25066396A patent/JP4040126B2/ja not_active Expired - Lifetime
-
1997
- 1997-09-08 US US08/925,182 patent/US6047253A/en not_active Expired - Lifetime
- 1997-09-15 ID IDP973189A patent/ID18305A/id unknown
- 1997-09-19 KR KR1019970047832A patent/KR100526829B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US6047253A (en) | 2000-04-04 |
KR19980024790A (ko) | 1998-07-06 |
ID18305A (id) | 1998-03-26 |
KR100526829B1 (ko) | 2006-01-27 |
JPH1097296A (ja) | 1998-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
JP3707116B2 (ja) | 音声復号化方法及び装置 | |
JP4132109B2 (ja) | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US6182030B1 (en) | Enhanced coding to improve coded communication signals | |
RU2262748C2 (ru) | Многорежимное устройство кодирования | |
RU2255380C2 (ru) | Способ и устройство воспроизведения речевых сигналов и способ их передачи | |
JP3481390B2 (ja) | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 | |
JP4121578B2 (ja) | 音声分析方法、音声符号化方法および装置 | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
JPH1091194A (ja) | 音声復号化方法及び装置 | |
EP0843302B1 (en) | Voice coder using sinusoidal analysis and pitch control | |
US20130246055A1 (en) | System and Method for Post Excitation Enhancement for Low Bit Rate Speech Coding | |
JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
JPH10105194A (ja) | ピッチ検出方法、音声信号符号化方法および装置 | |
US6012023A (en) | Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal | |
JP3785363B2 (ja) | 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法 | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
JP3468862B2 (ja) | 音声符号化装置 | |
KR100421816B1 (ko) | 음성복호화방법 및 휴대용 단말장치 | |
JP3896654B2 (ja) | 音声信号区間検出方法及び装置 | |
Farsi | Advanced Pre-and-post processing techniques for speech coding | |
EP1164577A2 (en) | Method and apparatus for reproducing speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050930 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071107 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131116 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |