JP3583945B2 - Audio coding method - Google Patents
Audio coding method Download PDFInfo
- Publication number
- JP3583945B2 JP3583945B2 JP10816199A JP10816199A JP3583945B2 JP 3583945 B2 JP3583945 B2 JP 3583945B2 JP 10816199 A JP10816199 A JP 10816199A JP 10816199 A JP10816199 A JP 10816199A JP 3583945 B2 JP3583945 B2 JP 3583945B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- waveform
- signal
- code
- pitch period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、音声の信号系列を少ない情報量でディジタル符号化する高能率音声符号化方法、特に、従来ボコーダと呼ばれる音声分析合成系の領域である2.4kbit/s以下のビットレートで高品質な音声符号化を実現する符号化方法に関する。
【0002】
【従来の技術】
この発明に関連する従来技術としては、線形予測ボコーダ、符号励振予測符号化法(CELP:Code Excited Linear Prediction)、混合領域符号化法(Mixed Domain Coding)、代表波形補間符号化法(Prototype Waveform Interpolation)がある。
【0003】
線形予測ボコーダは、4.8kbit/s以下の低ビットレート領域における音声符号化方法としてこれまで広く用いられ、PARCOR方式や、線スペクトル対(LSP)方式などの方式がある。これらの方法の詳細は、たとえば斎藤、中田著「音声情報処理の基礎」(オーム社出版)に記載されている。線形予測ボコーダは、音声のスペクトル包絡特性をあらわす全極型のフィルタと、それを駆動する励振信号によって構成される。励振信号には、有声音に対してはピッチ周期パルス列、無声音に対しては白色雑音が用いられる。線形予測ボコーダにおいて、周期パルス列や白色雑音による励振信号では音声波形の特徴を再現するには不十分なため、自然性の高い合成音声を得ることは困難である。
【0004】
一方、符号励振予測符号化では、雑音系列を励振信号として音声の近接相関とピッチ相関特性をあらわす2つの全極型フィルタを駆動することにより音声を合成する。雑音系列は複数個の符号パターンとしてあらかじめ用意され、その中から、入力音声波形と合成音声波形との誤差を最小にするコードパターンが選択される。その詳細は、文献Schroeder:“Code Excited Linear Prediction (CELP) High QualitySpeech at Very Low Bit Rates”Proc.IEEE.ICASSP,pp937−940,1985に記載されている。符号励振予測符号化では、再現精度は符号パターンの数に依存する関係にある。したがって、多くの系列パターンを用意すれば音声波形の再現精度が高まり、それにともなって品質を高めることが出来る。しかし、音声符号化のビットレートを4kbit/s以下にすると、符号パターンの数が制限され、その結果十分な音声品質が得られなくなる。良好な音声品質を得るには4.8kbit/s程度の情報量が必要であるとされている。
【0005】
また、混合領域符号化法(Mixed Domain Coding)では、有声音でフレーム毎に残差波形よりピッチ周期分の波形が抽出され、前のピッチ周期分の波形との差分が時間領域で量子化される。復号器では周波数領域でこれらの波形の線形補間を行うことによって励振信号を生成し、全極フィルタを駆動して音声を合成する。無声音では符号励振予測符号化と同様な方法で符号化を行う。この方式の詳細は、文献De Martin等“Mixed DomainCoding of Speech at 3kb/s”Proc.IEEE.ICASSP,PPII/216−170,1996に記載されている。この方法の特徴としては、差分を求める際に、前ピッチ周期波形は、現在のフレームの波形に長さが正規化されることが挙げられる。この差分の量子化には、パルス符号帳と雑音符号帳を用いるが、3.5kbit/s程度の情報量が必要とされている。
【0006】
また、代表波形補間符号化法(Prototype Waveform Interpolation Coder)では、プロトタイプ波形(Prototype Waveform)の線形補間を行って合成した励振信号で全極フィルタを駆動することにより音声を合成する。この詳細は、文献Kleijn W.B.“Encoding Speech Using Prototype Waveforms”IEEE Trans.on Speech AudioProcessing,Vol.1,pp386−399 1993に記載されている。プロトタイプ波形は、一定周期で残差波形より抽出され、フーリエ変換された後に符号化される。この方式では良好な品質を得るには3.4kbit/s程度の情報量が必要であるとされている。
【0007】
雑音系列やピッチパルス列を励振信号として用いる線形予測符号化に関して、より能率的な音声波形の量子化を実現するため特開平10−232697「音声符号化方法および復号化方法」を提案した。この提案した方法は入力音声のピッチ周期を推定し、残差信号の周期的な部分で推定されたピッチ周期分の波形を抽出し、そのピッチ周期分の波形との波形歪みが最小になるように符号ベクトルをピッチ長で打ち切ったものより決定する。ここで、入力ピッチ周期波形に、合成フィルタのインパルス応答を畳み込んだベクトルと、符号ベクトルをピッチ長で打ち切ったものに同様に畳み込んだベクトルとの距離計算をすることにより符号を選択する。
【0008】
この方法によっていまだ必ずしも、十分効率的な符号化が行えるとは云えなかった。特に少ないビット数では量子化効率が悪かった。
【0009】
【発明が解決しようとする課題】
この発明の課題は、雑音系列やピッチパルス列を励振信号として用いる線形予測符号化方法において、電話音声などのように入力信号の周波数帯域が制限されている場合に、より能率的な符号化を実現する方法を提供することにある。
【0010】
【課題を解決するための手段】
この発明は特開平10−232697に示す符号化方法を前提とし、この発明においては目標残差ベクトルに対し、ピッチ周期で周期化すると共に、合成フィルタ処理を行って目標波形ベクトルを求め、また選択した符号ベクトルに対しピッチ周期で周期化すると共に合成フィルタ処理を行って合成波形ベクトルを求める。
【0011】
【発明の実施の形態】
実施例1
図1にこの発明の量子化方法を適用した符号化器の機能構成を示す。符号化器は、以下の手順をNサンプル数の長さをもつフレームごとに1回行う。フレームiにおいて、入力端子1よりの入力音声信号S(t)のp次の線形予測係数(LPC)aj (j=0,1,…,p−1)を線形予測係数計算部2で計算する。この線形予測係数は線形予測係数量子化部3で量子化され、線形予測係数符号I1 として送出される。線形予測係数の量子化の詳細については「音声の線形予測パラメータ符号化方法」(特願平3−180819)に記載されている。線形予測係数量子化部3よりの線形予測係数符号I1 は復号され、その逆量子化された線形予測係数に基づいて、線形予測逆フィルタ4のフィルタ係数を定め、この逆フィルタ4に入力音声信号S(t)を通して残差信号r′(t)を得る。逆フィルタ4は次の伝達特性を持つデジタルフィルタA(z)で実現される。
【0012】
A(z)=1+a1 z−1+…+ap z−p (1)
ここで得られた残差信号の相関(偏相関関数)ρを相関計算部5で計算し、その相関ρの最大値ρmax の遅れ(間隔)をピッチ周期抽出部6で推定ピッチ周期pi とする。このとき、周期性判定部7で入力音声信号S(t)が有声部であるか無声部であるかを、例えば以下の様にしきい値θ(0.5〜1.0)で判別する。
【0013】
┌ k1 /2+ρmax >θ;有声部
└ k1 /2+ρmax <θ;無声部 (2)
ここで、k1 は線形予測係数計算部2で求まる第1次の偏自己相関(PARCOR)係数である。
周期性判定部7が無声部と判断すると、残差信号r′(t)を無声部量子化部8で量子化する。無声部量子化部8では、例えば、フレームをS分割し、Nsub (=N/S)サンプル数をサブフレームとし、そのサブフレーム中の逆フィルタ4よりの残差波形r′(t)の平均パワーを計算し、その平均パワーの1フレーム分をベクトル量子化して無声部符号I2 として出力する。
【0014】
周期性判定部7が有声部と判断した場合は残差切り出し部9により推定ピッチ周期pi を用いて、逆フィルタ4からの残差信号r′(t)におけるフレームの中央付近からpi の長さの波形を切り出す。
次に、この残差波形とパルス信号との相関が大きくなるまで、残差波形をPW整列部10で巡回させる。ここで、パルス信号との相関が大きくなるように巡回された1周期波形分の残差波形rp をPW(ピッチ周期波形)と呼ぶ。推定ピッチ周期pi はピッチ周期量子化部11で四捨五入によって整数値に量子化され、ピッチ周期符号I3 として出力される。
【0015】
PW整列部10からのPWはPW量子化部12でベクトル量子化される。PW量子化部12は例えば図2Aに示すように、図1中の線形予測係数量子化部3よりの逆量子化された線形予測係数によりフィルタ係数が定められた線形予測合成フィルタ14にインパルス信号が通されて、インパルス応答hj が求められる。図1中のPW整列部10よりのPWがピッチ周期化フィルタ15でピッチ周期化行列と掛け合わされ、このフィルタ15の出力PWに畳み込みフィルタ16でインパルス応答hj に基づくインパルス応答行列Hが畳み込まれて音声信号(目標波形ベクトル)xが再生される。一方、PW符号帳17から選択された符号ベクトルc i 0 に対して、利得符号帳18より取出された利得gk 0 が与えられ、この利得が与えられた符号ベクトルを、その先頭から、図1中のピッチ周期抽出部6で抽出されたピッチ周期長だけ符号切り出し部19で切り出され、この切り出された符号ベクトルに対し、xと同様にピッチ周期フィルタ21でピッチ周期化行列と掛け合わせ、そのフィルタ出力に畳み込みフィルタ22でインパルス応答行列Hが畳み込まれ、合成音声信号(合成波形ベクトル)が得られる。この合成音声信号の再生音声信号xに対する誤差が引き算部23でとられ、その二乗誤差が最小になるように、PW符号帳17の符号ベクトルc i 0 の選択と、利得符号帳18の利得gk 0 の選択とが歪み計算部24で行われる。
【0016】
なお、PW符号帳17の各符号ベクトルの長さnは検出されるピッチ長pi よりも十分長くとる必要がある(n:n>pmax )。ここで、各符号ベクトルのピークの位相は均一とされている。図1中のPW整列部10で用いたパルス信号はベクトル長がnであり、位相はPW符号帳17の符号ベクトルのピークと一致させてある。
【0017】
図2Aで説明したようにPW符号は、符号ベクトルを励振信号として合成した波形(合成波形ベクトル)と、PWを励振信号として合成した波形(目標波形ベクトル)との聴覚重み付け平均二乗誤差が最小になるように決定される。この歪み尺度Dの距離計算には以下の(3)式を用いる。
D=‖x−gk o HPc i o ‖2 (3)
ここで、xはターゲット(PWを励振信号として合成した波形)、Hは量子化された線形予測係数a′i を用いた合成フィルタ14のインパルス応答をあらわす行列、Pはピッチ周期化を表すベクトル(周期化行列)、c 0 は符号ベクトル、g0 は符号ベクトルの利得をあらわす。
【0018】
ターゲットxは以下の(4)式を用いて、PWr p に、ピッチ周期化フィルタ15を表わすベクトルPを掛け合わせたものに、合成フィルタ16で畳み込み演算を行ったものによりあらかじめ計算する。
x=HPr p (4)
ここで、r p は量子化前の原PWをベクトル表示にしたものである。
【0019】
従来のCELP符号化では、Hにはフレーム長がNの場合通常下三角の(N×N)の正方行列を用いるが、ここではピッチ長の正方行列(pi ×pi )を下側に(m−pi )行分、右側に(n−pi )列分拡張した(m×n)の非正方行列を用いる。ここで、m>pi ,n>pi である。Hには、聴覚重み付けを行った線形予測フィルタのインパルス応答hj (j=0,1,…)を用いる。
【0020】
【数1】
このとき、hj (j=0,1,…)の計算に用いる線形予測合成フィルタ14は、以下の伝達特性H′(z)をもつデジタルフィルタで実現される。
聴覚重み付けの伝達特性は、次のように表される。
【0021】
W(z)=A(z/γ1 )/A(z/γ2 ) (7)
ここで、γ1 とγ2 は聴覚重み付けの程度を制御するパラメータであり、0<γ2 <γ1 <1の値を取る。図2A中の畳み込みフィルタ16,22での畳み込み演算に用いる行列Hはインパルス応答hより、先に述べた拡張された(m×n)の行列を用いる。
【0022】
また、Pは以下のような(n×pi )の行列を用いて表現する。
【0023】
【数2】
このように行列Pは対角要素が1である正方行列を行方向に繰返す(この例ではn=2pi )ものであるから、このpと波形を掛算すると波形がn/pi だけ繰返されることになる。ピッチ周期化フィルタ15の出力はPWがn/pi 回繰返されたものとなり、ピッチ周期化フィルタ14の出力は切り出された符号ベクトルがn/pi 回繰返されたものとなる。
【0024】
このようにHとPによる拡張のため、式(4)の演算で得られるターゲットxも
と次数はmとなる。ここでxj (pi <j<m−1)は線形予測合成フィルタ14の自由応答分に対応する成分で線形予測フィルタ14の零入力初期値応答である。
【0025】
なおhの長さを非常に短い長さで打ち切って(例えば10サンプル程度)、Hを構成すればさほど品質劣化を伴わずに、演算量が低減する方法を用いても良い。このとき、インパルス応答hをt次で打ち切った時のH行列は、以下のような(m×n)の行列となる。
【0026】
【数3】
なお、逆量子化線形予測係数a′j を用いて線形予測逆フィルタ4の係数およびPW量子化部12の合成フィルタ14の係数を決めるが、双方に量子化していない線形予測係数aj を用いてH(z)を構成してもH′(z)を用いた時と同程度の品質が得られる。
【0027】
PW符号c0 の選択では、PW符号帳17の中から(3)式が最小となるように、符号ベクトルc i 0 を選択し、その理想利得gi 0 を計算する。実際にこの選択計算には次の等価な手法を用いる。まず、PW符号帳17の全ての符号ベクトルc i 0 について式(11)を計算し、D′0 値が最大となる符号ベクトルc i 0 を選択する。x T はxの転置行列を表わす。
【0028】
D′0 =(x T HPc i 0 )2 /‖HPc i 0 ‖2 (11)
選択された符号ベクトルの理想利得gi 0 の計算は、(12)式を用いて行う。
gi 0 =x T HPc i 0 /‖HPc i 0 ‖2 (12)
次に、利得gi 0 をスカラー量子化する。これら選択した符号ベクトルの符号、選択した利得の符号をPW符号I4 として出力し、更に、周期判定部7よりそのフレームが有声部か無声部かを示す周期性符号I5 を出力する。符号I1 〜I5 がマルチプレクサ13でまとめられ、伝送路又は蓄積部へ出力される。
【0029】
以上のように1フレームは例えば25msecとされ、そのうちから1ピッチ周期分の残差波形(信号)が取り出され、つまり1フレーム中の例えば数分の1の部分しか取り出されていない。一方合成フィルタ14は入力を零として駆動しても、その直前の状態に応じた出力、いわゆる零入力応答が存在する。そのため、CELP符号化においては、零入力応答を入力波形から差し引いたものをターゲットとしている。しかしこの発明では1フレーム中の一部のみを用いて符号化するため、合成フィルタ14のインパルス応答行列をCELP符号化よりも零応答に対応する分拡張して、1ピッチ周期分の波形を零入力応答(自由応答)を含めて、これに近い符号ベクトルの選択を行う。
【0030】
以上のように波形情報については1フレーム中の1ピッチ周期分しか符号化していないため、それだけ少ないビット数で表現でき、又ピーク位置を正規化(一定位相)としているため、この点に置いても符号化ビット数を少なくすることができる。
PWは残差信号の1ピッチ周期であるから、その波形はインパルス波形に近いものであって、その周波数スペクトルは図6中の破線で示すようにほぼ平坦なものとなる。このPWに対してピッチ周期で周期化したものは、図6中の実線で示すようにスペクトルの強弱が繰返されたものとなる。ピッチ周期長で切り出した符号ベクトルをピッチ周期で周期化したものは図6中の実線のような凹凸が繰返されるスペクトラムとなる。従ってこれら周期化されたPWと符号ベクトルとを比較して量子化を行うため、パワースペクトルが大きい部分が重み付けされて(重点的に)距離計算がなされ、効率的な量子化が行える。
【0031】
図2A中の線形予測合成フィルタ14、畳み込みフィルタ16,22を省略して代りに図7Aに示すように量子化線形予測係数でフィルタ係数が決められる合成フィルタ25,26を用いてもよい。また図7Bに示すように、ピッチ周期化フィルタ15のピッチ周期化行列と合成フィルタ25(又は畳み込みフィルタ16)のインパルス応答行列Hとを掛けた特性をもつフィルタ27,28を用いてもよい。ピッチ周期化フィルタ21と畳み込みフィルタ22又は合成フィルタ26も同様に1つのフィルタとして用いることもできる。
【0032】
次に図1に示した符号化方法の実施例と対応した、この発明の復号化方法の実施例を適用した復号器を図3に示す。この復号器は特開平10−232697に示したものと同一である。ここでは、入力端子31に入力された符号I1 〜I5 はデマルチプレクサ32で全ての符号が分離復号された後、無声・有声(PM)符号I2 ,I4 によって励振信号を生成する。周期性符号I5 が無声部の場合は、無声部符号I2 を無声部復号部41で励振信号を再生する。無声部復号部41では白色雑音生成部よりの白色雑音に、無声部符号I2 の復号パワー符号を利得計算処理して無声部の合成残差波形を生成する。つまりNサンプルの白色雑音を生成し、各々のサブフレーム(Nsub 長)中の平均パワーを、復号された対応するサブフレームの平均パワーと一致するように利得を計算して乗じたものを励振信号とする。
【0033】
周期性符号I5 が有声部を示す場合は、図3においてPW符号I4 をPW復号部33で式(13)に示すように、符号ベクトルc i に利得gi を乗じて、PW波形r i を復号する。
r i =gi 0 c i 0 (13)
図に示していないが、図2A中のPW符号帳17、利得符号帳18と同一のものを備え、符号ベクトルc i 1 がPW符号帳の符号ベクトルの先頭からピッチ周期長pi だけ符号ベクトル切り出し部34で切り出される。
【0034】
次に、この復号PW波形r i と前PWバッファ35の内容r i−1 との間の線形補間を線形補間部36で行い、中間のPW波形r intmを得る。この線形補間には、例えば式(14)を用いる。
r intm(j) =(1−α)r i−1(j)+αr i (j) (14)
(j=0,1,…,p−1;0<α<1)
ここで、αは、波形がNサンプル長のフレーム中のどの位置にあるかを表す値、pは前後のピッチ(pi もしくはpi−1 )の長い方のサンプル数、r i−1 はr i のひとつ前のPWベクトルで、r intmは補間されて出来たベクトルをあ
らわす。短いピッチ長のベクトルの余りの部分は零詰めされ、長い方とベクトル長を一致させた後に補間を行う。
【0035】
つまり、復号化側では残差波形は各フレーム中の1ピッチ周期分しか切り出されていない。従って、現フレームで切り出された波形と、前フレームで切り出された波形との間には本来は、1ピッチ周期から数ピッチ周期分の波形が存在する。この本来は存在すべき波形を前フレームの復号PW波形r i−1 と現フレームの復号PW波形r i とで線形補間する。この補間される波形が、前フレームの切り出された波形と現フレームの切り出された波形との間に補間されるべき波形の何番目かに応じてαが決定される。ピッチ周期符号I3 はピッチ周期復号部37で復号され、その復号ピッチ周期とフレーム長とから補間する波形数が決められる。
【0036】
また、復号ピッチ周期と前ピッチ周期バッファ38の内容とにより、前フレームの切り出し波形のピッチ周期と、現フレームの切り出し波形のピッチ周期との間の各ピッチ周期をピッチ補間部39で線形補間して求め、その補間ピッチ周期を用いて、線形補間部36で求めた中間PW波形を残差信号合成部39で順次つなぎ、これを励振信号とする。
【0037】
ここで、補間の際にPWの長さをサンプリング変換により正規化して前後のベクトルを同一の長さ(Nサンプル)にして式(14)と同様に以下の式(15)に基づいて2つのベクトルの線形補間を行うことも可能である。
S intm(j) =(1−α)S i−1(j)+αS i (j) (15)
(j=0,1,…,N;0<α<1)
ここで、αは、波形がNサンプル長のフレーム中のどの位置にあるかを表す値、Nは正規化ベクトル長、S i−1 はr i のひとつ前のPWベクトルを、S i はr i のPWベクトルを、それぞれ正規化したもので、S intmは補間されて出来た正規化ベクトルをあらわす。このS intmは、サンプリング変換によって上記と同様に補間されたピッチ周期長に直してから順次つながれる。
【0038】
周期性信号I5 が無声部を示す時は無声部復号部41からの合成励振信号を、I5 が有声部を示す時は残差信号合成部39からの合成励振信号を用いて線形予測合成フィルタ42を駆動し、出力音声を出力端子43に得る。ここで、線形予測係数符号I1 を線形予測係数復号部44で復号し、この線形予測係数についても前係数バッファ45の内容を用いて前フレーム中の1ピッチ周期分の線形予測係数と現フレーム中の1ピッチ周期分の線形予測係数との間を線形予測係数補間部46で式(14)と同様に線形補間を行い、合成フィルタ42の係数を決定する。なお一般的に線形予測係数の補間はLSP領域で行う。
実施例2
図1中のPW量子化部12で多段量子化する場合の実施例のPW量子化部を図4に示す。図4において、図2Aと対応する部分に同一符号をつけてあり、この例は2段量子化の場合で、新たにPW符号帳51が設けられ、このPW符号帳51より選択した符号ベクトルc j 1 に対し、利得符号帳52から選択された利得gk 1 が与えられ、これが符号切り出し部53でピッチ周期長pi だけ先頭から切り出されてピッチ周期化フィルタ54、畳み込みフィルタ55に順次与えられる。これにより利得が与えられた符号ベクトルの切り出されたものに対しピッチ周期化行列Pとインパルス応答Hが畳み込まれて合成波形が得られ、この合成波形は、引き算部23よりの誤差信号から引き算部56で差し引かれ、その残りが歪み計算部57に与えられ、歪み計算部57は引き算部56の出力の二乗が最小になるようにPW符号帳51の符号ベクトルc j 1 の選択と利得符号帳52の利得gk 1 の選択とが行われる。この場合も全体として、符号ベクトルを励振信号として合成した波形と、PW波形を励振信号として合成した波形との聴覚重みつき平均二乗誤差が最小になるように符号ベクトルc i 0 ,c j 1 、利得gk 0 ,gk 1 が決定される。この歪み尺度の距離計算には式(16)を用いる。
【0039】
D=‖x−gk 0 HPc i 0 −gk 1 HPc j 1 ‖2 (16)
ここで、xは(4)式で求めたターゲット、Hは量子化された線形予測係数a′i を用いた合成フィルタのインパルス応答をあわらす行列、Pはピッチ周期化をあらわす行列、c 0 およびc 1 は符号ベクトル、そしてg0 ,g1 はそれぞれの符号ベクトルの利得をあらわす。
【0040】
まず、図4について説明したとおりに1段目のc 0 とその理想利得gi 0 を定める。次に、PW符号帳51の中から、(16)式が最小となるような符号ベクトルc j 1 を選択し、その理想利得gj 1 を計算し、c i 0 の理想利得であるgi 0 を再計算する。これは、符号ベクトルc i 0 ,c i 1 のベクトル直交化を行い符号化を行う。このベクトル直交化に基づくベクトル量子化の詳細については、「励振信号直交化音声符号化法」(特開平7−253795)に記載されている。
【0041】
選択には、以下の式(17)のD′1 値が最大となる符号ベクトルc i 1 を閉ループで選択する。
【0042】
【数4】
選択された符号ベクトルの理想利得gj 1 の計算は、式(18)を用いて行う。
【0043】
【数5】
また、理想利得gi 0 は式(19)を用いて再計算を行う。
【0044】
【数6】
以上の手続きで、符号ベクトルの選択は終了しているため、(16)式が最小となるような(gk 0 ,gk 1 )を選択する。
この場合におけるPWの復号には以下の(20)式を用いる。
r i =gi 0 c i 0 +gi 1 c i 1 (20)
上述において、PW符号帳には図5に示すような適応符号帳(a)、固定(雑音)符号帳(b)、パルス符号帳(c)のいずれを用いることも可能である。適応符号帳(a)は過去の残差波形であり、例えば図2A中の符号切り出し部19の出力が用いられる。パルス符号帳(c)は規則によりその都度パルスを生成することができるものである。
実施例3
図1中のPW量子化器12として共役構造の符号帳(2つ)を用いて量子化する場合の実施例を図2Bにあらわし、図2Aと対応する部分に同一符号をつけてある。図2Aと比較すると、PW符号帳61が更に設けられる。このPW符号帳61の各符号ベクトルおよびPW符号帳17の符号ベクトルは互いに共役構造を持つもの、つまり互いに直交関係にあるものが選択される。PW符号帳17,61から選択された各符号ベクトルは、利得符号帳18から選択された利得が与えられ、この利得が与えられた両符号ベクトルが加算部62で加算され、励振信号としてピッチ周期化フィルタ21、合成フィルタ22に順次与えられる。この符号ベクトルを励振信号として合成した波形と、PW波形を励振信号として合成した波形との聴覚重み付き平均二乗誤差が最小になるようにPW符号帳17,61の各符号ベクトルとその利得が決定される。この歪み尺度の距離計算には、実施例2と同様に式(16)を用いる。この共役構造の符号帳を用いる符号化方法の詳細については「多重ベクトル量子化方法およびその装置」(特願昭63−249450)に記載されている。
【0045】
この場合も、符号帳には図5に示すような適応符号帳、固定符号帳、パルス符号帳といったものを用いることが可能である。上述において、複数の符号帳を用いる場合は、図5に示した複数種類の符号帳から、例えば適応符号帳と、固定符号帳というように組み合わせて用いても良い。
多段ベクトル量子化や、共役構造ベクトル量子化に対する図3中のPW復号部33は、入力符号ベクトル数と対応する符号帳を用意しておき、これら符号帳からそれぞれ入力PW符号I4 に応じた符号ベクトルをそれぞれ取り出し、かつそれらに対して、入力PW符号I4 中の利得符号により利得符号帳から得た各対応する利得をそれぞれ与えればよい。このようにして復号されたPWベクトルを加算して、前フレームの加算PWベクトルと線形補間を行い順次つなぐことによって連続した信号として合成フィルタ42に供給する。
【0046】
【発明の効果】
以上説明したように、この発明の音声波形量子化方法によれば、PW符号ベクトルに対しピッチ周期化を行うために、ピッチの周期化による重み付けされた量子化がなされるため、ピッチ周期波形(PW)の量子化効率が向上する。また、ピッチ周期化の操作を全て実時間領域で行うことは、周波数領域で行うものよりも低い演算量で実現できる。
【0047】
この発明の音声波形量子化方法の効果を調べるために、以下の条件で分析合成音声実験を行った。入力音声としては、0−4kHz帯域の音声を標本化周波数8.0kHzで標本化した後に、電話機の特性と対応するIRS特性フィルタを通したものを用いた。符号化器は実施例2の構成のものを用いた。まず、この信号に25ms(200サンプル)毎に音声信号に分析窓長30msのハミング窓を乗じ、分析次数を12次として自己相関法による線形予測分析を行い、12個の予測係数を求める。予測係数はLSPパラメータのユークリッド距離を用いてベクトル量子化する。入力音声の状態が有声と判断された場合、得られるPWベクトルを2つの雑音符号c i 0 ,c j 1 を用いてベクトル量子化する。偏自己相関法で求めたピッチは整数値へと四捨五入を用いてスカラー量子化を行い、ピッチ周期化の値として用いる。
【0048】
上記の条件でピッチ周期化なしで量子化した音声波形と比べて、ピッチ周期化ありで量子化した音声波形の方が対雑音比が2dB以上も改善された。
【図面の簡単な説明】
【図1】この発明の符号化方法の実施例を適用した符号化器の機能構成例を示すブロック図。
【図2】Aは図1中のPW量子化部12の具体的機能構成例を示すブロック図、Bは共役構造ベクトル量子化した場合の機能構成例を示すブロック図である。
【図3】この発明により量子化された符号を復号する復号化方法を適用した復号化器の機能構成例を示すブロック図。
【図4】多段ベクトル量子化の場合のPW量子化部12の具体的機能構成例を示すブロック図。
【図5】この発明に用いる量子化法のため符号帳の例を示す図。
【図6】ピッチ周期化されていないPWのパワースペクトルと、ピッチ周期化されたPWのパワースペクトルを概念的に示す図。
【図7】PW量子化部の一部変形を示す図。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a high-efficiency speech coding method for digitally coding a speech signal sequence with a small amount of information. The present invention relates to an encoding method that realizes efficient speech encoding.
[0002]
[Prior art]
Related arts related to the present invention include a linear prediction vocoder, a code excited linear prediction (CELP), a mixed domain coding (Mixed Domain Coding), and a representative waveform interpolation coding (Prototype Waveform Interpolation). ).
[0003]
The linear prediction vocoder has been widely used as a speech coding method in a low bit rate region of 4.8 kbit / s or less, and includes a PARCOR method, a line spectrum pair (LSP) method, and the like. Details of these methods are described, for example, in Saito and Nakata, "Basics of Speech Information Processing" (Ohmsha Publishing). The linear predictive vocoder is composed of an all-pole filter that represents the spectral envelope characteristic of speech, and an excitation signal that drives the filter. As the excitation signal, a pitch cycle pulse train is used for voiced sounds, and white noise is used for unvoiced sounds. In a linear prediction vocoder, an excitation signal based on a periodic pulse train or white noise is not enough to reproduce the characteristics of a speech waveform, and thus it is difficult to obtain a synthesized speech with high naturalness.
[0004]
On the other hand, in code excitation predictive coding, speech is synthesized by using a noise sequence as an excitation signal to drive two all-pole filters that represent the close correlation and pitch correlation characteristics of speech. The noise sequence is prepared in advance as a plurality of code patterns, and a code pattern that minimizes an error between the input speech waveform and the synthesized speech waveform is selected from among them. The details thereof are described in the document Schroeder: “Code Excited Linear Prediction (CELP) High QualitySpeech at Very Low Bit Rates” Proc. IEEE. ICASSP, pp 937-940, 1985. In the code excitation predictive coding, the reproduction accuracy has a relationship depending on the number of code patterns. Therefore, if a large number of series patterns are prepared, the reproduction accuracy of the audio waveform is improved, and accordingly, the quality can be improved. However, if the bit rate of audio coding is set to 4 kbit / s or less, the number of code patterns is limited, and as a result, sufficient audio quality cannot be obtained. It is said that an amount of information of about 4.8 kbit / s is required to obtain good voice quality.
[0005]
In the Mixed Domain Coding method, a pitch-period waveform is extracted from a residual waveform for each frame of a voiced sound, and a difference from a previous pitch-period waveform is quantized in a time domain. You. The decoder generates an excitation signal by performing linear interpolation of these waveforms in the frequency domain, and drives an all-pole filter to synthesize speech. For unvoiced sound, encoding is performed in the same manner as in code excitation prediction encoding. Details of this method are described in De Martin, et al., “Mixed Domain Coding of Speech at 3 kb / s” Proc. IEEE. ICASSP, PPII / 216-170, 1996. A feature of this method is that when calculating the difference, the previous pitch period waveform is normalized in length to the waveform of the current frame. A pulse codebook and a noise codebook are used for quantization of the difference, but an information amount of about 3.5 kbit / s is required.
[0006]
In the representative waveform interpolation coding method (Prototype Waveform Interpolation Coder), voice is synthesized by driving an all-pole filter with an excitation signal synthesized by performing linear interpolation of a prototype waveform (Prototype Waveform). Details of this can be found in the document Kleijn W. B. "Encoding Speech Using Prototype Waveforms," IEEE Trans. on Speech AudioProcessing, Vol. 1, pp 386-399 1993. The prototype waveform is extracted from the residual waveform at a constant cycle, and is encoded after being subjected to Fourier transform. According to this method, an amount of information of about 3.4 kbit / s is required to obtain good quality.
[0007]
For linear predictive coding using a noise sequence or a pitch pulse train as an excitation signal, Japanese Patent Laid-Open No. 10-232697 "Speech Coding Method and Decoding Method" has been proposed in order to realize more efficient quantization of a speech waveform. The proposed method estimates the pitch period of the input voice, extracts the waveform of the pitch period estimated in the periodic portion of the residual signal, and minimizes the waveform distortion with the waveform of the pitch period. Is determined based on the code vector truncated at the pitch length. Here, a code is selected by calculating a distance between a vector obtained by convolving the impulse response of the synthesis filter with the input pitch period waveform and a vector obtained by similarly convoluting a code vector truncated by the pitch length.
[0008]
This method has not always been able to perform sufficiently efficient encoding. In particular, the quantization efficiency was poor with a small number of bits.
[0009]
[Problems to be solved by the invention]
An object of the present invention is to realize a more efficient encoding in a linear prediction encoding method using a noise sequence or a pitch pulse train as an excitation signal when the frequency band of an input signal is restricted, such as telephone speech. It is to provide a way to do it.
[0010]
[Means for Solving the Problems]
The present invention is based on the encoding method disclosed in Japanese Patent Application Laid-Open No. Hei 10-232697. In the present invention, the target residual vector is periodicized by a pitch period, and a target filter vector is obtained by performing a synthesis filter process. The obtained code vector is cycled with a pitch cycle and a synthesis filter process is performed to obtain a synthesized waveform vector.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Example 1
FIG. 1 shows a functional configuration of an encoder to which the quantization method of the present invention is applied. The encoder performs the following procedure once for each frame having a length of N samples. In frame i, a p-order linear prediction coefficient (LPC) a of the input audio signal S (t) from the input terminal 1j(J = 0, 1,..., P−1) are calculated by the linear prediction
[0012]
A (z) = 1 + a1z-1+ ... + apz-P (1)
The correlation (partial correlation function) ρ of the obtained residual signal is calculated by the
[0013]
┌ k1/ 2 + ρmax> Θ; voiced part
└ k1/ 2 + ρmax<Θ; silent part (2)
Where k1Is a first-order partial autocorrelation (PARCOR) coefficient obtained by the linear prediction
When the
[0014]
When the
Next, the residual waveform is circulated by the
[0015]
The PW from the
[0016]
Note that the length n of each code vector in the
[0017]
As described with reference to FIG. 2A, the PW code minimizes the auditory weighted mean square error between a waveform (combined waveform vector) obtained by combining a code vector as an excitation signal and a waveform (target waveform vector) obtained by combining PW as an excitation signal. It is determined to be. The following equation (3) is used for calculating the distance of the distortion scale D.
D = ‖x-Gk o HPc i o‖2 (3)
here,xIs a target (a waveform obtained by combining PW as an excitation signal),HIs the quantized linear prediction coefficient a 'iA matrix representing the impulse response of the
[0018]
targetxIs calculated using the following equation (4).r pAnd a vector representing the pitch period filter 15PIs calculated in advance by the convolution operation performed by the
x=HPr p (4)
here,r pIs a vector representation of the original PW before quantization.
[0019]
In conventional CELP coding,HIs usually a lower triangular (N × N) square matrix when the frame length is N. Here, a square matrix (pi× pi) On the lower side (mpi) Lines, (n-pi) Use an (m × n) non-square matrix expanded by columns. Where m>pi, N>piIt is.HContains the impulse response h of the linear prediction filter weighted with auditory weightsj(J = 0, 1,...) Are used.
[0020]
(Equation 1)
At this time, hjThe linear
The transfer characteristic of the auditory weighting is expressed as follows.
[0021]
W (z) = A (z / γ1) / A (z / γ2) (7)
Where γ1And γ2Is a parameter for controlling the degree of auditory weighting, and 0<γ2 <γ1 <Take the value of 1. Matrix used for convolution operation in
[0022]
Also,PIs (n × pi).
[0023]
(Equation 2)
A matrix like thisPRepeats a square matrix having a diagonal element of 1 in the row direction (in this example, n = 2pi), Multiplying this p by the waveform gives n / piWill be repeated only. The output of the
[0024]
in this wayHWhenPTarget obtained by the operation of equation (4)xAlso
And the order is m. Where xj(Pi<J <m-1) is a component corresponding to the free response of the linear
[0025]
Note thathIs cut off at a very short length (for example, about 10 samples),HIn this case, a method of reducing the amount of calculation without significantly degrading the quality may be used. At this time, the impulse responsehAt the time tHThe matrix is an (m × n) matrix as follows.
[0026]
(Equation 3)
Note that the inverse quantized linear prediction coefficient a 'jIs used to determine the coefficient of the linear prediction
[0027]
PW code c0Is selected, the code vector is set so that the equation (3) is minimized from the PW codebook 17.c i 0And its ideal gain gi 0Is calculated. Actually, the following equivalent method is used for this selection calculation. First, all code vectors of the PW codebook 17c i 0Equation (11) is calculated for0Code vector with maximum valuec i 0Selectx TRepresents the transposed matrix of x.
[0028]
D '0= (x T HPc i 0)2/ ‖HPc i 0‖2 (11)
Ideal gain g of selected code vectori 0Is calculated using equation (12).
gi 0=x T HPc i 0/ ‖HPc i 0‖2 (12)
Next, the gain gi 0Is scalar-quantized. The code of the selected code vector and the code of the selected gain are represented by the PW code I.4, And the
[0029]
As described above, one frame is set to, for example, 25 msec, and a residual waveform (signal) for one pitch period is extracted from it, that is, only a fraction of one frame is extracted. On the other hand, even when the
[0030]
As described above, since the waveform information is encoded only for one pitch period in one frame, it can be expressed with a smaller number of bits, and the peak position is normalized (constant phase). Can also reduce the number of coding bits.
Since PW is one pitch cycle of the residual signal, its waveform is close to an impulse waveform, and its frequency spectrum is almost flat as shown by the broken line in FIG. When the PW is cycled with a pitch cycle, the intensity of the spectrum is repeated as shown by the solid line in FIG. A code vector cut out by the pitch cycle length and made periodic by the pitch cycle becomes a spectrum in which irregularities as shown by a solid line in FIG. 6 are repeated. Therefore, since quantization is performed by comparing the periodicized PW and the code vector, a portion having a large power spectrum is weighted (weighted) and distance calculation is performed, so that efficient quantization can be performed.
[0031]
The linear
[0032]
Next, FIG. 3 shows a decoder to which the embodiment of the decoding method according to the present invention is applied, corresponding to the embodiment of the encoding method shown in FIG. This decoder is the same as that shown in JP-A-10-232697. Here, the code I input to the
[0033]
Periodic code I5Indicates a voiced part, the PW code I in FIG.4In the
r i= Gi 0 c i 0 (13)
Although not shown in the figure, it has the
[0034]
Next, this decoded PW waveformr iAnd contents of previous PW buffer 35r i-1Is performed by the
r intm(J) = (1-α)r i-1(J) + αr i(J) (14)
(J = 0, 1,..., P−1; 0<α<1)
Here, α is a value representing the position of the waveform in the frame of N sample length, and p is the pitch before and after (piOr pi-1) Longer sample size,r i-1Isr iIn the previous PW vector,r intmIs the interpolated vector
Pass. The remainder of the short pitch vector is padded with zeros, and interpolation is performed after matching the long vector with the long one.
[0035]
That is, on the decoding side, the residual waveform is cut out only for one pitch period in each frame. Therefore, between the waveform cut out in the current frame and the waveform cut out in the previous frame, there is originally a waveform corresponding to one pitch period to several pitch periods. The waveform that should exist should be the decoded PW waveform of the previous frame.r i-1And decoded PW waveform of current framer iInterpolate linearly with. Α is determined in accordance with the order of the waveform to be interpolated between the clipped waveform of the previous frame and the clipped waveform of the current frame. Pitch period code I3Is decoded by the pitch period decoding unit 37, and the number of waveforms to be interpolated is determined from the decoded pitch period and the frame length.
[0036]
Further, the
[0037]
Here, at the time of interpolation, the length of the PW is normalized by sampling conversion so that the preceding and succeeding vectors have the same length (N samples), and two vectors are obtained based on the following equation (15) in the same manner as equation (14). It is also possible to perform a linear interpolation of the vector.
S intm(J) = (1-α)S i-1(J) + αS i(J) (15)
(J = 0, 1,..., N; 0<α<1)
Here, α is a value indicating the position of the waveform in the frame of N sample length, N is the normalized vector length,S i-1Isr iThe previous PW vector ofS iIsr iAre normalized PW vectors ofS intmRepresents a normalized vector formed by interpolation. thisS intmAre converted into the pitch period length interpolated by sampling conversion in the same manner as described above, and are sequentially connected.
[0038]
Periodic signal I5Indicates the unvoiced portion, the synthesized excitation signal from the unvoiced
Example 2
FIG. 4 shows a PW quantization unit according to an embodiment in the case where the
[0039]
D = ‖x-Gk 0 HPc i 0-Gk 1 HPc j 1‖2 (16)
here,xIs the target obtained by equation (4),HIs the quantized linear prediction coefficient a 'iMatrix that represents the impulse response of the synthesis filter usingPIs a matrix representing pitch periodicity,c 0andc 1Is the sign vector, and g0, G1Represents the gain of each code vector.
[0040]
First, as described with reference to FIG.c 0And its ideal gain gi 0Is determined. Next, from the
[0041]
For the selection, D ′ of the following equation (17) is used.1Code vector with maximum valuec i 1Is selected in a closed loop.
[0042]
(Equation 4)
Ideal gain g of selected code vectorj 1Is calculated using equation (18).
[0043]
(Equation 5)
Also, the ideal gain gi 0Is recalculated using equation (19).
[0044]
(Equation 6)
Since the selection of the code vector has been completed by the above procedure, (g) that minimizes the expression (16)k 0, Gk 1).
The following equation (20) is used for PW decoding in this case.
r i= Gi 0 c i 0+ Gi 1 c i 1 (20)
In the above description, it is possible to use any of the adaptive codebook (a), the fixed (noise) codebook (b), and the pulse codebook (c) as shown in FIG. 5 as the PW codebook. The adaptive codebook (a) is a past residual waveform, and for example, the output of the
Example 3
FIG. 2B shows an embodiment in which quantization is performed using a codebook (two) having a conjugate structure as the PW quantizer 12 in FIG. 1, and portions corresponding to those in FIG. 2A are denoted by the same reference numerals. 2A, a
[0045]
In this case as well, an adaptive codebook, fixed codebook, pulse codebook, or the like as shown in FIG. 5 can be used as the codebook. In the above description, when a plurality of codebooks are used, a combination of, for example, an adaptive codebook and a fixed codebook may be used from a plurality of types of codebooks shown in FIG.
The
[0046]
【The invention's effect】
As described above, according to the speech waveform quantization method of the present invention, in order to perform pitch periodization on a PW code vector, weighted quantization by pitch periodization is performed. PW) is improved in quantization efficiency. Performing all pitch period operations in the real-time domain can be realized with a smaller amount of calculation than that performed in the frequency domain.
[0047]
In order to examine the effect of the speech waveform quantization method of the present invention, an analysis and synthesis speech experiment was performed under the following conditions. As the input voice, a voice in the 0-4 kHz band that was sampled at a sampling frequency of 8.0 kHz and then passed through an IRS characteristic filter corresponding to the characteristics of the telephone was used. The encoder having the configuration of the second embodiment was used. First, this signal is multiplied by a Hamming window having an analysis window length of 30 ms to the speech signal every 25 ms (200 samples), and linear prediction analysis is performed by the autocorrelation method with the analysis order set to 12, thereby obtaining 12 prediction coefficients. The prediction coefficient is vector-quantized using the Euclidean distance of the LSP parameter. When the state of the input voice is determined to be voiced, the obtained PW vector isc i 0,c j 1Is used to perform vector quantization. The pitch obtained by the partial autocorrelation method is subjected to scalar quantization by rounding to an integer value, and is used as a value of the pitch period.
[0048]
Compared with the speech waveform quantized without pitch period under the above conditions, the speech waveform quantized with pitch period improved the noise-to-noise ratio by 2 dB or more.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration example of an encoder to which an embodiment of an encoding method according to the present invention is applied.
2A is a block diagram illustrating a specific functional configuration example of a
FIG. 3 is a block diagram showing a functional configuration example of a decoder to which a decoding method for decoding a code quantized according to the present invention is applied.
FIG. 4 is a block diagram showing a specific functional configuration example of a
FIG. 5 is a diagram showing an example of a codebook for a quantization method used in the present invention.
FIG. 6 is a diagram conceptually showing a power spectrum of a PW that is not pitch-periodized and a power spectrum of a PW that is pitch-periodicized.
FIG. 7 is a diagram showing a partial modification of a PW quantization unit.
Claims (7)
音声信号を線形予測逆フィルタ処理して残差信号を求め、
音声信号のピッチ周期を抽出し、
フレームごとに音声信号が有声区間か無声区間かの判定を行い、
当該フレームが有声区間ならば、残差信号からピッチ周期長の残差信号ベクトルを抽出し、
その残差信号ベクトルを、予め定めた基準信号ベクトルとの相関が大きくなるように巡回して目標残差ベクトルを求め、
その目標残差ベクトルを上記合成フィルタに通して目標波形ベクトルを求め、 予め決めた複数の符号ベクトルをピッチ周期長で打ち切ったものを励振信号として上記合成フィルタを駆動して合成波形ベクトルを求め、
この合成波形ベクトルの上記目標波形ベクトルに対する波形の歪みが最小となる符号ベクトルを選択して量子化符号を決定する音声符号化方法において、
上記目標残差ベクトルに対し、上記ピッチ周期をもって周期化処理した後上記合成フィルタに通して上記目標波形ベクトルを求め、
上記符号ベクトルに対し、上記ピッチ周期をもって周期化処理した後、上記励振信号として上記合成フィルタを駆動して上記合成波形ベクトルを求めることを特徴とする音声符号化方法。The speech signal is subjected to linear prediction analysis for each frame longer than its pitch period, and the linear prediction coefficient obtained by the analysis and an excitation signal for driving a linear prediction synthesis filter of a filter coefficient based on the linear prediction coefficient are used for speech characteristics. Express,
A linear prediction inverse filter process is performed on the audio signal to obtain a residual signal,
Extract the pitch period of the audio signal,
For each frame, determine whether the audio signal is a voiced or unvoiced section,
If the frame is a voiced section, a residual signal vector having a pitch period length is extracted from the residual signal,
The target signal vector is obtained by circulating the residual signal vector so that the correlation with a predetermined reference signal vector is increased,
The target residual vector is passed through the synthesis filter to obtain a target waveform vector, and a plurality of predetermined code vectors cut off at a pitch period length is used as an excitation signal to drive the synthesis filter to obtain a synthesis waveform vector,
In a speech encoding method for selecting a code vector in which the distortion of the waveform of the synthesized waveform vector with respect to the target waveform vector is minimized and determining a quantization code,
For the target residual vector, after performing a periodical process with the pitch period, through the synthesis filter to determine the target waveform vector ,
To top Kifu No. vector was treated periodic with the pitch period, speech encoding method by driving the synthesis filter as the excitation signal, characterized in Rukoto seek the composite waveform vector.
上記選択した符号ベクトルに上記ピッチ周期化行列を掛算し、その掛算結果に対し、上記非正方行列を畳み込み演算して上記合成波形ベクトルを生成し、
上記ピッチ周期化行列の行の数は上記非正方行列の行の数と等しくされていることを特徴とする請求項1記載の音声符号化方法。The target residual vector is multiplied by a pitch period matrix, and the result is multiplied by a lower triangular matrix based on the impulse response of the synthesis filter. Convolution of the square matrix to generate the target waveform vector,
The selected code vector is multiplied by the pitch periodic matrix, and the multiplication result is convolved with the non-square matrix to generate the composite waveform vector,
2. The speech encoding method according to claim 1, wherein the number of rows of the pitch periodic matrix is equal to the number of rows of the non-square matrix.
音声信号を線形予測逆フィルタ処理して残差信号を求め、
音声信号のピッチ周期を抽出し、
フレームごとに音声信号が有声区間か無声区間かの判定を行い、
当該フレームが有声区間ならば、残差信号からピッチ周期長の残差信号ベクトルを抽出し、
その残差信号ベクトルを、予め定めた基準信号ベクトルとの相関が大きくなるように巡回して目標残差ベクトルを求め、
その目標残差ベクトルを上記合成フィルタに通して目標波形ベクトルを求め、 予め決めた複数の符号ベクトルをピッチ周期長で打ち切ったものを励振信号として上記合成フィルタを駆動して合成波形ベクトルを求め、
この合成波形ベクトルの上記目標波形ベクトルに対する波形の歪みが最小となる符号ベクトルを選択して量子化符号を決定する音声符号化方法において、
上記目標残差ベクトルに対し、上記ピッチ周期をもって周期化処理すると同時に上記合成フィルタ処理を行って上記目標波形ベクトルを求め、
上記符号ベクトルに対し上記ピッチ周期をもって周期化処理すると同時に上記合成フィルタ処理をして上記合成波形ベクトルを求めることを特徴とする音声符号化方法。The speech signal is subjected to linear prediction analysis for each frame longer than its pitch period, and the linear prediction coefficient obtained by the analysis and an excitation signal for driving a linear prediction synthesis filter of a filter coefficient based on the linear prediction coefficient are used for speech characteristics. Express,
A linear prediction inverse filter process is performed on the audio signal to obtain a residual signal,
Extract the pitch period of the audio signal,
For each frame, determine whether the audio signal is a voiced or unvoiced section,
If the frame is a voiced section, a residual signal vector having a pitch period length is extracted from the residual signal,
The target signal vector is obtained by circulating the residual signal vector so that the correlation with a predetermined reference signal vector is increased,
The target residual vector is passed through the synthesis filter to obtain a target waveform vector, and a plurality of predetermined code vectors cut off at a pitch period length is used as an excitation signal to drive the synthesis filter to obtain a synthesis waveform vector,
In a speech encoding method for selecting a code vector in which the distortion of the waveform of the synthesized waveform vector with respect to the target waveform vector is minimized and determining a quantization code,
For the target residual vector, at the same time as performing the periodic processing with the pitch period and performing the synthesis filter processing to determine the target waveform vector,
Speech encoding method characterized by relative upper Kifu No. vector by simultaneously the synthesis filtering operation is treated cycled with the pitch period obtaining the composite waveform vector.
上記目標残差ベクトルに対し畳み込み演算して上記目標ベクトルを生成し、
上記非正方行列と上記ピッチ周期化行列を掛け合わせたものを上記選択した符号ベクトルに畳み込み演算して上記合成波形ベクトルを生成することを特徴とする請求項3記載の音声符号化方法。For the lower triangular square matrix based on the impulse response of the synthesis filter, a non-square matrix extended downward to obtain the free response of the filter, and a pitch periodic matrix having the same number of rows and rows as the matrix And multiplied by
Convolving the target residual vector to generate the target vector,
4. The speech encoding method according to claim 3, wherein a product obtained by multiplying the non-square matrix by the pitch periodic matrix is convolved with the selected code vector to generate the composite waveform vector.
この第2合成波形ベクトルの、上記合成波形ベクトルの上記目標波形ベクトルに対する誤差ベクトルとの波形歪が最小となる上記第2符号ベクトルを選択して量子化符号を決定することを特徴とする請求項1乃至5の何れかに記載の音声符号化方法。A plurality of second code vectors prepared in advance to that aborted by the pitch period length, whereas determine the second composite waveform vector by the synthesis filtering operation while processing cycle of the above pitch period,
The quantization code is determined by selecting the second code vector that minimizes waveform distortion of the second synthesized waveform vector and an error vector of the synthesized waveform vector with respect to the target waveform vector. A speech encoding method according to any one of claims 1 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10816199A JP3583945B2 (en) | 1999-04-15 | 1999-04-15 | Audio coding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10816199A JP3583945B2 (en) | 1999-04-15 | 1999-04-15 | Audio coding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000298500A JP2000298500A (en) | 2000-10-24 |
JP3583945B2 true JP3583945B2 (en) | 2004-11-04 |
Family
ID=14477520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10816199A Expired - Fee Related JP3583945B2 (en) | 1999-04-15 | 1999-04-15 | Audio coding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3583945B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL138408A0 (en) * | 2000-04-07 | 2001-10-31 | Digitalsecu Co Ltd | Apparatus for and method of storing log data in communication network |
JP4433668B2 (en) * | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | Bandwidth expansion apparatus and method |
EP2101320B1 (en) | 2006-12-15 | 2014-09-03 | Panasonic Corporation | Adaptive excitation vector quantization apparatus and adaptive excitation vector quantization method |
WO2008072735A1 (en) | 2006-12-15 | 2008-06-19 | Panasonic Corporation | Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof |
CN105096958B (en) * | 2014-04-29 | 2017-04-12 | 华为技术有限公司 | audio coding method and related device |
-
1999
- 1999-04-15 JP JP10816199A patent/JP3583945B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000298500A (en) | 2000-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4550289B2 (en) | CELP code conversion | |
US7280959B2 (en) | Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals | |
JP3236592B2 (en) | Speech coding method for use in a digital speech coder | |
JP3582589B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP3531780B2 (en) | Voice encoding method and decoding method | |
JP3583945B2 (en) | Audio coding method | |
JP3510168B2 (en) | Audio encoding method and audio decoding method | |
JP3296411B2 (en) | Voice encoding method and decoding method | |
JP4438280B2 (en) | Transcoder and code conversion method | |
JPH0782360B2 (en) | Speech analysis and synthesis method | |
JPS6238500A (en) | Highly efficient voice coding system and apparatus | |
JP2853170B2 (en) | Audio encoding / decoding system | |
JP3192051B2 (en) | Audio coding device | |
JP2001142499A (en) | Speech encoding device and speech decoding device | |
JP2947788B1 (en) | High-speed encoding method and apparatus for speech and audio signals and recording medium | |
JP3166697B2 (en) | Audio encoding / decoding device and system | |
JP3984048B2 (en) | Speech / acoustic signal encoding method and electronic apparatus | |
JP3071800B2 (en) | Adaptive post filter | |
JP3274451B2 (en) | Adaptive postfilter and adaptive postfiltering method | |
JP3199128B2 (en) | Audio encoding method | |
JP2004061558A (en) | Method and device for code conversion between speed encoding and decoding systems and storage medium therefor | |
JP3984021B2 (en) | Speech / acoustic signal encoding method and electronic apparatus | |
JP2005062410A (en) | Method for encoding speech signal | |
JP3144244B2 (en) | Audio coding device | |
JPH06195098A (en) | Speech encoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040730 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |