JP3583945B2 - Audio coding method - Google Patents

Audio coding method Download PDF

Info

Publication number
JP3583945B2
JP3583945B2 JP10816199A JP10816199A JP3583945B2 JP 3583945 B2 JP3583945 B2 JP 3583945B2 JP 10816199 A JP10816199 A JP 10816199A JP 10816199 A JP10816199 A JP 10816199A JP 3583945 B2 JP3583945 B2 JP 3583945B2
Authority
JP
Japan
Prior art keywords
vector
waveform
signal
code
pitch period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10816199A
Other languages
Japanese (ja)
Other versions
JP2000298500A (en
Inventor
祐介 日和▲崎▼
一則 間野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10816199A priority Critical patent/JP3583945B2/en
Publication of JP2000298500A publication Critical patent/JP2000298500A/en
Application granted granted Critical
Publication of JP3583945B2 publication Critical patent/JP3583945B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the quantization efficiency at a low bit rate. SOLUTION: A linear predictive reverse filter obtains the residue signal of an input voice, the residue signal is segmented by a pitch cycle and shifted in phase into PW so that the correlation with a reference pulse becomes large, and the PW is made cyclic in pitch cycles (15); and an impulse response is convoluted in the output (16) to obtain a target waveform, a PW code vector is selected from a code book 17 and given a gain, and then one pitch cycle is segmented (19); and impulse response is convoluted in the output (22) to obtain a composite waveform, and the code vector and gain that minimize the square of the error between the composite waveform and target waveform are determined.

Description

【0001】
【発明の属する技術分野】
この発明は、音声の信号系列を少ない情報量でディジタル符号化する高能率音声符号化方法、特に、従来ボコーダと呼ばれる音声分析合成系の領域である2.4kbit/s以下のビットレートで高品質な音声符号化を実現する符号化方法に関する。
【0002】
【従来の技術】
この発明に関連する従来技術としては、線形予測ボコーダ、符号励振予測符号化法(CELP:Code Excited Linear Prediction)、混合領域符号化法(Mixed Domain Coding)、代表波形補間符号化法(Prototype Waveform Interpolation)がある。
【0003】
線形予測ボコーダは、4.8kbit/s以下の低ビットレート領域における音声符号化方法としてこれまで広く用いられ、PARCOR方式や、線スペクトル対(LSP)方式などの方式がある。これらの方法の詳細は、たとえば斎藤、中田著「音声情報処理の基礎」(オーム社出版)に記載されている。線形予測ボコーダは、音声のスペクトル包絡特性をあらわす全極型のフィルタと、それを駆動する励振信号によって構成される。励振信号には、有声音に対してはピッチ周期パルス列、無声音に対しては白色雑音が用いられる。線形予測ボコーダにおいて、周期パルス列や白色雑音による励振信号では音声波形の特徴を再現するには不十分なため、自然性の高い合成音声を得ることは困難である。
【0004】
一方、符号励振予測符号化では、雑音系列を励振信号として音声の近接相関とピッチ相関特性をあらわす2つの全極型フィルタを駆動することにより音声を合成する。雑音系列は複数個の符号パターンとしてあらかじめ用意され、その中から、入力音声波形と合成音声波形との誤差を最小にするコードパターンが選択される。その詳細は、文献Schroeder:“Code Excited Linear Prediction (CELP) High QualitySpeech at Very Low Bit Rates”Proc.IEEE.ICASSP,pp937−940,1985に記載されている。符号励振予測符号化では、再現精度は符号パターンの数に依存する関係にある。したがって、多くの系列パターンを用意すれば音声波形の再現精度が高まり、それにともなって品質を高めることが出来る。しかし、音声符号化のビットレートを4kbit/s以下にすると、符号パターンの数が制限され、その結果十分な音声品質が得られなくなる。良好な音声品質を得るには4.8kbit/s程度の情報量が必要であるとされている。
【0005】
また、混合領域符号化法(Mixed Domain Coding)では、有声音でフレーム毎に残差波形よりピッチ周期分の波形が抽出され、前のピッチ周期分の波形との差分が時間領域で量子化される。復号器では周波数領域でこれらの波形の線形補間を行うことによって励振信号を生成し、全極フィルタを駆動して音声を合成する。無声音では符号励振予測符号化と同様な方法で符号化を行う。この方式の詳細は、文献De Martin等“Mixed DomainCoding of Speech at 3kb/s”Proc.IEEE.ICASSP,PPII/216−170,1996に記載されている。この方法の特徴としては、差分を求める際に、前ピッチ周期波形は、現在のフレームの波形に長さが正規化されることが挙げられる。この差分の量子化には、パルス符号帳と雑音符号帳を用いるが、3.5kbit/s程度の情報量が必要とされている。
【0006】
また、代表波形補間符号化法(Prototype Waveform Interpolation Coder)では、プロトタイプ波形(Prototype Waveform)の線形補間を行って合成した励振信号で全極フィルタを駆動することにより音声を合成する。この詳細は、文献Kleijn W.B.“Encoding Speech Using Prototype Waveforms”IEEE Trans.on Speech AudioProcessing,Vol.1,pp386−399 1993に記載されている。プロトタイプ波形は、一定周期で残差波形より抽出され、フーリエ変換された後に符号化される。この方式では良好な品質を得るには3.4kbit/s程度の情報量が必要であるとされている。
【0007】
雑音系列やピッチパルス列を励振信号として用いる線形予測符号化に関して、より能率的な音声波形の量子化を実現するため特開平10−232697「音声符号化方法および復号化方法」を提案した。この提案した方法は入力音声のピッチ周期を推定し、残差信号の周期的な部分で推定されたピッチ周期分の波形を抽出し、そのピッチ周期分の波形との波形歪みが最小になるように符号ベクトルをピッチ長で打ち切ったものより決定する。ここで、入力ピッチ周期波形に、合成フィルタのインパルス応答を畳み込んだベクトルと、符号ベクトルをピッチ長で打ち切ったものに同様に畳み込んだベクトルとの距離計算をすることにより符号を選択する。
【0008】
この方法によっていまだ必ずしも、十分効率的な符号化が行えるとは云えなかった。特に少ないビット数では量子化効率が悪かった。
【0009】
【発明が解決しようとする課題】
この発明の課題は、雑音系列やピッチパルス列を励振信号として用いる線形予測符号化方法において、電話音声などのように入力信号の周波数帯域が制限されている場合に、より能率的な符号化を実現する方法を提供することにある。
【0010】
【課題を解決するための手段】
この発明は特開平10−232697に示す符号化方法を前提とし、この発明においては目標残差ベクトルに対し、ピッチ周期で周期化すると共に、合成フィルタ処理を行って目標波形ベクトルを求め、また選択した符号ベクトルに対しピッチ周期で周期化すると共に合成フィルタ処理を行って合成波形ベクトルを求める。
【0011】
【発明の実施の形態】
実施例1
図1にこの発明の量子化方法を適用した符号化器の機能構成を示す。符号化器は、以下の手順をNサンプル数の長さをもつフレームごとに1回行う。フレームiにおいて、入力端子1よりの入力音声信号S(t)のp次の線形予測係数(LPC)a(j=0,1,…,p−1)を線形予測係数計算部2で計算する。この線形予測係数は線形予測係数量子化部3で量子化され、線形予測係数符号Iとして送出される。線形予測係数の量子化の詳細については「音声の線形予測パラメータ符号化方法」(特願平3−180819)に記載されている。線形予測係数量子化部3よりの線形予測係数符号Iは復号され、その逆量子化された線形予測係数に基づいて、線形予測逆フィルタ4のフィルタ係数を定め、この逆フィルタ4に入力音声信号S(t)を通して残差信号r′(t)を得る。逆フィルタ4は次の伝達特性を持つデジタルフィルタA(z)で実現される。
【0012】
A(z)=1+a−1+…+a−p (1)
ここで得られた残差信号の相関(偏相関関数)ρを相関計算部5で計算し、その相関ρの最大値ρmax の遅れ(間隔)をピッチ周期抽出部6で推定ピッチ周期pとする。このとき、周期性判定部7で入力音声信号S(t)が有声部であるか無声部であるかを、例えば以下の様にしきい値θ(0.5〜1.0)で判別する。
【0013】
┌ k/2+ρmax >θ;有声部
└ k/2+ρmax <θ;無声部 (2)
ここで、kは線形予測係数計算部2で求まる第1次の偏自己相関(PARCOR)係数である。
周期性判定部7が無声部と判断すると、残差信号r′(t)を無声部量子化部8で量子化する。無声部量子化部8では、例えば、フレームをS分割し、Nsub (=N/S)サンプル数をサブフレームとし、そのサブフレーム中の逆フィルタ4よりの残差波形r′(t)の平均パワーを計算し、その平均パワーの1フレーム分をベクトル量子化して無声部符号Iとして出力する。
【0014】
周期性判定部7が有声部と判断した場合は残差切り出し部9により推定ピッチ周期pを用いて、逆フィルタ4からの残差信号r′(t)におけるフレームの中央付近からpの長さの波形を切り出す。
次に、この残差波形とパルス信号との相関が大きくなるまで、残差波形をPW整列部10で巡回させる。ここで、パルス信号との相関が大きくなるように巡回された1周期波形分の残差波形rをPW(ピッチ周期波形)と呼ぶ。推定ピッチ周期pはピッチ周期量子化部11で四捨五入によって整数値に量子化され、ピッチ周期符号Iとして出力される。
【0015】
PW整列部10からのPWはPW量子化部12でベクトル量子化される。PW量子化部12は例えば図2Aに示すように、図1中の線形予測係数量子化部3よりの逆量子化された線形予測係数によりフィルタ係数が定められた線形予測合成フィルタ14にインパルス信号が通されて、インパルス応答hが求められる。図1中のPW整列部10よりのPWがピッチ周期化フィルタ15でピッチ周期化行列と掛け合わされ、このフィルタ15の出力PWに畳み込みフィルタ16でインパルス応答hに基づくインパルス応答行列が畳み込まれて音声信号(目標波形ベクトル)が再生される。一方、PW符号帳17から選択された符号ベクトル に対して、利得符号帳18より取出された利得g が与えられ、この利得が与えられた符号ベクトルを、その先頭から、図1中のピッチ周期抽出部6で抽出されたピッチ周期長だけ符号切り出し部19で切り出され、この切り出された符号ベクトルに対し、と同様にピッチ周期フィルタ21でピッチ周期化行列と掛け合わせ、そのフィルタ出力に畳み込みフィルタ22でインパルス応答行列が畳み込まれ、合成音声信号(合成波形ベクトル)が得られる。この合成音声信号の再生音声信号に対する誤差が引き算部23でとられ、その二乗誤差が最小になるように、PW符号帳17の符号ベクトル の選択と、利得符号帳18の利得g の選択とが歪み計算部24で行われる。
【0016】
なお、PW符号帳17の各符号ベクトルの長さnは検出されるピッチ長pi よりも十分長くとる必要がある(n:nmax )。ここで、各符号ベクトルのピークの位相は均一とされている。図1中のPW整列部10で用いたパルス信号はベクトル長がnであり、位相はPW符号帳17の符号ベクトルのピークと一致させてある。
【0017】
図2Aで説明したようにPW符号は、符号ベクトルを励振信号として合成した波形(合成波形ベクトル)と、PWを励振信号として合成した波形(目標波形ベクトル)との聴覚重み付け平均二乗誤差が最小になるように決定される。この歪み尺度Dの距離計算には以下の(3)式を用いる。
D=‖−g HPc (3)
ここで、はターゲット(PWを励振信号として合成した波形)、は量子化された線形予測係数a′を用いた合成フィルタ14のインパルス応答をあらわす行列、はピッチ周期化を表すベクトル(周期化行列)、 は符号ベクトル、gは符号ベクトルの利得をあらわす。
【0018】
ターゲットは以下の(4)式を用いて、PW に、ピッチ周期化フィルタ15を表わすベクトルを掛け合わせたものに、合成フィルタ16で畳み込み演算を行ったものによりあらかじめ計算する。
HPr (4)
ここで、 は量子化前の原PWをベクトル表示にしたものである。
【0019】
従来のCELP符号化では、にはフレーム長がNの場合通常下三角の(N×N)の正方行列を用いるが、ここではピッチ長の正方行列(p×p)を下側に(m−p)行分、右側に(n−p)列分拡張した(m×n)の非正方行列を用いる。ここで、m,nである。には、聴覚重み付けを行った線形予測フィルタのインパルス応答h(j=0,1,…)を用いる。
【0020】
【数1】

Figure 0003583945
このとき、h(j=0,1,…)の計算に用いる線形予測合成フィルタ14は、以下の伝達特性H′(z)をもつデジタルフィルタで実現される。
Figure 0003583945
聴覚重み付けの伝達特性は、次のように表される。
【0021】
W(z)=A(z/γ)/A(z/γ) (7)
ここで、γとγは聴覚重み付けの程度を制御するパラメータであり、0γ γ 1の値を取る。図2A中の畳み込みフィルタ16,22での畳み込み演算に用いる行列はインパルス応答より、先に述べた拡張された(m×n)の行列を用いる。
【0022】
また、は以下のような(n×p)の行列を用いて表現する。
【0023】
【数2】
Figure 0003583945
このように行列は対角要素が1である正方行列を行方向に繰返す(この例ではn=2p)ものであるから、このpと波形を掛算すると波形がn/pだけ繰返されることになる。ピッチ周期化フィルタ15の出力はPWがn/p回繰返されたものとなり、ピッチ周期化フィルタ14の出力は切り出された符号ベクトルがn/p回繰返されたものとなる。
【0024】
このようにによる拡張のため、式(4)の演算で得られるターゲット
Figure 0003583945
と次数はmとなる。ここでx(p<j<m−1)は線形予測合成フィルタ14の自由応答分に対応する成分で線形予測フィルタ14の零入力初期値応答である。
【0025】
なおの長さを非常に短い長さで打ち切って(例えば10サンプル程度)、を構成すればさほど品質劣化を伴わずに、演算量が低減する方法を用いても良い。このとき、インパルス応答をt次で打ち切った時の行列は、以下のような(m×n)の行列となる。
【0026】
【数3】
Figure 0003583945
なお、逆量子化線形予測係数a′を用いて線形予測逆フィルタ4の係数およびPW量子化部12の合成フィルタ14の係数を決めるが、双方に量子化していない線形予測係数aを用いてH(z)を構成してもH′(z)を用いた時と同程度の品質が得られる。
【0027】
PW符号cの選択では、PW符号帳17の中から(3)式が最小となるように、符号ベクトル を選択し、その理想利得g を計算する。実際にこの選択計算には次の等価な手法を用いる。まず、PW符号帳17の全ての符号ベクトル について式(11)を計算し、D′値が最大となる符号ベクトル を選択する。 はxの転置行列を表わす。
【0028】
D′=( HPc /‖HPc (11)
選択された符号ベクトルの理想利得g の計算は、(12)式を用いて行う。
HPc /‖HPc (12)
次に、利得g をスカラー量子化する。これら選択した符号ベクトルの符号、選択した利得の符号をPW符号Iとして出力し、更に、周期判定部7よりそのフレームが有声部か無声部かを示す周期性符号Iを出力する。符号I〜Iがマルチプレクサ13でまとめられ、伝送路又は蓄積部へ出力される。
【0029】
以上のように1フレームは例えば25msecとされ、そのうちから1ピッチ周期分の残差波形(信号)が取り出され、つまり1フレーム中の例えば数分の1の部分しか取り出されていない。一方合成フィルタ14は入力を零として駆動しても、その直前の状態に応じた出力、いわゆる零入力応答が存在する。そのため、CELP符号化においては、零入力応答を入力波形から差し引いたものをターゲットとしている。しかしこの発明では1フレーム中の一部のみを用いて符号化するため、合成フィルタ14のインパルス応答行列をCELP符号化よりも零応答に対応する分拡張して、1ピッチ周期分の波形を零入力応答(自由応答)を含めて、これに近い符号ベクトルの選択を行う。
【0030】
以上のように波形情報については1フレーム中の1ピッチ周期分しか符号化していないため、それだけ少ないビット数で表現でき、又ピーク位置を正規化(一定位相)としているため、この点に置いても符号化ビット数を少なくすることができる。
PWは残差信号の1ピッチ周期であるから、その波形はインパルス波形に近いものであって、その周波数スペクトルは図6中の破線で示すようにほぼ平坦なものとなる。このPWに対してピッチ周期で周期化したものは、図6中の実線で示すようにスペクトルの強弱が繰返されたものとなる。ピッチ周期長で切り出した符号ベクトルをピッチ周期で周期化したものは図6中の実線のような凹凸が繰返されるスペクトラムとなる。従ってこれら周期化されたPWと符号ベクトルとを比較して量子化を行うため、パワースペクトルが大きい部分が重み付けされて(重点的に)距離計算がなされ、効率的な量子化が行える。
【0031】
図2A中の線形予測合成フィルタ14、畳み込みフィルタ16,22を省略して代りに図7Aに示すように量子化線形予測係数でフィルタ係数が決められる合成フィルタ25,26を用いてもよい。また図7Bに示すように、ピッチ周期化フィルタ15のピッチ周期化行列と合成フィルタ25(又は畳み込みフィルタ16)のインパルス応答行列とを掛けた特性をもつフィルタ27,28を用いてもよい。ピッチ周期化フィルタ21と畳み込みフィルタ22又は合成フィルタ26も同様に1つのフィルタとして用いることもできる。
【0032】
次に図1に示した符号化方法の実施例と対応した、この発明の復号化方法の実施例を適用した復号器を図3に示す。この復号器は特開平10−232697に示したものと同一である。ここでは、入力端子31に入力された符号I〜Iはデマルチプレクサ32で全ての符号が分離復号された後、無声・有声(PM)符号I,Iによって励振信号を生成する。周期性符号Iが無声部の場合は、無声部符号Iを無声部復号部41で励振信号を再生する。無声部復号部41では白色雑音生成部よりの白色雑音に、無声部符号Iの復号パワー符号を利得計算処理して無声部の合成残差波形を生成する。つまりNサンプルの白色雑音を生成し、各々のサブフレーム(Nsub 長)中の平均パワーを、復号された対応するサブフレームの平均パワーと一致するように利得を計算して乗じたものを励振信号とする。
【0033】
周期性符号Iが有声部を示す場合は、図3においてPW符号IをPW復号部33で式(13)に示すように、符号ベクトル に利得gを乗じて、PW波形 を復号する。
=g (13)
図に示していないが、図2A中のPW符号帳17、利得符号帳18と同一のものを備え、符号ベクトル がPW符号帳の符号ベクトルの先頭からピッチ周期長pだけ符号ベクトル切り出し部34で切り出される。
【0034】
次に、この復号PW波形 と前PWバッファ35の内容 i−1 との間の線形補間を線形補間部36で行い、中間のPW波形 intmを得る。この線形補間には、例えば式(14)を用いる。
intm(j) =(1−α) i−1(j)+α (j) (14)
(j=0,1,…,p−1;0α1)
ここで、αは、波形がNサンプル長のフレーム中のどの位置にあるかを表す値、pは前後のピッチ(pもしくはpi−1 )の長い方のサンプル数、 i−1 のひとつ前のPWベクトルで、 intmは補間されて出来たベクトルをあ
らわす。短いピッチ長のベクトルの余りの部分は零詰めされ、長い方とベクトル長を一致させた後に補間を行う。
【0035】
つまり、復号化側では残差波形は各フレーム中の1ピッチ周期分しか切り出されていない。従って、現フレームで切り出された波形と、前フレームで切り出された波形との間には本来は、1ピッチ周期から数ピッチ周期分の波形が存在する。この本来は存在すべき波形を前フレームの復号PW波形 i−1 と現フレームの復号PW波形 とで線形補間する。この補間される波形が、前フレームの切り出された波形と現フレームの切り出された波形との間に補間されるべき波形の何番目かに応じてαが決定される。ピッチ周期符号Iはピッチ周期復号部37で復号され、その復号ピッチ周期とフレーム長とから補間する波形数が決められる。
【0036】
また、復号ピッチ周期と前ピッチ周期バッファ38の内容とにより、前フレームの切り出し波形のピッチ周期と、現フレームの切り出し波形のピッチ周期との間の各ピッチ周期をピッチ補間部39で線形補間して求め、その補間ピッチ周期を用いて、線形補間部36で求めた中間PW波形を残差信号合成部39で順次つなぎ、これを励振信号とする。
【0037】
ここで、補間の際にPWの長さをサンプリング変換により正規化して前後のベクトルを同一の長さ(Nサンプル)にして式(14)と同様に以下の式(15)に基づいて2つのベクトルの線形補間を行うことも可能である。
intm(j) =(1−α) i−1(j)+α (j) (15)
(j=0,1,…,N;0α1)
ここで、αは、波形がNサンプル長のフレーム中のどの位置にあるかを表す値、Nは正規化ベクトル長、 i−1 のひとつ前のPWベクトルを、 のPWベクトルを、それぞれ正規化したもので、 intmは補間されて出来た正規化ベクトルをあらわす。この intmは、サンプリング変換によって上記と同様に補間されたピッチ周期長に直してから順次つながれる。
【0038】
周期性信号Iが無声部を示す時は無声部復号部41からの合成励振信号を、Iが有声部を示す時は残差信号合成部39からの合成励振信号を用いて線形予測合成フィルタ42を駆動し、出力音声を出力端子43に得る。ここで、線形予測係数符号Iを線形予測係数復号部44で復号し、この線形予測係数についても前係数バッファ45の内容を用いて前フレーム中の1ピッチ周期分の線形予測係数と現フレーム中の1ピッチ周期分の線形予測係数との間を線形予測係数補間部46で式(14)と同様に線形補間を行い、合成フィルタ42の係数を決定する。なお一般的に線形予測係数の補間はLSP領域で行う。
実施例2
図1中のPW量子化部12で多段量子化する場合の実施例のPW量子化部を図4に示す。図4において、図2Aと対応する部分に同一符号をつけてあり、この例は2段量子化の場合で、新たにPW符号帳51が設けられ、このPW符号帳51より選択した符号ベクトル に対し、利得符号帳52から選択された利得g が与えられ、これが符号切り出し部53でピッチ周期長pだけ先頭から切り出されてピッチ周期化フィルタ54、畳み込みフィルタ55に順次与えられる。これにより利得が与えられた符号ベクトルの切り出されたものに対しピッチ周期化行列とインパルス応答が畳み込まれて合成波形が得られ、この合成波形は、引き算部23よりの誤差信号から引き算部56で差し引かれ、その残りが歪み計算部57に与えられ、歪み計算部57は引き算部56の出力の二乗が最小になるようにPW符号帳51の符号ベクトル の選択と利得符号帳52の利得g の選択とが行われる。この場合も全体として、符号ベクトルを励振信号として合成した波形と、PW波形を励振信号として合成した波形との聴覚重みつき平均二乗誤差が最小になるように符号ベクトル 、利得g ,g が決定される。この歪み尺度の距離計算には式(16)を用いる。
【0039】
D=‖−g HPc −g HPc (16)
ここで、は(4)式で求めたターゲット、は量子化された線形予測係数a′を用いた合成フィルタのインパルス応答をあわらす行列、はピッチ周期化をあらわす行列、 および は符号ベクトル、そしてg,gはそれぞれの符号ベクトルの利得をあらわす。
【0040】
まず、図4について説明したとおりに1段目の とその理想利得g を定める。次に、PW符号帳51の中から、(16)式が最小となるような符号ベクトル を選択し、その理想利得g を計算し、 の理想利得であるg を再計算する。これは、符号ベクトル のベクトル直交化を行い符号化を行う。このベクトル直交化に基づくベクトル量子化の詳細については、「励振信号直交化音声符号化法」(特開平7−253795)に記載されている。
【0041】
選択には、以下の式(17)のD′値が最大となる符号ベクトル を閉ループで選択する。
【0042】
【数4】
Figure 0003583945
選択された符号ベクトルの理想利得g の計算は、式(18)を用いて行う。
【0043】
【数5】
Figure 0003583945
また、理想利得g は式(19)を用いて再計算を行う。
【0044】
【数6】
Figure 0003583945
以上の手続きで、符号ベクトルの選択は終了しているため、(16)式が最小となるような(g ,g )を選択する。
この場合におけるPWの復号には以下の(20)式を用いる。
=g +g (20)
上述において、PW符号帳には図5に示すような適応符号帳(a)、固定(雑音)符号帳(b)、パルス符号帳(c)のいずれを用いることも可能である。適応符号帳(a)は過去の残差波形であり、例えば図2A中の符号切り出し部19の出力が用いられる。パルス符号帳(c)は規則によりその都度パルスを生成することができるものである。
実施例3
図1中のPW量子化器12として共役構造の符号帳(2つ)を用いて量子化する場合の実施例を図2Bにあらわし、図2Aと対応する部分に同一符号をつけてある。図2Aと比較すると、PW符号帳61が更に設けられる。このPW符号帳61の各符号ベクトルおよびPW符号帳17の符号ベクトルは互いに共役構造を持つもの、つまり互いに直交関係にあるものが選択される。PW符号帳17,61から選択された各符号ベクトルは、利得符号帳18から選択された利得が与えられ、この利得が与えられた両符号ベクトルが加算部62で加算され、励振信号としてピッチ周期化フィルタ21、合成フィルタ22に順次与えられる。この符号ベクトルを励振信号として合成した波形と、PW波形を励振信号として合成した波形との聴覚重み付き平均二乗誤差が最小になるようにPW符号帳17,61の各符号ベクトルとその利得が決定される。この歪み尺度の距離計算には、実施例2と同様に式(16)を用いる。この共役構造の符号帳を用いる符号化方法の詳細については「多重ベクトル量子化方法およびその装置」(特願昭63−249450)に記載されている。
【0045】
この場合も、符号帳には図5に示すような適応符号帳、固定符号帳、パルス符号帳といったものを用いることが可能である。上述において、複数の符号帳を用いる場合は、図5に示した複数種類の符号帳から、例えば適応符号帳と、固定符号帳というように組み合わせて用いても良い。
多段ベクトル量子化や、共役構造ベクトル量子化に対する図3中のPW復号部33は、入力符号ベクトル数と対応する符号帳を用意しておき、これら符号帳からそれぞれ入力PW符号Iに応じた符号ベクトルをそれぞれ取り出し、かつそれらに対して、入力PW符号I中の利得符号により利得符号帳から得た各対応する利得をそれぞれ与えればよい。このようにして復号されたPWベクトルを加算して、前フレームの加算PWベクトルと線形補間を行い順次つなぐことによって連続した信号として合成フィルタ42に供給する。
【0046】
【発明の効果】
以上説明したように、この発明の音声波形量子化方法によれば、PW符号ベクトルに対しピッチ周期化を行うために、ピッチの周期化による重み付けされた量子化がなされるため、ピッチ周期波形(PW)の量子化効率が向上する。また、ピッチ周期化の操作を全て実時間領域で行うことは、周波数領域で行うものよりも低い演算量で実現できる。
【0047】
この発明の音声波形量子化方法の効果を調べるために、以下の条件で分析合成音声実験を行った。入力音声としては、0−4kHz帯域の音声を標本化周波数8.0kHzで標本化した後に、電話機の特性と対応するIRS特性フィルタを通したものを用いた。符号化器は実施例2の構成のものを用いた。まず、この信号に25ms(200サンプル)毎に音声信号に分析窓長30msのハミング窓を乗じ、分析次数を12次として自己相関法による線形予測分析を行い、12個の予測係数を求める。予測係数はLSPパラメータのユークリッド距離を用いてベクトル量子化する。入力音声の状態が有声と判断された場合、得られるPWベクトルを2つの雑音符号 を用いてベクトル量子化する。偏自己相関法で求めたピッチは整数値へと四捨五入を用いてスカラー量子化を行い、ピッチ周期化の値として用いる。
【0048】
上記の条件でピッチ周期化なしで量子化した音声波形と比べて、ピッチ周期化ありで量子化した音声波形の方が対雑音比が2dB以上も改善された。
【図面の簡単な説明】
【図1】この発明の符号化方法の実施例を適用した符号化器の機能構成例を示すブロック図。
【図2】Aは図1中のPW量子化部12の具体的機能構成例を示すブロック図、Bは共役構造ベクトル量子化した場合の機能構成例を示すブロック図である。
【図3】この発明により量子化された符号を復号する復号化方法を適用した復号化器の機能構成例を示すブロック図。
【図4】多段ベクトル量子化の場合のPW量子化部12の具体的機能構成例を示すブロック図。
【図5】この発明に用いる量子化法のため符号帳の例を示す図。
【図6】ピッチ周期化されていないPWのパワースペクトルと、ピッチ周期化されたPWのパワースペクトルを概念的に示す図。
【図7】PW量子化部の一部変形を示す図。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a high-efficiency speech coding method for digitally coding a speech signal sequence with a small amount of information. The present invention relates to an encoding method that realizes efficient speech encoding.
[0002]
[Prior art]
Related arts related to the present invention include a linear prediction vocoder, a code excited linear prediction (CELP), a mixed domain coding (Mixed Domain Coding), and a representative waveform interpolation coding (Prototype Waveform Interpolation). ).
[0003]
The linear prediction vocoder has been widely used as a speech coding method in a low bit rate region of 4.8 kbit / s or less, and includes a PARCOR method, a line spectrum pair (LSP) method, and the like. Details of these methods are described, for example, in Saito and Nakata, "Basics of Speech Information Processing" (Ohmsha Publishing). The linear predictive vocoder is composed of an all-pole filter that represents the spectral envelope characteristic of speech, and an excitation signal that drives the filter. As the excitation signal, a pitch cycle pulse train is used for voiced sounds, and white noise is used for unvoiced sounds. In a linear prediction vocoder, an excitation signal based on a periodic pulse train or white noise is not enough to reproduce the characteristics of a speech waveform, and thus it is difficult to obtain a synthesized speech with high naturalness.
[0004]
On the other hand, in code excitation predictive coding, speech is synthesized by using a noise sequence as an excitation signal to drive two all-pole filters that represent the close correlation and pitch correlation characteristics of speech. The noise sequence is prepared in advance as a plurality of code patterns, and a code pattern that minimizes an error between the input speech waveform and the synthesized speech waveform is selected from among them. The details thereof are described in the document Schroeder: “Code Excited Linear Prediction (CELP) High QualitySpeech at Very Low Bit Rates” Proc. IEEE. ICASSP, pp 937-940, 1985. In the code excitation predictive coding, the reproduction accuracy has a relationship depending on the number of code patterns. Therefore, if a large number of series patterns are prepared, the reproduction accuracy of the audio waveform is improved, and accordingly, the quality can be improved. However, if the bit rate of audio coding is set to 4 kbit / s or less, the number of code patterns is limited, and as a result, sufficient audio quality cannot be obtained. It is said that an amount of information of about 4.8 kbit / s is required to obtain good voice quality.
[0005]
In the Mixed Domain Coding method, a pitch-period waveform is extracted from a residual waveform for each frame of a voiced sound, and a difference from a previous pitch-period waveform is quantized in a time domain. You. The decoder generates an excitation signal by performing linear interpolation of these waveforms in the frequency domain, and drives an all-pole filter to synthesize speech. For unvoiced sound, encoding is performed in the same manner as in code excitation prediction encoding. Details of this method are described in De Martin, et al., “Mixed Domain Coding of Speech at 3 kb / s” Proc. IEEE. ICASSP, PPII / 216-170, 1996. A feature of this method is that when calculating the difference, the previous pitch period waveform is normalized in length to the waveform of the current frame. A pulse codebook and a noise codebook are used for quantization of the difference, but an information amount of about 3.5 kbit / s is required.
[0006]
In the representative waveform interpolation coding method (Prototype Waveform Interpolation Coder), voice is synthesized by driving an all-pole filter with an excitation signal synthesized by performing linear interpolation of a prototype waveform (Prototype Waveform). Details of this can be found in the document Kleijn W. B. "Encoding Speech Using Prototype Waveforms," IEEE Trans. on Speech AudioProcessing, Vol. 1, pp 386-399 1993. The prototype waveform is extracted from the residual waveform at a constant cycle, and is encoded after being subjected to Fourier transform. According to this method, an amount of information of about 3.4 kbit / s is required to obtain good quality.
[0007]
For linear predictive coding using a noise sequence or a pitch pulse train as an excitation signal, Japanese Patent Laid-Open No. 10-232697 "Speech Coding Method and Decoding Method" has been proposed in order to realize more efficient quantization of a speech waveform. The proposed method estimates the pitch period of the input voice, extracts the waveform of the pitch period estimated in the periodic portion of the residual signal, and minimizes the waveform distortion with the waveform of the pitch period. Is determined based on the code vector truncated at the pitch length. Here, a code is selected by calculating a distance between a vector obtained by convolving the impulse response of the synthesis filter with the input pitch period waveform and a vector obtained by similarly convoluting a code vector truncated by the pitch length.
[0008]
This method has not always been able to perform sufficiently efficient encoding. In particular, the quantization efficiency was poor with a small number of bits.
[0009]
[Problems to be solved by the invention]
An object of the present invention is to realize a more efficient encoding in a linear prediction encoding method using a noise sequence or a pitch pulse train as an excitation signal when the frequency band of an input signal is restricted, such as telephone speech. It is to provide a way to do it.
[0010]
[Means for Solving the Problems]
The present invention is based on the encoding method disclosed in Japanese Patent Application Laid-Open No. Hei 10-232697. In the present invention, the target residual vector is periodicized by a pitch period, and a target filter vector is obtained by performing a synthesis filter process. The obtained code vector is cycled with a pitch cycle and a synthesis filter process is performed to obtain a synthesized waveform vector.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Example 1
FIG. 1 shows a functional configuration of an encoder to which the quantization method of the present invention is applied. The encoder performs the following procedure once for each frame having a length of N samples. In frame i, a p-order linear prediction coefficient (LPC) a of the input audio signal S (t) from the input terminal 1j(J = 0, 1,..., P−1) are calculated by the linear prediction coefficient calculation unit 2. This linear prediction coefficient is quantized by the linear prediction coefficient quantization unit 3, and the linear prediction coefficient code I1Is sent as The details of the quantization of the linear prediction coefficient are described in "Speech Linear Prediction Parameter Coding Method" (Japanese Patent Application No. 3-180819). Linear prediction coefficient code I from the linear prediction coefficient quantization unit 31Is determined based on the decoded and inversely quantized linear prediction coefficients, and the residual signal r ′ (t) is input to the inverse prediction filter 4 through the input speech signal S (t). obtain. The inverse filter 4 is realized by a digital filter A (z) having the following transfer characteristics.
[0012]
A (z) = 1 + a1z-1+ ... + apz-P              (1)
The correlation (partial correlation function) ρ of the obtained residual signal is calculated by the correlation calculator 5, and the maximum value ρ of the correlation ρmaxThe pitch (pitch) of the estimated pitch period piAnd At this time, the periodicity determination unit 7 determines whether the input audio signal S (t) is a voiced part or a non-voiced part, for example, using a threshold value θ (0.5 to 1.0) as described below.
[0013]
┌ k1/ 2 + ρmax> Θ; voiced part
└ k1/ 2 + ρmax<Θ; silent part (2)
Where k1Is a first-order partial autocorrelation (PARCOR) coefficient obtained by the linear prediction coefficient calculation unit 2.
When the periodicity determination unit 7 determines that the residual signal is a voiceless part, the residual signal r ′ (t) is quantized by the voiceless part quantization unit 8. The unvoiced portion quantization unit 8 divides the frame into S,sub(= N / S) The number of samples is set as a subframe, the average power of the residual waveform r '(t) from the inverse filter 4 in the subframe is calculated, and one frame of the average power is vector-quantized. Unvoiced code I2Is output as
[0014]
When the periodicity determining unit 7 determines that the voiced part is present, the residual pitching unit 9 estimates the pitch pitch p.iFrom the vicinity of the center of the frame in the residual signal r ′ (t) from the inverse filter 4iCut out a waveform of length.
Next, the residual waveform is circulated by the PW alignment unit 10 until the correlation between the residual waveform and the pulse signal increases. Here, the residual waveform r for one cycle waveform circulated so as to increase the correlation with the pulse signal.pIs called PW (pitch periodic waveform). Estimated pitch period piIs quantized to an integer value by rounding in a pitch period quantizing unit 11, and a pitch period code I3Is output as
[0015]
The PW from the PW alignment unit 10 is vector-quantized by the PW quantization unit 12. As shown in FIG. 2A, for example, as shown in FIG. 2A, the PW quantization unit 12 sends an impulse signal to the linear prediction synthesis filter 14 whose filter coefficient is determined by the inversely quantized linear prediction coefficient from the linear prediction coefficient quantization unit 3 in FIG. Is passed through and the impulse response hjIs required. The PW from the PW alignment unit 10 in FIG. 1 is multiplied by a pitch periodic matrix by a pitch periodic filter 15, and the output PW of this filter 15 is impulse response hjImpulse response matrix based onHIs convolved with the audio signal (target waveform vector)xIs played. On the other hand, the code vector selected from the PW codebook 17c i 0With respect to the gain g extracted from the gain codebook 18.k 0The code vector to which the gain has been given is cut out from its head by the code cutout unit 19 by the pitch cycle length extracted by the pitch cycle extraction unit 6 in FIG. On the other hand,xSimilarly to the above, the pitch period filter 21 multiplies the result by the pitch period matrix, and the convolution filter 22 impulse response matrixHIs convolved to obtain a synthesized speech signal (synthesized waveform vector). Playback audio signal of this synthesized audio signalxIs subtracted by the subtraction unit 23, and the code vector of the PW codebook 17 is set so that the square error is minimized.c i 0And the gain g of the gain codebook 18k 0Is performed by the distortion calculator 24.
[0016]
Note that the length n of each code vector in the PW codebook 17 is the detected pitch length p.i(N: n>pmax). Here, the phase of the peak of each code vector is assumed to be uniform. The pulse signal used in the PW alignment unit 10 in FIG. 1 has a vector length of n, and the phase matches the peak of the code vector of the PW codebook 17.
[0017]
As described with reference to FIG. 2A, the PW code minimizes the auditory weighted mean square error between a waveform (combined waveform vector) obtained by combining a code vector as an excitation signal and a waveform (target waveform vector) obtained by combining PW as an excitation signal. It is determined to be. The following equation (3) is used for calculating the distance of the distortion scale D.
D = ‖x-Gk o HPc i o2                    (3)
here,xIs a target (a waveform obtained by combining PW as an excitation signal),HIs the quantized linear prediction coefficient a 'iA matrix representing the impulse response of the synthesis filter 14 usingPIs a vector (periodic matrix) representing pitch periodicity,c 0Is the sign vector, g0Represents the gain of the code vector.
[0018]
targetxIs calculated using the following equation (4).r pAnd a vector representing the pitch period filter 15PIs calculated in advance by the convolution operation performed by the synthesis filter 16 on the product of
x=HPr p                                    (4)
here,r pIs a vector representation of the original PW before quantization.
[0019]
In conventional CELP coding,HIs usually a lower triangular (N × N) square matrix when the frame length is N. Here, a square matrix (pi× pi) On the lower side (mpi) Lines, (n-pi) Use an (m × n) non-square matrix expanded by columns. Where m>pi, N>piIt is.HContains the impulse response h of the linear prediction filter weighted with auditory weightsj(J = 0, 1,...) Are used.
[0020]
(Equation 1)
Figure 0003583945
At this time, hjThe linear prediction synthesis filter 14 used for calculating (j = 0, 1,...)H 'This is realized by a digital filter having (z).
Figure 0003583945
The transfer characteristic of the auditory weighting is expressed as follows.
[0021]
W (z) = A (z / γ1) / A (z / γ2) (7)
Where γ1And γ2Is a parameter for controlling the degree of auditory weighting, and 0<γ2 <γ1 <Take the value of 1. Matrix used for convolution operation in convolution filters 16 and 22 in FIG. 2AHIs the impulse responsehTherefore, the above-described extended (m × n) matrix is used.
[0022]
Also,PIs (n × pi).
[0023]
(Equation 2)
Figure 0003583945
A matrix like thisPRepeats a square matrix having a diagonal element of 1 in the row direction (in this example, n = 2pi), Multiplying this p by the waveform gives n / piWill be repeated only. The output of the pitch period filter 15 is PW of n / piAnd the output of the pitch period filter 14 is n / piIt will be repeated times.
[0024]
in this wayHWhenPTarget obtained by the operation of equation (4)xAlso
Figure 0003583945
And the order is m. Where xj(Pi<J <m-1) is a component corresponding to the free response of the linear prediction synthesis filter 14, and is a zero input initial value response of the linear prediction filter 14.
[0025]
Note thathIs cut off at a very short length (for example, about 10 samples),HIn this case, a method of reducing the amount of calculation without significantly degrading the quality may be used. At this time, the impulse responsehAt the time tHThe matrix is an (m × n) matrix as follows.
[0026]
(Equation 3)
Figure 0003583945
Note that the inverse quantized linear prediction coefficient a 'jIs used to determine the coefficient of the linear prediction inverse filter 4 and the coefficient of the synthesis filter 14 of the PW quantization unit 12, but the linear prediction coefficient ajEven if H (z) is formed by using, the same quality as when H '(z) is used can be obtained.
[0027]
PW code c0Is selected, the code vector is set so that the equation (3) is minimized from the PW codebook 17.c i 0And its ideal gain gi 0Is calculated. Actually, the following equivalent method is used for this selection calculation. First, all code vectors of the PW codebook 17c i 0Equation (11) is calculated for0Code vector with maximum valuec i 0Selectx TRepresents the transposed matrix of x.
[0028]
D '0= (x T HPc i 0)2/ ‖HPc i 02  (11)
Ideal gain g of selected code vectori 0Is calculated using equation (12).
gi 0=x T HPc i 0/ ‖HPc i 02        (12)
Next, the gain gi 0Is scalar-quantized. The code of the selected code vector and the code of the selected gain are represented by the PW code I.4, And the periodic judgment unit 7 outputs a periodic code I indicating whether the frame is a voiced part or an unvoiced part.5Is output. Sign I1~ I5Are combined by the multiplexer 13 and output to the transmission path or the storage unit.
[0029]
As described above, one frame is set to, for example, 25 msec, and a residual waveform (signal) for one pitch period is extracted from it, that is, only a fraction of one frame is extracted. On the other hand, even when the synthesis filter 14 is driven with the input set to zero, there is an output corresponding to the state immediately before that, that is, a so-called zero input response. Therefore, in CELP coding, a target obtained by subtracting a zero input response from an input waveform is targeted. However, in the present invention, since encoding is performed using only a part of one frame, the impulse response matrix of the synthesis filter 14 is extended by CELP encoding by an amount corresponding to the zero response, and the waveform for one pitch period is reduced to zero. A code vector close to this, including the input response (free response), is selected.
[0030]
As described above, since the waveform information is encoded only for one pitch period in one frame, it can be expressed with a smaller number of bits, and the peak position is normalized (constant phase). Can also reduce the number of coding bits.
Since PW is one pitch cycle of the residual signal, its waveform is close to an impulse waveform, and its frequency spectrum is almost flat as shown by the broken line in FIG. When the PW is cycled with a pitch cycle, the intensity of the spectrum is repeated as shown by the solid line in FIG. A code vector cut out by the pitch cycle length and made periodic by the pitch cycle becomes a spectrum in which irregularities as shown by a solid line in FIG. 6 are repeated. Therefore, since quantization is performed by comparing the periodicized PW and the code vector, a portion having a large power spectrum is weighted (weighted) and distance calculation is performed, so that efficient quantization can be performed.
[0031]
The linear prediction synthesis filter 14 and the convolution filters 16 and 22 in FIG. 2A may be omitted, and instead, synthesis filters 25 and 26 whose filter coefficients are determined by quantized linear prediction coefficients as shown in FIG. 7A may be used. Also, as shown in FIG. 7B, the pitch period matrix of the pitch period filter 15 and the impulse response matrix of the synthesis filter 25 (or the convolution filter 16).HMay be used. Similarly, the pitch period filter 21 and the convolution filter 22 or the synthesis filter 26 can be used as one filter.
[0032]
Next, FIG. 3 shows a decoder to which the embodiment of the decoding method according to the present invention is applied, corresponding to the embodiment of the encoding method shown in FIG. This decoder is the same as that shown in JP-A-10-232697. Here, the code I input to the input terminal 311~ I5Is an unvoiced / voiced (PM) code I after all the codes are separated and decoded by the demultiplexer 32.2, I4To generate an excitation signal. Periodic code I5Is a voiceless part, the voiceless part code I2Is reproduced by the unvoiced part decoding unit 41. The unvoiced decoding unit 41 adds the unvoiced code I to the white noise from the white noise generation unit.2Of the decoded power code to generate a synthesized residual waveform of the unvoiced portion. That is, white noise of N samples is generated, and each subframe (NsubThe average power during the long period is calculated and multiplied by the gain so as to coincide with the average power of the corresponding decoded subframe, and is used as an excitation signal.
[0033]
Periodic code I5Indicates a voiced part, the PW code I in FIG.4In the PW decoding unit 33 as shown in Expression (13).c iGain giMultiply by PW waveformr iIs decrypted.
r i= Gi 0 c i 0                                    (13)
Although not shown in the figure, it has the same PW codebook 17 and gain codebook 18 in FIG.c i 1Is the pitch period length p from the head of the code vector of the PW codebookiIs extracted by the code vector extraction unit 34.
[0034]
Next, this decoded PW waveformr iAnd contents of previous PW buffer 35r i-1Is performed by the linear interpolation unit 36, and an intermediate PW waveformr intmGet. For this linear interpolation, for example, equation (14) is used.
r intm(J) = (1-α)r i-1(J) + αr i(J) (14)
(J = 0, 1,..., P−1; 0<α<1)
Here, α is a value representing the position of the waveform in the frame of N sample length, and p is the pitch before and after (piOr pi-1) Longer sample size,r i-1Isr iIn the previous PW vector,r intmIs the interpolated vector
Pass. The remainder of the short pitch vector is padded with zeros, and interpolation is performed after matching the long vector with the long one.
[0035]
That is, on the decoding side, the residual waveform is cut out only for one pitch period in each frame. Therefore, between the waveform cut out in the current frame and the waveform cut out in the previous frame, there is originally a waveform corresponding to one pitch period to several pitch periods. The waveform that should exist should be the decoded PW waveform of the previous frame.r i-1And decoded PW waveform of current framer iInterpolate linearly with. Α is determined in accordance with the order of the waveform to be interpolated between the clipped waveform of the previous frame and the clipped waveform of the current frame. Pitch period code I3Is decoded by the pitch period decoding unit 37, and the number of waveforms to be interpolated is determined from the decoded pitch period and the frame length.
[0036]
Further, the pitch interpolator 39 linearly interpolates each pitch cycle between the pitch cycle of the cut-out waveform of the previous frame and the pitch cycle of the cut-out waveform of the current frame based on the decoded pitch cycle and the contents of the previous pitch cycle buffer 38. Using the interpolation pitch period, the intermediate PW waveforms obtained by the linear interpolation unit 36 are sequentially connected by the residual signal synthesis unit 39, and this is used as an excitation signal.
[0037]
Here, at the time of interpolation, the length of the PW is normalized by sampling conversion so that the preceding and succeeding vectors have the same length (N samples), and two vectors are obtained based on the following equation (15) in the same manner as equation (14). It is also possible to perform a linear interpolation of the vector.
S intm(J) = (1-α)S i-1(J) + αS i(J) (15)
(J = 0, 1,..., N; 0<α<1)
Here, α is a value indicating the position of the waveform in the frame of N sample length, N is the normalized vector length,S i-1Isr iThe previous PW vector ofS iIsr iAre normalized PW vectors ofS intmRepresents a normalized vector formed by interpolation. thisS intmAre converted into the pitch period length interpolated by sampling conversion in the same manner as described above, and are sequentially connected.
[0038]
Periodic signal I5Indicates the unvoiced portion, the synthesized excitation signal from the unvoiced portion decoding portion 41 is5Indicates a voiced portion, the linear prediction synthesis filter 42 is driven using the synthesized excitation signal from the residual signal synthesis unit 39, and an output voice is obtained at the output terminal 43. Here, the linear prediction coefficient code I1Is decoded by the linear prediction coefficient decoding unit 44, and the linear prediction coefficient for one pitch period in the previous frame and the linear prediction coefficient for one pitch period in the current frame are also used for the linear prediction coefficient using the contents of the previous coefficient buffer 45. Linear interpolation is performed between the coefficients by the linear prediction coefficient interpolation unit 46 in the same manner as in Expression (14), and the coefficients of the synthesis filter 42 are determined. In general, interpolation of linear prediction coefficients is performed in the LSP area.
Example 2
FIG. 4 shows a PW quantization unit according to an embodiment in the case where the PW quantization unit 12 in FIG. 1 performs multi-stage quantization. In FIG. 4, the same reference numerals are given to portions corresponding to those in FIG. 2A. In this example, two-stage quantization is performed, a new PW codebook 51 is provided, and a code vector selected from the PW codebook 51 is used.c j 1For the gain g selected from the gain codebook 52k 1Is given by the code cutout unit 53 to the pitch period length p.i, And are sequentially applied to the pitch period filter 54 and the convolution filter 55. This gives the pitch periodic matrix for the cut-out code vector with gainPAnd impulse responseHIs convoluted to obtain a composite waveform. This composite waveform is subtracted from the error signal from the subtraction unit 23 by the subtraction unit 56, and the remainder is given to the distortion calculation unit 57, and the distortion calculation unit 57 Of the PW codebook 51 so that the square of the output ofc j 1And gain g of codebook 52k 1Is selected. Also in this case, as a whole, the code vector is set so that the auditory weighted mean square error between the waveform synthesized with the code vector as the excitation signal and the waveform synthesized with the PW waveform as the excitation signal is minimized.c i 0,c j 1, Gain gk 0, Gk 1Is determined. Equation (16) is used for calculating the distance of this distortion measure.
[0039]
D = ‖x-Gk 0 HPc i 0-Gk 1 HPc j 12  (16)
here,xIs the target obtained by equation (4),HIs the quantized linear prediction coefficient a 'iMatrix that represents the impulse response of the synthesis filter usingPIs a matrix representing pitch periodicity,c 0andc 1Is the sign vector, and g0, G1Represents the gain of each code vector.
[0040]
First, as described with reference to FIG.c 0And its ideal gain gi 0Is determined. Next, from the PW codebook 51, a code vector that minimizes the expression (16)c j 1And its ideal gain gj 1And calculatec i 0G, the ideal gain ofi 0Is recalculated. This is the sign vectorc i 0,c i 1, And performs encoding. Details of the vector quantization based on the vector orthogonalization are described in "Exciting Signal Orthogonalized Speech Coding Method" (Japanese Patent Laid-Open No. 7-253795).
[0041]
For the selection, D ′ of the following equation (17) is used.1Code vector with maximum valuec i 1Is selected in a closed loop.
[0042]
(Equation 4)
Figure 0003583945
Ideal gain g of selected code vectorj 1Is calculated using equation (18).
[0043]
(Equation 5)
Figure 0003583945
Also, the ideal gain gi 0Is recalculated using equation (19).
[0044]
(Equation 6)
Figure 0003583945
Since the selection of the code vector has been completed by the above procedure, (g) that minimizes the expression (16)k 0, Gk 1).
The following equation (20) is used for PW decoding in this case.
r i= Gi 0 c i 0+ Gi 1 c i 1                    (20)
In the above description, it is possible to use any of the adaptive codebook (a), the fixed (noise) codebook (b), and the pulse codebook (c) as shown in FIG. 5 as the PW codebook. The adaptive codebook (a) is a past residual waveform, and for example, the output of the code cutout unit 19 in FIG. 2A is used. The pulse code book (c) can generate a pulse each time according to rules.
Example 3
FIG. 2B shows an embodiment in which quantization is performed using a codebook (two) having a conjugate structure as the PW quantizer 12 in FIG. 1, and portions corresponding to those in FIG. 2A are denoted by the same reference numerals. 2A, a PW codebook 61 is further provided. Each code vector of the PW codebook 61 and the code vector of the PW codebook 17 have a conjugate structure with each other, that is, a code vector that is orthogonal to each other is selected. Each of the code vectors selected from the PW codebooks 17 and 61 is provided with a gain selected from the gain codebook 18, and the two code vectors provided with the gains are added by the adder 62, and the pitch period is obtained as an excitation signal. To the synthesizing filter 21 and the synthesizing filter 22 sequentially. Each code vector of the PW codebooks 17 and 61 and its gain are determined so that the auditory weighted mean square error between the waveform obtained by combining the code vector as the excitation signal and the waveform obtained by combining the PW waveform as the excitation signal is minimized. Is done. Equation (16) is used for the distance calculation of the distortion scale, as in the second embodiment. The details of the encoding method using the codebook having the conjugate structure are described in "Multi-vector quantization method and apparatus" (Japanese Patent Application No. 63-249450).
[0045]
In this case as well, an adaptive codebook, fixed codebook, pulse codebook, or the like as shown in FIG. 5 can be used as the codebook. In the above description, when a plurality of codebooks are used, a combination of, for example, an adaptive codebook and a fixed codebook may be used from a plurality of types of codebooks shown in FIG.
The PW decoding unit 33 in FIG. 3 for the multi-stage vector quantization and the conjugate structure vector quantization prepares a codebook corresponding to the number of input code vectors, and outputs the input PW code I from each of these codebooks.4, And fetch the input PW code I4Each corresponding gain obtained from the gain codebook may be given by the medium gain code. The PW vectors thus decoded are added, and linear addition is performed with the added PW vector of the previous frame, and the resultant is successively connected to be supplied to the synthesis filter 42 as a continuous signal.
[0046]
【The invention's effect】
As described above, according to the speech waveform quantization method of the present invention, in order to perform pitch periodization on a PW code vector, weighted quantization by pitch periodization is performed. PW) is improved in quantization efficiency. Performing all pitch period operations in the real-time domain can be realized with a smaller amount of calculation than that performed in the frequency domain.
[0047]
In order to examine the effect of the speech waveform quantization method of the present invention, an analysis and synthesis speech experiment was performed under the following conditions. As the input voice, a voice in the 0-4 kHz band that was sampled at a sampling frequency of 8.0 kHz and then passed through an IRS characteristic filter corresponding to the characteristics of the telephone was used. The encoder having the configuration of the second embodiment was used. First, this signal is multiplied by a Hamming window having an analysis window length of 30 ms to the speech signal every 25 ms (200 samples), and linear prediction analysis is performed by the autocorrelation method with the analysis order set to 12, thereby obtaining 12 prediction coefficients. The prediction coefficient is vector-quantized using the Euclidean distance of the LSP parameter. When the state of the input voice is determined to be voiced, the obtained PW vector isc i 0,c j 1Is used to perform vector quantization. The pitch obtained by the partial autocorrelation method is subjected to scalar quantization by rounding to an integer value, and is used as a value of the pitch period.
[0048]
Compared with the speech waveform quantized without pitch period under the above conditions, the speech waveform quantized with pitch period improved the noise-to-noise ratio by 2 dB or more.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration example of an encoder to which an embodiment of an encoding method according to the present invention is applied.
2A is a block diagram illustrating a specific functional configuration example of a PW quantization unit 12 in FIG. 1, and FIG. 2B is a block diagram illustrating a functional configuration example when conjugate structure vector quantization is performed.
FIG. 3 is a block diagram showing a functional configuration example of a decoder to which a decoding method for decoding a code quantized according to the present invention is applied.
FIG. 4 is a block diagram showing a specific functional configuration example of a PW quantization unit 12 in the case of multi-stage vector quantization.
FIG. 5 is a diagram showing an example of a codebook for a quantization method used in the present invention.
FIG. 6 is a diagram conceptually showing a power spectrum of a PW that is not pitch-periodized and a power spectrum of a PW that is pitch-periodicized.
FIG. 7 is a diagram showing a partial modification of a PW quantization unit.

Claims (7)

音声信号をそのピッチ周期より長いフレームごとに線形予測分析し、その分析により得られた線形予測係数と、その線形予測係数にもとづくフィルタ係数の線形予測合成フィルタを駆動する励振信号とによって音声の特徴を表現し、
音声信号を線形予測逆フィルタ処理して残差信号を求め、
音声信号のピッチ周期を抽出し、
フレームごとに音声信号が有声区間か無声区間かの判定を行い、
当該フレームが有声区間ならば、残差信号からピッチ周期長の残差信号ベクトルを抽出し、
その残差信号ベクトルを、予め定めた基準信号ベクトルとの相関が大きくなるように巡回して目標残差ベクトルを求め、
その目標残差ベクトルを上記合成フィルタに通して目標波形ベクトルを求め、 予め決めた複数の符号ベクトルをピッチ周期長で打ち切ったもの励振信号として上記合成フィルタを駆動して合成波形ベクトルを求め、
この合成波形ベクトルの上記目標波形ベクトルに対する波形の歪みが最小となる符号ベクトルを選択して量子化符号を決定する音声符号化方法において、
上記目標残差ベクトルに対し、上記ピッチ周期をもって周期化処理した後上記合成フィルタに通して上記目標波形ベクトルを求め
記符号ベクトルに対し、上記ピッチ周期をもって周期化処理した後、上記励振信号として上記合成フィルタを駆動して上記合成波形ベクトルを求めることを特徴とする音声符号化方法。
The speech signal is subjected to linear prediction analysis for each frame longer than its pitch period, and the linear prediction coefficient obtained by the analysis and an excitation signal for driving a linear prediction synthesis filter of a filter coefficient based on the linear prediction coefficient are used for speech characteristics. Express,
A linear prediction inverse filter process is performed on the audio signal to obtain a residual signal,
Extract the pitch period of the audio signal,
For each frame, determine whether the audio signal is a voiced or unvoiced section,
If the frame is a voiced section, a residual signal vector having a pitch period length is extracted from the residual signal,
The target signal vector is obtained by circulating the residual signal vector so that the correlation with a predetermined reference signal vector is increased,
The target residual vector is passed through the synthesis filter to obtain a target waveform vector, and a plurality of predetermined code vectors cut off at a pitch period length is used as an excitation signal to drive the synthesis filter to obtain a synthesis waveform vector,
In a speech encoding method for selecting a code vector in which the distortion of the waveform of the synthesized waveform vector with respect to the target waveform vector is minimized and determining a quantization code,
For the target residual vector, after performing a periodical process with the pitch period, through the synthesis filter to determine the target waveform vector ,
To top Kifu No. vector was treated periodic with the pitch period, speech encoding method by driving the synthesis filter as the excitation signal, characterized in Rukoto seek the composite waveform vector.
上記目標残差ベクトルに対しピッチ周期化行列を掛算し、その掛算結果に対し、上記合成フィルタのインパルス応答に基づく下方三角正方行列に対し、そのフィルタの自由応答を求めるために下方に拡張した非正方行列を畳み込み演算して上記目標波形ベクトルを生成し、
上記選択した符号ベクトルに上記ピッチ周期化行列を掛算し、その掛算結果に対し、上記非正方行列を畳み込み演算して上記合成波形ベクトルを生成し、
上記ピッチ周期化行列の行の数は上記非正方行列の行の数と等しくされていることを特徴とする請求項1記載の音声符号化方法。
The target residual vector is multiplied by a pitch period matrix, and the result is multiplied by a lower triangular matrix based on the impulse response of the synthesis filter. Convolution of the square matrix to generate the target waveform vector,
The selected code vector is multiplied by the pitch periodic matrix, and the multiplication result is convolved with the non-square matrix to generate the composite waveform vector,
2. The speech encoding method according to claim 1, wherein the number of rows of the pitch periodic matrix is equal to the number of rows of the non-square matrix.
音声信号をそのピッチ周期より長いフレームごとに線形予測分析し、その分析により得られた線形予測係数と、その線形予測係数にもとづくフィルタ係数の線形予測合成フィルタを駆動する励振信号とによって音声の特徴を表現し、
音声信号を線形予測逆フィルタ処理して残差信号を求め、
音声信号のピッチ周期を抽出し、
フレームごとに音声信号が有声区間か無声区間かの判定を行い、
当該フレームが有声区間ならば、残差信号からピッチ周期長の残差信号ベクトルを抽出し、
その残差信号ベクトルを、予め定めた基準信号ベクトルとの相関が大きくなるように巡回して目標残差ベクトルを求め、
その目標残差ベクトルを上記合成フィルタに通して目標波形ベクトルを求め、 予め決めた複数の符号ベクトルをピッチ周期長で打ち切ったもの励振信号として上記合成フィルタを駆動して合成波形ベクトルを求め、
この合成波形ベクトルの上記目標波形ベクトルに対する波形の歪みが最小となる符号ベクトルを選択して量子化符号を決定する音声符号化方法において、
上記目標残差ベクトルに対し、上記ピッチ周期をもって周期化処理すると同時に上記合成フィルタ処理を行って上記目標波形ベクトルを求め、
記符号ベクトルに対し上記ピッチ周期をもって周期化処理すると同時に上記合成フィルタ処理をして上記合成波形ベクトルを求めることを特徴とする音声符号化方法。
The speech signal is subjected to linear prediction analysis for each frame longer than its pitch period, and the linear prediction coefficient obtained by the analysis and an excitation signal for driving a linear prediction synthesis filter of a filter coefficient based on the linear prediction coefficient are used for speech characteristics. Express,
A linear prediction inverse filter process is performed on the audio signal to obtain a residual signal,
Extract the pitch period of the audio signal,
For each frame, determine whether the audio signal is a voiced or unvoiced section,
If the frame is a voiced section, a residual signal vector having a pitch period length is extracted from the residual signal,
The target signal vector is obtained by circulating the residual signal vector so that the correlation with a predetermined reference signal vector is increased,
The target residual vector is passed through the synthesis filter to obtain a target waveform vector, and a plurality of predetermined code vectors cut off at a pitch period length is used as an excitation signal to drive the synthesis filter to obtain a synthesis waveform vector,
In a speech encoding method for selecting a code vector in which the distortion of the waveform of the synthesized waveform vector with respect to the target waveform vector is minimized and determining a quantization code,
For the target residual vector, at the same time as performing the periodic processing with the pitch period and performing the synthesis filter processing to determine the target waveform vector,
Speech encoding method characterized by relative upper Kifu No. vector by simultaneously the synthesis filtering operation is treated cycled with the pitch period obtaining the composite waveform vector.
上記合成フィルタのインパルス応答に基づく下方三角正方行列に対し、そのフィルタの自由応答分を求めるために下方に拡張した非正方行列と、その行列の行の数と行の数が等しいピッチ周期化行列とを掛け合わせたものを、
上記目標残差ベクトルに対し畳み込み演算して上記目標ベクトルを生成し、
上記非正方行列と上記ピッチ周期化行列を掛け合わせたものを上記選択した符号ベクトルに畳み込み演算して上記合成波形ベクトルを生成することを特徴とする請求項3記載の音声符号化方法。
For the lower triangular square matrix based on the impulse response of the synthesis filter, a non-square matrix extended downward to obtain the free response of the filter, and a pitch periodic matrix having the same number of rows and rows as the matrix And multiplied by
Convolving the target residual vector to generate the target vector,
4. The speech encoding method according to claim 3, wherein a product obtained by multiplying the non-square matrix by the pitch periodic matrix is convolved with the selected code vector to generate the composite waveform vector.
上記線形予測係数に基づくフィルタ係数を有する合成フィルタのインパルス応答を求め、そのインパルス応答を小サンプル数で打ち切ったものにより上記非正方行列を作成することを特徴とする請求項2又は4記載の音声符号化方法。5. The speech according to claim 2, wherein an impulse response of a synthesis filter having a filter coefficient based on the linear prediction coefficient is obtained, and the non-square matrix is created by truncating the impulse response with a small number of samples. Encoding method. 予め用意した複数の第2符号ベクトルをピッチ周期長で打ち切ったもの、これに対し上記ピッチ周期で周期化処理すると共に上記合成フィルタ処理して第2合成波形ベクトルを求め、
この第2合成波形ベクトルの、上記合成波形ベクトルの上記目標波形ベクトルに対する誤差ベクトルとの波形歪が最小となる上記第2符号ベクトルを選択して量子化符号を決定することを特徴とする請求項1乃至5の何れかに記載の音声符号化方法。
A plurality of second code vectors prepared in advance to that aborted by the pitch period length, whereas determine the second composite waveform vector by the synthesis filtering operation while processing cycle of the above pitch period,
The quantization code is determined by selecting the second code vector that minimizes waveform distortion of the second synthesized waveform vector and an error vector of the synthesized waveform vector with respect to the target waveform vector. A speech encoding method according to any one of claims 1 to 5.
共役構造をもつ複数個の符号帳からそれぞれ選択した符号ベクトルの重みつき線形和によって、上記合成波形ベクトルを得るための上記励振信号とすることを特徴とする請求項1から5のいずれかに記載の音声符号化方法。6. The excitation signal for obtaining the composite waveform vector by a weighted linear sum of code vectors respectively selected from a plurality of codebooks having a conjugate structure. Voice encoding method.
JP10816199A 1999-04-15 1999-04-15 Audio coding method Expired - Fee Related JP3583945B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10816199A JP3583945B2 (en) 1999-04-15 1999-04-15 Audio coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10816199A JP3583945B2 (en) 1999-04-15 1999-04-15 Audio coding method

Publications (2)

Publication Number Publication Date
JP2000298500A JP2000298500A (en) 2000-10-24
JP3583945B2 true JP3583945B2 (en) 2004-11-04

Family

ID=14477520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10816199A Expired - Fee Related JP3583945B2 (en) 1999-04-15 1999-04-15 Audio coding method

Country Status (1)

Country Link
JP (1) JP3583945B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL138408A0 (en) * 2000-04-07 2001-10-31 Digitalsecu Co Ltd Apparatus for and method of storing log data in communication network
JP4433668B2 (en) * 2002-10-31 2010-03-17 日本電気株式会社 Bandwidth expansion apparatus and method
EP2101320B1 (en) 2006-12-15 2014-09-03 Panasonic Corporation Adaptive excitation vector quantization apparatus and adaptive excitation vector quantization method
WO2008072735A1 (en) 2006-12-15 2008-06-19 Panasonic Corporation Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof
CN105096958B (en) * 2014-04-29 2017-04-12 华为技术有限公司 audio coding method and related device

Also Published As

Publication number Publication date
JP2000298500A (en) 2000-10-24

Similar Documents

Publication Publication Date Title
JP4550289B2 (en) CELP code conversion
US7280959B2 (en) Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals
JP3236592B2 (en) Speech coding method for use in a digital speech coder
JP3582589B2 (en) Speech coding apparatus and speech decoding apparatus
JP3531780B2 (en) Voice encoding method and decoding method
JP3583945B2 (en) Audio coding method
JP3510168B2 (en) Audio encoding method and audio decoding method
JP3296411B2 (en) Voice encoding method and decoding method
JP4438280B2 (en) Transcoder and code conversion method
JPH0782360B2 (en) Speech analysis and synthesis method
JPS6238500A (en) Highly efficient voice coding system and apparatus
JP2853170B2 (en) Audio encoding / decoding system
JP3192051B2 (en) Audio coding device
JP2001142499A (en) Speech encoding device and speech decoding device
JP2947788B1 (en) High-speed encoding method and apparatus for speech and audio signals and recording medium
JP3166697B2 (en) Audio encoding / decoding device and system
JP3984048B2 (en) Speech / acoustic signal encoding method and electronic apparatus
JP3071800B2 (en) Adaptive post filter
JP3274451B2 (en) Adaptive postfilter and adaptive postfiltering method
JP3199128B2 (en) Audio encoding method
JP2004061558A (en) Method and device for code conversion between speed encoding and decoding systems and storage medium therefor
JP3984021B2 (en) Speech / acoustic signal encoding method and electronic apparatus
JP2005062410A (en) Method for encoding speech signal
JP3144244B2 (en) Audio coding device
JPH06195098A (en) Speech encoding method

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040730

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100806

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees