JP3296411B2 - 音声符号化方法および復号化方法 - Google Patents

音声符号化方法および復号化方法

Info

Publication number
JP3296411B2
JP3296411B2 JP03812797A JP3812797A JP3296411B2 JP 3296411 B2 JP3296411 B2 JP 3296411B2 JP 03812797 A JP03812797 A JP 03812797A JP 3812797 A JP3812797 A JP 3812797A JP 3296411 B2 JP3296411 B2 JP 3296411B2
Authority
JP
Japan
Prior art keywords
vector
code
speech
waveform
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03812797A
Other languages
English (en)
Other versions
JPH10232697A (ja
Inventor
祐介 日和▲崎▼
一則 間野
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03812797A priority Critical patent/JP3296411B2/ja
Publication of JPH10232697A publication Critical patent/JPH10232697A/ja
Application granted granted Critical
Publication of JP3296411B2 publication Critical patent/JP3296411B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声の信号系列
を少ない情報量でディジタル符号化する高能率音声符号
化方法、特に、従来ボコーダと呼ばれる音声分析合成系
の領域である2.4kbit/s以下のビットレートで
高品質な音声符号化を実現する符号化方法及びその復号
化方法に関する。
【0002】
【従来の技術】この発明に関連する従来技術としては、
線形予測ボコーダ、符号励振予測符号化法(CELP:
Code Excited Linear Predi
ction)、混合領域符号化法(Mixed Dom
ain Coding)、代表波形補間符号化法(Pr
ototype Waveform Interpol
ation)がある。
【0003】線形予測ボコーダは、4.8kbit/s
以下の低ビットレート領域における音声符号化方法とし
てこれまで広く用いられ、PARCOR方式や、線スペ
クトル対(LSP)方式などの方式がある。これらの方
法の詳細は、たとえば斎藤、中田著「音声情報処理の基
礎」(オーム社出版)に記載されている。線形予測ボコ
ーダは、音声のスペクトル包絡特性をあらわす全極型の
フィルタと、それを駆動する励振信号によって構成され
る。励振信号には、有声音に対してはピッチ周期パルス
列、無声音に対しては白色雑音が用いられる。線形予測
ボコーダにおいて、周期パルス列や白色雑音による励振
信号では音声波形の特徴を再現するには不十分なため、
自然性の高い合成音声を得ることは困難である。
【0004】一方、符号励振予測符号化では、雑音系列
を励振信号として音声の近接相関とピッチ相関特性をあ
らわす2つの全極型フィルタを駆動することにより音声
を合成する。雑音系列は複数個の符号パターンとしてあ
らかじめ用意され、その中から、入力音声波形と合成音
声波形との誤差を最小にするコードパターンが選択され
る。その詳細は、文献Schroeder:“Code
Excited Linear Predictio
n (CELP) High QualitySpee
ch at Very Low Bit Rates”
Proc.IEEE.ICASSP,pp937−94
0,1985に記載されている。符号励振予測符号化で
は、再現精度は符号パターンの数に依存する関係にあ
る。したがって、多くの系列パターンを用意すれば音声
波形の再現精度が高まり、それにともなって品質を高め
ることが出来る。しかし、音声符号化のビットレートを
4kbit/s以下にすると、符号パターンの数が制限
され、その結果十分な音声品質が得られなくなる。良好
な音声品質を得るには4.8kbit/s程度の情報量
が必要であるとされている。
【0005】また、混合領域符号化法(Mixed D
omain Coding)では、有声音でフレーム毎
に残差波形よりピッチ周期分の波形が抽出され、前のピ
ッチ周期分の波形との差分が時間領域で量子化される。
復号器では周波数領域でこれらの波形の線形補間を行う
ことによって励振信号を生成し、全極フィルタを駆動し
て音声を合成する。無声音では符号励振予測符号化と同
様な方法で符号化を行う。この方式の詳細は、文献De
Martin等“Mixed DomainCodi
ng of Speech at 3kb/s”Pro
c.IEEE.ICASSP,PPII/216−17
0,1996に記載されている。この方法の特徴として
は、差分を求める際に、前ピッチ周期波形は、現在のフ
レームの波形に長さが正規化されることが挙げられる。
この差分の量子化には、パルス符号帳と雑音符号帳を用
いるが、3.5kbit/s程度の情報量が必要とされ
ている。
【0006】また、代表波形補間符号化法(Proto
type Waveform Interpolati
on Coder)では、プロトタイプ波形(Prot
otype Waveform)の線形補間を行って合
成した励振信号で全極フィルタを駆動することにより音
声を合成する。この詳細は、文献Kleijn W.
B.“Encoding Speech Using
Prototype Waveforms”IEEE
Trans.on Speech AudioProc
essing,Vol.1,pp386−399 19
93に記載されている。プロトタイプ波形は、一定周期
で残差波形より抽出され、フーリエ変換された後に符号
化される。この方式では良好な品質を得るには3.4k
bit/s程度の情報量が必要であるとされている。
【0007】
【発明が解決しようとする課題】この発明の課題は、雑
音系列やピッチパルス列を励振信号として用いる線形予
測符号化方法において、電話音声などのように入力信号
の周波数帯域が制限されている場合に、より能率的な符
号化を実現する方法と、その復号化方法を実現すること
である。
【0008】
【課題を解決するための手段】この発明による符号化方
法は入力音声のピッチ周期を推定し、励振信号の周期的
な部分で、推定されたピッチ周期分の波形を抽出し、そ
のピッチ周期分の波形との波形歪みが最小になるように
符号ベクトルをピッチ長で打ち切ったものより決定する
ことを特徴とする。ここで、入力ピッチ周期波形に、合
成フィルタのインパルス応答を畳み込んだベクトルと、
符号ベクトルをピッチ長で打ち切ったものに同様に畳み
込んだベクトルとの距離計算をすることよって符号を選
択する。また、音声を合成する際には、前後の励振信号
を補間したものを戻してつなげる。この補間の際には、
異なるピッチ長の励振ピッチ周期波形ベクトルは短かい
ベクトルを長いベクトルに長さを合わせて差のベクトル
に零詰めを行うことを特徴とする。
【0009】
【発明の実施の形態】実施例1 図1にこの発明の符号化方法を適用した符号化部の機能
構成を示す。この符号化部は、以下の手順をNサンプル
数の長さをもつフレームごとに1回行う。フレームiに
おいて、入力端子11よりの入力音声信号s(t)のp
次の線形予測係数(LPC)aj (j=0,1,…,p
−1)をLPC計算部12で計算する。この線形予測係
数はLPC量子化部13で量子化され、線形予測係数符
号I1 として送出される。線形予測係数の量子化の詳細
については「音声の線形予測パラメータ符号化方法」
(特開平5−27798)に記載されている。LPC量
子化部13よりの線形予測係数符号I1 は復号され、そ
の逆量子化された線形予測係数に基づいて、線形予測逆
フィルタ14のフィルタ係数を定め、この逆フィルタ1
4に入力音声信号s(t)を通して残差信号r(t)を
計算する。逆フィルタ14は次の伝達特性1/A(z)
を持つディジタルフィルタで実現される。
【0010】 A(z)-1=1+a1-1+…+ap -p (1) ここで得られた残差信号の相関(偏相関関数)ρを相関
計算部15で計算し、その相関ρの最大値ρmax の遅れ
(間隔)をピッチ周期抽出部16で推定ピッチ周期pi
とする。このとき、周期性判定部17で入力音声信号s
(t)が有声部であるか無声部であるかを、例えば以下
の様にしきい値θ(0.5〜1.0)で判別する。
【0011】 k1 /2+ρmax >θ;有声部 k1 /2+ρmax <θ;無声部 (2) ここで、k1 は線形予測係数計算部12で求まる第1次
の偏自己相関(PARCOR)係数である。判定部17
が無声部と判断すると無声部量子化部19で図2Aに示
すように量子化を行う。この量子化部19では、フレー
ムをS分割し、Nsub (=N/S)サンプル数をサブフ
レームとし、そのサブフレーム中の逆フィルタ14より
残差波形r(t)の平均パワーをパワー計算部21で計
算し、その1フレーム分をベクトル量子化部22でベク
トル量子化して無声部符号I2 として出力する。
【0012】この無声部の量子化は、図2Bに示すよう
な構成で行ってもよい。即ちLPC量子化部13よりの
量子化線形予測係数aj ′により線形予測合成フィルタ
23,24のフィルタ係数を設定し、逆フィルタ18よ
りの残差信号r(t)を合成フィルタ23で入力音声信
号s(t)を再生し、一方雑音符号帳25より選択した
雑音符号に利得部26で利得符号帳27より選択した利
得を与え、その利得が与えられた雑音符号を合成フィル
タ24で音声合成し、この合成音声と、合成フィルタ2
3よりの再生音声との差を引き算部28でとり、その差
(誤差)の二乗が最小となるように歪み計算部29によ
り雑音符号帳25の雑音符号の選択と、利得符号帳27
の利得選択を行う。この時の雑音符号帳25の雑音符号
および利得符号帳27の利得を無声部符号I2 とする。
【0013】周期性判定部17が有声部と判断した場合
は残差切りだし部31により推定されたピッチ周期pi
を用いて、逆フィルタ14からの残差信号r(t)にお
けるフレームの中央付近からpi の長さの波形を切り出
す。この切り出された残差波形とパルス信号(基準信号
ベクトル)との相関が大きくなるまで、その残差波形を
PW整列部32で巡回させる。ここで、切り出された
かつPW整列部32で巡回された1周期波形分の残差波
形rp をPW(ピッチ周期波形)と呼ぶ。推定ピッチ周
期pi はピッチ周期量子化部34で四捨五入によって整
数値に量子化され、ピッチ周期符号I3 として出力され
る。
【0014】PW整列部32よりのPWは目標残差ベク
トルであって、PW量子化部35でベクトル量子化され
る。PW量子化部35は例えば図3Aに示すように、図
1中のLPC量子化部13よりの量子化された線形予測
係数によりフィルタ係数が定められた線形予測合成フィ
ルタ37にインパルス信号が通されて、インパルス応答
j が求められる。そのインパルス応答hj にもとづく
インパルス応答行列Hが、図1中のPW整列部32よ
りのPWに畳み込みフィルタ39で畳み込まれて音声信
号xが合成されて目標波形ベクトルとされる。一方、P
W符号帳41から選択された符号ベクトルをその先頭か
ら、図1中のピッチ周期抽出部16が出されたピッチ
周期長だけ符号切り出し部38で切り出し、この切り出
された符号ベクト0 i に対し、利得部42で利得
符号帳43より取出された利得go k が与えられ、これ
に対し、畳み込みフィルタ44でインパルス応答行列
Hが畳み込まれて音声合成され、この合成音声信号の
再生音声信号x、つまり目標波形ベクトルに対する誤差
が引算部45でとられ、その誤差の二乗が最小になるよ
うに、PW符号帳41の符号ベクトルc0 i の選択
と、利得符号帳43の利得go k の選択とが歪み計算部
46で行われる。つまり再生音声信号xを目標波形ベク
トルとして、符号ベクトルと利得が選択される。
【0015】なお、PW符号帳41の各符号ベクトルの
長さnは抽出されるピッチ長pi よりも十分長くとる必
要がある(n:n>p max )。ここで符号ベクトルのピ
ークの位相は均一とされてある。図1中のPW整列部3
2で用いたパルス信号はベクトル長がnとされてあり、
位相は、PW符号帳41の符号ベクトルのピークの位相
と一致させてある。
【0016】図3Aで説明したようにPW符号は、符号
ベクトルを励振信号として合成した波形と、PW波形を
励振信号として合成した波形との聴覚重み付け平均二乗
誤差が最小になるように決定される。この歪み尺度Dの
計算には以下の式(3)を用 いる。 D=‖ x−go k Hc0 i 2 (3) ここで、xは目標波形ベクトル(PW波形を励振信号と
して合成した波形)、Hは量子化された線形予測係数a
j ′を用いた合成フィルタ37のインパルス応答をあら
わす行列、co は符号ベクトル、go は符号ベクトル
の利得をあらわす。
【0017】ターゲットxは以下の式(4)を用いてフ
ィルタ39で畳み込み演算によりあらかじめ計算する。 x=Hrp (4) ここで、rp は量子前の原PW波形をベクトル表示に
したものである。従来のCELP符号化では、Hには
フレーム長がNの場合通常下三角の(N×N)の正方行
列を用いるが、ここではピッチ長pi の正方向行列(p
i ×pi)を、下側に(q−pi )行分拡張した(q×
i )の非正方行列を用いる。ここで、qi であ
る。Hには、聴覚重み付けを行った線形予測フィルタ
のインパルス応答hをピッチ長pi で打ち切ったh
j (j=0,1,…,pi −1)を用いる。
【0018】
【数1】 このとき、hj (j=0,1,…,pi −1)の計算に
用いる線形予測合成フィルタ37は、以下の伝達特性
H′(z)をもつディジタルフィルタで実現される。 H′(z)=1/A′(z)=1/(1+a1 ′z-1+…+ap ′z-p) (6) 聴覚重み付けの伝達特性は、次のように表される。
【0019】 W(z)=A(z/γ1 )/A(z/γ2 ) (7) ここで、γ1 とγ2 は聴覚重み付けの程度を制御するパ
ラメータであり、0γ2 γ1 1範囲の値を取る。
図3A中の畳み込みフィルタ39、44での畳み込み演
算に用いる行列Hはインパルス応答hより先に述べた
拡張された(q×pi )の行列を用いる。このように
Hが拡張されているため、式(4)の演算で得られる
目標波形ベクトルxも
【0020】
【数2】 と次数はqとなる。ここで、xj (pi <j<q−1)
は線形予測フィルタ37の自由応答分に対応する成分
で、合成フィルタ37の零入力初期値応答である。ここ
で、演算量低下のために、hの長さを非常に短い長さで
打ち切って(例えば10サンプル程度)、Hを構成し
てもよい。
【0021】なお、量子化線形予測係数aj ′を用いて
線形予測逆フィルタ14の係数およびPW量子化部35
の合成フィルタ37の係数を決めるが、双方に量子化し
ていない線形予測係数aj を用いてH(z)を構成して
もH′(z)を用いた時と同程度の品質が得られる。こ
の場合でも畳み込みフィルタ44のH行列は量子化線
形予測係数aj ′を用いなければならない。
【0022】PW符号c0 の選択では、PW符号帳41
の中から式(3)が最小となるように、符号ベクトル
0 i を選択し、その理想利得g0 i を計算する。ま
ず、式(9)のD0 ′を計算し、D0 ′値が最大となる
符号ベクトルc0 i を閉ループで選択する。なお、x
T はxの転置行列を表す。 D0 ′=(xT Hc0 i 2 /‖Hc0 i 2 (9) 選択された符号ベクトルc0 i の理想利得g0 i の計
算は、式(10)を用いて行う。
【0023】 g0 i =xT Hc0 i /‖Hc0 i 2 (10) 次に、利得g0 i をスカラー量子化する。以上の手続き
で、符号ベクトルの選択は終了しているため、式(3)
が最小となるようなg0 k を選択する。これら選択した
符号ベクトルの符号、選択した利得の符号をPW符号I
4 として出力し、更に、周期判定部17よりそのフレー
ムが有声部か無声部かを示す周期性符号I5 を出力す
る。符号I1 〜I5 がマルチプレクサ47で合成され、
伝送路又は蓄積部へ出力される。
【0024】以上のように1フレームは例えば25ミリ
秒とされ、そのうちから1ピッチ周期分の残差波形(信
号)が取出され、つまり1フレーム中の例えば数分の1
の部分しか取出されていない。一方合成フィルタ37は
入力を零として駆動しても、その直前の状態に応じた出
力、いわゆる零入力応答が生じる。そのためCELP符
号化においては、零入力応答を入力波形から差し引いた
ものを目標波形ベクトル(ターゲット)としている。し
かしこの発明では1フレーム中の一部のみを用いて符号
化するため、合成フィルタ37のインパルス応答行列を
CELP符号化よりも零応答に対応する分拡張して、1
ピッチ周期分の波形を零入力応答(自由応答)を含め
て、これに近い符号ベクトルの選択を行っている。以上
のように波形情報については1フレーム中の1ピッチ周
期分しか符号化していないから、それだけ少ないビット
数で表現でき、またピーク位置を正規化(一定位相)と
しているため、この点においても符号化ビット数を少な
くすることができる。
【0025】次に図1に示した符号化方法の実施例と対
応した、この発明の復号化方法の実施例を適用した復号
器を図4に示す。ここでは入力端子51に入力された符
号I 1 〜I5 はデマルチプレクサ52で全ての音声パラ
メータが分離復号された後、無声・有声パラメータI
2 ,I4 に応じて励振信号を生成する。周期性符号I5
が無声部の場合は、無声部符号I2 を無声部復号部53
で励振信号を再生する。即ち例えば図5Aに示すよう
に、白色雑音生成部54よりの白色雑音に、無声部符号
2 の復号パワー符号を利得計算部55で処理して無声
部の合成残差波形を生成する。つまりNサンプルの白色
雑音を生成し、各々のサブフレーム(Nsu長)中の平均
パワーを、復号された対応するサブフレームの平均パワ
ーと一致するように利得を計算して乗じたものを励振信
号とする。
【0026】周期性符号I5 が有声部を示す場合は図4
においてPW符号I4 によりPW復号部56で式(1
1)に示すように、符号ベクトルci に利得gi を乗
じて、PW波形ri を復号する。図に示していない
が、図3A中のPW符号帳41及び利得符号帳43と同
一のものを備え、符号ベクトルci はPW符号帳41
の符号ベクトルの先頭からピッチ周期長pi だけ符号切
り出し部60で切り出されている。
【0027】 ri =g0 i 0 i (11) 次に、この復号PW波形ri と前PWバッファ57の
内容ri-1 との間の線形補間を線形補間部58で行
い、中間のPW波形rinを得る。この線形補間には、
例えば式(12)を用いる。 rin(j)=(1−α)ri-1 (j)+α i (j) (j=0,1 ,…,p−1; 0α1) (12) ここで、αは、波形がNサンプル長のフレーム中のどの
位置にあるかを表す値、pは前後のピッチ(pi もしく
はpi-1 )の長い方のサンプル数、ri-1 はri
ひとつ前のPWベクトルで、rinは補間されて出来た
ベクトルをあらわす。短いピッチ長のベクトルの余りの
部分は零詰めされ、長い方とベクトル長を一致させた後
に補間を行う。
【0028】つまり、符号化側では残差波形は各フレー
ム中の1ピッチ周期分しか切出されていない。従って、
現フレームで切出された波形と、前フレームで切出され
た波形との間には本来は、1ピッチ周期乃至数ピッチ周
期分程度の波形が存在する。この本来は存在すべき波形
を前フレームの復号PW波形ri-1 と現フレームの復
号PW波形ri とで線形補間する。この補間される波
形が、前フレームの切出された波形と現フレームの切出
された波形との間に補間されるべき波形の何番目かに応
じてαが決定される。ピッチ周期符号I3 はピッチ復号
部59で復号され、その復号ピッチ周期とフレーム長と
から補間する波形数が決められる。
【0029】また復号ピッチ周期と前ピッチバッファ6
1の内容とにより、前フレームの切出し波形のピッチ周
期と、現フレームの切出し波形のピッチ周期との間の各
ピッチ周期をピッチ補間部62で線形補間して求め、そ
の補間ピッチ周期をもちいて、線形補間部58で求めた
中間PW波形を残差信号合成部64で順次つなぎ、これ
を励振信号とする。
【0030】なお、図には示していないが、符号化の時
に誤って半分のピッチもしくは倍のピッチ周期分のPW
を抽出した場合に、復号側で上記方法で補間を行う時、
もう片方のPWのピッチが正しいとすると、線形補間部
58よりの補間波形を用いると、出力音声の品質が劣化
する。そこで、復号された前後のピッチ周期が例えばほ
ぼ2:1のように大きく異なる場合は、前後の波形の短
い方を2回繰り返し、このベクトルと長い方の波形とを
用いて線形補間を行う。ピッチ周期も同様に短い方のピ
ッチ周期を2倍として、他方のピッチ周期とのピッチ補
間を行う。
【0031】ここで、補間の際にPWの長さをサンプリ
ング変換により正規化して前後のベクトルを同一の長さ
(Nサンプル)にして式(12)と同様に以下の式(1
3)に基づいて2つのベクトルの線形補間を行うことも
可能である。 Sin(j)=(1−α)Si-1 (j)+αSi (j) (j=0,1,…,N;0α1) (13) ここで、αは、波形がNサンプル長のフレーム中のどの
位置にあるかを表す値、Nは正規化ベクトル長、S
i-1 はri のひとつ前のPWベクトルを、S i
i のPWベクトルを、それぞれ正規化したもので、
inは補間されて出来た正規化ベクトルをあらわす。
このSinは、サンプリング変換によって上記と同様に
補間されたピッチ周期長に直してから順次つながれる。
【0032】周期性信号I5 が無声部を示す時は無声部
信号部53よりの合成音源信号をI 5 が有声部を示す時
は残差信号合成部64よりの合成励振信号を用いて線形
予測合成フィルタ65を駆動し、出力音声を出力端子6
6に得る。ここで、線形予測係数符号I1 を線形予測係
数復号部67で復号し、この線形予測係数についても前
係数バッファ68の内容を用いて前フレーム中の1ピッ
チ周期分の線形予測係数と現フレーム中の1ピッチ周期
分の線形予測係数との間を線形予測係数補間部69で式
(12)により線形補間を行い、合成フィルタ65の係
数を決定する。この線形予測係数の補間はサブフレーム
毎に線形補間を行ってもよい。なお線形予測係数の補間
は一般的にはLSP領域で行う。実施例2 図1中のPW量子化部35で多段量子化する場合の実施
例のPW量子化部を図6に示す。図6において図3Aと
対応する部分に同一符号を付けてあり、この例は2段量
子化の場合で、PW符号帳71が更に設けられ、このP
W符号帳71より選択した符号ベクトルc1 j が符号
切り出し部70でピッチ周期長pi だけ先頭から切り出
され、これに対し、利得部72で利得符号帳43から選
択された利得g1 k が与えられて畳み込みフィルタ73
に与えられ、インパルス応答Hが畳み込まれ、これに
より得られた合成波形が、引算部45よりの誤差信号か
ら引算部74で差し引かれ、その残りが歪み計算部75
に与えられ、歪み計算部75は引算部74の出力の二乗
が最小になるようにPW符号帳71の符号ベクトルc
1 j の選択と利得符号帳43の利得g1 k の選択とが行
われる。この場合も全体として、符号ベクトルを励振信
号として合成した波形と、PW波形を励振信号として合
成した波形との聴覚重み付き平均二乗誤差が最小になる
ように符号ベクトルc0 i 、c1 j 、利得g0 k
1 k が決定される。この歪み尺度の計算には式(1
4)を用いる。
【0033】 D=‖x−go k Hc0 i −g1 k Hc1 j 2 (14) ここで、xは式(4)で求めたターゲット(目標波形ベ
クトル)、Hは量子化された線形予測係数aj ′を用
いた合成フィルタ37のインパルス応答をあらわす行
列、co およびc1 は符号ベクトル、go 、g1
それぞれの符号ベクトルの利得をあらわす。
【0034】まず、図3Aについて説明したとおりに1
段目のco とのその理想利得go i を定める。次に、
PW符号帳71の中から、式(14)が最小となるよう
な符号ベクトルc1 j を選択し、その理想利得g1 j
を計算し、c0 i の理想利得であるg0 i を再計算す
る。これは、符号ベクトルco i とc1 j のベクト
ル直交化を行い符号化を行う。このベクトル直交化に基
づくベクトル量子化の詳細については、「励振信号直交
化音声符号化法」(特願平6−43519)に記載され
ている。
【0035】選択には、式(15)のD1 ′値が最大と
なる符号ベクトルc1 i を閉ループで選択する。
【0036】
【数3】 選択された符号ベクトルの理想利得g1 j の計算は、式
(16)を用いて行う。
【0037】
【数4】 また、理想利得g0 i は式(17)を用いて再計算を行
う。
【0038】
【数5】 以上の手続きで、符号ベクトルの選択は終了しているた
め、式(14)が最小となるような(g0 k 1 k )を
選択し、これをベクトル量子化する。この場合における
復号部は、図4と同様であるが、PW波形の復号には式
(18)を用いる。
【0039】 ri =g0 i o i +g1 i 1 i (18) 上述において、PW符号帳には図5Bに示すような適応
符号帳(a)、固定符号帳(b)、代数的パルス符号帳
(c)の何れを用いることも可能である。適応符号帳
(a)は過去の残差波形であり、代数的パルス符号帳
(c)は規則によりその都度生成することができるもの
である。実施例3 図1中のPW量子化部35として共役構造の符号帳(2
つ)を用いて量子化する場合の実施例を図3Bにあらわ
し、図2Bと対応する部分に同一符号を付けてある。P
W符号帳81が更に設けられる。このPW符号帳81の
各符号ベクトルから、PW符号帳41の符号ベクトルと
互いに共役構造をもつもの、つまり互いに直交関係にあ
るものが選択され、その選択された符号ベクトルは符号
切り出し部70で先頭からピッチ周期長pi 分だけ切り
出され、利得部82で利得符号帳43から選択された利
得が与えられ、この利得が与えられた符号ベクトルと利
得部42よりの符号ベクトルとが加算部83で加算され
て励振信号として畳み込みフィルタ44に与えられる。
この符号ベクトルを励振信号として合成した波形と、P
W波形を励振信号として合成した波形との聴覚重み付け
平均二乗誤差が最小になるようにPW符号帳41,81
の各符号ベクトルとその利得とが決定される。この距離
の歪み距離尺度の計算には実施例2と同様に式(14)
を用いる。この共役構造の符号帳41,81を用いる符
号化方法の詳細については「多重ベクトル量子化方法お
よびその装置」(特願昭63−249450)に記載さ
れている。
【0040】この場合も、符号帳としては図5Bに示す
ような適応符号帳、固定符号帳、代数的パルス符号帳を
用いることが可能である。上述において、複数の符号帳
を用いる場合は、図5Bに示した複数種類のものから、
例えば適応符号帳と、固定符号帳というように組合わせ
て用いてもよい。多段ベクトル量子化や共役構造ベクト
ル量子化に対する図4中のPW復号部56は、入力符号
ベクトル数と対応する符号帳を用意しておき、これら符
号帳からそれぞれ入力PW符号I4 に応じた符号ベクト
ルをそれぞれ取出し、かつそれらに対して、入力PW符
号I4 中の利得符号により利得符号帳から得た各対応す
る利得をそれぞれ与えればよい。このようにしてそれぞ
れ復号されたPWベクトルを加算して前フレームの加算
PWベクトルと線形補間し、更に順次つなぐことにより
連続した信号として、合成フィルタ65へ供給する。
【0041】図1において線形予測係数の量子化も1ピ
ッチ周期分だけ行って符号I1 を出力してもよい。
【0042】
【発明の効果】以上説明したように、この発明の符号化
方法によれば、有声区間では1フレーム中の1ピッチ周
期だけを符号化しているため、全体を符号化するより符
号化ビット数を少くすることができる。しかもその符号
化の際に、ピーク位置をそろえているために波形の位相
情報もなくなり、一層符号化ビット数を少なくすること
ができる。
【0043】またこの発明の復号化方法によれば有声区
間で1フレーム中の1ピッチ周期分の情報しか入力され
ないが、前後の2つの符号ベクトルの間を補間した中間
PWベクトルを作り、同様に前後の2つの復号ピッチ周
期の間を補間した中間ピッチ周期を作り、その後、その
各符号ベクトルを対応するピッチ周期で連結させること
により、連続的に変化する励振信号が得られ、これによ
り合成フィルタを励振して、音声を再生することができ
る。
【0044】符号の選択および復号時の信号の合成を全
て実時間領域で得ることは、周波数領域で行うものより
も少ない演算量で実現できる。この発明の音声符号化方
法・復号化方法の効果を調べるために、以下の条件で分
析合成音声実験を行った。入力音声としては、0〜4k
Hz帯域の音声を標本化周波数8.0kHzで標本化し
た後に、電話機の特性と対応するIRS特性フィルタを
通したものを用いた。符号化器および復号器は実施例2
(図1、図6および図4)の構成のものを用いた。ま
ず、この入力音声信号に、25ms(200サンプル)
毎に音声信号に分析窓長30msのハミング窓を乗じ、
分析次数を12次として自己相関法による線形予測分析
を行い、12個の予測係数を求める。予測係数はLSP
パラメータのユークリッド距離を用いてベクトル量子化
する。
【0045】入力音声信号の状態が有声部と判断された
場合、得られるPWベクトルを2つの雑音符号c
0 i 、c1 j を用いてベクトル量子化する。偏自己相
関法でもとめたピッチは整数値へと四捨五入を用いてス
カラー量子化する。また、入力音声信号が無声部と判断
された場合は25msフレームを5分割して各5msサ
ブフレーム内の残差波形の平均パワーを計算し、その5
つの値をベクトル量子化する。
【0046】ビットレートは周期性がある場合は2.0
0kbit/s、周期性がない場合は1.26kbit
/sであり、その内訳は次のようになる。 パラメータ ビット数/フレーム 予測係数(LSP) 21 有声・無声パラメータ 1 励振信号(有声の場合)1段目の雑音系列 7 2段目の雑音系列 7 雑音系列の利得 7 ピッチ周期 7 励振信号(無声の場合)雑音系列 7 上記の条件で符号化された音声は、同一のビットレート
の従来のボコーダに比べてはるかに高い自然性をもち、
また同一のビットレートの従来のCELP符号化に比べ
ても明瞭で雑音感の少ない音声品質が達成された。
【図面の簡単な説明】
【図1】この発明の符号化方法の実施例を適用した符号
化器の機能構成例を示すブロック図。
【図2】Aは図1中の無声部量子化部19の具体的機能
構成を示すブロック図、Bは図1中の無声部量子化部1
9の他の具体的機能構成を示すブロック図である。
【図3】Aは図1中のPW量子化部35の具体的機能構
成例を示すブロック図、Bは共役構造ベクトル量子化の
場合のPW量子化部35の具体的機能構成例を示すブロ
ック図である。
【図4】この発明による復号化方法の実施例を適用した
復号化器の機能構成例を示すブロック図。
【図5】Aは図4中の無声部復号部53の具体的機能構
成を示すブロック図、Bはこの発明で用いられる各種符
号帳の例を示す図である。
【図6】図1中のPW量子化部35を多段ベクトル量子
化法とした場合の機能構成例を示すブロック図。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−84699(JP,A) 特開 平6−102900(JP,A) 特開 平6−202699(JP,A) 特開 平8−129400(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04

Claims (15)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号を音声のピッチ周期より長いフ
    レームごとに線形予測分析し、その分析により得られた
    線形予測係数と、その線形予測係数にもとづくフィルタ
    係数の線形予測合成フィルタを駆動する励振信号とによ
    って音声の特徴を表現する音声符号化方法において、上記ピッチ周期の長さより長く、予め定めた基準信号ベ
    クトルの長さと等しく、その基準信号ベクトルのピーク
    とそれぞれピークの位相が一致された複数の符号ベクト
    ルが格納されたPW符号帳を設け、 フレームごとに、有声・無声区間判別を行い、 当該フレームが有声区間ならば、音声信号を線形予測逆
    フィルタリングして求めた残差信号のフレーム中央
    ら、ピッチ周期長の残差信号ベクトルを抽出し、 その抽出された残差信号ベクトルを、上記基準信号ベク
    トルとの相関が大きくなるように、残差信号を巡回して
    目標残差ベクトルを求め、 その目標残差ベクトルを上記合成フィルタを通して目標
    波形ベクトルを求め、上記符号帳 の符号ベクトルを上記ピッチ周期長で打ち
    切ったものより選択し、これを励振信号として上記合成
    フィルタにより音声合成して合成音声波形ベクトルを
    得、 この合成波形ベクトルの上記目標波形ベクトルに対する
    波形の歪みが最小となる上記符号ベクトルを上記PW符
    号帳から選択して上記励振信号の量子化符号を決定する
    ことを特徴とする音声符号化方法。
  2. 【請求項2】 上記目標波形ベクトルの生成は、上記合
    成フィルタのインパルス応答にもとづく下方三角正方行
    列に対し、そのフィルタの自由応答分を求めるための下
    方に拡張した非正方行列を、上記目標残差ベクトルに対
    し畳み込み演算して求め、 上記非正方行列を上記選択した符号ベクトルに畳み込み
    演算して上記合成波形ベクトルを生成することを特徴と
    する請求項1記載の音声符号化方法。
  3. 【請求項3】 上記線形予測係数にもとづくフィルタ係
    数を有する合成フィルタにインパルスを通して、インパ
    ルス応答を求め、そのインパルス応答を少ないサンプル
    数で打ち切ったものにより上記非正方行列を作成するこ
    とを特徴とする請求項2記載の音声符号化方法。
  4. 【請求項4】 上記予め決めた複数の符号ベクトルはそ
    のピーク位置がそろえられていることを特徴とする請求
    項1又は3記載の音声符号化方法。
  5. 【請求項5】 上記有声・無声区間判定が無声区間なら
    ば、雑音符号帳から選択した雑音ベクトルにより上記合
    成フィルタを励振し、その出力信号と入力音声信号との
    歪みを最小とする雑音ベクトルを選択して上記残差信号
    を量子化することを特徴とする請求項1乃至4の何れか
    に記載の音声符号化方法。
  6. 【請求項6】 上記有声・無声区間判定が無声区間なら
    ば、1フレームを複数のサブフレームに分割し、その各
    サブフレームの平均パワーをフレームごとにベクトル量
    子化することにより上記無声区間の量子化を行うことを
    特徴とする請求項1乃至4の何れかに記載の音声符号化
    方法。
  7. 【請求項7】 フレームごとに符号化された線形予測係
    数符号と、励振信号の量子化符号とを入力して、上記線
    形予測係数符号を復号して得たフィルタ係数を有する線
    形予測合成フィルタを、符号帳より得た上記励振信号の
    量子化符号の復号化信号で駆動して、出力音声を合成す
    る音声復号化方法において、上記符号帳に音声のピッチ周期より長く、ピークの位相
    が均一とされた複数の符号を格納しておき、 当該フレームが有声区間ならば、上記励振信号の量子化
    符号に応じて上記符号帳より取り出した符号ベクトル
    を、その先頭から、入力されたピッチ周期符号を復号し
    たピッチ周期長で打ち切り、 上記打ち切った符号ベクトルと前フレームで求めた打ち
    切った符号ベクトルとの補間を行ない、かつ復号したピ
    ッチ周期と前フレームで復号したピッチ周期の補間を行
    ない、 その補間されたピッチ周期に従って、上記補間された符
    号ベクトルを順次つなげて上記フレーム長の励振信号を
    生成することを特徴とする音声復号化方法。
  8. 【請求項8】 上記補間は重み付きで線形補間であるこ
    とを特徴とする請求項7記載の音声復号化方法。
  9. 【請求項9】 上記補間は上記前後2つの符号ベクトル
    の短い方のベクトル長を、長い方のベクトル長に一致す
    るように差の部分を零詰めしてから線形補間を行うこと
    を特徴とする請求項7又は8に記載の音声復号化方法。
  10. 【請求項10】 上記補間は上記前後2つの符号ベクト
    ルの長さを一定のベクトル長に正規化してから線形補間
    を行い、その後上記正規化前のピッチ周期長に戻すこと
    を特徴とする請求項7又は8に記載の音声復号化方法。
  11. 【請求項11】 上記補間は上記前後の2つのフレーム
    から得たピッチ周期が他方の倍のピッチ周期長程度に大
    きく異なる場合、 短い方のピッチ長を倍に補正して、短い方のベクトルを
    繰り返してから補間を行うことを特徴とする請求項7乃
    至10のいずれかに記載の音声復号化方法。
  12. 【請求項12】 前後の2つの上記復号した線形予測係
    数を上記波形ベクトルの補間と同時に線形補間して上記
    合成フィルタのフィルタ係数を求めることを特徴とする
    請求項7乃至11の何れかに記載の音声復号化方法。
  13. 【請求項13】 上記復号した線形予測係数をサブフレ
    ームごとに線形補間によって得ることを特徴とする請求
    項7乃至11の何れかに記載の音声復号化方法。
  14. 【請求項14】 上記当該フレームが無声区間であれ
    ば、入力された励振信号の量子化符号を復号して無声残
    差波形を得、この無声残差波形で上記合成フィルタを駆
    動することを特徴とする請求項7乃至13の何れかに記
    載の音声復号化方法。
  15. 【請求項15】 上記当該フレームが無声区間であれ
    ば、パワー符号帳から1フレームが分割された複数のサ
    ブフレームのそれぞれのパワーに、生成した白色雑音で
    励振した上記合成フィルタの出力の各サブフレームの平
    均パワーを一致させて、上記出力音声を得ることを特徴
    とする請求項7乃至13の何れかに記載の音声復号化方
    法。
JP03812797A 1997-02-21 1997-02-21 音声符号化方法および復号化方法 Expired - Fee Related JP3296411B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03812797A JP3296411B2 (ja) 1997-02-21 1997-02-21 音声符号化方法および復号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03812797A JP3296411B2 (ja) 1997-02-21 1997-02-21 音声符号化方法および復号化方法

Publications (2)

Publication Number Publication Date
JPH10232697A JPH10232697A (ja) 1998-09-02
JP3296411B2 true JP3296411B2 (ja) 2002-07-02

Family

ID=12516798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03812797A Expired - Fee Related JP3296411B2 (ja) 1997-02-21 1997-02-21 音声符号化方法および復号化方法

Country Status (1)

Country Link
JP (1) JP3296411B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding

Also Published As

Publication number Publication date
JPH10232697A (ja) 1998-09-02

Similar Documents

Publication Publication Date Title
EP0409239B1 (en) Speech coding/decoding method
JP4550289B2 (ja) Celp符号変換
JPH08123495A (ja) 広帯域音声復元装置
JPH0990995A (ja) 音声符号化装置
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
JP2000155597A (ja) デジタル音声符号器において使用するための音声符号化方法
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP3296411B2 (ja) 音声符号化方法および復号化方法
JP3583945B2 (ja) 音声符号化方法
JP3050978B2 (ja) 音声符号化方法
EP0361432A2 (en) Method of and device for speech signal coding and decoding by means of a multipulse excitation
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP3232701B2 (ja) 音声符号化方法
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3192051B2 (ja) 音声符号化装置
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3071800B2 (ja) 適応ポストフィルタ
GB2352949A (en) Speech coder for communications unit
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
JPH08202398A (ja) 音声符号化装置
JPH02160300A (ja) 音声符号化方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090412

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090412

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100412

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100412

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110412

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120412

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130412

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees