JPH10143199A - 音声符号化方法および復号化方法 - Google Patents

音声符号化方法および復号化方法

Info

Publication number
JPH10143199A
JPH10143199A JP8305206A JP30520696A JPH10143199A JP H10143199 A JPH10143199 A JP H10143199A JP 8305206 A JP8305206 A JP 8305206A JP 30520696 A JP30520696 A JP 30520696A JP H10143199 A JPH10143199 A JP H10143199A
Authority
JP
Japan
Prior art keywords
vector
code
waveform
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8305206A
Other languages
English (en)
Other versions
JP3531780B2 (ja
Inventor
Yuusuke Hiwazaki
祐介 日和▲崎▼
Kazunori Mano
一則 間野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP30520696A priority Critical patent/JP3531780B2/ja
Publication of JPH10143199A publication Critical patent/JPH10143199A/ja
Application granted granted Critical
Publication of JP3531780B2 publication Critical patent/JP3531780B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【課題】 少ないビットレートで品質が高い音声を再生
可能とする。 【解決手段】 入力音声を線形予測逆フィルタ18へ通
し、残差信号r(t)を得、これを、1フレーム(25
ms)ごとに、1ピッチ周期だけ切出し(31)、その
切出したr(t)を一定長に正規化し(32)、かつそ
のピーク位値が一定になるようにし(33)、この正規
化波形をベクトル量子化する。復号の際には前後の2つ
の正規化波形ベクトルの間を線形補間により波形を作っ
て再生する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声の信号系列
を少ない情報量でディジタル符号化する高能率音声符号
化方法。従来ボコーダと呼ばれる音声分析合成系の領域
である2.4kbit/s以下のビットレートで高品質
な音声符号化を実現する符号化方法及びその復号化方法
に関する。
【0002】
【従来の技術】この発明に関連する従来技術としては、
線形予測ボコーダ、コード励振予測符号化(CELP:
Code Excited Linear Predi
ction)、混合領域符号化(Mixed−doma
in Coding)、代表波形補間符号化(Prot
otype Waveform Interpolat
ion)がある。
【0003】線形予測ボコーダは、4.8kbit/s
以下の低ビットレート領域における音声符号化方法とし
てこれまで広く用いられ、PARCOR方式や、線スペ
クトル対(LSP)方式などの方式がある。これらの方
法の詳細は、たとえば斎藤、中田著「音声情報処理の基
礎」(オーム社出版)に記載されている。線形予測ボコ
ーダは、音声のスペクトル包絡特性をあらわす全極型の
フィルタと、それを駆動する音源信号によって構成され
る。駆動音源信号には、有声音に対してはピッチ周期パ
ルス列、無声音に対しては白色雑音が用いられる。線形
予測ボコーダにおいて、周期パルス列や白色雑音による
駆動音源では音声波形の特徴を再現するには不十分なた
め、自然性の高い合成音声を得ることは困難である。
【0004】一方、コード励振予測符号化では、雑音系
列を駆動音源として音声の近接相関とピッチ相関特性を
あらわす2つの全極型フィルタを駆動することにより音
声を合成する。雑音系列は複数個のコードパターンとし
てあらかじめ用意され、その中から、入力音声波形と合
成音声波形との誤差を最小にするコードパターンが選択
される。その詳細は、文献Schroeder “Co
de−ExcitedLinear Predicti
on (CELP):High Quality Sp
eech at Very Low Bit Rate
s”Proc.IEEE.ICASSP,pp937−
940,1985に記載されている。コード励振予測符
号化では、再現精度はコードパターンの数に依存する関
係にある。したがって、多くの系列パターンを用意すれ
ば音声波形の再現精度が高まり、それにともなって品質
を高めることが出来る。しかし、音声符号化のビットレ
ートを4kbit/s以下にすると、コードパターンの
数が制限され、その結果十分な音声品質が得られなくな
る。良好な音声品質を得るには4.8kbit/s程度
の情報量が必要であるとされている。
【0005】また、混合領域符号化(Mixed−do
main Coding)では、有声音でフレーム毎に
残差波形よりピッチ周期分の波形が抽出され、前のピッ
チ周期分の波形との差分が時間領域で量子化される。復
号器では周波数領域でこれらの波形の線形補間を行うこ
とによって音源信号を生成し、全極フィルタを駆動して
音声を合成する。無声音ではコード励振予測符号化と同
様な方法で符号化を行う。この方式の詳細は、文献De
Martin等“Mixed−domainCodi
ng of Speech at 3kb/s”Pro
c.IEEE.ICASSP,PPII/216−17
0,1996に記載されている。この方法の特徴として
は、差分を求める際に、前ピッチ周期波形は、現在のフ
レームの波形に長さが正規化されることが挙げられる。
この差分の量子化には、パルス符号帳と雑音符号帳を用
いるが、3.5kbit/s程度の情報量が必要とされ
ている。
【0006】また、代表波形補間符号化(Protot
ype Waveform Interpolatio
n)では、プロトタイプ波形(Prototype W
aveform)の線形補間を行って合成した音源信号
で全極フィルタを駆動することにより音声を合成する。
この詳細は、文献Kleijn W.B.“Encod
ing Speech Using Prototyp
e Waveforms”IEEE Trans.on
Speech Audio Processing,
Vol.1,pp386−399 1993に記載され
ている。プロトタイプ波形は、一定周期で残差波形より
抽出され、フーリエ変換された後に符号化される。この
方式では良好な品質を得るには3.4kbit/s程度
の情報量が必要であるとされている。
【0007】
【発明が解決しようとする課題】この発明の課題は、雑
音系列やピッチパルス列を駆動信号として用いる線形予
測符号化方法において、電話音声などのように入力信号
の周波数帯域が制限されている場合に、より能率的な符
号化を実現する方法と、その復号化方法を実現すること
である。
【0008】
【課題を解決するための手段】この発明による符号化方
法は入力音声のピッチ周期を推定し、駆動音源信号の周
期的な部分で、推定されたピッチ周期分の波形を抽出
し、波形の長さを正規化したものとの波形歪みが最小に
なるように駆動信号を決定することを特徴とする。ここ
で、入力ピッチ周期波形を固定長の符号ベクトルと長さ
が一致するよう正規化し、合成フィルタのインパルス応
答を同様に正規化したものを畳み込むことによって符号
を決定することが従来法と異なる特徴である。また、音
声を合成する際には、前後の駆動音源を補間したものを
ピッチ周期長に戻してつなげる。
【0009】
【発明の実施の形態】実施例1 図1にこの発明の符号化方法を適用した符号化部の機能
構成を示す。この符号化部は、以下の手順をNサンプル
数の長さをもつフレームごとに1回行う。フレームiに
おいて、入力端子11よりの入力音声信号s(t)のp
次の線形予測係数(LPC)aj (j=0,1,…,p
−1)をLPC計算部12で計算する。この線形予測係
数はLPC量子化部13で量子化され、線形予測係数符
号I1 として送出される。線形予測係数の量子化の詳細
については「音声の線形予測パラメータ符号化方法」
(特願平3−180819)に記載されている。LPC
計算部12で得られた線形予測係数に基づいて、線形予
測逆フィルタ14のフィルタ係数を定め、この逆フィル
タ14に入力音声信号s(t)を通して残差信号r
(t)を計算する。逆フィルタ14は次の伝達特性を持
つディジタルフィルタで実現される。
【0010】 A(z)-1=1+a1 -1+…+ap -p (1) ここで得られた残差信号の相関(変形相関関数)ρを相
関計算部15で計算し、その相関ρの最大値ρmax の遅
れ(間隔)をピッチ周期抽出部16で推定ピッチ周期p
i とする。このとき、周期性判定部17で入力音声信号
s(t)が有声部であるか無声部であるかを、例えば以
下の様にしきい値θ(0.5〜1.0)で判別する。
【0011】 k1 /2+ρmax >θ;有声部 k1 /2+ρmax <θ;無声部 (2) ここで、k1 はLPC計算部12で求まる第1次の偏自
己相関(PARCOR)係数である。LPC量子化部1
3よりの線形予測係数符号I1 は復号され、その逆量子
化された線形予測係数に基づいて、線形予測逆フィルタ
18のフィルタ係数を定め、この逆フィルタ18に入力
音声信号s(t)を通して残差信号r′(t)を得る。
判定部17が無声部と判断すると無声部量子化部19で
図2Aに示すように量子化を行う。この量子化部19で
は、フレームをS分割し、Nsub (=N/S)サンプル
数をサブフレームとし、そのサブフレーム中の逆フィル
タ18より求めた残差波形r′(t)の平均パワーをパ
ワー計算部21で計算しその1フレーム分をベクトル量
子化部22でベクトル量子化して無声部符号I2 として
出力する。この無声部の量子化は、図2Bに示すような
構成で行ってもよい。即ちLPC量子化部13よりの量
子化線形予測係数により線形予測合成フィルタ23,2
4のフィルタ係数を設定し、逆フィルタ18よりの残差
信号r′(t)を合成フィルタ23で入力音声信号s
(t)を再生し、一方雑音符号帳25より選択した雑音
符号を利得部26で利得符号帳27より選択した利得を
与え、その利得が与えられた雑音符号を合成フィルタ2
4で音声合成し、この合成無声と、合成フィルタ23よ
りの合成音声との差を引算部28でとり、その差(誤
差)の二乗が最小となるように歪み計算部29により雑
音符号帳25の雑音符号の選択と、利得符号帳27の利
得選択を行う。この時の雑音符号帳25の雑音符号およ
び利得符号帳27の利得を無声部符号I2 とする。
【0012】周期性判定部17が有声部と判断した場合
は残差切りだし部31により推定されたピッチ周期pi
を用いて、逆フィルタ18からの残差信号r′(t)に
おけるフレームの中央付近からpi の長さの波形を切り
出し、これを伸縮することによってベクトル長nに長さ
を正規化する。この正規化はサンプリング変換部32に
より、サンプリング変換を、式(3)の標本化関数に基
づいて行う。 x(ti ) =Σn=-q q x(nT)・sin(π/T)(ti −nT) /{(n/T)(ti −nT)} (3) ここで、Tはサンプリング周期、qは論理上無限大であ
るが有限数で打切った値である。
【0013】次に、この正規化された残差波形とパルス
信号と相関が大きくなるまで、正規化残差波形を整列部
33で回転する。ここで、推定ピッチ周期分の長さを正
規化してnの長さにされ、かつ回転により位相も正規化
された残差波形rnpをNPW(正規化ピッチ周期波形)
と呼ぶ。推定ピッチ周期pi はピッチ周期量子化部34
で四捨五入によって整数値に量子化され、ピッチ周期符
号I3 として出力される。
【0014】整列部33よりのNPWはNPW量子化部
35でベクトル量子化される。NPW量子化部35は例
えば図3Aに示すように、図1中のLPC量子化部13
よりの量子化された線形予測係数によりフィルタ係数が
定められた線形予測合成フィルタ37にインパルス信号
が通されて、インパルス応答hj が求められ、そのイン
パルス応答hj はサンプリング変換部38でnの長さに
正規化され、この正規化されたインパルス応答h′j
もとづくインパルス応答行列Hが、図1中の整列部3
3よりのNPWに畳み込みフィルタ39で畳み込まれて
音声信号xが合成される。一方、NPW符号帳41から
選択された符号ベクトルc0 i に対し、利得部42で
利得符号帳43より取出された利得go k が与えられ、
これに対し、畳み込みフィルタ44でインパルス応答行
列Hが畳み込まれて、音声合成され、この合成音声の
再生音声に対する誤差が引算部45でとられ、その誤差
の二乗が最小になるように、NPW符号帳41の符号ベ
クトルc0 i の選択と、利得符号帳43の利得go k
の選択とが歪み計算部46で行われる。
【0015】なお、NPW符号帳41の各符号ベクトル
の長さはnであり、ピークの位相は均一とされてある。
図1中のNPW整列部33で用いたパルス信号は周期が
nであり、位相は、符号帳41の符号ベクトルのピーク
の位相と一致させてある。図3Aで説明したようにNP
W符号は、符号ベクトルを駆動音源として合成した波形
と、NPW波形を駆動音源として合成した波形との聴覚
重み付け平均二乗誤差が最小になるように決定される。
この距離の歪み尺度Dの距離計算には以下の式(4)を
用いる。
【0016】 D=‖x−go k Hc0 i 2 (4) ここで、xはターゲット(NPW波形を駆動音源とし
て合成した波形)、Hは量子化された線形予測係数
a′j を用いた合成フィルタ37のインパルス応答を正
規化したものをあらわす行列、co は符号ベクトル、
o は符号ベクトルの利得をあらわす。
【0017】ターゲットxは以下の式(5)を用いて
フィルタ39で畳み込み演算によりあらかじめ計算す
る。 x=Hrnp (5) ここで、rnpは量子前の原NPW波形をベクトル表示
にしたものである。従来のCELP符号化では、Hに
は通常下三角の(n×n)の正方行列を用いるが、NP
W波形を合成フィルタに通して得られる自由応答分を求
めるために、下側に(m−n)行分拡張した(m×n)
の非正方行列を用いる。ここで、mnである。Hに
は、聴覚重み付けを行った線形予測フィルタのインパル
ス応答hj (j=0,1,…,pi −1)をサンプリン
グ変換部38でサンプリング変換してrnpと同様に正
規化してh′j (j=0,1,…,n−1)にしたもの
を用いる。
【0018】
【数1】 このとき、hj (j=0,1,…,pi −1)の計算に
用いる線形予測合成フィルタ37は、以下の伝達特性を
もつディジタルフィルタで実現される。 A(z)=1/(1+a1 -1+…+ap -p) (7) 聴覚重み付けの伝達特性は、次のように表される。
【0019】 W(z)=A(γ1 z)/A(γ2 z) (8) ここで、γ1 とγ2 は聴覚重み付けの程度を制御するパ
ラメータであり、0γ 2 γ 1 1の値を取る。図3
A中の畳み込みフィルタ39、44での畳み込み演算に
用いる行列Hは正規化インパルス応答hj より先に述
べた拡張されたm×nの行列を作って用いる。このよう
にHが拡張されているため、式(5)の演算で得られ
るターゲットxも
【0020】
【数2】 と次数はmとなる。ここで、xi (n<i<m−1)は
線形予測フィルタ37の自由応答に対応する成分で、合
成フィルタ37の零入力初期値応答である。NPW符号
0 の選択では、符号ベクトル帳41の中から式
(4)が最小となるように、符号ベクトルc0 i を選
択し、その理想利得g0 i を計算する。まず、式(1
0)のD′0 値が最大となる符号ベクトルc0 i を閉
ループで選択する。
【0021】 D′0 =(xT Hc0 i 2 /‖Hc0 i 2 (10) 選択された符号ベクトルc0 i の理想利得g0 i の計
算は、式(11)式を用いて行う。 g0 i =xT Hc0 i /‖Hc0 i 2 (11) 次に、利得g0 i をスカラー量子化する。以上の手続き
で、符号ベクトルの選択は終了しているため、(4)式
が最小となるようなg0 k を選択する。これら選択した
符号ベクトルのコード、選択した利得のコードをNPW
符号I4 として出力し、更に、周期判定部17よりその
フレームが有声部か無声部かを示す周期性符号I5 を出
力する。符号I1 〜I4 がマルチプレクサ47でまとめ
られ、伝送路又は蓄積部へ出力される。
【0022】以上のように1フレームは例えば25ミリ
秒とされ、そのうちから1ピッチ周期分の残差波形(信
号)が取出され、つまり1フレーム中の例えば数分の1
の部分しか取出されていない。一方合成フィルタ37は
入力を零として駆動しても、その直前の状態に応じた出
力、いわゆる零入力応答が生じる。そのためCELP符
号化においては、零入力応答を入力波形から差し引いた
ものをターゲットとしている。しかしこの発明では1フ
レーム中の一部のみを用いて符号化するため、合成フィ
ルタ37のインパルス応答行列をCELP符号化よりも
零応答に対応する分拡張して、1ピッチ周期分の波形を
零入力応答(自由応答)を含めて、これに近い符号ベク
トルの選択を行っている。以上のように波形情報につい
ては1フレーム中の1ピッチ周期分しか符号化していな
いから、それだけ少ないビット数で済み、かつその際に
ピッチ周期を正規化し、またピーク位置を正規化(一定
位相)としているため、この点においても符号化ビット
数を少なくすることができる。
【0023】次に図1に示した符号化方法の実施例と対
応した、この発明の復号化方法の実施例を適用した復号
器を図4に示す。ここでは入力端子51に入力された符
号I 1 〜I5 はデマルチプレクサ52で全ての音声パラ
メータが分離復号された後、有声・無声パラメータ
2 ,I4 によって駆動音源を生成する。周期性符号I
5が無声部の場合は、無声部符号I2 を無声部復号部5
3で駆動音源信号を再生する。即ち例えば図5Aに示す
ように、白色雑音生成部54よりの白色雑音に、無声部
符号I2 の復号パワー符号を利得計算部55で処理して
無声部の合成残差波形を生成する。つまりNサンプルの
白色雑音を生成し、各々のサブフレーム(N su長)中の
平均パワーを、復号された対応するサブフレームの平均
パワーと一致するように利得を計算して乗じたものを駆
動信号とする。
【0024】周期性符号I5 が有声部を示す場合は図4
においてNPW符号I4 によりNPW復号部56で式
(12)に示すように、符号ベクトルc2 に利得gi
を乗じて、NPW波形ri を復号する。図に示してい
ないが、図3A中のNPW符号帳41及び利得符号帳4
3と同一のものを備えている。 ri =g0 i 0 i (12) 次に、この復号NPW波形ri と前NPWバッファ5
7の内容ri-1 との間の線形補間を線形補間部58で
行い、中間のNPW波形rinを得る。この線形補間に
は、例えば式(13)を用いる。
【0025】 Sin(j)=(1−α)Si-1(j)+αSi (j) (j=0,1,…,n− 1; 0α1) (13) ここで、αは、波形がNサンプル長のフレーム中のどの
位置にあるかを表す値で、Si-1 はSi のひとつ前
のベクトルで、Sinは補間されて出来たベクトルをあ
らわす。つまり、符号化側では残差波形は各フレーム中
の1ピッチ周期分しか切出されていない。従って、現フ
レームで切出された波形と、前フレームで切出された波
形との間には本来は、1ピッチ周期乃至数ピッチ周期分
程度の波形が存在する。この本来は存在すべき波形を前
フレームの復号NPW波形ri- 1 と現フレームの復号
NPW波形ri とで線形補間する。この補間される波
形が、前フレームの切出された波形と現フレームの切出
された波形との間に補間されるべき波形の何番目かに応
じてαが決定される。ピッチ周期符号I3 はピッチ復号
部59で復号され、その復号ピッチ周期とフレーム長と
から補間する波形数が決められる。
【0026】また復号ピッチ周期と前ピッチバッファ6
1の内容とにより、前フレームの切出し波形のピッチ周
期と、現フレームの切出し波形のピッチ周期との間につ
いて各ピッチ周期との補間をピッチ補間部62で行い、
このピッチ周期及び復号ピッチ周期をもちいて線形補間
部58よりの対応する中間NPW波形をサンプリング変
換部63でサンプリング変換し、つまり原音声のピッチ
周期に戻して残差信号合成部64で順次つなぎ、これを
駆動音源信号とする。
【0027】なお、図では説明がないが、符号化のとき
誤って半分のピッチもしくは倍のピッチ周期分のNPW
を抽出し、上記方法で補間を行う時、もう片方のNPW
のピッチが正しいとすると、線形補間部58よりの補間
波形を用いると、出力音声の品質が劣化する。そこで、
復号された前後のピッチ周期が例えばほぼ2:1のよう
に大きく異なる場合は、前後の波形の短い方を2回繰り
返し、これをサンプリング変換によりnサンプル長のベ
クトルに再正規化し、この再正規化ベクトルと長い方の
波形とを用いて線形補間を行う。ピッチ周期も同様に短
い方のピッチ周期を2倍としてこれと、他方のピッチ周
期の内のピッチ補間を行う。
【0028】周期性信号I5 が無声部を示す時は無声部
信号部53よりの合成音源信号をI 5 が有声部を示す時
は残差信号合成部64よりの合成音源信号を用いて線形
予測合成フィルタ65を駆動し、出力音声を出力端子6
6に得る。ここで、線形予測係数符号I1 を線形予測係
数復号部67で復号し、この線形予測係数についても前
係数バッファ68の内容を用いて前フレーム中の1ピッ
チ周期分の線形予測係数と現フレーム中の1ピッチ周期
分の線形予測係数との間を線形予測係数補間部69で式
(13)により線形補間を行い合成フィルタ65の係数
を決定する。なお線形予測係数の補間は従来のCELP
方式で用いられる手法によってもよい。実施例2 図1中のNPW量子化部35で多段量子化する場合の実
施例のNPW量子化部を図6に示す。図6において図3
Aと対応する部分に同一符号を付けてあり、この例は2
段量子化の場合で、NPW符号帳71が設けられ、この
NPW符号帳71より選択した符号ベクトルc1 j
対し、利得部72で利得符号帳43から選択された利得
1 k が与えられて畳み込みフィルタ73に与えられ、
正規化インパルス応答Hが畳み込まれ、これにより得
られた合成波形が引算部45より誤差信号から引算部7
4で差し引かれ、その残りが歪み計算部75に与えら
れ、歪み計算部75は引算部74の出力の二乗が最小に
なるようにNPW符号帳71の符号ベクトルc1 j
選択と利得符号帳43の利得g1 k の選択とが行われ
る。この場合も全体として、符号ベクトルを駆動音源と
して合成した波形と、NPW波形を駆動音源として合成
した波形との聴覚重み付き平均二乗誤差が最小になるよ
うに符号ベクトルc0 i 、c1 j 、利得g0 k 、g
1 k が決定される。このユークリッド距離の歪み尺度の
距離計算には式(14)を用いる。
【0029】 D=‖x−go k Hc0 i −g1 k Hc1 j 2 (14) ここで、xは(5)式で求めたターゲット、Hは量
子化された線形予測係数ai ′を用いた合成フィルタ3
7のインパルス応答を正規化したものをあらわす行列、
o およびc1 は符号ベクトル、go 、g1 はそれ
ぞれの符号ベクトルの利得をあらわす。
【0030】まず、図3Aについて説明したとおりに1
段目のco とのその理想利得go i を定める。次に、
符号ベクトル帳71の中から、式(14)が最小となる
ような符号ベクトルc1 j を選択し、その理想利得g
1 j を計算し、c0 i の理想利得であるg0 i を再計
算する。これは、符号ベクトルco i とc1 j のベ
クトル直交化を行い符号化を行う。このベクトル直交化
に基づくベクトル量子化の詳細については、「励振信号
直交化音声符号化法」(特願平6−43519)に記載
されている。
【0031】選択には、式(15)のD1 ′値が最大と
なる符号ベクトルc1 i を閉ループで選択する。
【0032】
【数3】 選択された符号ベクトルの理想利得g1 j の計算は、式
(16)を用いて行う。
【0033】
【数4】 また、理想利得g0 i は式(17)を用いて再計算を行
う。
【0034】
【数5】 以上の手続きで、符号ベクトルの選択は終了しているた
め、式(14)が最小となるような(g0 k 1 k )を
選択し、これをベクトル量子化する。この場合における
復号器は、図4と同様であるが、NPW波形の復号には
式(18)を用いる。
【0035】 ri =g0 i o i +g1 i 1 i (18) 上述において、符号帳には図5Bに示すような適応符号
帳(a)、固定符号帳(b)、代数的パルス符号帳
(c)の何れを用いることも可能である。適応符号帳
(a)は過去の残差波形であり、代数的パルス符号帳
(c)は規則によりその都度生成することができるもの
である。実施例3 図1中のNPW量子化部35として共役構造の符号帳
(2つ)を用いて量子化する場合の実施例を図3Bにあ
らわし、図2Bと対応する部分に同一符号を付けてあ
る。NPW符号帳81が更に設けられる。このNPW符
号帳81の各符号ベクトル及びNPW符号帳41の符号
ベクトルは互いに共役構造をもつもの、つまり互いに直
交関係にあるものでNPW符号帳81から選択された符
号ベクトルは利得部82で利得符号帳43から選択され
た利得が与えられ、この利得が与えられた符号ベクトル
と利得部42よりの符号ベクトルとが加算部83で加算
されて駆動音源信号として畳み込みフィルタ44に与え
られる。この符号ベクトルを駆動音源信号として合成し
た波形と、NPW波形を駆動音源信号として合成した波
形との聴覚重み付け平均二乗誤差が最小になるようにN
PW符号帳41,81の各符号ベクトルとその利得とが
決定される。この距離の歪み尺度の距離計算には実施例
2と同様に式(14)を用いる。この共役構造の符号帳
41,81を用いる符号化方法の詳細については「多重
ベクトル量子化方法およびその装置」(特願昭63−2
49450)に記載されている。
【0036】この場合も、符号帳としては図5Bに示す
ような適応符号帳、固定符号帳、代数的パルス符号帳を
用いることが可能である。上述において、複数の符号帳
を用いる場合は、図5Bに示した複数種類のものから、
例えば適応符号帳と、固定符号帳というように組合わせ
て用いてもよい。多段ベクトル量子化や共役構造ベクト
ル量子化に対する図4中のNPW復号部56は、入力符
号ベクトル数と対応する符号帳を用意しておき、これら
符号帳からそれぞれ入力NPW符号I4 に応じた符号ベ
クトルをそれぞれ取出し、かつそれらに対して、入力N
PW符号I4 中の利得コードにより利得符号帳から得た
各対応する利得をそれぞれ与えればよい。このようにし
てそれぞれ復号されたNPWベクトルをそれぞれ線形補
間し、更にサンプリング変換をそれぞれ行い連続した信
号とすると共に互いに加算して、残差信号として、合成
フィルタ65へ供給するようにすればよい。
【0037】図1中の無声部量子化部19は雑音符号帳
から雑音ベクトルを取出し、これに利得を与えたもの
と、入力残差信号との誤差の二乗が最小になるように雑
音ベクトル選択とこれに与える利得とを決定してもよ
い。また図1において線形予測逆フィルタ14を省略
し、線形予測逆フィルタ18の出力を相関計算部15へ
入力してもよい。ピッチ周期の検出精度は逆フィルタ1
4を用いた方がよい。また図1において線形予測係数符
号I1 も対する1ピッチ周期分だけ出力してもよい。
【0038】
【発明の効果】以上説明したように、この発明の符号化
方法によれば、有声区間では1フレーム中の1ピッチ周
期だけを符号化しているため、全体を符号化するより符
号化ビット数を少くすることができる。しかもその符号
化の際に、ベクトル長を正規化し、ピーク位置をそろえ
ているため波形の位相情報もなくなり、一層符号化ビッ
ト数を少なくすることができる。
【0039】また発明の復号化方法によれば有声区間で
1フレーム中の1ピッチ周期分の情報しか入力されない
が、前後の2つの正規化された符号ベクトルの間を補間
した符号ベクトルを作り、同様に前後の2つの復号ピッ
チ周期の間を補間したピッチ周期を作り、その後、その
各符号ベクトルを対応するピッチ周期に伸縮して、連結
させることにより、連結した駆動信号を作り、これによ
り合成フィルタを駆動して、音声を再生することができ
る。
【0040】この発明の音声符号化方法・復号化方法の
効果を調べるために、以下の条件で分析合成音声実験を
行った。入力音声としては、0〜4kHz帯域の音声を
標本化周波数8.0kHzで標本化した後に、IRS特
性フィルタを通したものを用いた。符号化器および復号
器は実施例2(図1、図6および図4)の構成のものを
用いた。まず、この入力音声信号に、25ms(200
サンプル)毎に音声信号に分析窓長30msのハミング
窓を乗じ、分析次数を12次として自己相関法による線
形予測分析を行い、12個の予測係数を求める。予測係
数はLSPパラメータのユークリッド距離を用いてベク
トル量子化する。
【0041】入力音声信号の状態が有声部と判断された
場合、量子化前の推定ピッチ周期の長さの残差波形を、
q=20、n=120として式(3)の演算により12
0サンプル長のNPWベクトルにサンプリング変換を行
い、このNPW波形を2つの雑音符号ベクトル
0 i 、c1 j を用いてベクトル量子化する。偏自
己相関法でもとめたピッチは整数値へとスカラー量子化
する。
【0042】また、入力音声信号が無声部と判断された
場合は25msフレームを5分割して各5msサブフレ
ーム内の残差波形の平均パワーを計算し、その5つの値
をベクトル量子化する。ビットレートは周期性がある場
合は2.08kbit/s、周期性がない場合は1.2
4kbit/sであり、その内訳は次のようになる。
【0043】 パラメータ ビット数/フレーム 予測係数(LSP) 21 有声・無声パラメータ 1 駆動音源(有声の場合)1段目の雑音系列 7 2段目の雑音系列 7 雑音系列の利得 8 ピッチ周期 7 駆動音源(無声の場合)雑音系列 8 上記の条件で符号化された音声は、同一ビットレートの
従来のボコーダに比べてはるかに高い自然性をもち、ま
た同一ビットレートの従来のCELP符号化に比べても
明瞭で雑音感の少ない音声品質が達成された。
【図面の簡単な説明】
【図1】この発明の符号化方法の実施例を適用した符号
化器の機能構成例を示すブロック図。
【図2】Aは図1中の無声部量子化部19の具体的機能
構成を示すブロック図、Bは図1中の無声部量子化部1
9の他の具体的機能構成を示すブロック図である。
【図3】Aは図1中のNPW量子化部35の具体的機能
構成例を示すブロック図、Bは共役構造ベクトル量子化
の場合のNPW量子化部35の具体的機能構成例を示す
ブロック図である。
【図4】この発明による復号化方法の実施例を適用した
復号化器の機能構成例を示すブロック図。
【図5】Aは図4中の無声部復号部53の具体的機能構
成を示すブロック図、Bはこの発明で用いられる各種符
号帳の例を示す図である。
【図6】図1中のNPW量子化部35を多段ベクトル量
子化法とした場合の機能構成例を示すブロック図。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を音声のピッチ周期より長いフ
    レームごとに線形予測分析し、その分析により得られた
    線形予測係数と、その線形予測係数にもとづくフィルタ
    係数の線形予測合成フィルタを駆動する駆動信号とによ
    って音声の特徴を表現する音声符号化方法において、 フレームごとに、有声・無声区間判別を行い、 当該フレームが有声区間ならば、音声信号を線形予測逆
    フィルタリングして求めた残差信号から、ピッチ周期長
    の残差信号ベクトルを抽出し、 この抽出した残差信号ベクトル長を予め定めた長さに正
    規化し、 その正規化された残差信号ベクトルを、予め定めた基準
    信号ベクトルとの相関が大きくなるように、当該残差信
    号ベクトル要素を巡回して目標残差ベクトルを求め、 その目標残差ベクトルを上記合成フィルタにより音声信
    号に合成して目標波形ベクトルを求め、 予め決めた複数の符号ベクトルより選択したものを駆動
    信号として上記合成フィルタにより音声合成して合成波
    形ベクトルを得、 この合成波形ベクトルの上記目標波形ベクトルに対する
    波形の歪みが最小となる上記符号ベクトルを選択して量
    子化符号を決定し、 上記判別が無声区間ならば、上記残差信号を量子化して
    符号を決定することを特徴とする音声符号化方法。
  2. 【請求項2】 上記目標波形ベクトルの生成は、上記合
    成フィルタのインパルス応答にもとづく下方三角正方行
    列に対し、そのフィルタの自由応答分を求めるために下
    方に拡張した非正方行列を、上記目標残差ベクトルに対
    し畳み込み演算して求め、 上記非正方行列を上記選択した符号ベクトルに畳み込み
    演算して上記合成波形ベクトルを生成することを特徴と
    する請求項1記載の音声符号化方法。
  3. 【請求項3】 上記線形予測係数にもとづくフィルタ係
    数を有する合成フィルタにインパルスを通して、インパ
    ルス応答を求め、そのインパルス応答を上記予め決めた
    長さのベクトル長に正規化し、その長さが変更されたイ
    ンパルス応答により上記非正方行列を作成することを特
    徴とする請求項2記載の音声符号化方法。
  4. 【請求項4】 複数の符号帳からそれぞれ選択した符号
    ベクトルの重みつき線形和によって、上記合成波形ベク
    トルを得るための上記駆動信号とすることを特徴とする
    請求項1乃至3の何れかに記載の音声符号化方法。
  5. 【請求項5】 共役構造をもつ複数個の符号帳からそれ
    ぞれ選択した符号ベクトルの重みつき線形和によって上
    記合成波形ベクトルを得るための上記駆動信号とするこ
    とを特徴とする請求項1乃至3の何れかに記載の音声符
    号化方法。
  6. 【請求項6】 上記無声区間の量子化は、雑音符号帳か
    ら選択した雑音ベクトルにより上記合成フィルタを励振
    し、その出力信号と入力音声信号との歪みを最小とする
    雑音ベクトルを選択して行うことを特徴とする請求項1
    乃至5の何れかに記載の音声符号化方法。
  7. 【請求項7】 上記無声区間の量子化は、1フレームを
    複数のサブフレームに分割し、その各サブフレームの平
    均パワーをフレームごとにベクトル量子化することであ
    ることを特徴とする請求項1乃至5の何れかに記載の音
    声符号化方法。
  8. 【請求項8】 フレームごとに符号化された線形予測係
    数符号と、周期性符号と駆動信号の量子化符号とを入力
    して、上記線形予測係数符号を復号して得たフィルタ係
    数を有する線形予測合成フィルタを、上記駆動信号の量
    子化符号の復号化信号で駆動して、出力音声を合成する
    音声復号化方法において、 上記周期性符号が有声区間を示すものであれば、上記駆
    動信号の量子化符号を復号した前後2つの符号ベクトル
    の補間を行ない、かつ入力されたピッチ周期符号を復号
    した前後2つのピッチ周期の補間を行ない、 その補間されたピッチ周期に従って、上記補間された符
    号ベクトルのベクトル長を伸縮して上記フレーム長の駆
    動信号を生成することを特徴とする音声復号化方法。
  9. 【請求項9】 上記補間は重み付きで線形補間であるこ
    とを特徴とする請求項8記載の音声復号化方法。
  10. 【請求項10】 上記復号した前後の2つのピッチ周期
    が互いに大きく異なる場合は上記符号ベクトルの補間は
    短いピッチ周期長と対応する符号ベクトルを2回繰り返
    した後、それをもとの符号ベクトルの長さに正規化し、
    その正規化符号ベクトルと他方の符号ベクトル間の補間
    を行い、かつ上記ピッチ周期の補間も短い方を2倍に
    し、これと他方のピッチ周期との間の補正を行うことを
    特徴とする請求項9記載の音声復号化方法。
  11. 【請求項11】 前後の2つの上記復号した線形予測係
    数を線形補間して上記合成フィルタのフィルタ係数を求
    めることを特徴とする請求項8乃至10の何れかに記載
    の音声復号化方法。
  12. 【請求項12】 上記周期性符号が無声区間を示すもの
    であれば、入力された無声部符号を復号して無声残差波
    形を得、この無声残差波形で上記合成フィルタを駆動す
    ることを特徴とする請求項8乃至11の何れかに記載の
    音声復号化方法。
  13. 【請求項13】 上記無声部符号の復号は、パワー符号
    帳から1フレームが分割された複数のサブフレームのそ
    れぞれのパワーに、生成した白色雑音の各サブフレーム
    のパワーを一致させて、上記無声残差波形を得ることを
    特徴とする請求項12記載の音声復号化方法。
  14. 【請求項14】 上記無声部符号の復号は雑音符号帳か
    ら雑音ベクトルを取出して上記音声残差波形を得ること
    を特徴とする請求項12記載の音声復号化方法。
JP30520696A 1996-11-15 1996-11-15 音声符号化方法および復号化方法 Expired - Lifetime JP3531780B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30520696A JP3531780B2 (ja) 1996-11-15 1996-11-15 音声符号化方法および復号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30520696A JP3531780B2 (ja) 1996-11-15 1996-11-15 音声符号化方法および復号化方法

Publications (2)

Publication Number Publication Date
JPH10143199A true JPH10143199A (ja) 1998-05-29
JP3531780B2 JP3531780B2 (ja) 2004-05-31

Family

ID=17942335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30520696A Expired - Lifetime JP3531780B2 (ja) 1996-11-15 1996-11-15 音声符号化方法および復号化方法

Country Status (1)

Country Link
JP (1) JP3531780B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240383B1 (en) 1997-07-25 2001-05-29 Nec Corporation Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal
JP2002533772A (ja) * 1998-12-21 2002-10-08 クゥアルコム・インコーポレイテッド 可変レートスピーチコーディング
WO2003010752A1 (en) * 2001-07-26 2003-02-06 Nec Corporation Speech bandwidth extension apparatus and speech bandwidth extension method
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
US6802046B2 (en) * 2002-05-01 2004-10-05 Agilent Technologies, Inc. Time domain measurement systems and methods
WO2006035810A1 (ja) * 2004-09-30 2006-04-06 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
US7228272B2 (en) 2001-06-29 2007-06-05 Microsoft Corporation Continuous time warping for low bit-rate CELP coding
JP2008139562A (ja) * 2006-12-01 2008-06-19 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
JP2012532344A (ja) * 2009-06-29 2012-12-13 サムスン エレクトロニクス カンパニー リミテッド 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240383B1 (en) 1997-07-25 2001-05-29 Nec Corporation Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal
JP4824167B2 (ja) * 1998-12-21 2011-11-30 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2002533772A (ja) * 1998-12-21 2002-10-08 クゥアルコム・インコーポレイテッド 可変レートスピーチコーディング
JP4927257B2 (ja) * 1998-12-21 2012-05-09 クゥアルコム・インコーポレイテッド 可変レートスピーチ符号化
JP2013178545A (ja) * 1998-12-21 2013-09-09 Qualcomm Inc 可変レートスピーチ符号化
US7228272B2 (en) 2001-06-29 2007-06-05 Microsoft Corporation Continuous time warping for low bit-rate CELP coding
WO2003010752A1 (en) * 2001-07-26 2003-02-06 Nec Corporation Speech bandwidth extension apparatus and speech bandwidth extension method
US6802046B2 (en) * 2002-05-01 2004-10-05 Agilent Technologies, Inc. Time domain measurement systems and methods
WO2006035810A1 (ja) * 2004-09-30 2006-04-06 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
US7904292B2 (en) 2004-09-30 2011-03-08 Panasonic Corporation Scalable encoding device, scalable decoding device, and method thereof
JP2008139562A (ja) * 2006-12-01 2008-06-19 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
JP2012532344A (ja) * 2009-06-29 2012-12-13 サムスン エレクトロニクス カンパニー リミテッド 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法

Also Published As

Publication number Publication date
JP3531780B2 (ja) 2004-05-31

Similar Documents

Publication Publication Date Title
JP4550289B2 (ja) Celp符号変換
EP0409239B1 (en) Speech coding/decoding method
JPH0990995A (ja) 音声符号化装置
JPH11327597A (ja) 音声符号化装置及び音声復号化装置
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP3583945B2 (ja) 音声符号化方法
JP3296411B2 (ja) 音声符号化方法および復号化方法
JPH0782360B2 (ja) 音声分析合成方法
JP3050978B2 (ja) 音声符号化方法
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JP2956068B2 (ja) 音声符号化復号化方式
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3552201B2 (ja) 音声符号化方法および装置
JP3089967B2 (ja) 音声符号化装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3192051B2 (ja) 音声符号化装置
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3071800B2 (ja) 適応ポストフィルタ
JPH06130994A (ja) 音声符号化方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 9