JP2898641B2 - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JP2898641B2
JP2898641B2 JP63243580A JP24358088A JP2898641B2 JP 2898641 B2 JP2898641 B2 JP 2898641B2 JP 63243580 A JP63243580 A JP 63243580A JP 24358088 A JP24358088 A JP 24358088A JP 2898641 B2 JP2898641 B2 JP 2898641B2
Authority
JP
Japan
Prior art keywords
signal
parameter
filter
correction
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63243580A
Other languages
English (en)
Other versions
JPH0250200A (ja
Inventor
公生 三関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63243580A priority Critical patent/JP2898641B2/ja
Publication of JPH0250200A publication Critical patent/JPH0250200A/ja
Application granted granted Critical
Publication of JP2898641B2 publication Critical patent/JP2898641B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、例えばディジタル回線を用いた低ビットレ
ートの伝送速度の高品質な音声符号化装置に関する。
(従来の技術) 従来のボコーダ方式に象徴される、音声の線形予測符
号化後の残差信号を小数のパルス列などで置き換える音
声符号化装置の一例を第11図に示す。同図からわかるよ
うに、分析側で入力音声信号xは予測フィルタにより残
差信号yとなるが、予測フィルタの次数は有限であるの
で、yは白色信号とはならない。これに対し、合成側で
は残差信号yの代わりに、パルス列またはランダム雑音
という非常に白色性の強い信号gを駆動音源信号として
用いるため、yとgの歪(モデル化歪み)が合成音の
品質を劣化させる。
また、モデル化歪みを小さくするために残差モデルg
を複雑にすれば、gを求めるための計算量が増える上、
gを送るための情報量が増大するという問題がある。
(発明が解決しようとする課題) 上述したように、従来のボコーダ方式は、残差信号と
モデル信号との誤差が大きいため、合成音の品質が著し
く低下するという問題がある。
本発明は、上記に鑑みてなされたもので、その目的と
するところは、残差信号のモデル化による歪みを減少さ
せて、低ビットレートの伝送速度においても、品質の良
い信号を合成する音声符号化装置を提供することを目的
とする。
[発明の構成] (課題を解決するための手段) 上記目的を達成するために、第1の発明は、特徴量抽
出手段(2、3)、合成フィルタ(4)、補正フィルタ
(5)、誤差最小化手段(7)、出力手段からなる音声
符号化装置であって、特徴量抽出手段(2、3)は、入
力音声信号から、予測残差モデル信号と予測パラメータ
を抽出し、合成フィルタ(4)は、予測残差モデル信号
と予測パラメータから合成音声信号を作成し、補正フィ
ルタ(5)は、誤差最小化手段(7)の求めた補正パラ
メータにより合成音声信号を補正して補正合成音声信号
を出力し、誤差最小化手段(7)は、入力音声信号と補
正合成音声信号との誤差が最小化となるよう補正パラメ
ータを求め、出力手段は、予測残差モデル信号、予測パ
ラメータ、補正パラメータを組み合わせて出力すること
を要旨とする。
第2の発明は、特徴量抽出手段(2、3)、補正フィ
ルタ(5)、合成フィルタ(4)、誤差最小化手段
(7)、出力手段からなる音声符号化装置であって、特
徴量抽出手段(2、3)は、入力音声信号から、予測残
差モデル信号と予測パラメータを抽出し、補正フィルタ
(5)は、誤差最小化手段(7)の求めた補正パラメー
タにより予測残差モデル信号を補正して補正予測残差モ
デル信号を出力し、合成フィルタ(4)は、補正予測残
差モデル信号と予測パラメータから補正合成音声信号を
作成し、誤差最小化手段(7)は、入力音声信号と補正
合成音声信号との誤差が最小化となるよう補正パラメー
タを求め、出力手段は、予測残差モデル信号、予測パラ
メータ、補正パラメータを組み合わせて出力することを
要旨とする。
(作用) 本発明の音声符号化装置では、誤差最小化手段を設
け、入力音声信号と補正合成音声信号との誤差が最小化
となるよう補正パラメータを求め、この補正パラメータ
と予測残差モデル信号及び予測パラメータを組み合わせ
て出力するので、合成音の品質を向上させることができ
る。
(実施例) 以下、図面を用いて本発明の実施例を説明する。
第1図は、本発明の第1の実施例に係わる音声符号化
装置の原理を示す構成図である。同図において、入力端
子1から入力される音声信号は予測パラメータ抽出部2
において予測パラメータが抽出されるとともに、予測残
差信号のモデル信号が残差モデル生成部3で生成され
る。前記モデル信号と予測パラメータは合成フィルタ4
に供給されて合成信号が生成される。この合成信号は補
正フィルタ5によって補正されて、合成音声信号が出力
される。この合成音声信号は誤差最小化部7に供給さ
れ、入力音声信号との誤差が最小となるように前記補正
フィルタのパラメータが求められている。
第2図は、第1図に示した前記第1の実施例に係わる
音声符号化装置の構成を更に詳細に示すブロック図であ
る。更に詳細には、第2図は本発明を説明する実施例に
復号化装置を加えて構成される音声符号化復号化装置の
構成のブロックを示しており、同図においては音声符号
化装置および復号化装置はそれぞれ分析側および合成側
に分けて示されている。また、同実施例においては、前
記補正フィルタは全零形フィルタとして説明されてい
る。
第2図において、予測パラメータ抽出部21は入力端子
20から入力される入力音声信号xの予測パラメータを抽
出することによって音声信号xの短期および長期の相関
を除いている。また、本実施例では、残差モデル生成部
3の中にも予測パラメータ抽出部2がある場合を想定す
るので、残差モデル生成部22は予測パラメータ抽出部21
から得られる残差信号yを入力として残差モデルgを出
力する。
合成フィルタ23は、予測パラメータおよび残差モデル
gを量子化器27および28でそれぞれ量子化したものから
合成信号x1を出力する。自己相関係数計算部24は合成信
号x1の自己相関係数を計算し、相互相関係数計算部25は
合成信号x1と原音声xとの相互相関係数を計算する。計
算部24および25で求められた相関係数を用いて、フィル
タ係数計算部26でモデル化歪みを最小化する全零形補正
フィルタの係数{bi}を求める。予測パラメータ抽出部
21、残差モデル生成部22および計算部26で得られた予測
パラメータ、残差モデルおよび補正フィルタの係数情報
は量子化器27、28、29でそれぞれ量子化され、マルチプ
レクサ110で多重化され、合成側へ伝送される。
合成側ではデマルチプレクサ111で送られてきた情報
を補正フィルタ、予測パラメータおよび残差モデルに分
離した後、逆量子化器112、113、114でそれぞれの情報
を復号する。復号された残差モデルを駆動音源信号と
して、合成フィルタ115により、合成信号x1が得られ、
これを補正フィルタ116に通すことにより合成音x2が出
力端子117から得られる。
以下、細部について説明する。予測パラメータ抽出部
21は入力音声信号xの短期および長期の相関を除く線形
予測フィルタもあわせもっている。
このフィルタは次の式(1),(2)で表わされる。
ここでは、u(n)はピッチ予測残差信号を表す。ま
た、,pはそれぞれ量子化されたピッチ係数および
ピッチ周期を表し、b=ρxx(Tp)なる関係がある。ρ
xxおよびρuuはそれぞれx(n)の規格化自己相関係数
およびu(n)の規格化自己相関係数を表す。式(2)
のは量子化されたLPCパラメータである。LPCパラメー
タa1は式(3)の正規方程式を解くことにより得られ
る。LPCパラメータについては、Rabiner,Schafer(鈴木
久喜訳)の「音声のディジタル信号処理(下)」コロナ
社、p.159〜229に詳述されているので参照されたい。
入力信号xは式(1)および式(2)によって、長期
および短期の相関を除かれた残差信号yとなる。次に残
差モデル生成部22でyから残差モデルgを求め、gを量
子化器28に入力することにより、量子化された残差モデ
ルが求まる。次に合成フィルタ23でを駆動音源信号
としたときの合成信号x1を例えば次式に従って求める。
ここで、(n),{i},,pは伝送用に量
子化された値であることを示している。式(5)および
(6)において(n),{i},,pは量子化
の影響による合成音の劣化を考慮しなくてもよい場合に
は、量子化前の値g(n),{ai},b,Tpを用いる。合
成音x1の値を用いて、計算部24でx1の規格化自己相関係
数ρx1x1を次式に従って求める。
ここでNは分析フレーム長、Wは分析窓を示す。ま
た、計算部25ではx1と上記入力音声xとの規格化相互相
関係数を次式で求める。
次に計算部24で得られたρx1x1(k)と計算部25で得
られたρx1x(l)を用いて、計算部26で次式を満足す
る全零形の補正フィルタ係数{bi}(i=0,1,…,q−
1)を求める。
qはフィルタの次式である。式(10)は上記合成信号
x1を全零形フィルタ に通したときの出力信号と原音声xとの差の平均2乗誤
差を最小化することにより得られる。具体的には、fを
次式で定義したとき fの平均2乗誤差E[f2(n)]をbi(i=0,…,q−
1)でそれぞれ偏微分した値∂E[f2(n)]/∂biを
零とおくと、 式(12)のf(n)に式(11)を代入して、式(12)
の両辺をRx1x1(0)で規格化することにより、式(1
0)が得られる。
本実施例では上記式(10)において{di}(i=0,
…,q−1)の値は固定に定めて、補正フィルタの係数
{bi}を計算するが、上記平均2乗誤差E[f2(n)]
がより小さくなるように{di}(i=0,…,q−1)の値
を選んで最適な補正フィルタの係数を求め、補正フィル
タの係数と{di}を補正フィルタの情報として伝送して
もよい。
一方、合成側では合成フィルタ115は復号化された各
伝送パラメータ(n),{i},,pを用いて
合成フィルタ23と同様に式(5)および式(6)等の処
理をして、合成信号x1を出力するフィルタである。補正
フィルタ116は合成信号x1を入力信号として、次式によ
り、合成音声信号x2を出力する。
{bi}の量子化誤差が無視できるときには、次式が成立
する。
式(13.b)におけるフィルタ係数{bi}は式(10)か
ら求められた値であるから、原音声xと合成音x2の平均
2乗誤差E[{x(n)−x2(n)}]は最小となっ
ている。この結果、合成音x2は合成信号x1よりも原音声
xに近い波長となる。
次に、従来の方法とこの発明法による比較実験結果を
以下に示す。
実験に用いた音声は、標本化周波数8KHzのμ−PCMで
入力し、分析フレーム長32msec(256サンプル)とし
た。また、従来法と発明法を同じ伝送情報量の下で比較
評価するために、使用する合成フィルタの次数と全零形
の補正フィルタの次数との和がそれぞれの方法で等しく
なるようにした。また式(10)〜(13)における{bi}
の値は補正フィルタの次数qを奇数に定めて、 i)q=3のとき d0=−1,d1=0,d2=1 ii)q=5のとき d0=−2,d1=−1,d2=0,d3=1,d4
2 に固定した。
合成音声の駆動音源(残差モデル)は、従来のボコー
ダの駆動音源信号よりも幾分複雑なものを用いた。具体
的には、振幅と位置が最適なパルスを1ピッチ周期区間
に1個立てたものを駆動音源信号とした。
本実施例で用いた残差モデルには他に、許されるビッ
トレートの範囲でさらに複雑な、CELPやMPC等の符号化
方式の駆動源を残差モデルとしてもよい。これらの方式
の詳細については中田和男氏の「音声の高能率符号化」
p.116〜129に説明されている。
第3図(a)は実験に用いた男性の原入力音声x、第
3図(b)は14次の合成フィルタを用いた従来法の合成
波形x1、第3図(c)は、11次の合成フィルタと3次の
全零形補正フィルタを用いる本発明法による合成波形x2
を表す。また、第3図(d)および第3図(e)はそれ
ぞれ誤差波形x−x1,x−x2を表す。
一方、第4図(a)は実験に用いた女性の原入力音声
x、第4図(b)は14次の合成フィルタを用いた従来法
の合成成形x1、第4図(c)は、9次の合成フィルタと
5次の全零形補正フィルタを用いる本発明法による合成
成形x2を表す。また、第4図(d)および第4図(e)
はそれぞれ誤差波形x−x1,x−x2を表す。明らかに本発
明法による合成音声波形x2の方が従来法の合成波形x1
りも原音声波形xに近づいている。
本実施例では、合成信号x2を得るために、残差モデル
を合成フィルタに通した後に補正フィルタに通す構成を
示したが、残差モデルを補正フィルタに通した後に合成
フィルタに通すように構成したことを特徴とするもの
で、合成フィルタと補正フィルタを結合して1つのフィ
ルタとしたものに残差モデルを通す構成でもよい。ま
た、マスキングの効果を出すために、第5図に示すよう
な原音声xと合成音x2に聴感重みづけを行なって補正フ
ィルタの係数を求めてもよい。
第6図は、本発明の第2の実施例に係わる音声符号化
装置の構成を詳細に示すブロック図であり、詳細には本
発明を説明する実施例に復号化装置を加えて構成される
音声符号化復号化装置の構成を示すブロック図である。
同図において音声符号化装置および復号化装置はそれぞ
れ分析側および合成側に分けて示されている。
この第2の実施例では、前述した補正フィルタをZ変
換領域で とおくことにする。また、残差モデルにはMPC(マルチ
パルス符号化)を用いる。マルチパルス駆動音源の生成
法の詳細については、中田和男氏の「音声の高能率符号
化」(森北出版)(文献1)p.126〜129に説明されてい
るので参照されたい。
第6図において、入力端子500から供給される入力音
声信号はフレームバッファ501である一定時間(通常5
〜50msec程度)に分割される。Kパラメータ計算部502
は前記分割された入力音声を入力し、そのスペクトル包
絡を表すパラメータを計算してこれをKパラメータに変
換してKパラメータ符号化器504に出力する。Kパラメ
ータ符号化器504によって符号化された情報はマルチプ
レクサ519、合成フィルタ513、インパルス応答計算部50
8、聴感重みづけ部507に送られる。ピッチ分析部503は
分割された入力音声を入力し、ピッチ周期とピッチ係数
を抽出する。ピッチ情報符号化器505は前記ピッチ周期
とピッチ係数を符号化してマルチプレクサ519およびピ
ッチ合成フィルタ514に送る。ピッチ除去部506は符号化
されたピッチ情報を用いて、前記分割された入力音声か
らピッチ残差信号を生成する。聴感重みづけ部507は符
号化されたKパラメータを用いてピッチ残差信号から重
みづけされたピッチ残差を例えば次式により生成する。
pはKパラメータの次数、γは0γ1なる値をと
り、xw(n)は重みづけされたピッチ残差信号、S
(n)はピッチ残差信号、1,…pは符号化されたLP
Cパラメータで上記符号化されたKパラメータの組と等
価であり、上記符号化されたKパラメータから簡単な再
帰式を用いることにより求められる。Kパラメータ(PA
RCOR係数)とLPCパラメータの変換の関係については、R
abiner,Schafer(鈴木久喜訳)の「音声のディジタル信
号処理(下)」(コロナ社)(文献2)p.211を参照さ
れたい。インパルス応答計算部508は前記符号化された
Kパラメータを用いて例えば次式により聴感重みづけさ
れたインパルス応答系列hw(n)を計算する。
式(16)においてδ(n)はクロネッカののデルタ関
数でδ(n)=1(n=0),δ(n)=0(n≠0)
である。インパルス応答計算部508で用いるLPCパラメー
タiは聴感重みづけ部で求められたものを用いてもよ
い。自己相関計算部510は前記重みづけされたインパル
ス応答系列hw(n)の規格化自己相関関数ρhhを次式よ
り計算する。
ここでNは分割区間内のサンプル点の数を表す。相互
相関計算部509は前記重みづけされたピッチ残差xw
(n)と重みづけされたインパルス応答系列hw(n)の
規格化相互相関関数ρhxを次式により計算する。
パルス計算部511は計算された規格化自己相関ρhhと
規格化相互相関ρhxを用いて駆動音源パルス列g(n)
を計算する。駆動音源パルス列の求め方については、前
述した文献1等に詳しく書かれているのでここでは省略
する。パルス列符号化部512は計算されたパルス列g
(n)の情報を符号化してマルチプレクサ519に送る。
合成フィルタ513は符号化されたパルス列(n)と符
号化されたkパラメータから求められるLPCパラメータ
を用いて例えば次式によりピッチ残差合成信号y(n)
を出力する。
ピッチ合成フィルタ514はピッチ残差合成信号v
(n)と符号化されたピッチ情報より、例えば(6)式
により合成信号x1(n)を出力する。自己相関計算部51
5は合成信号x1(n)の規格化自己相関係数ρx1x1を例
えば前記(7)式と(8)式を用いて求める。相互相関
計算部516は分割された入力音声信号x(n)と合成信
号x1(n)との規格化相互相関係数ρx1xを例えば上記
(9)式によって求める。補正フィルタ計算部517はρx
1x1およびρx1xを用いて次式を満足する補正フィルタの
フィルタ係数{bi}(i=1,…,q)を求める。
qはフィルタの次数である。式(21)は合成信号x
1(n)を上記(14)式で表される補正フィルタに通し
たときの出力信号と分割された入力音声信号x(n)と
の差の平均2乗誤差を補正フィルタ係数{bi}で偏微分
して零とおくことによって得られる。具体的な(21)式
の導出過程は第1の実施例と同様であるのでここでは省
略する。符号化部518は前記計算された補正フィルタ係
数{bi}を符号化してマルチプレクサ519へ送る。マル
チプレクサ519は符号化されたピッチ情報、符号化され
たKパラメータ、符号化されたパルス列の情報および符
号化された補正フィルタ係数の情報を多重化して合成側
へ伝送する。以上で第7図の分析側の説明を終了する。
次に合成側の説明をする。デマルチプレクサ520は送
られてきた情報をピッチの情報とKパラメータの情報
(スペクトル包絡を表す情報)と駆動源パルス列の情報
と補正フィルタ係数の情報に分離する。復号化部521,52
2,523,524はそれぞれ符号化された駆動源パルス列の情
報、スペクトル包絡を表す情報、ピッチの情報、補正フ
ィルタ係数を復号する。パルス再生部525は復号された
駆動源パルス列の情報から駆動源パルス列を再生する。
合成フィルタ526とピッチ合成フィルタ527はそれぞれ合
成フィルタ513とピッチ合成フィルタ514と同様の働きを
するのでここでは説明を省略する。補正フィルタ528は
前記ピッチ合成フィルタから出力された合成信号x
1(n)と前記復号された補正フィルタ係数を用いて次
式により合成音声信号(n)を出力する。
ここでi(i=1,…,q)は復号された補正フィルタ
の係数である。以上で、第7図の説明を終る。
次に従来法と本実施例による発明法の伝送ビットレー
ト8Kb/sにおける比較実験結果を示す。
実験に用いた音声は、標本化周波数8KHzのμ−PCMで
入力し、分析フレーム長32msec(256サンプル)とし
た。分析は線形予測10次(Kパラメータ10次)、ピッチ
予測1次とし、Kパラメータとピッチの情報に52ビッ
ト、駆動源パルス列と補正フィルタ係数の情報に約200
ビットを割りあてた。ここでいう従来法とは第7図にお
いて補正フィルタの係数を求めるために必要な部分(自
己相関計算部515,相互相関計算部516,補正フィルタ係数
計算部517,符号化部518)および補正フィルタ528と復号
化部524を持たない構成のマルチパルス符号化法のこと
を指す。式(14)、式(21)および式(22)中の補正フ
ィルタに用いる一定の遅延サンプル間隔Cは、本実験で
用いた音声(男性)の平均的なピッチ周期が約60サンプ
ル(7.5msec)を用いてC=INT(60/q+0.5)として固
定値とした。すなわち60/qを整数値に丸めたものをCと
して固定した(q=16のときC=4)。
第8図に実験で得られた音声波形の例を示す。第8図
(a)は原音声(男性、32×6msec)、第8図(b)は
従来法による合成波形(パルス数20/フレーム)、第8
図(c)は本発明法の合成波形(パルス数12/フレー
ム、補正フィルタ16次、つまりq=16)である。第8図
(d)は本発明法に用いた駆動源パルス列(パルス数12
/フレーム)、第8図(e)は原音声から従来法による
合成波形を差し引いた誤差波形であり、第8図(f)は
原音声から本発明法による合成波形を差し引いた誤差波
形である。明らかに本発明法による合成波形の方が原音
声との誤差が小さいことがわかる。
本実施例では、補正フィルタの構成は式(14)に示す
ものであるが、フィルタ係数はb0=1とせず、b0の値も
他のbi,…,bqと同様に適応的に定めて伝送してもよい。
また、補正フィルタはある整数M1,M2(M1,M2≧0)を用
いて なる構成にしてもよい。補正フィルタの定数Cはフレー
ム又はフレームをさらに細かく分割したサブフレームご
とに最適なCの値を求めて伝送するか、ピッチの情報を
利用してCの値を決めてもよい。
また、スペクトル包絡を表すパラメータにKパラメー
タを用いたが、LSPパラメータなどの他のパラメータを
用いてもよい。また、本実施例では自己相関関数および
相互相関関数の計算は、音声を分割した区間(分析フレ
ーム)の外では計算に用いるデータの値は0であるとし
て計算したが、分析フレームの外の値も使って自己相関
関数および相互相関関数の値を計算してもよい。
Kパラメータの計算はピッチ予測残差信号を用いて計
算してもよい。逆に、Kパラメータより近接の相関を除
いた後の信号からピッチ分析を行なってもよい。また、
ピッチ除去及びピッチ合成は行わなくてもよい。また第
7図において、従続に接続されている各フィルタは順序
を入れかえてもよい。補正フィルタ係数の計算およびフ
ィルタリングはピッチ残差合成信号に対して行ってもよ
い。また駆動源のパルス計算は本実験で用いたものでな
くて、他の公知な手法を用いてもよい。
第8図は、本発明の第3の実施例に係わる音声符号化
装置の原理を示す構成図である。同図において、入力端
子1から入力される音声信号は予測パラメータ抽出符号
化部12において予測パラメータが抽出されるともに、予
測残差信号のモデル信号が残差モデル生成符号化部13で
生成される。前記モデル信号と予測パラメータは合成フ
ィルタ14に供給されて合成信号が生成される。この合成
信号および入力音声信号は補正フィルタのパラメータ計
算符号化部15に供給され、合成信号をフィルタによって
補正した後の合成音声信号と入力音声信号との誤差を最
小化する補正フィルタのパラメータが求められて符号化
される。前記符号化された予測パラメータの情報、前記
符号化されたモデル信号の情報および前記符号化された
補正フィルタのパラメータの情報は組み合せられてマル
チプレクサ16から多重化されて出力される。一方、前記
入力音声信号は回路17に供給され、ここで、前記モデル
信号を構成するパルスの数と前記補正フィルタの次数の
組合せが決定され、前記残差モデル生成符号化部13およ
び補正フィルタのパラメータ計算符号化部15に供給され
る。
第9図は、第8図に示した前記第3の実施例に係わる
音声符号化装置と構成を更に詳細に示すブロック図であ
り、詳しくは、本発明を説明する実施例に復号化装置を
加えて構成される音声符号化復号化装置の構成のブロッ
クを示している。同図において音声符号化装置および復
号化装置はそれぞれ分析側および合成側に分けて示され
ている。
この実施例では、前述した補正フィルタをZ変換領域
で次式で表されるq次の全零形フィルタ とおくことにする。また、残差モデルにはMPC(マルチ
パルス符号化)を用いている。
第9図において、入力端子500から供給される入力音
声信号はフレームバッファ501である一定時間(通常5
〜50msec程度)に分割される。Kパラメータ計算部502
は前記分割された入力音声信号を入力し、そのスペクト
ル包絡を表すパラメータを計算してこれをKパラメータ
に変換してKパラメータ符号化器504に出力する。Kパ
ラメータ符号化器504によって符号化された情報はマル
チプレクサ519、合成フィルタ514、インパルス応答計算
部508、聴感重み付け部507に送られる。ピッチ分析部50
3は分割された入力音声信号を入力し、ピッチ周期とピ
ッチ係数を抽出する。
有声無声判定部601はピッチ分析部503で抽出されたピ
ッチ情報を符号化した値をもとに有声無声の判定を行
い、判定信号をパルス計算部511、相互相関計算部516、
自己相関計算部515および補正フィルタ係数計算部517へ
出力する。また、判定の精度向上のために前記入力音声
信号の零交叉数等の補助パラメータを用いてもよい。音
声の有声無声の判定法については既知の方法を使うこと
ができる。具体的な有声無声の判定法は例えば古井貞煕
氏の「ディジタル音声処理」(東海大学出版会)(文献
3)p.59および前記文献1のp.87〜89に記載されている
のでここでは省略する。
ピッチ情報符号化器505は前記ピッチ周期とピッチ係
数を符号化してマルチプレクサ519およびピッチ合成フ
ィルタ514に送る。ピッチ除去部506は符号化されたピッ
チ情報を用いて、前記分割された入力音声からピッチ残
差信号を生成する。聴感重みづけ部507は符号化された
Kパラメータを用いてピッチ残差信号から重みづけされ
たピッチ残差を例えば次式により生成する。
pはKパラメータの次数、γは0γ1なる値をと
り、xw(n)は重みづけされたピッチ残差信号、S
(n)はピッチ残差信号、1,…,pは符号化された
LPCパラメータで上記符号化されたKパラメータの組と
等価であり、上記符号化されたKパラメータから簡単な
再帰式を用いることにより求められる。Kパラメータ
(PARCOR係数)とLPCパラメータの変換の関係について
は、文献2のp.211を参照されたい。インパルス応答計
算部508は前記符号化されたKパラメータを用いて例え
ば次式により聴感重みづけされたインパルス応答系列hw
(n)を計算する。
式(25)においてδ(n)はクロネッカのデルタ関数
で、δ(n)=1(n=0),δ(n)=0(n≠0)
である。インパルス応答計算部508で用いるLPCパラメー
タiは聴感重みづけ部で求められたものを用いてもよ
い。自己相関計算部510は前記重みづけされたインパル
ス応答系列hw(n)の規格化自己相関関数ρhhを次式よ
り計算する。
ここでNは分割区間内のサンプル点の数を表す。相互
相関計算部509は前記重みづけされたピッチ残差xw
(n)と重みづけされたインパルス応答系列hw(n)の
規格化相互相関関数ρhxを次式により計算する。
パルス計算部511は計算された規格化自己相関ρhhと
規格化相互相関ρhxを用いて駆動音源パルス列g(n)
を計算する。このとき計算される駆動音源パルス列g
(n)を構成するパルスの個数は音声無声判定部601か
ら出力された判定信号によって2段階に変化する。すな
わち、判定信号が有声である場合には、mv個、無声であ
る場合には、mu個のパルスが計算される。
mvとmuは mv<mu (29) なる関係にあり、予め定められている数である。駆動音
源パルスの具体的な求め方については前述したように文
献1等に詳しく記載されているのでここでは説明を省略
する。
パルス列符号化部512は計算されたパルス列g(n)
の情報を符号化してマルチプレクサ519に送る。合成フ
ィルタ513は符号化されたパルス列(n)と符号化さ
れたKパラメータから求められるLPCパラメータ{
i}を用いて例えば次式よりピッチ残差合成信号v
(n)を出力する。
ピッチ合成フィルタ514はピッチ残差合成信号v
(n)と符号化されたピッチ情報より、例えば(6)式
により合成信号x1(n)を出力する。
次に、補正フィルタの係数を求める方法を説明する。
自己相関計算部515は合成信号x1(n)の自己相関関数R
x1x1を例えば次式を用いて求める。
ここで、W(n)は分析窓を表す。
相互相関計算部516は分割された入力音声信号x
(n)と合成信号x1(n)との相互相関関数Rx1xを例え
ば(32)式によって求める。
補正フィルタ係数計算部517は計算部515および516で
求められたRx1x1およびRx1xを用いて次式を満足する(2
3)式の補正フィルタの係数{bi}(i=1,…,q)を求
める。
上式(33)は合成信号x1(n)を前記(23)式で表さ
れる補正フィルタに通した時の出力信号と分割された入
力音声信号x(n)との差の平均2乗誤差を補正フィル
タ係数{bi}で偏微分して零とおくことによって得られ
る。
(31)式、(32)式および(33)式においてqは前記
補正フィルタの次数であり、有声無声判定部601から出
力された判定信号によって2段階に変化する。すなわ
ち、判定信号が有声である場合はq=qv、無声である場
合はq=quとし、qvとquは、 qv>qu (34) なる大小関係があり、予め定められている数である。
従って、式(29)と式(34)とから明らかなように、
前記入力音声信号が有声のときは、駆動源のパルス数は
少なく、補正フィルタの次数は高くなり、逆に無声のと
きは、駆動源のパルス数は多く、補正フィルタの次数は
低くなるようにパルス数と補正フィルタの次数の組合せ
が選ばれる。
有声であると判定された入力音声の駆動源信号は周期
性の強い信号であるため、高次の補正フィルタによって
前記入力音声の駆動源の周期的に冗長する情報を効率的
に表現できる。逆に、無声であると判定された入力音声
の駆動源信号は非周期性の強い信号であるため、周期的
な冗長性が非常に小さいので、補正フィルタの次数を下
げて駆動源に多くのパルスを立てた方が駆動源の情報を
効率的に表現できる。
以上のことから、本実施例では、音声信号の有声無声
により駆動源のパルス数と補正フィルタの次数の組合せ
を適応的に切り換えることができ、しかも、その組合せ
は前記符号化されたピッチの情報をもとに決定できるの
で、組合せの情報を伝送する必要がないという利点があ
る。従って、合成音の高品質化が実現できる。
符号化部518は前記計算された補正フィルタ係数{b
i}を符号化してマルチプレクサ519へ送る。マルチプレ
クサ519は符号化されたピッチ情報、符号化されたKパ
ラメータ、符号化されたパルス列の情報および符号化さ
れた補正フィルタ係数の情報を多重化して合成側へ伝送
する。
次に、合成側の説明を行う。合成側のマルチプレクサ
520は送られてきた情報をピッチの情報とKパラメータ
の情報(スペクトル包絡を表す情報)と駆動源パルス列
と補正フィルタ係数を組み合せた情報の3種類の情報に
分離する。復号化部523と522はそれぞれピッチ情報とK
パラメータの情報を復号する。有声無声判定部603は前
記復号されたピッチの情報をもとに前記有声無声判定部
601と同様の判定基準で有声無声判定を行う。復号化部5
24は前記有声無声判定部603から得られた判定信号に従
って予め定められたパルス数の駆動源パルス列の情報と
予め定められた次数の補正フィルタ係数の情報を復号し
て出力する。
パルス再生部525は復号された駆動源パルス例の情報
から駆動源パルス列を再生する。合成フィルタ526とピ
ッチ合成フィルタ527はそれぞれ合成フィルタ513とピッ
チ合成フィルタ514と同様の働きをするのでここでは説
明を省略する。補正フィルタ528は前記ピッチ合成フィ
ルタから出力された合成信号x1(n)と前記復号された
補正フィルタ係数を用いて次式により合成音声信号
(n)を出力する。
ここで、i{i=1,…,q}は復号された補正フィル
タの係数である。
上記実施例では、補正フィルタの構成は式(23)に示
すものであるが、フィルタ係数はb0=1とせず、b0の値
も他のbi,…,bqと同様に適応的に定めて伝送してもよ
い。また、補正フィルタはある整数M1,M2(M1,M2≧0)
を用いて なる構成にしてもよい。補正フィルタの定数Cはフレー
ムまたはフレームを更に細かく分割したサブフレーム毎
に最適なCの値を定めて伝送するか、ピッチの情報をも
とにCの値を決めてもよい。
またスペクトル包絡を表すパラメータにKパラメータ
を用いたが、LSPパラメータ等の他の等価なパラメータ
を用いてもよい。また、本実施例では、自己相関関数お
よび相互相関関数の計算は音声を分割した区間(分析フ
レーム)の外では計算に用いるデータの値は0であると
して計算したが、分析フレームの外の値も使って自己相
関関数および相互相関関数の値を計算してもよい。
例えば、補正フィルタの係数を求めるのに用いられる
(33)式は、 と書き換えることができ、自己相関計算部515は(31)
式の代わりに自己相関関数を で計算し、相互相関計算部516は(32)式の代わりに相
互相関関数を で計算する。このように分析フレームの外のデータを用
いて各パラメータを求めると、更に正確な計算を行うこ
とができるので、大幅に合成音の品質を向上させること
ができる。
Kパラメータの計算は、ピッチ予測残差信号を用いて
計算してもよいし、逆にKパラメータをさきに求めて入
力音声から近接の相関を除いた後の信号からピッチ分析
を行ってもよい。また、ピッチ除去およびピッチ合成は
行わなくてもよい。また、第9図において、従続に接続
されている各フィルタは順序を入れ換えてもよい。補正
フィルタ係数の計算およびフィルタリングはピッチ残差
合成信号に対して行ってもよい。また、駆動源のパルス
計算法は本実験で用いたものでなくて、他の公知の手法
を用いてもよい。
また、本実施例では、入力音声信号の有声無声判定と
いう2種類の判定信号に基づいて駆動源のパルス数と補
正フィルタの次数の組合せを決定したが、例えば符号化
部504から出力される符号化されたピッチ係数やピッチ
周期の大小によって決まるM種類(M≧2)の判定信号
に基づいて駆動源のパルス数と補正フィルタの次数の組
合せを更にきめ細かく決定してもよい。
第10図は、本発明の第4の実施例に係わる音声符号化
装置の構成を詳細に示すブロック図であり、詳細には本
発明を説明する実施例に復号化装置を加えて構成される
音声符号化復号化装置の構成を示すブロック図である。
同図においては音声符号化装置および復号化装置はそれ
ぞれ分析側および合成側に分けて示されている。第10図
において、第9図のものと同じ構成要素は同じ機能を有
するので、同じ符号を付してその説明を省略する。
第10図において、パルス計算部2511は相互相関計算部
509と自己相関計算部510で計算された相互相関関数と自
己相関関数を用いて駆動音源パルス列g(n)を構成す
るパルスを予め定められたL個だけ計算する。パワー計
算配分決定部2607は前記計算されたL個のパルスをもと
にフレーム内の駆動音源のパワーの分布を計算し、前記
パワーの分布からg(n)のパルス数と補正フィルタの
次数の組合せを出力する。音源のパワーの分布の計算に
は例えば次の方法が考えられる。
まず、フレームを前記求められたピッチ周期でサブフ
レームに分割し、各サブフレーム内に同数のパルスが立
つように前記L個のパルスを求める。今、サブフレーム
の数をNsとする。次に、前記L個のパルスを量子化した
値を用いて各サブフレーム内のパルスのパワーPk(k=
1,…,Ns)とPkの平均値を求める。そして、Pkの分散V
arを次式で計算する。
このVarが駆動音源のパワーの分布を表す。(39)式
で計算されたVarがあるしきい値よりも小さいときは、
このフレーム内の駆動音源は定常性が強いと判定し、決
定部2607は第3の実施例の有声無声判定の有声と同様の
パルス数と補正フィルタの次数の組合せを出力する。逆
に、Varが前記しきい値よりも大きいときは、このフレ
ーム内の駆動音源は非定常性が強いと判定し、決定部26
07は第3の実施例における無声と判定されたときと同様
のパルス数と補正フィルタの次数の組合せを出力する。
パルス計算部2511はパワー計算配分決定部2607から出
力されたパルス数の情報を入力し、必要なパルス数が得
られるまでマルチパルス駆動音源を生成する。
自己相関計算部2515はパワー計算配分決定部2607から
出力された補正フィルタの次数の情報を入力し、前記
(31)式に従って自己相関関数を計算する。相互相関計
算部2516はパワー計算配分決定部2607から出力された補
正フィルタの次数の情報を入力し、前記(32)式に従っ
て相相互関関数を計算する。
補正フィルタ係数計算部2517はパワー計算配分決定部
2607から出力された補正フィルタの次数の情報を入力
し、その次数に対応する個数の補正フィルタの係数を前
記補正フィルタ係数計算部517と同様に計算する。
次に、第10図の合成側の説明を行う。復号化部2611は
デマルチプレクサ520から出力された符号化された駆動
源パルス列と補正フィルタ係数を組合せた情報を入力
し、この情報からパワー計算配分決定部2607で用いたL
個のパルスの情報だけを復号化する。パワー計算配分決
定部2609は復号されたL個のパルス情報を入力し、前記
決定部2607と同様の計算を行って、駆動源のパルス数の
情報と補正フィルタの次数の情報を出力する。前記復号
化部2611は前記入力したパルス数の情報と補正フィルタ
の次数の情報から、対応する個数の駆動源パルスの情報
と対応する個数の補正フィルタの係数を復号化する。以
上で第4の実施例の説明をおわる。
上記各実施例(第3〜第4の実施例)におけるパルス
数と補正フィルタの次数の組合せの決定方法と異なる他
の方法としては、予めM組(M≧2)の組合せを用意し
ておき、分析側で実際にM組の駆動源パルス例と補正フ
ィルタのパラメータを求めて、原音声信号とM組の合成
音声信号の誤差電力の最も小さい組合わせを1つ選ん
で、最適な駆動源パルス列と補正フィルタの情報の他に
選ばれた組合せの情報を合成側に伝送することも符号化
装置の高品質化の1方法と考えられる。
[発明の効果] 以上説明したように、本発明によれば、残差信号のモ
デル化による歪みを補正フィルタにより合成音レベルで
最小化するので従来の合成音声よりも合成音の品質を改
善することができる。
【図面の簡単な説明】
第1図は本発明の第1の実施例に係わる音声符号化装置
の原理を示す構成図、第2図は第1図に示した第1の実
施例に係わる音声符号化装置の詳細な構成を示すブロッ
ク図、第3図および第4図は実験による信号の時間軸波
形図、第5図は実施例の補正の説明図、第6図は本発明
の第2の実施例に係わる音声符号化装置の詳細な構成を
示すブロック図、第7図は実験による音声の波形図、第
8図は本発明の第3の実施例に係わる音声符号化装置の
原理を示す構成図、第9図は第8図に示した第3の実施
例に係わる音声符号化装置の詳細な構成を示すブロック
図、第10図は本発明の第4の実施例に係わる音声符号化
装置の詳細な構成を示すブロック図、第11図は従来の音
声符号化装置の説明図である。 2……予測パラメータ抽出部 3……残差モデル生成符号化部 4……合成フィルタ 5……補正フィルタ 7……誤差最小化部 12……予測パラメータ抽出符号化部 13……残差モデル生成符号化部 14……合成フィルタ 15……補正フィルタのパラメータ計算符号化部 17……パルス数・補正フィルタ次数の組合せ決定部

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】特徴量抽出手段(2、3)、合成フィルタ
    (4)、補正フィルタ(5)、誤差最小化手段(7)、
    出力手段からなる音声符号化装置であって、 特徴量抽出手段(2、3)は、入力音声信号から、予測
    残差モデル信号と予測パラメータを抽出し、 合成フィルタ(4)は、予測残差モデル信号と予測パラ
    メータから合成音声信号を作成し、 補正フィルタ(5)は、誤差最小化手段(7)の求めた
    補正パラメータにより合成音声信号を補正して補正合成
    音声信号を出力し、 誤差最小化手段(7)は、入力音声信号と補正合成音声
    信号との誤差が最小化となるよう補正パラメータを求
    め、 出力手段は、予測残差モデル信号、予測パラメータ、補
    正パラメータを組み合わせて出力する 音声符号化装置。
  2. 【請求項2】特徴量抽出手段(2、3)、補正フィルタ
    (5)、合成フィルタ(4)、誤差最小化手段(7)、
    出力手段からなる音声符号化装置であって、 特徴量抽出手段(2、3)は、入力音声信号から、予測
    残差モデル信号と予測パラメータを抽出し、 補正フィルタ(5)は、誤差最小化手段(7)の求めた
    補正パラメータにより予測残差モデル信号を補正して補
    正予測残差モデル信号を出力し、 合成フィルタ(4)は、補正予測残差モデル信号と予測
    パラメータから補正合成音声信号を作成し、 誤差最小化手段(7)は、入力音声信号と補正合成音声
    信号との誤差が最小化となるよう補正パラメータを求
    め、 出力手段は、予測残差モデル信号、予測パラメータ、補
    正パラメータを組み合わせて出力する 音声符号化装置。
JP63243580A 1988-05-25 1988-09-28 音声符号化装置 Expired - Lifetime JP2898641B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63243580A JP2898641B2 (ja) 1988-05-25 1988-09-28 音声符号化装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP12581788 1988-05-25
JP63-125817 1988-05-25
JP63243580A JP2898641B2 (ja) 1988-05-25 1988-09-28 音声符号化装置

Publications (2)

Publication Number Publication Date
JPH0250200A JPH0250200A (ja) 1990-02-20
JP2898641B2 true JP2898641B2 (ja) 1999-06-02

Family

ID=26462129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63243580A Expired - Lifetime JP2898641B2 (ja) 1988-05-25 1988-09-28 音声符号化装置

Country Status (1)

Country Link
JP (1) JP2898641B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech

Also Published As

Publication number Publication date
JPH0250200A (ja) 1990-02-20

Similar Documents

Publication Publication Date Title
JP2940005B2 (ja) 音声符号化装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JPH0668680B2 (ja) 改善された多パルス線形予測符号化音声処理装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP2844589B2 (ja) 音声信号符号化方法とその装置
JP2615548B2 (ja) 高能率音声符号化方式とその装置
JP2898641B2 (ja) 音声符号化装置
JP3003531B2 (ja) 音声符号化装置
JP2956068B2 (ja) 音声符号化復号化方式
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3232701B2 (ja) 音声符号化方法
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
JP2817196B2 (ja) 音声符号化方式
JPH0411040B2 (ja)
JP3071800B2 (ja) 適応ポストフィルタ
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
KR100221186B1 (ko) 음성 부호화 및 복호화 장치와 그 방법
JPS6087400A (ja) マルチパルス型音声符号復号化装置
JPH02170199A (ja) 音声符号化復号化方式
JPH01314300A (ja) 音声符号化復号化方法とその装置
JPH0242239B2 (ja)
JPH0833756B2 (ja) 音声信号符号化方法とその装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080312

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10