JP2000267700A - 音声符号化復号方法および装置 - Google Patents

音声符号化復号方法および装置

Info

Publication number
JP2000267700A
JP2000267700A JP11072062A JP7206299A JP2000267700A JP 2000267700 A JP2000267700 A JP 2000267700A JP 11072062 A JP11072062 A JP 11072062A JP 7206299 A JP7206299 A JP 7206299A JP 2000267700 A JP2000267700 A JP 2000267700A
Authority
JP
Japan
Prior art keywords
information
voiced
pitch
unvoiced
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11072062A
Other languages
English (en)
Inventor
Seiji Sasaki
誠司 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YRP KOKINO IDOTAI TSUSHIN KENK
YRP Advanced Mobile Communication Systems Research Laboratories Co Ltd
Original Assignee
YRP KOKINO IDOTAI TSUSHIN KENK
YRP Advanced Mobile Communication Systems Research Laboratories Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YRP KOKINO IDOTAI TSUSHIN KENK, YRP Advanced Mobile Communication Systems Research Laboratories Co Ltd filed Critical YRP KOKINO IDOTAI TSUSHIN KENK
Priority to JP11072062A priority Critical patent/JP2000267700A/ja
Priority to US09/525,066 priority patent/US6377915B1/en
Priority to EP00105585A priority patent/EP1037197A3/en
Publication of JP2000267700A publication Critical patent/JP2000267700A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 音質の劣下を伴わずに更なる低ビットレート
化を実現する。 【解決手段】 復号器において、スペクトル包絡情報に
より算出される周波数軸上のスペクトル包絡値と予め定
めた閾値とを比較して、該スペクトル包絡値が閾値以上
になる周波数領域を有声領域、その他の領域を無声領域
とし、それぞれに適した音源を用いて音源信号を作るこ
とにより、付加的な周波数帯別の音源切替え情報の伝送
を必要とせずに音質の向上を図る。符号化器において、
非周期的ピッチを有するフレームでは、ピッチ周期の発
生度数に偏りがあることに着目し、非周期的ピッチの周
期に対して、その度数の大小に応じた不均一量子化を行
った結果を、無声状態および周期的ピッチの量子化結果
と共にまとめて一つの符号として伝送することにより伝
送ビット数を削減し低ビットレート化を図る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を低ビッ
トレートで符号化処理及び復号処理する音声符号化方法
とその装置に関するものである。
【0002】
【従来の技術】低ビットレート音声符号化方式として、
2.4kbps LPC(Linear PredictiveCoding:線形予測
符号化)方式と2.4kbps MELP(Mixed Excitaion Li
near Prediction:混合音源線形予測)方式が知られて
いる。これらは共に米国連邦政府標準の音声符号化方式
であり、前者はFS-1015(FSはFederal Standard)
として標準化されており、後者は、FS-1015の音質改
良版として1996年に新たに選定、標準化された。
【0003】この2.4kbps LPC方式および2.4kbps M
ELP方式に関して、次のような参考文献がある。 [1] FREDERAL STANDARD 1015,”ANALOG TO DIGITAL CON
VERSION OF VOICE BY 2400 BIT/SECOND LINEAR PREDICT
IVE CODING”, November 28, 1984 [2] Federal Information Processing Standards Publi
cation,“Analog to digital conversion of voice by
2,400 Bit/Second Mixed Excitation Linear Predictio
n”, May 28, 1998 Draft [3] L.Supplee, R.Cohn, J.Collura and A.McCree,“ME
LP:The new federal standard at 2400 bps”, Proc.
ICASSP, pp.1591-1594, 1997 [4] A.McCree and T. Barnwell III,“A Mixed Excitat
ion LPC Vocoder Modelfor Low Bit Rate Speech Codin
g”, IEEE TRANSACTIONS ON SPEECH AND AUDIOPROCESSI
NG, VOL.3, NO.4, pp.242-250, July 1995 [5] D.Thomson and D. Prezas,“SELECTIVE MODELING O
F THE LPC RESIDUAL DURING UNVOICED FRAMES:WHITE N
OISE OR PULSE EXCITATION”, Proc. ICASSP, pp.3087-
3090, 1986 [6] 佐々木、三宅,”線形予測分析・合成方式の復号
器”,特許第2711737号公報
【0004】最初に、2.4kbps LPC方式の原理につい
て図9および図10を用いて説明する(処理の詳細につ
いては、参考文献[1]を参照されたい)。図9はLPC
方式の音声符号化器の構成を示すブロック図である。フ
レーム化器(11)は、100-3600Hzで帯域制限された後、8k
Hzで標本化され、少なくとも12ビットの精度で量子化
された入力音声サンプル(a1)を蓄えるバッファであり、
1音声符号化フレーム(22.5ms)毎に音声サンプル(18
0サンプル)を取り込み、音声符号化処理部へ(b1)とし
て出力する。以下では、1音声符号化フレーム毎に実行
される処理について説明する。
【0005】プリエンファシス器(12)は、(b1)を高域強
調処理し、高域強調処理された信号(c1)を出力する。線
形予測分析器(13)は、(c1)をDurbin-Levinson法を用い
て線形予測分析し、スペクトル包絡情報である10次の反
射係数(d1)を出力する。量子化器1(14)は(d1)を各次数
毎にスカラー量子化し、その結果である計41ビットを(e
1)を誤り訂正符号化/ビットパッキング器(19)へ出力す
る。各次数の反射係数に対するビット配分は表1に示
す。RMS(Root Mean Square:実効値)計算器(15)は
高域強調処理された信号(c1)のレベル情報であるRMS
値を計算し、RMS値(f1)を出力する。量子化器2(16)
は(f1)を5ビットで量子化し、その結果である(g1)を誤
り訂正符号化/ビットパッキング器(19)へ出力する。
【0006】ピッチ検出/音響分類器(17)は、前記フレ
ーム化器11の出力(b1)を入力し、ピッチ周期(20〜15
6サンプル(51〜400Hzに対応)の範囲をとる)および音
響分類情報(有声/無声/過渡部の識別情報)を抽出
し、それぞれ(h1)、(i1)として出力する。量子化器3(1
8)は(h1)および(i1)をまとめて7ビットで量子化し、そ
の結果(j1)を誤り訂正符号化/ビットパッキング器(19)
へ出力する。ここでの量子化方法(7ビットの符号(12
8種類の符号語)へのピッチ情報、音響分類情報の割り
当て方)は、7ビットが全て0の符号語および7ビット
中1ビットのみが1となる符号語を無声に割り当て、7
ビットが全て1の符号語および7ビット中1ビットのみ
が0となる符号語を過渡部に割り当てる。その他の符号
語は有声用としてピッチ周期情報に割り当てられる。誤
り訂正符号化/ビットパッキング器(19)は量子化された
それぞれの情報(e1)、(g1)、(j1)を54ビット/フレーム
にパッキングし、音声符号化情報フレームを構成し、1
フレーム毎に54ビットを(k1)として出力する。音声情報
ビット列(k1)は、無線通信の場合、変調器、無線機を通
り、受信側に伝送される。
【0007】表1に1フレーム当たりのビット配分を示
す。同表から分かるように、誤り訂正符号化/ビットパ
ッキング器(19)では、そのフレームの音響的分類が有声
でないならば(つまり無声または過渡部であるなら
ば)、5〜10次の反射係数を送る代わりに誤り訂正符号
(20ビット)を送る。無声または過渡部の場合に誤り保
護される情報は、RMS情報の上位4ビット、1〜4次
の反射係数情報である。また、各フレーム毎に1ビット
の同期ビットが付加される。
【0008】
【表1】
【0009】次に図10を用いてLPC音声復号器の構
成について説明する。ビット分離/誤り訂正復号器(21)
は1フレーム毎に受信した54ビットの音声情報ビット列
(a2)を各パラメータ毎に分離すると共に、そのフレーム
が無声または過渡部の場合には前記該当ビットに対して
誤り訂正復号処理を施す。そして、その結果であるピッ
チ/音響分類情報ビット(b2)、10次の反射係数情報ビッ
ト(e2)およびRMS情報ビット(g2)を出力する。ピッチ
/音響分類情報復号器(22)は前記ピッチ/音響分類情報
ビット(b2)を復号し、ピッチ周期(c2)および音響分類情
報(d2)を出力する。反射係数復号器(23)は前記10次の反
射係数情報ビット(e2)を復号し、10次の反射係数(f2)を
出力する。RMS復号器(24)は前記RMS情報ビット(g
2)を復号し、RMS情報(h2)を出力する。パラメータ補
間器(25)は、再生音声の品質を向上するため、各パラメ
ータ(c2)、(d2)、(f2)、(h2)をそれぞれ補間処理し、そ
の結果である(i2)、(j2)、(o2)、(r2)を出力する。
【0010】次に音源信号(m2)は以下のようにして作ら
れる。音響分類切替え器(28)は、前記補間された音響分
類情報(j2)が有声を示す時は、パルス音源発生器(26)が
発生するピッチ周期(i2)に同期したパルス音源(k2)を選
択し、音響分類情報(j2)が無声音声部を示す時には雑音
発生器(27)が発生する白色雑音(l2)を選択するように動
作する。また、音響分類情報(j2)が過渡部を示す時に
は、そのフレーム内の有声部分に対してはパルス音源(k
2)、無声部分に対しては白色雑音(擬似ランダム音源)
(l2)を選択するように動作する。ここでフレーム内にお
ける有声部分と無声部分の境界はパラメータ補間器(25)
で決定される。また、ここで使用されるパルス音源(k2)
を作るためのピッチ周期情報(i2)は、隣接した有声音フ
レームのものを使用する。音響分類切替え器(28)の出力
が音源信号(m2)となる。
【0011】LPC合成フィルタ(30)は、線形予測係数
(p2)を係数として用いる全極型フィルタであり、音源信
号(m2)に対しスペクトル包絡情報を付加して、その結果
である信号(n2)を出力する。ここで、スペクトル包絡情
報である線形予測係数(p2)は、線形予測係数計算器(29)
により前記反射係数(o2)から計算される。また、LPC
合成フィルタ(30)は、有声に対しては10次の線形予測係
数(p2)を用いる10次の全極型フィルタとして構成され、
無声に対しては4次の線形予測係数(p2)を用いる4次の
全極型フィルタとして構成される。ゲイン調整器(31)は
前記LPC合成フィルタ(30)の出力(n2)に対し前記RM
S情報(r2)を用いてゲイン調整を行い、(q2)を出力す
る。最後にデエンファシス器(32)は、(q2)に対し、前述
のプリエンファシス器(12)と逆の処理を行い再生音声(s
2)を出力する。
【0012】このようなLPC方式の問題点を以下に示
す(参考文献[4])。 問題点A:LPC方式では、全周波数帯域に渡り、フレ
ーム毎に有声/無声/過渡部を切り替えている。しか
し、自然音声の音源信号は、小さな周波数帯域に分けて
観測すると有声の性質を持つ帯域と、無声の性質を持つ
帯域がある。従って、LPC方式において有声と決定さ
れたフレームでは、雑音で駆動すべき成分をパルスで駆
動してしまうため、buzz音(ブンブンとうなるような
音)になる。これは、高いほうの周波数で顕著になる。 問題点B:無声から有声に変化する過渡部では、非周期
性パルスを有する音源信号となる場合があるが、LPC
方式の過渡部フレームでは、非周期的パルス音源を表現
できない。そのため、トーン的雑音が生じる。このよう
に、LPC方式では、buzz音、トーン的雑音の発生によ
り再生音声は聞きづらい音質(機械的な音質)となって
しまうという問題点がある。
【0013】次に、上記のようなLPC方式の問題点を
解決し、音質改良を図った方式であるMELP方式につ
いて説明する(参考文献[2]-[4])。まず、MELP方
式ではどのような方法で音質改善しているかについて図
11を用いて説明する。同図(a)に示すように、自然
音声を周波数軸上で帯域に分けて見ると、白で示されて
いる周期的パルス成分が支配的な帯域(有声部)と、黒
で示されている雑音成分が支配的な帯域(無声部)とが
存在する。上述のようにLPCボコーダで再生音が機械
的になる主な原因は、同図(b)に示すように、周波数
帯域全体にわたり、有声フレームでは周期的パルス成分
で、無声音フレームでは雑音成分で音源を表現している
からである(過渡部フレームにおいては、フレームを時
間的に有声と無声に分けている。)。この問題を解決す
るため、MELP方式では、同図(c)に示すように、
1フレーム内で5つの周波数帯域(サブバンド)毎に有
声/無声を切替えることにより混合音源を適用してい
る。この手法は、上記LPC方式の問題点Aを解決し、
再生音声におけるbuzz音を低減する効果がある。また、
上記LPC方式の問題点Bを解決するため、非周期的パ
ルス情報を抽出、伝送し、復号器側で非周期的パルス音
源を生成する機能を有している。その他、再生音声の音
質改善のため、適応スペクトルエンハンスメントフィル
タ、パルス拡散フィルタおよびハーモニックス振幅情報
の利用という手法を取り入れている。表2にMELP方
式で使用される各手法の効果をまとめる。
【0014】
【表2】
【0015】次に、2.4kbps MELP方式の構成につい
て図12および図13を用いて説明する(処理の詳細に
ついては、参考文献[2]を参照されたい)。図12はM
ELP音声符号化器の構成を示すブロック図である。フ
レーム化器(41)は、100-3800Hzで帯域制限された後、8k
Hzで標本化され、少なくとも12ビットの精度で量子化
された入力音声サンプル(a3)を蓄えるバッファであり、
1音声符号化フレーム(22.5ms)毎に音声サンプル(18
0サンプル)を取り込み、音声符号化処理部へ(b3)とし
て出力する。以下では1音声符号化フレーム毎に実行さ
れる処理について説明する。
【0016】ゲイン計算器(42)は(b3)のレベル情報であ
るRMS値の対数を計算し、その結果である(c3)を出力
する。この処理はフレームの前半と後半について行われ
る。すなわち、1フレーム当たり2つのRMS値の対数
を(c3)として出力する。量子化器1(43)は、(c3)を前半
のものについて3ビット、後半のものについて5ビット
で線形量子化し、その結果である(d3)を誤り訂正符号化
/ビットパッキング器(70)へ出力する。線形予測分析器
(44)は、(b3)をDurbin-Levinson法を用いて線形予測分
析し、スペクトル包絡情報である10次の線形予測係数(e
3)を出力する。LSF係数計算器(45)は、10次の線形予
測係数(e3)を10次のLSF(Line Spectrum Frequencie
s)係数(f3)に変換する。LSF係数は、線形予測係数
と等価な特徴パラメータであるが、それに比べ、量子化
特性、補間特性に優れるため、最近の殆ど音声符号化方
式に採用されている。量子化器2(46)は10次のLSF係
数(f3)を段数4の多段ベクトル量子化により25ビットで
量子化し、(g3)を誤り訂正符号化/ビットパッキング器
(70)へ出力する。
【0017】ピッチ検出器(54)は、前記フレーム化器4
1の出力(b3)の1kHz以下の信号成分に対して整数ピッチ
周期を求めた後、この整数ピッチ周期と、(b3)をLPF
(ローパスフィルタ)(55)により500Hz以下に帯域制限
した信号(q3)とを用いて小数ピッチ周期を求め、(r3)と
して出力する。ピッチ周期は正規化自己相関関数が最大
となる遅延量として与えられるが、この時の正規化自己
相関関数の最大値(o3)も出力される。正規化自己相関関
数の最大値の大きさは、入力信号(b3)の周期性の強さを
表す情報であり、非周期フラグ発生器(56)(後で説明す
る)で用いられる。また正規化自己相関関数の最大値(o
3)は、相関関数補正器(53)(後で説明する)で補正され
た後、誤り訂正符号化/ビットパッキング器(70)におけ
る全帯域の有声/無声判定に用いられる。そこでは、補
正後の正規化自己相関関数の最大値(n3)が閾値(=0.6)
以下であれば無声、そうでなければ有声と判定される。
量子化器3(57)は前記ピッチ検出器54からの小数ピッ
チ周期(r3)を入力し対数変換した後、99レベルで線形量
子化し、その結果である(s3)を誤り訂正符号化/ビット
パッキング器(70)へ出力する。
【0018】4つのBPF(バンドパスフィルタ)(5
8)、(59)、(60)および(61)は、前記フレーム化器41の
出力(b3)をそれぞれ500〜1000Hz、1000〜2000Hz、2000
〜3000Hz、3000〜4000Hzで帯域制限し、(t3)、(u3)、(v
3)および(w3)を出力する。4つの自己相関計算器(62)、
(63)、(64)および(65)は、それぞれ(t3)、(u3)、(v3)お
よび(w3)に対し、小数ピッチ周期(r3)に対応する遅延量
における正規化自己相関関数を計算し、(x3)、(y3)、(z
3)および(a4)として出力する。次に4つの有声/無声フ
ラグ発生器(66)、(67)、(68)および(69)は、それぞれ(x
3)、(y3)、(z3)および(a4)に対し、閾値(=0.6)以下で
あれば無声、そうでなければ有声と判定し、有声/無声
を示すフラグ(1ビット)を(b4)、(c4)、(d4)および(e
4)として相関関数補正器(53)へ出力する。これらの各帯
域の有声/無声フラグ(b4)、(c4)、(d4)および(e4)は、
復号器において混合音源を生成するのに用いられる。非
周期フラグ発生器(56)は、正規化自己相関関数の最大値
(o3)を入力し、閾値(=0.5)より小さければ非周期フラ
グをONにセット、そうでなければOFFにセットして、非
周期フラグ(1ビット)(p3)を誤り訂正符号化/ビット
パッキング器(70)へ出力する。非周期フラグ(p3)は復号
器において過渡部、破裂音の音源を表現するための非周
期性パルスを生成するのに用いられる。
【0019】LPC分析フィルタ1(51)は10次の線形予
測係数(e3)を係数として用いる全零型フィルタであり、
入力音声(b3)からスペクトル包絡情報を除去し、その結
果である残差信号(l3)を出力する。ピーキネス計算器(5
6)は、残差信号(l3)を入力し、ピーキネス値を計算し(m
3)として出力する。ピーキネス値とは、信号中にピーク
をもつパルス的な成分(スパイク)が存在する可能性を
表すパラメータであり、上記参考文献[5]より次式で与
えられる。
【数1】 ここで、Nは1フレーム中のサンプル数、enは残差信
号である。上式(1)の分子は分母に比べ大きな値の影響
を受けやすいので、pは残差信号中に大きなスパイクが
存在する時に大きな値となる。従って、ピーキネス値が
大きいほど、そのフレームが破裂音フレーム又は非周期
的なパルス列を有するフレームである可能性が大きくな
る(破裂音のフレームでは、部分的にスパイク(鋭いピ
ーク)を持つが、その他の部分は、白色雑音に近い性質
の信号になっているため)。
【0020】相関関数補正器(53)は、ピーキネス値(m3)
の値により、正規化自己相関関数の最大値(o3)および有
声/無声フラグ(b4)、(c4)、(d4)および(e4)の値を補正
する。ピーキネス値(m3)が1.34より大きければ、正規化
自己相関関数の最大値(o3)を1.0(有声を示す)にセッ
トする。また、ピーキネス値(m3)が1.6より大きければ
正規化自己相関関数の最大値(o3)を1.0(有声を示す)
にセットすると共に有声/無声フラグ(b4)、(c4)、(d4)
および(e4)を有声にセットする。補正後の正規化自己相
関関数の最大値は(n3)として出力され、補正後の有声/
無声フラグ(b4)、(c4)、(d4)および(e4)は帯域毎の有声
性情報(f4)として出力される。
【0021】前述のように、破裂音のフレームでは、部
分的にスパイク(鋭いピーク)を持つが、その他の部分
は、白色雑音に近い性質の信号になっているため、正規
化自己相関関数が0.5より小さな値(このとき非周期フ
ラグがONにセットされる)となる可能性が大きい。そこ
で、ピーキネス値により破裂音フレームを検出して正規
化自己相関関数を1.0に補正すれば、その後の誤り訂正
符号化/ビットパッキング器(70)における全帯域の有声
/無声判定において有声と判断され、復号の際に非周期
パルスを音源として用いることにより、破裂音フレーム
の音質は改善される。また、過渡部に多くみられる非周
期的なパルス列を持つフレームも、同じ理由により音質
は改善される。
【0022】次にハーモニックス情報の検出について説
明する。線形予測係数計算器(47)は、量子化器2(46)の
出力である量子化後のLSF係数(g3)を線形予測係数に
変換し、量子化後の線形予測係数(h3)を出力する。LP
C分析フィルタ2(48)は、(h3)を係数として入力信号(b
3)からスペクトル包絡成分を除去し、残差信号(i3)を出
力する。ハーモニックス検出器(49)は(i3)における10次
のハーモニックス(基本ピッチ周波数の高調波成分)の
振幅を抽出し、その結果である(j3)を出力する。量子化
器4(50)は、(j3)を8ビットでベクトル量子化し、その
インデックス(k3)を誤り訂正符号化/ビットパッキング
器(70)へ出力する。ハーモニックス振幅情報は、残差信
号(i3)に残っているスペクトル包絡情報に相当する。従
って、ハーモニックス振幅情報を送ることにより、復号
時に入力信号のスペクトル表現をより正確に表現するこ
とができ、鼻音の品質、話者識別の性能および広帯域雑
音がある時の母音の品質を向上させることができる(表
2)。
【0023】誤り訂正符号化/ビットパッキング器(70)
は、前述したように補正後の正規化自己相関関数の最大
値(n3)が閾値(=0.6)以下であれば無声フレーム、そう
でなければ有声フレームと設定し、表3に示すビット配
分で音声情報ビット列を構成し、1フレーム毎に54ビッ
トを(g4)として出力する。音声情報ビット列(g4)は、無
線通信の場合、変調器、無線機を通り、受信側に伝送さ
れる。表3において、ピッチ、全体の有声/無声情報が
7ビットで量子化されているが、その方法は次の通りで
ある。7ビットの符号(128種類)うち、7ビットが全
て0の符号語および7ビット中1ビットのみが1となる
符号語を無声に割り当て、7ビット中2ビットが1とな
る符号語をイレージャ(消失)に割り当てる。その他の
符号語は有声用としてピッチ周期情報(量子化器3(57)
の出力(s3))に割り当てられる。また、同表から分かる
ように、そのフレームが無声ならばハーモニック振幅(k
3)、帯域毎の有声性(f4)および非周期フラグ(p3)を送る
代わりに、聴感上重要なビットに対し誤り訂正を施し、
その誤り訂正符号(13ビット)を送る。また、各フレー
ム毎に1ビットの同期ビットが付加される。
【0024】
【表3】
【0025】次に図13を用いてMELP音声復号器の
構成について説明する。ビット分離/誤り訂正復号器(8
1)は1フレーム毎に受信した54ビットの音声情報ビット
列(a5)の中からピッチ、全体の有声/無声情報を取り出
し、それが無声フレームを示す場合には誤り保護該当ビ
ットに対して誤り訂正復号処理を施す。また、ピッチ、
全体の有声/無声情報がイレースを示す場合には、各パ
ラメータを前フレームのもので置換処理する。そして、
分離された各パラメータの情報ビットとして、ピッチ、
全体の有声/無声情報(b5)、非周期フラグ(d5)、ハーモ
ニックス振幅インデックス(e5)、帯域毎の有声性(g5)、
LSFパラメータインデックス(j5)、およびゲイン情報
(m5)を出力する。ここで、帯域毎の有声性(g5)は、各サ
ブバンド(0〜500Hz、500〜1000Hz、1000〜2000Hz、200
0〜3000Hz、3000〜4000Hz)の有声性を示す5ビットの
フラグであり、0〜500Hzの有声性については、ピッチ、
全体の有声/無声情報から取り出された全体の有声/無
声情報を用いる。
【0026】ピッチ復号器(82)は、ピッチ、全体の有声
/無声情報が有声を示す場合にはピッチ周期を復号し、
無声を示す場合はピッチ周期として50.0をセットして復
号されたピッチ周期(c5)を出力する。ジッタ設定器(10
2)は、非周期フラグ(d5)を入力し、非周期フラグがONを
示すならばジッタ値を0.25、OFFを示すならばジッタ値
を0にセットし、(g6)を出力する。ここで、上記の有声
/無声情報が無声を示す場合は、ジッタ値(g6)は0.25に
セットされる。ハーモニックス復号器(83)は、ハーモニ
ックス振幅のインデックス(e5)から10次のハーモニック
ス振幅(f5)を復号し出力する。パルス音源用フィルタ係
数計算器(84)は、帯域毎の有声性(g5)を入力し、有声を
示しているサブバンドのゲインを1.0、無声を示してい
るサブバンドのゲインを0にするようなFIRフィルタ
の係数(h5)を計算し、出力する。また、雑音音源用フィ
ルタ係数計算器(85)は帯域毎の有声性(g5)を入力し、有
声を示しているサブバンドのゲインを0、無声を示して
るサブバンドのゲインを1.0にするようなFIRフィル
タの係数(i5)を計算し、出力する。LSF復号器(87)
は、LSFパラメータインデックス(j5)から10次のLS
F係数(k5)を復号し、出力する。傾斜補正係数計算器(8
6)は、10次のLSF係数(k5)から傾斜補正係数(l5)を計
算する。ゲイン復号器(88)は、ゲイン情報(m5)を復号
し、ゲイン(n5)を出力する。
【0027】パラメータ補間器(89)は、各パラメータ(c
5)、(g6)、(f5)、(h5)、(i5)、(l5)、(k5)および(n5)に
ついてそれぞれピッチ周期に同期して線形補間し、(o
5)、(p5)、(r5)、(s5)、(t5)、(u5)、(v5)および(w5)を
出力する。ここでの線形補間処理は、次式により実施さ
れる。 補間後のパラメータ=現フレームのパラメータ×int +
前フレームのパラメータ×(1.0−int) ここで、現フレームのパラメータは(c5)、(g6)、(f5)、
(h5)、(i5)、(l5)、(k5)および(n5)のそれぞれに対応
し、補間後のパラメータは(o5)、(p5)、(r5)、(s5)、(t
5)、(u5)、(v5)および(w5)のそれぞれに対応する。前フ
レームのパラメータは、前フレームにおける(c5)、(g
6)、(f5)、(h5)、(i5)、(l5)、(k5)および(n5)を保持し
ておくことにより与えられる。intは補間係数であり、
次式で求める。 int=to/180 ここで、180は音声復号フレーム長(22.5ms)当たりの
サンプル数、toは、復号フレームにおける1ピッチ周期
の開始点であり、1ピッチ周期分の再生音声が復号され
る毎にそのピッチ周期が加算されることにより更新され
る。toが180を超えるとそのフレームの復号処理が終了
したことになり、toから180が減算される。
【0028】ピッチ周期計算器(90)は、補間されたピッ
チ周期(o5)およびジッタ値(p5)を入力し、ピッチ周期(q
5)を次式により計算する。 ピッチ周期(q5)=ピッチ周期(o5)×(1.0−ジッタ値(p5)
×乱数値) ここで、乱数値は-1.0〜1.0の範囲の値をとる。上式よ
り無声または非周期的フレームではジッタ値が0.25にセ
ットされているのでジッタが付加され、周期的フレーム
ではジッタ値が0にセットされているのでジッタは付加
されない。但し、ジッタ値はピッチ毎に補間処理されて
いるので、0〜0.25の範囲をとるため中間的なピッチ区
間も存在する。このように非周期フラグに基づき非周期
ピッチ(ジッタが付加されたピッチ)を発生すること
は、表2のに示したように過渡部、破裂音で生じる不
規則な(非周期的な)声門パルスを表現することによ
り、トーン的雑音を低減する効果がある。
【0029】ピッチ周期(q5)は整数値に変換された後、
1ピッチ波形復号器(101)に入力される。1ピッチ波形
復号器(101)は、ピッチ周期(q5)毎の再生音声(f6)を復
号し出力する。従って、このブロックに含まれる全ての
ブロックはピッチ周期(q5)を入力し、それに同期して動
作する。パルス音源発生器(91)は、補間されたハーモニ
ックス振幅(r5)を入力し、そのハーモニックス情報が付
加された単一パルスを有するパルス音源(x5)を発生す
る。このパルス音源(x5)はピッチ周期(q5)に1パルス発
生される。パルスフィルタ(92)は、補間されたパルスフ
ィルタ用係数(s5)を係数とするFIRフィルタであり、
パルス音源(x5)に対し有声のサブバンドのみを有効にす
るようにフィルタリングし、(y5)を出力する。雑音発生
器(94)は、白色雑音(a6)を発生する。雑音フィルタ(93)
は、補間された雑音フィルタ用係数(t5)を係数とするF
IRフィルタであり、雑音音源(a6)に対し無声のサブバ
ンドのみを有効にするようにフィルタリングし、(z5)を
出力する。混合音源発生器(95)は(y5)および(z5)を加算
し、混合音源(b6)を発生する。この混合音源は、表2の
に示したように周波数帯毎に有声/無声音源を切り替
えることによりbuzz音を低減する効果がある。
【0030】線形予測係数計算器(98)は補間された10次
のLSF係数(v5)から線形予測係数(h6)を計算する。適
応スペクトルエンハンスメントフィルタ(96)は、線形予
測係数(h6)に帯域幅拡張処理を施したものを係数とする
適応極/零フィルタであり、表2のに示した通り、ホ
ルマントの共振を鋭くし、自然音声のホルマントに対す
る近似度を改善することにより再生音声の自然性を向上
させる。さらに、補間された傾斜補正係数(u5)を用いて
スペクトルの傾きを補正して音のこもりを低減し、その
結果である音源信号(c6)を出力する。LPC合成フィル
タ(97)は、線形予測係数(h6)を係数として用いる全極型
フィルタであり、音源信号(c6)に対しスペクトル包絡情
報を付加して、その結果である信号(d6)を出力する。ゲ
イン調整器(99)は(d6)に対しゲイン情報(w5)を用いてゲ
イン調整を行い、(e6)を出力する。パルス拡散フィルタ
(100)は、自然音声の声門パルス波形に対するパルス音
源波形の近似度を改善するためのフィルタであり、(e6)
をフィルタリングして自然性が改善された再生音声(f6)
を出力する。このパルス拡散フィルタの効果は表2の
に示す通りである。以上により、MELP方式では、L
PC方式に比べ、同ビットレート(2.4kbps)におい
て自然性、了解性の高い再生音声を提供することができ
る。
【0031】さらに、MELP方式のように帯域毎の有
声性情報を伝送する必要なしに、上述のLPC方式の問
題点Aを解決しようとした線形予測分析・合成方式の復
号器が提案されている(参考文献[6])。この提案され
ている線形予測分析・合成方式の復号器の内容を以下に
示す。線形予測分析・合成方式の符号器によって音声信
号が分析符号化された入力ディジタル信号に含まれる線
形予測係数、有声無声識別信号、音源強度情報およびピ
ッチ周期情報の各パラメータを分離して出力する分離回
路と、前記ピッチ周期情報によって制御されたピッチパ
ルスを出力するピッチパルス発生器と、白色雑音を出力
する雑音発生器と、前記ピッチパルス発生器の出力と前
記雑音発生器の出力と駆動音源として前記線形予測係数
に従って復号化した音声信号を出力する合成フィルタと
を備えた線形予測分析・合成方式の復号器において、前
記分離回路からの線形予測係数と有声無声識別信号およ
び音源強度情報とが入力され、有声音のホルマントの合
成による周波数軸上のスペクトル包絡線を求めて予め定
めた閾値と比較し、該スペクトル包絡線のレベルが閾値
より大きい周波数領域を表すピッチ成分関数信号と、該
スペクトル包絡線のレベルが閾値より小さい周波数領域
を表す雑音成分関数信号とを出力する処理制御回路と、
前記ピッチパルス発生器の出力と前記ピッチ成分関数信
号とを乗算して前記閾値より大きい周波数領域のピッチ
パルスを出力する第1の出力制御回路と、前記雑音発生
器からの白色雑音と前記雑音成分関数信号とを乗算して
前記閾値より小さい周波数領域の白色雑音を出力する第
2の出力制御回路と、前記第1の出力制御回路と第2の
出力制御回路とを合成して前記合成フィルタに対する駆
動音源として出力する合成器とを備えたことを特徴とす
る線形予測分析・合成方式の復号器。しかし、この手段
では、前述のLPC方式の問題点であるbuzz音は軽減で
きるものの、再生音声の音質が雑音的になるという欠点
がある(この原因については後に述べる)。
【0032】
【発明が解決しようとする課題】移動体通信の爆発的普
及により、ユーザ収容数の増大が必要となっており、周
波数資源の更なる有効利用が課題となっている。音声符
号化方式の更なる低ビットレート化は、この課題を解決
するための必須の技術課題の1つである。そこで、本発
明は、2.4kbpsより低いビットレートで、上述のLP
C方式の問題点AおよびBを解決することのできる音声
符号化復号方法および装置を提供することを目的として
いる。また、MELP方式のように帯域毎の有声性情報
や非周期フラグを伝送する必要なしに、それらと同様の
効果が得られる音声符号化復号方法および装置を提供す
ることを目的としている。
【0033】
【課題を解決するための手段】上記目的を達成するため
に、本発明の音声復号方法は、線形予測分析・合成方式
の音声符号化器によって音声信号が符号化処理された出
力である音声情報ビット列から音声信号を再生する音声
復号方法であって、前記音声情報ビット列に含まれるス
ペクトル包絡情報、有声/無声識別情報、ピッチ周期情
報およびゲイン情報を分離、復号し、前記有声/無声識
別情報が有声を示すときには、前記スペクトル包絡情報
により算出される周波数軸上のスペクトル包絡値と予め
定めた閾値とを比較して、該スペクトル包絡値が前記閾
値以上になる周波数領域を有声領域、その他の領域を無
声領域とし、有声領域の音源信号として前記ピッチ周期
情報に基づき発生されるピッチパルスを用い、無声領域
の音源信号として前記ピッチパルスと白色雑音を所定の
割合で混合した信号を用い、前記有声領域の音源信号お
よび前記無声領域の音源信号を加算した結果を音源信号
とし、前記有声/無声識別情報が無声を示すときには、
白色雑音を音源信号とし、該音源信号に対し前記スペク
トル包絡情報および前記ゲイン情報を付加して再生音声
を生成することを特徴とするものである。これにより、
付加的な情報ビットを伝送することなく、前述したLP
C方式の問題点Aを解決することができる。
【0034】また、本発明の他の音声復号方法は、線形
予測分析・合成方式の音声符号化器によって音声信号が
符号化処理された出力である音声情報ビット列から音声
信号を再生する音声復号方法であって、前記音声情報ビ
ット列に含まれるスペクトル包絡情報、有声/無声識別
情報、ピッチ周期情報およびゲイン情報を分離、復号
し、前記有声/無声識別情報が有声を示す場合は、有声
強度情報に1.0をセットし、有声/無声識別情報が無声
を示す場合は、有声強度情報に0をセットし、前記スペ
クトル包絡情報、前記ピッチ周期情報、前記ゲイン情報
および該有声強度情報をピッチ周期に同期して線形補間
し、該補間された有声強度情報に応じた割合で、前記補
間されたピッチ周期情報に基づき発生されるピッチパル
スと白色雑音を混合して第1の混合音源信号とし、前記
補間されたスペクトル包絡情報により算出される周波数
軸上のスペクトル包絡値と予め定めた閾値とを比較し
て、該スペクトル包絡値が閾値以上になる周波数領域を
有声領域、その他の領域を無声領域とし、有声領域の音
源信号として前記第1の混合音源信号を用い、無声領域
の音源信号として前記第1の混合音源信号と白色雑音と
を所定の割合で混合した信号を用い、前記有声領域の音
源信号および前記無声領域の音源信号を加算した結果を
第2の混合音源信号とし、該第2の混合音源信号に対し
前記補間されたスペクトル包絡情報および前記補間され
たゲイン情報を付加して再生音声を生成することを特徴
とするものである。これにより、付加的な情報ビットを
伝送することなく、上述したLPC方式の問題点Aを解
決することができる。
【0035】さらに、本発明の音声符号化方法は、標本
化され、予め定められた時間長の音声符号化フレームに
分割された入力音声信号から、有声/無声識別情報、ピ
ッチ周期情報、周期的ピッチか非周期的ピッチかを示す
非周期ピッチ情報を抽出して、符号化する音声符号化方
法であって、前記非周期ピッチ情報が周期的ピッチを示
す音声符号化フレームでは、前記ピッチ周期情報を第1
の所定のレベル数で量子化して、これを周期的ピッチ情
報とし、前記非周期ピッチ情報が非周期的ピッチを示す
音声符号化フレームでは、それぞれのピッチ範囲に対し
その発生度数の大小に応じた量子化レベルの割り当てを
行い、第2の所定のレベル数で量子化して、これを非周
期的ピッチ情報とし、前記有声/無声識別情報が無声を
示す状態に1つの符号語を割り当て、前記有声/無声識
別情報が有声を示す状態として、前記周期的ピッチ情報
に前記第1の所定のレベル数に対応する個数の符号語を
割り当て、前記非周期的ピッチ情報に前記第2の所定の
レベル数に対応する個数の符号語を割り当て、これらを
まとめて所定のビット数を有する符号語として符号化す
ることを特徴とするものである。さらにまた、前記符号
語のビット数は7ビットであり、前記有声/無声識別情
報が無声を示す状態に全てのビットが0(又は1)の符
号語を割り当て、前記非周期的ピッチ情報に7ビット
中、1または2ビットが1(又は0)である符号語を割
り当て、その他の符号語に前記周期的ピッチ情報を割り
当てるものである。これにより、付加的な情報ビットを
伝送することなく、上述したLPC方式の問題点Bを解
決することができる。また、低ビットレートの音声符号
化を実現することができる。
【0036】さらにまた、本発明の音声符号化復号方法
は、上述した音声復号方法のいずれかと上述した音声符
号化方法とを組み合わせたものである。これにより、付
加的な情報ビットを伝送することなく、上述したLPC
方式における問題点AおよびBを解決することができ
る。
【0037】さらにまた、本発明の音声符号化装置は、
所定のサンプル周波数で標本化され、量子化された音声
サンプルを入力し、予め定められた時間長の音声符号化
フレーム毎に所定数の音声サンプルを出力するフレーム
化器と、該1フレーム分の音声サンプルのレベル情報で
あるRMS値の対数を計算し、その結果である対数RM
S値を出力するゲイン計算器と、該対数RMS値を線形
量子化し、その結果である量子化後の対数RMS値を出
力する第1の量子化器と、前記1フレーム分の音声サン
プルに対し線形予測分析を行い、スペクトル包絡情報で
ある所定次数の線形予測係数を出力する線形予測分析器
と、該線形予測係数をLSF(Line Spectrum Frequenc
ies)係数に変換して出力するLSF係数計算器と、該
LSF係数を量子化し、その結果であるLSFパラメー
タインデックスを出力する第2の量子化器と、前記1フ
レーム分の音声サンプルを所定のカットオフ周波数でフ
ィルタリングし帯域制限された入力信号を出力するロー
パスフィルタと、該帯域制限された入力信号から正規化
自己相関関数計算に基づきピッチ周期を抽出し、ピッチ
周期および正規化自己相関関数の最大値を出力するピッ
チ検出器と、該ピッチ周期を対数変換した後、第1の所
定のレベル数で線形量子化し、その結果であるピッチ周
期インデックスを出力する第3の量子化器と、前記正規
化自己相関関数の最大値を入力し、所定の閾値より小さ
ければ非周期フラグをONにセット、そうでなければOFF
にセットして、非周期フラグを出力する非周期フラグ発
生器と、前記線形予測係数を係数として用いて前記1フ
レーム分の音声サンプルからスペクトル包絡情報を除去
し、その結果である残差信号を出力するLPC分析フィ
ルタと、該残差信号を入力し、ピーキネス値を計算し、
ピーキネス値を出力するピーキネス計算器と、該ピーキ
ネス計算器の値により、前記正規化自己相関関数の最大
値の値を補正して補正された正規化自己相関関数の最大
値を出力する相関関数補正器と、該補正された正規化自
己相関関数の最大値が所定の閾値以下であれば無声、そ
うでなければ有声と判定し、その結果である有声/無声
フラグを出力する有声/無声判定器と、前記非周期フラ
グが非周期を示しているフレームの前記ピッチ周期につ
いて、第2の所定のレベル数で不均一量子化し、非周期
的ピッチインデックスを出力する非周期ピッチインデッ
クス生成器と、前記有声/無声フラグ、前記非周期フラ
グ、前記ピッチ周期インデックス、および前記非周期的
ピッチインデックスを入力し、これらを所定のビット数
で符号化した周期/非周期ピッチ・有声/無声情報コー
ドを出力する周期/非周期ピッチおよび有声/無声情報
コード生成器と、前記量子化後の対数RMS値、前記L
SFパラメータインデックス、および前記周期/非周期
ピッチ・有声/無声情報コードを入力し、1フレーム毎
にビットパッキングを行い音声情報ビット列を出力する
ビットパッキング器とを備えたものである。
【0038】さらにまた、本発明の音声復号装置は、前
記音声符号化装置により生成された1フレーム毎の音声
情報ビット列を各パラメータ毎に分離し、周期/非周期
ピッチ・有声/無声情報コード、量子化後の対数RMS
値およびLSFパラメータインデックスを出力するビッ
ト分離器と、前記周期/非周期ピッチ・有声/無声情報
コードを入力し、現フレームの状態が無声の場合は、ピ
ッチ周期を所定の値にセットし、有声強度を0にセット
して出力し、周期的および非周期的の場合は、ピッチ周
期を符号化の規則に基づき復号処理して出力し、有声強
度を1.0にセットして出力する有声/無声情報・ピッチ
周期復号器と、前記周期/非周期ピッチ・有声/無声情
報コードを入力し、現フレームが無声または非周期的を
示す場合は、ジッタ値を所定の値にセットして出力し、
周期的を示す場合は、ジッタ値を0にセットして出力す
るジッタ設定器と、前記LSFパラメータインデックス
から前記所定の次数のLSF係数を復号して出力するL
SF復号器と、該LSF係数から傾斜補正係数を計算し
出力する傾斜補正係数計算器と、前記量子化後の対数R
MS値を復号し、ゲインを出力するゲイン復号器と、前
記ピッチ周期、前記有声強度、前記ジッタ値、前記LS
F係数、前記傾斜補正係数および前記ゲインを、それぞ
れピッチ周期に同期して線形補間し、補間後のピッチ周
期、補間後の有声強度、補間後のジッタ値、補間後のL
SF係数、補間後の傾斜補正係数および補間後のゲイン
を出力するパラメータ補間器と、該補間後のピッチ周期
および補間後のジッタ値を入力し、補間後のピッチ周期
にジッタを付加した後、整数値に変換されたピッチ周期
(以後、整数ピッチ周期という)を出力するピッチ周期
計算器と、該整数ピッチ周期に同期して該整数ピッチ周
期分の再生音声を復号し出力する1ピッチ波形復号器と
を備え、該1ピッチ波形復号器は、前記整数ピッチ周期
期間内に単一パルス信号を出力する単一パルス発生器
と、前記整数ピッチ周期の長さを持つ白色雑音を出力す
る雑音発生器と、前記補間後の有声強度に基づき、前記
単一パルス信号と該白色雑音とを合成して第1の混合音
源信号を出力する第1の混合音源発生器と、前記補間後
のLSF係数から線形予測係数を計算する線形予測係数
計算器と、該線形予測係数から再生音声のスペクトル包
絡形状情報を求め出力するスペクトル包絡形状計算器
と、前記スペクトル包絡形状情報の値と所定の閾値とを
比較し、スペクトル包絡形状情報の値が該閾値以上の周
波数領域を有声領域、それ以外の周波数領域を無声領域
として、前記第1の混合音源情報のDFT係数のうち前
記無声領域のものを0にした第1のDFT係数列、およ
び、前記混合音源情報のDFT係数のうち前記有声領域
のものを0とした第2のDFT係数列を出力する混合音
源用フィルタリング器と、前記白色雑音のDFT係数の
うち前記有声領域のものと0としたDFT係数列を出力
する雑音音源用フィルタリング器と、前記混合音源用フ
ィルタリング器からの前記第2のDFT係数列と前記雑
音音源ようフィルタリング器からのDFT係数列とを所
定の割合で混合して、その結果であるDFT係数列を出
力する第2の混合音源発生器と、該第2の混合音源発生
器からのDFT係数列と前記混合音源用フィルタからの
前記第1のDFT係数列とを加算した後、逆離散フーリ
エ変換を行い、混合音源信号として出力する第3の混合
音源発生器と、前記補間後の有声強度を入力し、それが
0のときは前記白色雑音を選択し、その他のときは前記
第3の混合音源発生器の出力である混合音源信号を選択
して混合音源信号として出力する切替え器と、前記線形
予測係数に帯域幅拡張処理を施したものを係数とする適
応極/零フィルタと、前記補間後の傾斜補正係数を係数
とするスペクトル傾斜補正フィルタの従属接続であり、
前記混合音源信号をフィルタリングしてスペクトルが改
善された音源信号を出力する適応スペクトルエンハンス
メントフィルタと、前記線形予測係数を係数として用い
る全極型フィルタであり、該スペクトルが改善された音
源信号に対してスペクトル包絡情報を付加して、スペク
トル包絡情報が付加された信号を出力するLPC合成フ
ィルタと、該スペクトル包絡情報が付加された信号に対
し、前記ゲインを用いてゲイン調整を行い、再生音声信
号を出力するゲイン調整器と、該再生音声信号に対し、
パルス拡散処理を施し、パルス拡散処理された再生音声
信号を出力するパルス拡散フィルタとを備えるものであ
る。
【0039】
【発明の実施の形態】本発明の音声符号化復号方法およ
び装置の一実施の形態について、図1〜8を用いて詳し
く説明する。なお、以下では、具体的な数値を用いて説
明するが、本発明は以下の説明に用いた数値以外の数値
を用いても実施することができる点に注意されたい。図
1は、本発明の音声符号化復号方法が適用された音声符
号化器の一構成例のブロック図である。この図におい
て、フレーム化器(111)は、100-3800Hzで帯域制限され
た後、8kHzで標本化され、少なくとも12ビットの精度
で量子化された入力音声サンプル(a7)を蓄えるバッファ
であり、1音声符号化フレーム(20ms)毎に音声サンプ
ル(160サンプル)を取り込み、音声符号化処理部へ(b
7)として出力する。以下では1音声符号化フレーム毎に
実行される処理について説明する。
【0040】ゲイン計算器(112)は(b7)のレベル情報で
あるRMS値の対数を計算し、その結果である(c7)を出
力する。第1の量子化器(以下、「量子化器1」とい
う)(113)は(c7)を5ビットで線形量子化し、その結果
である(d7)をビットパッキング器(125)へ出力する。線
形予測分析器(114)は、(b7)をDurbin-Levinson法を用い
て線形予測分析し、スペクトル包絡情報である10次の線
形予測係数(e7)を出力する。LSF係数計算器(115)
は、10次の線形予測係数(e7)を10次のLSF(Line Spe
ctrum Frequencies)係数(f7)に変換する。第2の量子
化器(以下、「量子化器2」という)(116)は10次のL
SF係数(f7)を段数4の多段ベクトル量子化により25ビ
ットで量子化し、その結果であるLSFパラメータイン
デックス(g7)をビットパッキング器(125)へ出力する。
【0041】ローパスフィルタ(LPF)(120)は(b7)
をカットオフ周波数1000Hzでフィルタリングし、(k7)を
出力する。ピッチ検出器(121)は、(k7)からピッチ周期
を求め、(m7)として出力する。ピッチ周期は正規化自己
相関関数が最大となる遅延量として与えられるが、この
時の正規化自己相関関数の最大値(l7)も出力される。正
規化自己相関関数の最大値の大きさは、入力信号(b7)の
周期性の強さを表す情報であり、非周期フラグ発生器(1
22)(後で説明する)で用いられる。また正規化自己相
関関数の最大値(l7)は、相関関数補正器(119)(後で説
明する)で補正された後、有声/無声判定器(126)にお
ける有声/無声判定に用いられる。そこでは、補正後の
正規化自己相関関数の最大値(j7)が所定の閾値(例え
ば、0.6)以下であれば無声、そうでなければ有声と判
定され、その結果である有声/無声フラグ(s7)が出力さ
れる。
【0042】第3の量子化器(以下、「量子化器3」と
いう)(123)はピッチ周期(m7)を入力し対数変換した
後、99レベルで線形量子化し、その結果であるピッチイ
ンデックス(o7)を周期/非周期ピッチおよび有声/無声
情報コード生成器(127)へ出力する。図3に量子化器3
(123)への入力であるピッチ周期(20〜160サンプルの範
囲をとる)とその出力であるインデックスの値(0〜98
の範囲をとる)の関係を示す。非周期フラグ発生器(12
2)は、正規化自己相関関数の最大値(l7)を入力し、所定
の閾値(例えば、0.5)より小さければ非周期フラグをO
Nにセット、そうでなければOFFにセットして、非周期フ
ラグ(1ビット)(n7)を非周期ピッチインデックス生成
器(124)および、周期/非周期ピッチおよび有声/無声
情報コード生成器(127)へ出力する。ここで、非周期フ
ラグ(n7)がONであれば、現フレームが非周期性をもつ音
源であることを意味する。
【0043】LPC分析フィルタ(117)は10次の線形予
測係数(r7)を係数として用いる全零型フィルタであり、
入力音声(b7)からスペクトル包絡情報を除去し、その結
果である残差信号(h7)を出力する。ピーキネス計算器(1
18)は、残差信号(h3)を入力し、ピーキネス値を計算し
(i7)として出力する。このピーキネス値はMELP方式
で説明したのと同様の方法を用いて計算する。相関関数
補正器(119)は、ピーキネス値(i7)が所定の値(例え
ば、1.34)より大きければ、正規化自己相関関数の最大
値(l7)を1.0(有声を示す)にセットし(j7)を出力す
る。また、前記以下の場合には、前記(l7)をそのまま出
力する。
【0044】上に述べたピーキネス値の計算および相関
関数補正処理は、非周期的なパルスを有するフレームお
よび破裂音フレームを検出し、正規化自己相関関数の最
大値を1.0(有声を示す値)に補正するための処理であ
る。破裂音フレームでは、部分的にスパイク(鋭いピー
ク)を持つが、その他の部分は、白色雑音に近い性質の
信号になっているため、補正される前の正規化自己相関
関数は0.5より小さくなる可能性が大きい(つまり、非
周期フラグがONにセットされている可能性が大きい)。
一方、ピーキネス値は大きくなる。従って、ピーキネス
値により破裂音フレームを検出して正規化自己相関関数
を1.0に補正すると、その後の有声/無声判定器(126)に
おける有声/無声判定において有声と判定され、復号の
際に非周期パルスが音源として用いられることになるた
め、破裂音フレームの音質は改善される。また、過渡部
に多くみられる非周期的なパルス列を持つフレームも同
じ理由により音質は改善される。
【0045】非周期ピッチインデックス生成器(124)
は、非周期フレームにおけるピッチ周期(m7)を28レベル
で不均一量子化しインデックス(p7)を出力する。この処
理内容について説明する。まず、有声/無声フラグ(s7)
が有声、かつ、非周期フラグ(n7)がONになっているフレ
ーム(過渡部または破裂音フレームに対応する)に対
し、ピッチ周期の度数を調べた結果を図4に、その累積
度数を図5に示す。これらは男女各4名(6音声サンプ
ル/各1名)で構成される合計112.12[s](5606フレー
ム)の音声データについて測定した結果である。上記の
条件(有声/無声フラグ(s7)が有声、かつ、非周期フラ
グ(n7)がON)を満たすフレームは、5606フレーム中425
フレーム存在した。図4より、その条件を満たすフレー
ム(以後、非周期フレームと記す)におけるピッチ周期
の分布はおよそ25〜100に集中していることが分かる。
よって、度数(出現頻度)に基づく不均一量子化を行え
ば、すなわち、度数が大きなピッチ周期ほど細かく、そ
れが小さいピッチ周期ほど荒く量子化すれば高能率に伝
送できる。また、復号器では、非周期フレームのピッチ
周期は次式により計算される。 非周期フレームのピッチ周期=伝送されたピッチ周期×
(1.0+0.25×乱数値) 上式で、伝送されたピッチ周期とは、非周期ピッチイン
デックス生成器(124)の出力であるインデックスにより
伝送されるピッチ周期であり、(1.0+0.25×乱数値)
を乗算することによりピッチ周期毎にジッタが付加され
る。したがって、ピッチ周期が大きいほど、ジッタの量
も大きくなるため、荒い量子化が許される。
【0046】上記の考えに基づいた非周期フレームのピ
ッチ周期に対する量子化テーブルの例を表4に示す。同
表では、入力ピッチ周期が20〜24の範囲を1レベル、25
〜50の範囲を13レベル(2ステップ幅)、51〜95の範囲
を9レベル(5ステップ幅)、96〜135の範囲を4レベル
(10ステップ幅)、136〜160の範囲を1レベルで量子化
し、インデックス(非周期0〜27)を出力する。通常の
ピッチ周期の量子化は、64レベル以上必要であるのに
対し、この非周期フレームのピッチ周期の量子化は、度
数、復号方法を考慮することにより、28レベルで量子
化することが可能となる。
【0047】
【表4】
【0048】周期/非周期ピッチおよび有声/無声情報
コード生成器(127)は、有声/無声フラグ(s7)、非周期
フラグ(n7)、ピッチインデックス(o7)、非周期的ピッチ
インデックス(p7)を入力し、7ビット(128レベル)の
周期/非周期ピッチ・有声/無声情報コード(t7)を出力
する。ここでの処理について以下に述べる。有声/無声
フラグ(s7)が無声を示す場合は、7ビットの符号(128
種類の符号語を持つ)のうち、7ビットが全て0の符号
語を割り当てる。同フラグが有声を示す場合は、残りの
符号語(127種類)を非周期フラグ(n7)に基づき、ピッ
チインデックス(o7)または非周期ピッチインデックス(p
7)に割り当てる。非周期フラグ(n7)がONの時は、非周期
ピッチインデックス(p7)(非周期0〜27)を7ビット中
1ビットおよび2ビットが1となる符号語(28種類)を
割り当てる。その他の符号語(99種類)は周期的なピッ
チインデックス(o7)(周期0〜98)に割り当てる。
【0049】以上に基づく周期/非周期ピッチ・有声/
無声情報コードの生成テーブルを表5に示す。通常、伝
送誤りにより有声/無声情報に誤りが発生し、無声フレ
ームが誤って有声フレームとして復号された場合、周期
的音源が使用されるため再生音声の品質は著しく劣下す
る。本発明においては、非周期ピッチインデックス(p7)
(非周期0〜27)を7ビット中1ビットおよび2ビット
が1となる符号語(28種類)に割り当てることにより、
無声の符号語(0x0)が伝送誤りにより1または2ビッ
ト誤ったとしても、非周期的なピッチパルスにより音源
信号が作られるため、伝送誤りによる影響を軽減するこ
とが出来る。また、前述したMELP方式では非周期フ
ラグの伝送に1ビット使用していたが、本発明を用いる
ことにより、それが不要となり、伝送ビット数の削減が
可能となる。
【0050】
【表5】
【0051】ビットパッキング器(125)は、量子化され
たRMS値(ゲイン情報)(d7)、LSFパラメータイン
デックス(g7)、周期/非周期ピッチ・有声/無声情報コ
ード(t7)を入力すると共に1ビットの同期ビットを付加
して、1フレーム(20ms)当たり38ビットの音声情報ビ
ット列(q7)を出力する(表6)。ここに示した実施の形
態では音声符号化速度1.9kbpsが実現できる。また、本
実施の形態では、MELP方式のようにハーモニック振
幅情報は伝送していない。この理由は次の通りである。
音声符号化フレーム長を20msと短くしているため(ME
LP方式では22.5ms)、LSFパラメータを抽出する周
期が短くなり、スペクトル表現の正確さが向上する。従
ってハーモニック振幅情報は必要としない。
【0052】
【表6】
【0053】次に、図2を用いて本発明の音声復号方法
が適用された音声復号器の一実施の形態について説明す
る。図2において、ビット分離器(131)は1フレーム毎
に受信した38ビットの音声情報ビット列(a8)を各パラメ
ータ毎に分離し、周期/非周期ピッチ・有声/無声情報
コード(b8)、ゲイン情報(i8)およびLSFパラメータイ
ンデックス(f8)を出力する。有声/無声情報・ピッチ周
期復号器(132)は周期/非周期ピッチ・有声/無声情報
コード(b8)を入力し、前記表5に示したテーブルに基づ
き、無声/周期的/非周期的のうちどれであるかを求
め、無声ならば、ピッチ周期(c8)を所定の値(例えば、
50)にセット、有声強度(d8)を0にセットして出力す
る。周期的および非周期的の場合は、ピッチ周期(c8)を
復号処理(非周期的の場合は表4を用いる)して出力
し、有声強度(d8)を1.0にセットして出力する。
【0054】ジッタ設定器(133)は、周期/非周期ピッ
チ・有声/無声情報コード(b8)を入力し、表5のテーブ
ルに基づき、無声/周期的/非周期的のうちどれである
かを求め、無声または非周期的を示す場合は、ジッタ値
(e8)を所定の値(例えば、0.25)にセットして出力す
る。周期的を示す場合は、ジッタ値(e8)を0にセットし
て出力する。LSF復号器(134)はLSFパラメータイ
ンデックス(f8)から10次のLSF係数(g8)を復号し出
力する。傾斜補正係数計算器(135)は、10次のLSF係
数(g8)から傾斜補正係数(h8)を計算する。ゲイン復号器
(136)はゲイン情報(i8)を復号し、ゲイン(j8)を出力す
る。
【0055】パラメータ補間器(137)は、各パラメータ
(c8)、(d8)、(e8)、(g8)、(h8)および(j8)についてそれ
ぞれピッチ周期に同期して線形補間し、(k8)、(n8)、(l
8)、(u8)、(v8)および(w8)を出力する。ここでの線形補
間処理は、次式により実施される。 補間後のパラメータ=現フレームのパラメータ×int+
前フレームのパラメータ×(1.0−int) ここで、現フレームのパラメータは(c8)、(d8)、(e8)、
(g8)、(h8)および(j8)のそれぞれに対応し、補間後のパ
ラメータは(k8)、(n8)、(l8)、(u8)、(v8)および(w8)の
それぞれに対応する。前フレームのパラメータは、前フ
レームにおける(c8)、(d8)、(e8)、(g8)、(h8)および(j
8)を保持しておくことにより与えられる。また、intは
補間係数であり、次式で求める。 int=to/160 ここで、160.0は音声復号フレーム長(20ms)当たりの
サンプル数、toは、復号フレームにおける1ピッチ周期
の開始点であり、1ピッチ周期分の再生音声が復号され
る毎にそのピッチ周期が加算されることにより更新され
る。toが160を超えるとそのフレームの復号処理が終了
したことになり、toから160が減算される。ここで、補
間係数intを1.0に固定するとピッチ周期に同期した線形
補間処理は実施されないことになる。
【0056】ピッチ周期計算器(138)は、補間されたピ
ッチ周期(k8)およびジッタ値(l8)を入力し、ピッチ周期
(m8)を次式により計算する。 ピッチ周期(m8)=ピッチ周期(k8)×(1.0−ジッタ値(l8)
×乱数値) ここで、乱数値は-1.0〜1.0の範囲の値をとる。このピ
ッチ周期(m8)は小数を持つが、四捨五入され整数に変換
される。整数に変換されたピッチ周期(m8)を以下では”
T”と表す。上式より、無声または非周期的フレームで
はジッタ値が所定の値(この実施の形態では、0.25)に
セットされているのでジッタが付加され、完全な周期的
フレームではジッタ値が0にセットされているのでジッ
タは付加されない。但し、ジッタ値はピッチ毎に補間処
理されているので、0〜0.25の範囲をとるため中間的な
ジッタ量が付加されるピッチ区間も存在する。このよう
に非周期ピッチ(ジッタが付加されたピッチ)を発生す
ることは、MELP方式の説明で述べたように過渡部、
破裂音で生じる不規則な(非周期的な)声門パルスを表
現することにより、トーン的雑音を低減する効果があ
る。
【0057】1ピッチ波形復号器(152)は、ピッチ周期
(Tサンプル)毎の再生音声(e9)を復号し出力する。従
って、このブロックに含まれる全てのブロックはピッチ
周期(T)を入力し、それに同期して動作する。第1の混
合音源発生器(以下、「混合音源1発生器」という)(1
41)は、補間された有声強度(n8)(0〜1.0の値をとる)
に基づき、次式により単一パルス発生器(139)から出力
される単一パルス信号(o8)(Tサンプルの期間内に1つ
のパルスが発生され、それ以外のサンプル値は0)と雑
音発生器(140)から出力される白色雑音(p8)を次式に基
づいて合成して、第1の混合音源信号(以下、「混合音
源1」という)1(q8)を生成する。ここで、単一パルス
信号(o8)および白色雑音(p8)のレベルは所定のRMS値
になるように調整されている。 混合音源1(q8)=単一パルス信号(o8)×有声強度(n8)+
白色雑音(p8)×(1.0−有声強度(n8)) この処理により、無声音源(白色雑音)から有声音源
(単一パルス信号)(またはこの逆)への急激な切り替
わりを防ぐことができ、再生音声の品質が改善される。
混合音源1(q8)は、完全な有声フレームでは有声強度(n
8)が1.0となるため単一パルス信号(o8)に等しくなり、
完全な無声フレームでは有声強度(n8)が0となるため白
色雑音(p8)に等しくなる。
【0058】線形予測係数計算器(147)は補間された10
次のLSF係数(u8)から線形予測係数(x8)を計算する。
スペクトル包絡形状計算器(146)は、線形予測係数(x8)
から再生音声のスペクトル包絡形状情報(y8)を求め出力
する。この処理の実現例について説明する。線形予測係
数(x8)をTポイントDFT(離散フーリエ変換)を行
い、その大きさ(マグニチュード)を計算することによ
りLPC分析フィルタの伝達関数を求めた後、それを反
転させることにより逆特性(これはLPC合成フィルタ
の伝達関数、すなわち再生音声のスペクトル包絡形状に
対応)を求める。それを正規化しスペクトル包絡形状情
報(y8)として出力する。スペクトル包絡形状情報(y8)は
図6(a)に示すような0〜4000Hzの再生音声のスペク
トル包絡成分を、Tが偶数の時はT/2個のDFT係
数、Tが奇数の時は(T−1)/2個のDFT係数で表
す情報である。
【0059】混合音源用フィルタリング器(142)は、混
合音源1(q8)を入力し、TポイントDFTを行い、Tが
偶数の時はT/2個のDFT係数、Tが奇数の時は(T
−1)/2個のDFT係数を求める(図6(b))。但
し、図6(b)では、簡単のため混合音源1(q8)が単一
パルスである場合(完全に有声の場合)について示して
おり、各DFT係数は全て1.0の値を持つ。次に、スペ
クトル包絡形状情報(y8)と閾値(f9)を入力し、図6
(a)に示すようにスペクトル包絡形状情報(y8)を表す
DFT係数の大きさが閾値以上になる周波数領域(同図
ではa〜bおよびc〜dの区間)(以後、有声領域と呼ぶ)
を調べ、混合音源1(q8)のDFT結果(図6(b))に
おいて、有声領域以外の領域(以後、無声領域と呼ぶ)
のDFT係数を0にしたDFT係数列(r8)(図6(c)
の実線)を出力する。なお、この閾値の値としては、0.
6〜0.9の範囲の値が適当であり、ここでは閾値は0.8と
する。また、混合音源1(q8)のDFT結果(図6
(b))において、有声領域のDFT係数を0としたD
FT係数列(s8)(図6(c)の点線)を出力する。つま
り、ここでは混合音源1(q8)を、スペクトル包絡形状情
報(y8)の大きさが閾値以上になる周波数領域(有声領
域)の成分と、それ以外の周波数領域(無声領域)の成
分に分けて、DFT係数の形で、それぞれ(r8)、(s8)と
して出力している。
【0060】雑音音源用フィルタリング器(143)は、白
色雑音(p8)を入力し、TポイントDFTを行い、Tが偶
数の時はT/2個のDFT係数、Tが奇数の時は(T−
1)/2個のDFT係数を求める(図6(d))。次
に、スペクトル包絡形状情報(y8)と閾値(f9)を入力し、
図6(a)に示すようにスペクトル包絡形状情報(y8)を
表すDFT係数の大きさが閾値以上になる周波数領域
(有声領域)を調べ、白色雑音(p8)のDFT結果(図6
(d))において、有声領域のDFT係数を0にしたD
FT係数列(t8)(図6(e))を出力する。第2の混合
音源発生器(以下、混合音源2発生器)(144)は、DF
T係数列(s8)(図6(c)の点線)およびDFT係数列
(t8)(図6(e))を入力し、所定の割合でこれらを混
合して、その結果であるDFT係数列(z8)を出力する。
本実施形態では、DFT係数列(s8)を6割、DFT係数
列(t8)を4割で混合している。なお、この混合比率は、
(s8)を5〜7割、(t8)が5〜3割の範囲の値とするのが
好適である。第3の混合音源発生器(以下、「混合音源
3発生器」という)(145)は、DFT係数列(r8)および
DFT係数列(z8)を入力し、これらを加算した後(この
時のDFT係数を図6(f)に示す)、IDFT(逆離
散フーリエ変換)を行い時間波形に戻し、混合音源信号
(g9)として出力する。
【0061】完全な無声フレームでは、有声強度(n8)が
0なので、混合音源1(q8)および混合音源信号(g9)は白
色雑音(p8)と等しくなる。従って、上記の混合音源信号
(g9)を生成する処理を実施する前に、切替え器(153)は
有声強度(n8)を観測し、それが0(完全無音)であれば
混合音源信号として白色雑音(p8)を選択し、その他は混
合音源信号(g9)を選択し(a9)として出力する。これによ
り完全無音フレームでの処理量を節約することができ
る。
【0062】以下に、スペクトル包絡形状計算器(14
6)、混合音源用フィルタリング器(142)、雑音音源用フ
ィルタリング器(143)、混合音源2発生器(144)および混
合音源3発生器(145)を用いた混合音源信号生成の効果
について説明する。入力音声に対しスペクトル包絡形状
を求め、その大きさ(マグニチュード)が閾値以上にな
る周波数成分と、閾値より小さくなる周波数成分に分割
し、それぞれの時間波形についてピッチ周期を遅延時間
としたときの正規化自己相関関数を計算し、度数を調べ
た結果を図7に、その累積度数を図8に示す。但し、こ
の測定では有声フレーム(周期的および非周期的フレー
ム)のみを有効とした。被験音声として男女各4名(2
音声サンプル/各1名)で構成される合計36.22[s](18
11フレーム)の音声データを用いたが、有効フレーム
(有声フレーム)数は、1616フレームであった。また、
これらは閾値を0.8とした時の測定例である。
【0063】図7、8より、スペクトル包絡形状の大き
さ(マグニチュード)が閾値以上になる成分では、正規
化自己相関関数の分布は1.0(最大値)付近に集中し、
閾値より小さくなる成分では0.25付近で最大となり、広
く分布することが分かる。正規化自己相関関数が大きい
程、入力音声の周期性は強く、それが小さい程、入力音
声の周期性は弱い(白色雑音に近くなる)ことを意味す
る。従って、本発明の復号方法のようにスペクトル包絡
形状の大きさ(マグニチュード)が閾値より小さい周波
数領域のみに対し、白色雑音を付加して混合音源とする
方法が妥当であることが分かる。この処理により、ME
LP方式のように帯域毎の有声性情報を伝送する必要な
しに前述のLPC方式の問題点Aであるbuzz音を低減す
ることができる。
【0064】また、参考文献[6](線形予測分析・合成
方式の復号器)において提案された方法では、LPC方
式の問題点A(buzz音)は軽減できるものの、再生音声
の音質が雑音的になるという欠点があると前述したが、
その理由は次の通りである。図8において、スペクトル
包絡形状の大きさ(マグニチュード)が閾値より小さい
周波数領域の成分(○により表示)では、正規化自己相
関関数が0.6以上に分布する割合が全体の約20%を占
めている。従って、全てのフレームにおいてスペクトル
包絡形状の大きさ(マグニチュード)が閾値より小さい
周波数領域を白色雑音で置き換えてしまうと、再生音声
の雑音感が増大し、品質を劣下させてしまう。本発明の
方法を用いればこの問題を解決することができる。
【0065】適応スペクトルエンハンスメントフィルタ
(148)は、線形予測係数(x8)に帯域幅拡張処理を施した
ものを係数とする適応極/零フィルタであり、表2の
に示した通り、ホルマントの共振を鋭くし、自然音声の
ホルマントに対する近似度を改善することにより再生音
声の自然性を向上させる。さらに、補間された傾斜補正
係数(v8)を用いてスペクトルの傾きを補正して音のこも
りを低減する。前記切替え器(153)の出力(a9)は適応ス
ペクトルエンハンスメントフィルタ(148)によりフィル
タリングされ音源信号(b9)が出力される。LPC合成フ
ィルタ(149)は、線形予測係数(x8)を係数として用いる
全極型フィルタであり、音源信号(b9)に対しスペクトル
包絡情報を付加して、その結果である信号(c9)を出力す
る。ゲイン調整器(150)は(c9)に対しゲイン情報(w8)を
用いてゲイン調整を行い、(d9)を出力する。パルス拡散
フィルタ(151)は、自然音声の声門パルス波形に対する
パルス音源波形の近似度を改善するためのフィルタであ
り、(d9)をフィルタリングして自然性が改善された再生
音声(e9)を出力する。このパルス拡散フィルタの効果は
表2のに示す通りである。
【0066】なお、以上説明した本発明の音声符号化装
置および音声復号装置は、DSP(デジタル・シグナル
・プロセッサ)によって容易に実現可能である。また、
前述した本発明の音声復号方法は、音声符号化器として
従来方式(LPC方式)のものを用いた場合にも、その
まま適用することができる。さらに、上述の量子化レベ
ル数、符号語のビット数、音声符号化フレーム長、線形
予測係数、LSF係数などの次数、各フィルタのカット
オフ周波数などは、それぞれ前述した実施の形態におい
て用いられた値に限られることはなく、それぞれの場合
に応じた値を採用することができる。
【0067】
【発明の効果】以上説明したように、本発明の音声符号
化復号方法および装置を用いることにより、付加的な情
報ビットを伝送すること無く、従来方式(LPC)にお
いて品質劣下の原因となっているbuzz音、トーン的雑音
を低減でき、再生音声の音質を向上できると共に、従来
方式(MELP)よりも符号化速度を下げることが可能
となる。したがって、無線通信に用いる際には、周波数
利用効率の向上を図ることができる。
【図面の簡単な説明】
【図1】 本発明の音声符号化方法が適用された音声符
号化器の一実施の形態の構成を示すブロック図である。
【図2】 本発明の音声復号方法が適用された音声復号
器の一実施の形態の構成を示すブロック図である。
【図3】 ピッチ周期とインデックスの関係を説明する
ための図である。
【図4】 ピッチ周期の度数を説明するための図であ
る。
【図5】 ピッチ周期の累積度数を説明するための図で
ある。
【図6】 本発明の復号方法における混合音源作成方法
を説明するための図である。
【図7】 正規化自己相関関数の度数を説明するための
図である。
【図8】 正規化自己相関関数の累積度数を説明するた
めの図である。
【図9】 従来方式(LPC)の音声符号化器の構成を
示す図である。
【図10】 従来方式(LPC)の音声復号器の構成を
示す図である。
【図11】 LPC方式およびMELP方式のスペクト
ルについて説明するための図である。
【図12】 従来方式(MELP)の音声符号化器の構
成を示す図である。
【図13】 従来方式(MELP)の音声復号器の構成
を示す図である。
【符号の説明】
111 フレーム化器、112 ゲイン計算機、113
量子化器1、114線形予測分析器、115 LSF
係数計算器、116 量子化器2、117LPC分析フ
ィルタ、118 ピーキネス計算器、119 相関関数
補正器、120 ローパスフィルタ、121 ピッチ検
出器、122 非周期フラグ発生器、123 量子化器
3、124 非周期ピッチインデックス生成器、125
ビットパッキング器、126 有声/無声判定器、1
27 周期/非周期ピッチおよび有声/無声情報コード
生成器、131 ビット分離器、132 有声/無声情
報・ピッチ周期復号器、133 ジッタ設定器、134
LSF復号器、135 傾斜補正係数計算器、136
ゲイン復号器、137 パラメータ補間器、138
ピッチ周期計算器、139 単一パルス発生器、140
雑音発生器、141 混合音源1発生器、142 混
合音源用フィルタリング器、143 雑音音源用フィル
タリング器、144 混合音源2発生器、145 混合
音源3発生器、146 スペクトル包絡形状計算器、1
47 線形予測係数計算器、148 適応スペクトルフ
ィルタ、149 LPC合成フィルタ、150 ゲイン
調整器、151 パルス拡散フィルタ、152 1ピッ
チ波形復号器
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D045 CA04 5J064 AA01 BB03 BB04 BB12 BC08 BC12 BC16 BC22 BC27 BD02 9A001 BB03 BB04 CC05 EE04 GG05 GG22 HH15 HH16 HH17 HH18 KK37 LL02

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 線形予測分析・合成方式の音声符号化器
    によって音声信号が符号化処理された出力である音声情
    報ビット列から音声信号を再生する音声復号方法であっ
    て、 前記音声情報ビット列に含まれるスペクトル包絡情報、
    有声/無声識別情報、ピッチ周期情報およびゲイン情報
    を分離、復号し、 前記有声/無声識別情報が有声を示すときには、前記ス
    ペクトル包絡情報により算出される周波数軸上のスペク
    トル包絡値と予め定めた閾値とを比較して、該スペクト
    ル包絡値が前記閾値以上になる周波数領域を有声領域、
    その他の領域を無声領域とし、有声領域の音源信号とし
    て前記ピッチ周期情報に基づき発生されるピッチパルス
    を用い、無声領域の音源信号として前記ピッチパルスと
    白色雑音を所定の割合で混合した信号を用い、前記有声
    領域の音源信号および前記無声領域の音源信号を加算し
    た結果を音源信号とし、 前記有声/無声識別情報が無声を示すときには、白色雑
    音を音源信号とし、 該音源信号に対し前記スペクトル包絡情報および前記ゲ
    イン情報を付加して再生音声を生成することを特徴とす
    る音声復号方法。
  2. 【請求項2】 線形予測分析・合成方式の音声符号化器
    によって音声信号が符号化処理された出力である音声情
    報ビット列から音声信号を再生する音声復号方法であっ
    て、 前記音声情報ビット列に含まれるスペクトル包絡情報、
    有声/無声識別情報、ピッチ周期情報およびゲイン情報
    を分離、復号し、 前記有声/無声識別情報が有声を示す場合は、有声強度
    情報に1.0をセットし、有声/無声識別情報が無声を示
    す場合は、有声強度情報に0をセットし、 前記スペクトル包絡情報、前記ピッチ周期情報、前記ゲ
    イン情報および該有声強度情報をピッチ周期に同期して
    線形補間し、 該補間された有声強度情報に応じた割合で、前記補間さ
    れたピッチ周期情報に基づき発生されるピッチパルスと
    白色雑音を混合して第1の混合音源信号とし、 前記補間されたスペクトル包絡情報により算出される周
    波数軸上のスペクトル包絡値と予め定めた閾値とを比較
    して、該スペクトル包絡値が閾値以上になる周波数領域
    を有声領域、その他の領域を無声領域とし、有声領域の
    音源信号として前記第1の混合音源信号を用い、無声領
    域の音源信号として前記第1の混合音源信号と白色雑音
    とを所定の割合で混合した信号を用い、前記有声領域の
    音源信号および前記無声領域の音源信号を加算した結果
    を第2の混合音源信号とし、 該第2の混合音源信号に対し前記補間されたスペクトル
    包絡情報および前記補間されたゲイン情報を付加して再
    生音声を生成することを特徴とする音声復号方法。
  3. 【請求項3】 標本化され、予め定められた時間長の音
    声符号化フレームに分割された入力音声信号から、有声
    /無声識別情報、ピッチ周期情報、周期的ピッチか非周
    期的ピッチかを示す非周期ピッチ情報を抽出して、符号
    化する音声符号化方法であって、 前記非周期ピッチ情報が周期的ピッチを示す音声符号化
    フレームでは、前記ピッチ周期情報を第1の所定のレベ
    ル数で量子化して、これを周期的ピッチ情報とし、 前記非周期ピッチ情報が非周期的ピッチを示す音声符号
    化フレームでは、それぞれのピッチ範囲に対しその発生
    度数の大小に応じた量子化レベルの割り当てを行い、第
    2の所定のレベル数で量子化して、これを非周期的ピッ
    チ情報とし、 前記有声/無声識別情報が無声を示す状態に1つの符号
    語を割り当て、前記有声/無声識別情報が有声を示す状
    態として、前記周期的ピッチ情報に前記第1の所定のレ
    ベル数に対応する個数の符号語を割り当て、前記非周期
    的ピッチ情報に前記第2の所定のレベル数に対応する個
    数の符号語を割り当て、これらをまとめて所定のビット
    数を有する符号語として符号化することを特徴とする音
    声符号化方法。
  4. 【請求項4】 前記符号語のビット数は7ビットであ
    り、前記有声/無声識別情報が無声を示す状態に全ての
    ビットが0(又は1)の符号語を割り当て、前記非周期
    的ピッチ情報に7ビット中、1または2ビットが1(又
    は0)である符号語を割り当て、その他の符号語に前記
    周期的ピッチ情報を割り当てることを特徴とする前記請
    求項3記載の音声符号化方法。
  5. 【請求項5】 前記請求項3に記載された音声符号化方
    法と、前記請求項1あるいは2に記載された音声復号方
    法とからなる音声符号化復号方法。
  6. 【請求項6】 所定のサンプル周波数で標本化され、量
    子化された音声サンプルを入力し、予め定められた時間
    長の音声符号化フレーム毎に所定数の音声サンプルを出
    力するフレーム化器と、 該1フレーム分の音声サンプルのレベル情報であるRM
    S値の対数を計算し、その結果である対数RMS値を出
    力するゲイン計算器と、 該対数RMS値を線形量子化し、その結果である量子化
    後の対数RMS値を出力する第1の量子化器と、 前記1フレーム分の音声サンプルに対し線形予測分析を
    行い、スペクトル包絡情報である所定次数の線形予測係
    数を出力する線形予測分析器と、 該線形予測係数をLSF(Line Spectrum Frequencie
    s)係数に変換して出力するLSF係数計算器と、 該LSF係数を量子化し、その結果であるLSFパラメ
    ータインデックスを出力する第2の量子化器と、 前記1フレーム分の音声サンプルを所定のカットオフ周
    波数でフィルタリングし帯域制限された入力信号を出力
    するローパスフィルタと、 該帯域制限された入力信号から正規化自己相関関数計算
    に基づきピッチ周期を抽出し、ピッチ周期および正規化
    自己相関関数の最大値を出力するピッチ検出器と、 該ピッチ周期を対数変換した後、第1の所定のレベル数
    で線形量子化し、その結果であるピッチ周期インデック
    スを出力する第3の量子化器と、 前記正規化自己相関関数の最大値を入力し、所定の閾値
    より小さければ非周期フラグをONにセット、そうでなけ
    ればOFFにセットして、非周期フラグを出力する非周期
    フラグ発生器と、 前記線形予測係数を係数として用いて前記1フレーム分
    の音声サンプルからスペクトル包絡情報を除去し、その
    結果である残差信号を出力するLPC分析フィルタと、 該残差信号を入力し、ピーキネス値を計算し、ピーキネ
    ス値を出力するピーキネス計算器と、 該ピーキネス計算器の値により、前記正規化自己相関関
    数の最大値の値を補正して補正された正規化自己相関関
    数の最大値を出力する相関関数補正器と、 該補正された正規化自己相関関数の最大値が所定の閾値
    以下であれば無声、そうでなければ有声と判定し、その
    結果である有声/無声フラグを出力する有声/無声判定
    器と、 前記非周期フラグが非周期を示しているフレームの前記
    ピッチ周期について、第2の所定のレベル数で不均一量
    子化し、非周期的ピッチインデックスを出力する非周期
    ピッチインデックス生成器と、 前記有声/無声フラグ、前記非周期フラグ、前記ピッチ
    周期インデックス、および前記非周期的ピッチインデッ
    クスを入力し、これらを所定のビット数で符号化した周
    期/非周期ピッチ・有声/無声情報コードを出力する周
    期/非周期ピッチおよび有声/無声情報コード生成器
    と、 前記量子化後の対数RMS値、前記LSFパラメータイ
    ンデックス、および前記周期/非周期ピッチ・有声/無
    声情報コードを入力し、1フレーム毎にビットパッキン
    グを行い音声情報ビット列を出力するビットパッキング
    器とを備えた音声符号化装置。
  7. 【請求項7】 前記請求項6記載の音声符号化装置によ
    り生成された1フレーム毎の音声情報ビット列を各パラ
    メータ毎に分離し、周期/非周期ピッチ・有声/無声情
    報コード、量子化後の対数RMS値およびLSFパラメ
    ータインデックスを出力するビット分離器と、 前記周期/非周期ピッチ・有声/無声情報コードを入力
    し、現フレームの状態が無声の場合は、ピッチ周期を所
    定の値にセットし、有声強度を0にセットして出力し、
    周期的および非周期的の場合は、ピッチ周期を符号化の
    規則に基づき復号処理して出力し、有声強度を1.0にセ
    ットして出力する有声/無声情報・ピッチ周期復号器
    と、 前記周期/非周期ピッチ・有声/無声情報コードを入力
    し、現フレームが無声または非周期的を示す場合は、ジ
    ッタ値を所定の値にセットして出力し、周期的を示す場
    合は、ジッタ値を0にセットして出力するジッタ設定器
    と、 前記LSFパラメータインデックスから前記所定の次数
    のLSF係数を復号して出力するLSF復号器と、 該LSF係数から傾斜補正係数を計算し出力する傾斜補
    正係数計算器と、 前記量子化後の対数RMS値を復号し、ゲインを出力す
    るゲイン復号器と、 前記ピッチ周期、前記有声強度、前記ジッタ値、前記L
    SF係数、前記傾斜補正係数および前記ゲインを、それ
    ぞれピッチ周期に同期して線形補間し、補間後のピッチ
    周期、補間後の有声強度、補間後のジッタ値、補間後の
    LSF係数、補間後の傾斜補正係数および補間後のゲイ
    ンを出力するパラメータ補間器と、 該補間後のピッチ周期および補間後のジッタ値を入力
    し、補間後のピッチ周期にジッタを付加した後、整数値
    に変換されたピッチ周期(以後、整数ピッチ周期とい
    う)を出力するピッチ周期計算器と、 該整数ピッチ周期に同期して該整数ピッチ周期分の再生
    音声を復号し出力する1ピッチ波形復号器とを備え、 該1ピッチ波形復号器は、 前記整数ピッチ周期期間内に単一パルス信号を出力する
    単一パルス発生器と、 前記整数ピッチ周期の長さを持つ白色雑音を出力する雑
    音発生器と、 前記補間後の有声強度に基づき、前記単一パルス信号と
    該白色雑音とを合成して第1の混合音源信号を出力する
    第1の混合音源発生器と、 前記補間後のLSF係数から線形予測係数を計算する線
    形予測係数計算器と、 該線形予測係数から再生音声のスペクトル包絡形状情報
    を求め出力するスペクトル包絡形状計算器と、 前記スペクトル包絡形状情報の値と所定の閾値とを比較
    し、スペクトル包絡形状情報の値が該閾値以上の周波数
    領域を有声領域、それ以外の周波数領域を無声領域とし
    て、前記第1の混合音源情報のDFT係数のうち前記無
    声領域のものを0にした第1のDFT係数列、および、
    前記混合音源情報のDFT係数のうち前記有声領域のも
    のを0とした第2のDFT係数列を出力する混合音源用
    フィルタリング器と、 前記白色雑音のDFT係数のうち前記有声領域のものと
    0としたDFT係数列を出力する雑音音源用フィルタリ
    ング器と、 前記混合音源用フィルタリング器からの前記第2のDF
    T係数列と前記雑音音源ようフィルタリング器からのD
    FT係数列とを所定の割合で混合して、その結果である
    DFT係数列を出力する第2の混合音源発生器と、 該第2の混合音源発生器からのDFT係数列と前記混合
    音源用フィルタからの前記第1のDFT係数列とを加算
    した後、逆離散フーリエ変換を行い、混合音源信号とし
    て出力する第3の混合音源発生器と、 前記補間後の有声強度を入力し、それが0のときは前記
    白色雑音を選択し、その他のときは前記第3の混合音源
    発生器の出力である混合音源信号を選択して混合音源信
    号として出力する切替え器と、 前記線形予測係数に帯域幅拡張処理を施したものを係数
    とする適応極/零フィルタと、前記補間後の傾斜補正係
    数を係数とするスペクトル傾斜補正フィルタの従属接続
    であり、前記混合音源信号をフィルタリングしてスペク
    トルが改善された音源信号を出力する適応スペクトルエ
    ンハンスメントフィルタと、 前記線形予測係数を係数として用いる全極型フィルタで
    あり、該スペクトルが改善された音源信号に対してスペ
    クトル包絡情報を付加して、スペクトル包絡情報が付加
    された信号を出力するLPC合成フィルタと、 該スペクトル包絡情報が付加された信号に対し、前記ゲ
    インを用いてゲイン調整を行い、再生音声信号を出力す
    るゲイン調整器と、 該再生音声信号に対し、パルス拡散処理を施し、パルス
    拡散処理された再生音声信号を出力するパルス拡散フィ
    ルタとを備える音声復号装置。
JP11072062A 1999-03-17 1999-03-17 音声符号化復号方法および装置 Pending JP2000267700A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP11072062A JP2000267700A (ja) 1999-03-17 1999-03-17 音声符号化復号方法および装置
US09/525,066 US6377915B1 (en) 1999-03-17 2000-03-14 Speech decoding using mix ratio table
EP00105585A EP1037197A3 (en) 1999-03-17 2000-03-16 Voicing analysis in a linear predictive speech coder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11072062A JP2000267700A (ja) 1999-03-17 1999-03-17 音声符号化復号方法および装置

Publications (1)

Publication Number Publication Date
JP2000267700A true JP2000267700A (ja) 2000-09-29

Family

ID=13478543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11072062A Pending JP2000267700A (ja) 1999-03-17 1999-03-17 音声符号化復号方法および装置

Country Status (1)

Country Link
JP (1) JP2000267700A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051698A (ja) * 1999-08-06 2001-02-23 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
WO2004040553A1 (ja) * 2002-10-31 2004-05-13 Nec Corporation 帯域拡張装置及び方法
WO2005036527A1 (ja) * 2003-10-07 2005-04-21 Matsushita Electric Industrial Co., Ltd. スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
JP2005531014A (ja) * 2002-06-27 2005-10-13 サムスン エレクトロニクス カンパニー リミテッド ハーモニック成分を利用したオーディオコーディング方法及び装置
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
US7580834B2 (en) 2002-02-20 2009-08-25 Panasonic Corporation Fixed sound source vector generation method and fixed sound source codebook
US8160874B2 (en) 2005-12-27 2012-04-17 Panasonic Corporation Speech frame loss compensation using non-cyclic-pulse-suppressed version of previous frame excitation as synthesis filter source
US8195469B1 (en) 1999-05-31 2012-06-05 Nec Corporation Device, method, and program for encoding/decoding of speech with function of encoding silent period
CN109147827A (zh) * 2012-05-23 2019-01-04 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
CN110491398A (zh) * 2014-03-24 2019-11-22 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195469B1 (en) 1999-05-31 2012-06-05 Nec Corporation Device, method, and program for encoding/decoding of speech with function of encoding silent period
JP2001051698A (ja) * 1999-08-06 2001-02-23 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
US7580834B2 (en) 2002-02-20 2009-08-25 Panasonic Corporation Fixed sound source vector generation method and fixed sound source codebook
JP2005531014A (ja) * 2002-06-27 2005-10-13 サムスン エレクトロニクス カンパニー リミテッド ハーモニック成分を利用したオーディオコーディング方法及び装置
WO2004040553A1 (ja) * 2002-10-31 2004-05-13 Nec Corporation 帯域拡張装置及び方法
US7684979B2 (en) 2002-10-31 2010-03-23 Nec Corporation Band extending apparatus and method
WO2005036527A1 (ja) * 2003-10-07 2005-04-21 Matsushita Electric Industrial Co., Ltd. スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
US7451091B2 (en) 2003-10-07 2008-11-11 Matsushita Electric Industrial Co., Ltd. Method for determining time borders and frequency resolutions for spectral envelope coding
US8725501B2 (en) 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
US8160874B2 (en) 2005-12-27 2012-04-17 Panasonic Corporation Speech frame loss compensation using non-cyclic-pulse-suppressed version of previous frame excitation as synthesis filter source
JP5142727B2 (ja) * 2005-12-27 2013-02-13 パナソニック株式会社 音声復号装置および音声復号方法
CN109147827A (zh) * 2012-05-23 2019-01-04 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
CN109147827B (zh) * 2012-05-23 2023-02-17 日本电信电话株式会社 编码方法、编码装置以及记录介质
CN110491398A (zh) * 2014-03-24 2019-11-22 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
CN110491398B (zh) * 2014-03-24 2022-10-21 日本电信电话株式会社 编码方法、编码装置以及记录介质

Similar Documents

Publication Publication Date Title
EP1037197A2 (en) Voicing analysis in a linear predictive speech coder
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
US10586547B2 (en) Classification between time-domain coding and frequency domain coding
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
AU714752B2 (en) Speech coder
JP4843124B2 (ja) 音声信号を符号化及び復号化するためのコーデック及び方法
JP6356360B2 (ja) 音声通信システム
WO2002065457A2 (en) Speech coding system with a music classifier
JP2004310088A (ja) 半レート・ボコーダ
IL196093A (en) Voice encoder and related method that encodes voice encoders with linear excitation prediction with different speech mode rates
EP3352169A1 (en) Unvoiced/voiced decision for speech processing
US6052659A (en) Nonlinear filter for noise suppression in linear prediction speech processing devices
WO2014131260A1 (en) System and method for post excitation enhancement for low bit rate speech coding
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
JP2000267700A (ja) 音声符号化復号方法および装置
JP3144009B2 (ja) 音声符号復号化装置
JP3292711B2 (ja) 音声符号化復号方法および装置
Ma et al. 400bps High-Quality Speech Coding Algorithm
JP3468862B2 (ja) 音声符号化装置
Ritz et al. Wideband Speech Coding at 4 kbps using Waveform Interpolation
Mao et al. A new intraframe LSP interpolation technique for low bit rate speech coding
JPH11249696A (ja) 音声符号化/復号化方法
JP2004198522A (ja) 適応符号帳の更新方法、音声符号化装置及び音声復号化装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020312