JPH1020891A

JPH1020891A - 音声符号化方法及び装置

Info

Publication number: JPH1020891A
Application number: JP8179178A
Authority: JP
Inventors: Yuji Maeda; 祐児前田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-07-09
Filing date: 1996-07-09
Publication date: 1998-01-23
Also published as: US6003001A; BR9703903A; MX9704987A

Abstract

(57)【要約】【課題】ＰＳＩ−ＣＥＬＰ等の適応コードブックと固
定コードブックとを切換選択して用いる符号化におい
て、入力音声周波数成分が大きく変化するときに固定コ
ードブックが選択されることによる波形歪を軽減する。【解決手段】適応コードブック２１からの出力と固定
コードブック２２からの出力とを切換選択スイッチ２６
により選択して、雑音コードブック２３、２４からの出
力と加算して、線形予測合成フィルタ１６に送る。切換
選択スイッチ２６を切換制御するスイッチ制御回路１９
は、線形予測分析回路１４からの初期の信号エネルギに
対する線形予測残差エネルギの比率である予測利得に応
じて、この予測利得が所定の閾値より小さいとき、有声
音であると判別して、強制的に適応コードブック２１か
らの出力を選択するように切換選択スイッチ２６を制御
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ディジタル信号処
理により音声信号を高能率で圧縮符号化する音声信号符
号化方法及び装置に関する。

【０００２】

【従来の技術】近年において、自動車電話や携帯電話あ
るいはテレビ電話用音声等への適用を目的として、例え
ば 4.8 〜9.6 kbps 程度の低ビットレートの音声符号化
方法が開発されており、このような音声符号化方法とし
て、ベクトル和励起リニア予測（ＶＳＥＬＰ：Vector S
um Excited Linear Prediction）符号化等のコード励起
リニア予測（ＣＥＬＰ：Code Excited Linear Predicti
on）符号化方法が提案されている。さらに、ビットレー
トを半減した 3.45kbps 程度のいわゆるハーフレートの
音声符号化方法として、ピッチ同期化処理を伴うＣＥＬ
Ｐ、いわゆるＰＳＩ−ＣＥＬＰ（Pitch Synchronus Inn
ovation - ＣＥＬＰ）符号化方法が提案されている。

【０００３】このＰＳＩ−ＣＥＬＰ符号化方法は、ＣＥ
ＬＰ系の符号化方式であり、励振源となる励振符号ベク
トルのコードブック（符号帳）として、長期予測のため
の適応コードブックと、固定コードブックと、雑音コー
ドブックとを有している。特徴としては、適応符号ベク
トルのピッチ周期ラグに対応させて雑音符号ベクトルを
周期化する点が挙げられる。この雑音コードブックのピ
ッチ同期化は、雑音コードブックの先頭から音声の基本
周期であるピッチ周期分だけ取り出し、繰り返すような
形に変形することにより行われ、これによって有声部の
音質改善を図っている。また、このＰＳＩ−ＣＥＬＰに
おいては、適応コードブックと固定コードブックの切り
換えにより非周期性音声の表現力改善を図っている。

【０００４】

【発明が解決しようとする課題】ところで、上記ＰＳＩ
−ＣＥＬＰ符号化において、入力信号に応じて長期予測
フィルタとしての適応コードブックと固定コードブック
とを切換選択することにより、有声音と無声音とに対し
効果的に音声合成を行っているが、有声音において、そ
の周波数成分が前後のサブフレームで大きく変化する
と、固定コードブックが多く選択されることになり、復
号音声の連続性を損ね、波形歪を発生する虞れがある、
という欠点がある。

【０００５】すなわち、適応コードブック及び固定コー
ドブックの符号ベクトルの選択は、入力音声に対して最
も相関が強い候補を選択することにより行われるが、例
えば入力音声が、高調波成分を多く含んだ音声から特定
の低域周波数が支配的な音声に変化すると、長期予測フ
ィルタの適応コードブックの状態が追従できず、結果的
に相関の強い固定コードブックの方が多く選択されるこ
とになる。しかし、これを復号した場合には、音声の連
続性が著しく損なわれ、最悪の場合には波形歪を発生す
ることもある。

【０００６】本発明は、上述したような実情に鑑みてな
されたものであり、有声音であるにもかかわらず固定コ
ードブックが選択されることにより生じる波形歪を軽減
し得るような音声符号化方法及び音声符号化装置の提供
を目的とするものである。

【０００７】

【課題を解決するための手段】上記の課題を解決するた
めに、本発明は、音声信号を合成するための励振源とし
て適応コードブックと固定コードブックとが少なくとも
設けられて、適応コードブック又は固定コードブックの
いずれか一方を選択して出力を合成フィルタに供給する
際に、入力音声の信号エネルギに基づいて有声音か否か
の判別を行い、有声音と判別されたときに上記適応コー
ドブックを強制的に選択することを特徴としている。

【０００８】ここで、上記判別の際には、初期の信号エ
ネルギｅ₀に対する線形予測残差エネルギｅ_Lの比率で
ある予測利得ｅ₀／ｅ_Lが所定の閾値ＴＨよりも小さい
（ｅ₀／ｅ_L ＜ＴＨ）ときに有声音であると判別し、こ
の有声音であると判別されたときに上記適応コードブッ
クを強制的に選択することが挙げられる。

【０００９】また、上記判別の際には、直前の線形予測
分析区間で適応コードブックが選択されかつ現在の線形
予測分析区間の信号エネルギＰ_SUB が所定の閾値Ｐ_THよ
りも大きい（Ｐ_SUB＞Ｐ_TH）ときに有声音であると判別
し、この有声音であると判別されたときに上記適応コー
ドブックを強制的に選択するようにしてもよい。

【００１０】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら説明する。図１は、本発明の実施
の形態を説明するための図である。この図１に示す実施
の形態は、本発明を前述したいわゆるＰＳＩ−ＣＥＬＰ
（Pitch Synchronus Innovation - Code Excited Linea
r Prediction）符号化方法に適用した一例を示してい
る。

【００１１】この図１において、入力端子１１に供給さ
れた音声信号（入力音声）は、ノイズキャンセラ１２に
送られてノイズ成分が除去され、低音量抑圧回路１３に
送られて低レベル成分が抑圧される。低音量抑圧回路１
３からの出力は、線形予測分析（ＬＰＣ分析）回路１４
及び減算器１５に送られる。線形予測分析回路１４で
は、所定のサブフレーム毎に自己相関法でＬＰＣ分析を
行う。具体的には、サンプリング周波数を８ｋHz、符号
化フレームを４０ms（３２０サンプル）、サブフレーム
数を４とするときサブフレームは１０ms（８０サンプ
ル）であるが、各サブフレームの中央を分析中心として
分析区間を２０ms（１６０サンプル）とっている。線形
予測分析では、ＬＰＣのαパラメータを算出してＬＳＰ
（線スペクトル対）領域で量子化し、線形予測合成フィ
ルタ１６に用いる短期予測係数とする。線形予測合成フ
ィルタ１６は、後述する符号帳（コードブック）を有す
る励振源からの信号を線形予測（ＬＰＣ）合成処理し、
減算器１５に送っている。減算器１５は、合成フィルタ
１６からの合成出力と低音量抑圧回路１３からの入力音
声との誤差を取り出して聴覚重み付き波形歪最小化回路
１７に送る。聴覚重み付き波形歪最小化回路１７では、
減算器１５からの誤差を最小化するように、すなわち波
形歪が最小となるように励振源を制御する。

【００１２】励振源には、長期予測フィルタとしての適
応コードブック２１と、固定コードブック２２と、２つ
の雑音コードブック２３、２４とが用いられる。適応コ
ードブック２１は、励振源から合成フィルタ１６に送ら
れる信号を入力とし、上記入力音声から検出されたピッ
チの周期（ピッチラグ）に応じた遅延量だけ遅延して出
力するためのものである。上記ピッチラグは、上記低音
量抑圧回路１３からの音声信号をピッチ分析回路２５に
より分析することで検出される。この適応コードブック
２１を補完するために固定コードブック２２が設けられ
ており、固定コードブック２２を採用することにより無
声音の表現力が向上する。適応コードブック２１及び固
定コードブック２２から出力される励振符号ベクトル
は、切換選択スイッチ２６によりいずれか一方が選択さ
れる。固定コードブック２２内の励振符号ベクトルは切
換選択スイッチ２７により選択され、極性付与回路２８
により正負極性が決定されて、切換選択スイッチ２６に
送られる。切換選択スイッチ２６からの出力は係数乗算
器で係数ｇ₀が乗算されて加算器３０に送られる。雑音
コードブック２３、２４の励振符号ベクトルは、それぞ
れ切換選択スイッチ３１、３２で選択されて、それぞれ
のピッチ同期化回路３３、３４に送られる。ピッチ同期
化回路３３、３４は、それぞれ入力された雑音符号ベク
トルから適応コードブック２１で得られたピッチラグ分
だけを取り出して繰り返すような形に変形するＰＳＩ
（Pitch Synchronous Innovation：ピッチ同期化）処理
を施して、それぞれ極性付与回路３５、３６を介して加
算器３７に送る。加算器３７からの加算出力は係数乗算
器３８に送られて係数ｇ₁が乗算され、加算器３０に送
られる。加算器３０からの出力は、上記線形予測合成フ
ィルタ１５に送られる。上記聴覚重み付き波形歪最小化
回路１７は、線形予測合成フィルタ１５からの合成出力
と、上記低音量抑圧回路１３からの音声との間の誤差が
最小となるように、励振源の適応コードブック２１のピ
ッチラグ、切換選択スイッチ２７、３１、３２の選択状
態、極性付与回路２８、３５、３６の正負の極性、及び
係数乗算器２９、３８の係数ｇ₀,ｇ₁ を制御する。

【００１３】この図１の装置は、各部をハードウェアで
構成してもよいが、一部あるいは全部をＤＳＰ（ディジ
タル信号プロセッサ）等を用いてソフトウェア的に実現
してもよいことは勿論である。

【００１４】ここで、適応コードブック２１のピッチラ
グ及び固定コードブック２２の符号ベクトルの選択の従
来例について説明する。適応コードブック２１のピッチ
ラグを選択する際には、ピッチ分析回路２５における分
析によりピッチ強度の強い方から例えば６個のピッチラ
グを候補とし、ピッチ予測精度を向上させるため最高で
１／４サンプル精度で表現するようにして、最大で２４
個のピッチラグに対応する適応コードブック２１からの
出力について、線形予測合成した出力と聴覚重み付き入
力音声との間の誤差を小さくするような、例えば相関値
が最も高くなるようなものを、予備的に２個選択する。
同様に固定コードブック２２についても、符号ベクトル
の線形予測合成出力と聴覚重み付き入力音声との相関値
の高いものを予備的に２個選択する。次に、これらの４
個の励振符号ベクトルの内で、聴覚重み付き入力音声に
対して最も相関の強い２個を選択し、それぞれについて
雑音コードブックを選択し、利得を決定した後、重み付
き入力音声との誤差の小さい方を選択するようにしてい
る。

【００１５】ところで、適応コードブック２１と固定コ
ードブック２２の選択は、単に重み付き入力音声との相
関でのみ決定されるが、例えば高調波成分を多く含んだ
音声から特定の低域周波数が支配的な音声に入力が変化
すると適応コードブックの状態が追従できず、結果的に
相関の強い固定コードブックの方が多く選択されること
がある。しかし、これを復号した場合には、音声の連続
性が著しく損なわれ、最悪の場合には波形歪を発生する
こともある。

【００１６】そこで、本発明の実施の形態においては、
線形予測分析回路１４での計算中に得られる線形予測残
差エネルギを用いて、現在の入力音声の特定の低域周波
数成分が強い場合、予測利得が十分大きくなることに着
目し、この時には強制的に適応コードブックを選択する
ようにしている。

【００１７】すなわち、図１において、切換選択スイッ
チ２６を切換制御するスイッチ制御回路１９を設け、こ
のスイッチ制御回路１９には、聴覚重み付き波形歪最小
化回路１７からの情報のみならず、線形予測分析回路１
４での計算中に得られる線形予測残差エネルギ情報も供
給するようにしている。これらの情報に基づいて、スイ
ッチ制御回路１９は切換選択スイッチ２６を切換制御す
る。このときの動作について、図２のフローチャートを
参照しながら説明する。

【００１８】図２において、ステップＳ１０１で上述し
た適応コードブック２１の予備選択により２個の候補を
選択し、そのコードブック出力を線形予測合成した出力
と聴覚重み付き入力音声との間の相関評価値を保持して
おく。次のステップＳ１０２では、上記サブフレーム毎
に線形予測分析で求めた初期の信号エネルギｅ₀と、最
終の線形予測残差エネルギｅ_Lとの比である予測利得ｅ
_L／ｅ₀が、所定の閾値ＴＨより小さい（ｅ_L／ｅ₀＜Ｔ
Ｈ）か否かを判別する。信号エネルギｅ₀は、入力音声
の線形予測分析区間内のサンプルの二乗和により求めら
れる。また、線形予測残差エネルギｅ_Lは、入力音声を
線形予測分析する際のパーコル係数（偏自己相関係数）
を求める過程で得られる値である。線形予測分析区間
は、例えば、上記サブフレーム（１０ms）の中央を中心
として、サブフレームの前後に１／２サブフレームずつ
オーバーラップさせた２０msの区間である。上記閾値Ｔ
Ｈとしては、例えば−２４ｄＢ以下とすることが挙げら
れる。

【００１９】上記ステップＳ１０２でＹＥＳ、すなわち
ｅ_L／ｅ₀＜ＴＨであると判別された場合には、予測利得
が十分取れており有声音であると判断して、ステップＳ
１０３に進んで固定コードブックの検索を行わず評価値
を０にした後、ステップＳ１０４に進む。これに対し
て、ステップＳ１０２でＮＯと判別された場合には、ス
テップＳ１０５に進み、上述した通常の固定コードブッ
クサーチにより候補を２個選択し、ステップＳ１０４に
進む。ステップＳ１０４では、４個の候補の各評価値に
基づいて最終的に候補を２個選択するが、ステップＳ１
０３において固定コードブックの評価値が０となってい
れば、強制的に適応コードブックを選択することにな
る。

【００２０】図３は、入力音声を符号化して復号したと
きの波形歪の軽減の様子を説明するための図であり、図
中の曲線ａが元の入力音声信号を示し、曲線ｂが本実施
の形態により符号化を行った場合の復号音声信号を示
し、曲線ｃが従来の方法により符号化を行った場合の復
号音声信号を示している。これらの各曲線ａ〜ｃを比較
すれば明らかなように、従来の方法では入力音声の周波
数成分が大きく変化するときに復号音声に生じていた波
形歪が、本実施の形態の方法により符号化を行うことに
より大幅に軽減され、元の入力音声に近いことが分か
る。

【００２１】次に、本発明に係る他の実施の形態につい
て説明する。この実施の形態においては、上述した適応
及び固定コードブックの選択時に、直前のサブフレーム
が適応コードブックであり、かつそのサブフレームの信
号エネルギＰ_SUBが所定の閾値Ｐ_THより大きいとき、強
制的に適応コードブックを選択するようにしている。こ
のサブフレームのエネルギＰ_SUBは、線形予測分析区間
内のサンプルを二乗和したものであり、例えば上記サブ
フレームが１０msのとき、線形予測分析区間はサブフレ
ームの前後に１／２サブフレームずつのオーバーラップ
を設けて２０msの区間となる。

【００２２】図４は、この実施の形態の要部動作を説明
するためのフローチャートである。この図４において、
ステップＳ２０１で上述した適応コードブック２１の予
備選択により２個の候補を選択し、そのコードブック出
力を線形予測合成した出力と聴覚重み付き入力音声との
間の相関評価値を保持しておく。次のステップＳ２０２
では、直前のサブフレームの選択結果が適応コードブッ
クであり、かつ、現在のサブフレームのエネルギＰ_SUB
（例えばそのサブフレームにおけるサンプルの二乗和）
が所定の閾値Ｐ_THより大きい（Ｐ_SUB＞Ｐ_TH）か否かを
判別する。このステップＳ２０２でＹＥＳ、すなわち前
サブフレームが適応コードブックでかつＰ_SUB＞Ｐ_TH で
ある、と判別された場合には、有声音であると判断し
て、ステップＳ２０３に進んで固定コードブックの検索
を行わず評価値を０にした後、ステップＳ２０４に進
む。これに対して、ステップＳ２０２でＮＯと判別され
た場合には、ステップＳ２０５に進み、上述した通常の
固定コードブックサーチにより候補を２個選択し、ステ
ップＳ２０４に進む。ステップＳ２０４では、４個の候
補の各評価値に基づいて最終的に候補を２個選択する
が、ステップＳ２０３において固定コードブックの評価
値が０となっていれば、強制的に適応コードブックを選
択することになる。

【００２３】ここで、一般に無声音は音量が低く、有声
音は音量が高いことから、現在の音声レベルが高いとき
に、前サブフレームで適応コードブックを選択されてい
る場合には、有声音であると判断でき、無条件で適応コ
ードブックを選択するようにする。

【００２４】従って、この実施の形態においても、入力
音声の周波数成分が大きく変化する等により従来では有
声音であるにもかかわらず固定コードブックが選択され
るような場合でも、ステップＳ２０２により有声音であ
ることが判別でき、適応コードブックが強制的に選択さ
れるため、復号音声において生じ得る音声波形歪を軽減
することができる。

【００２５】なお、本発明は上述した実施の形態のみに
限定されるものではなく、線形予測分析の際のフレーム
やサブフレームの具体的数値やサンプリング周波数等は
任意に変更してもよく、有声音か否かの判別条件も信号
エネルギに基づいて種々設定可能である。また、適応コ
ードブック及び固定コードブックを選択的に切り換えて
用いる符号化は、上記ＰＳＩ−ＣＥＬＰ符号化に限定さ
れない。この他、本発明の要旨を逸脱しない範囲で種々
の変更が可能である。

【００２６】

【発明の効果】本発明によれば、入力音声の信号エネル
ギに基づいて有声音か否かの判別を行い、有声音と判別
されたときに適応コードブックを強制的に選択するよう
にしているため、入力音声の周波数成分が大きく変化す
る等により従来では有声音であるにもかかわらず固定コ
ードブックが選択されるような場合でも、適応コードブ
ックが強制的に選択されるため、復号音声において生じ
得る音声波形歪を軽減することができる。

【００２７】ここで、上記判別の際には、初期の信号エ
ネルギｅ₀に対する線形予測残差エネルギｅ_Lの比率で
ある予測利得ｅ₀／ｅ_Lが所定の閾値ＴＨよりも小さい
（ｅ₀／ｅ_L ＜ＴＨ）か否かを条件とすることにより、
有声音の判別が確実に行える。また、上記判別の際に、
直前の線形予測分析区間で適応コードブックが選択され
かつ現在の線形予測分析区間の信号エネルギＰ_SUB が所
定の閾値Ｐ_THよりも大きい（Ｐ_SUB＞Ｐ_TH）か否かを条
件とすることによっても、有声音の判別が確実に行え
る。

【図面の簡単な説明】

【図１】本発明の実施の形態を説明するための符号化装
置の概略構成を示すブロック図である。

【図２】本発明の実施の形態の要部動作を説明するため
のフローチャートである。

【図３】本発明の実施の形態による波形歪の軽減の様子
を説明するための図である。

【図４】本発明の他の実施の形態の要部動作を説明する
ためのフローチャートである。

【符号の説明】

１４線形予測分析回路、１６線形予測合成フィル
タ、１７聴覚重み付き波形歪最小化回路、１９
スイッチ制御回路、２１適応コードブック、２２
固定コードブック、２３，２４雑音コードブッ
ク、２５ピッチ分析回路、２６，２７，３１，３
２切換スイッチ、２９，３８係数乗算器、３
３，３４ピッチ同期化回路

Claims

【特許請求の範囲】

【請求項１】音声信号を合成するための励振源として
適応コードブックと固定コードブックとが少なくとも設
けられて、適応コードブック又は固定コードブックのい
ずれか一方を選択して出力を合成フィルタに供給する際
に、入力音声の信号エネルギに基づいて有声音か否かの判別
を行い、有声音と判別されたときに上記適応コードブックを強制
的に選択することを特徴とする音声符号化方法。
【請求項２】上記判別は、初期の信号エネルギに対す
る線形予測残差エネルギの比率である予測利得が所定の
閾値よりも小さいときに有声音であると判別することを
特徴とする請求項１記載の音声符号化方法。
【請求項３】上記判別は、直前に適応コードブックが
選択されかつ現在の信号エネルギが所定の閾値よりも大
きいときに有声音であると判別することを特徴とする請
求項１記載の音声符号化方法。
【請求項４】音声信号を合成するための励振源として
設けられた適応コードブックと固定コードブックとのい
ずれか一方からの出力を合成フィルタに供給する音声符
号化装置において、入力音声の信号エネルギに基づいて有声音か否かの判別
を行い、有声音と判別されたときに強制的に上記適応コ
ードブックを選択制御するスイッチ制御手段を有するこ
とを特徴とする音声符号化装置。
【請求項５】上記スイッチ制御手段は、初期の信号エ
ネルギに対する線形予測残差エネルギの比率である予測
利得が所定の閾値よりも小さいときに上記適応コードブ
ックを強制的に選択制御することを特徴とする請求項４
記載の音声符号化装置。
【請求項６】上記スイッチ制御手段は、直前に適応コ
ードブックが選択されかつ現在の信号エネルギが所定の
閾値よりも大きいときに上記適応コードブックを強制的
に選択制御することを特徴とする請求項４記載の音声符
号化装置。