JP3874851B2 - Speech encoding device - Google Patents
Speech encoding device Download PDFInfo
- Publication number
- JP3874851B2 JP3874851B2 JP25858596A JP25858596A JP3874851B2 JP 3874851 B2 JP3874851 B2 JP 3874851B2 JP 25858596 A JP25858596 A JP 25858596A JP 25858596 A JP25858596 A JP 25858596A JP 3874851 B2 JP3874851 B2 JP 3874851B2
- Authority
- JP
- Japan
- Prior art keywords
- excitation
- adaptive
- sound source
- extended
- codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、ディジタル携帯電話等のディジタル移動通信端末やボイスメール等に必須な音声信号の符復号化を行う音声符号化装置に関する。
【0002】
【従来の技術】
従来、4〜8kbps程度のビットレートの音声符号化装置はCELP(Code Excited Linear Prediction)型が主流であり、"Code Excited Linear Prediction(CELP): High-Quality Speech at Very Low Bit Rate" (by M.R.Schroeder and B.S.Atal, Proc.ICASSP'85,pp.937-940,1985), "Improved Speech Quality and Efficient Vector Quantization in SELP" (by W.B.Kleijn, et.al., Proc.ICASSP'88,pp.155-158,1988) に記載されたものが知られている。図7は従来のCELP音声符号化装置の符号化側の構成を示したもので、入力音声に対してLPC分析および量子化を行うLPC分析・ 量子化器901、入力音声に対して聴感重み付けを行う聴感重み付けフィルタ902、過去の駆動音源を蓄え適応音源符号帳探索時に使用する適応音源符号帳903、適応音源にゲインを乗算するゲイン乗算器904、雑音音源ベクトルを格納する雑音音源符号帳905、雑音音源にゲインを乗算するゲイン乗算器906、適応音源と雑音音源を加算する加算器907、加算器907により得られた駆動音源に対し、聴感重み付きLPC合成を行う聴感重み付きLPC合成フィルタ908、聴感重み付けフィルタ902により得られる聴感重み付き入力音声から聴感重み付きLPC合成フィルタ908により得られる聴感重み付き合成音声を減算する減算器909、減算器909により得られた誤差信号の二乗誤差を最小にするような適応音源符号、雑音音源符号およびそれらのゲイン符号を決定する聴感重み付き二乗誤差最小化器910、符号化により得られるLPC符号、適応音源符号、雑音音源符号およびそれらのゲイン符号を多重化する多重化器911から構成されている。
【0003】
【発明が解決しようとする課題】
しかしながら、上記従来の音声符号化装置において、適応音源符号帳は、音声の音源信号に含まれるピッチ予測信号を効率的に生成するために設けられたもので、音声信号の母音等の定常区間には有効に機能するが、音声の立ち上がりや周囲雑音の存在する信号には十分に機能せず、低ビットレートでの高音声品質を実現することが困難であるという問題を有していた。
【0004】
本発明は、上記従来の問題を解決するもので、低ビットレートでの高音声品質を実現することができる優れた音声符号化装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明は、適応音源符号帳に加え、過去の駆動音源により符号帳の更新を行うことにより過去の駆動音源の特徴が保持される拡張適応音源符号帳を新たに備え、適応音源符号帳と拡張適応音源符号帳の出力のいずれかを選択できるようにしたものであり、適応音源が有効に働かない場合に、より過去の駆動音源の特徴が保持された拡張適応音源を用いることにより、低ビットレートにおいて高い音声品質を実現できる。
【0006】
【発明の実施の形態】
本発明の請求項1に記載の発明は、一定区間毎の音源信号の符号化に用いる音源符号帳として、過去の符号化駆動音源を用いて更新することにより得られる拡張適応音源符号帳を少なくとも備え、前記拡張適応音源符号帳が、符号化音源ベクトル長以上のサイズを有する一つ以上の符号帳ベクトルからなり、前記拡張適応音源符号帳の更新が、前記拡張適応音源符号帳内で過去の駆動音源ベクトルと類似な区間を探索により決定し、その区間にその駆動音源ベクトルを加重加算することにより行われる音声符号化装置であり、より過去の駆動音源の特徴が保持された拡張適応音源を用いることにより、低ビットレートにおいてより高い音声品質を実現することができるという作用を有する。
【0007】
また、本発明の請求項2、3、4に記載の発明は、CELP型音声符号化の音源符号帳として、過去の駆動音源を順次蓄える適応音源符号帳、過去の駆動音源により符号帳の更新を行うことにより過去の駆動音源の特徴が保持される請求項1と同様な拡張適応音源符号帳、および固定の音源符号ベクトルを蓄えた固定符号帳を備え、さらに拡張適応音源符号帳を過去の駆動音源により更新する拡張適応音源更新器、適応音源符号帳と拡張適応音源符号帳の出力のいずれかを選択する適応音源/拡張適応音源選択器とを備えたものであり、適応音源または拡張適応音源のいずれかと固定音源との和で音源の符号化を行う構成において、適応音源探索および拡張適応音源探索の結果により、または適応音源探索、拡張適応音源探索およびそれらにより得られた音源各々に対する固定音源探索の結果から、いずれか聴感重み付き二乗誤差の小さい方の音源を選択することにより、固定音源探索の結果も含めたより高い音声品質を実現することができるという作用を有する。
【0008】
また、本発明の請求項5に記載の発明は、入力音声または聴感重み付き入力音声に対してピッチ分析を行い、ピッチ予測ゲイン等のピッチ周期性度合いを表す値を出力するピッチ分析器を備えたものであり、適応音源/拡張適応音源選択器における適応音源と拡張適応音源の選択時にピッチ周期性度合いの値を参照し、ピッチ周期性度合いがあるしきい値以上に高い場合に、適応音源が無条件で選択されるようにして、入力音声の定常区間で拡張適応音源が選択される場合に生じうる音声品質の劣化を防ぐという作用を有する。
【0009】
また、本発明の請求項6に記載の発明は、適応音源の出力ラグ値、拡張適応音源信号、過去の駆動音源信号を入力とし、拡張適応音源が選択された場合を含めて、当該区間におけるピッチ周期ラグ値を固定音源へ出力するピッチ周期ラグ算出器を備えたものであり、拡張適応音源選択時にも、固定音源探索時にピッチ周期情報を用いる方法を適用することができ、より音声品質の向上を図ることができるという作用を有する。
【0010】
以下、本発明の実施の形態について、図1から図6を用いて説明する。
(実施の形態1)
図1は第1の発明のCELP型音声符号化装置の符号化側のブロック図を示したものである。図1において、101は入力音声に対してLPC分析および量子化を行うLPC分析・量子化器、102は入力音声に対して聴感重み付けを行う聴感重み付けフィルタ、103は過去の駆動音源の特徴が保持されている拡張適応音源符号帳である。この拡張適応音源符号帳103は、符号化音源ベクトル長以上のサイズを有する一つ以上の符号帳ベクトルからなる。ここで、符号帳ベクトルが一つの場合、その符号帳ベクトルを、
EAC n , n=0,1,...,L+N-1
とすると、この符号帳から得られる第k 番目の拡張適応音源ベクトルdk n は、dk n = EAC k+n , n=0,1,...,N-1;k=0,1,...,L-1
と表される。ただし、Lは符号帳サイズ、Nは音源ベクトル長である。104は拡張適応音源符号帳出力に対してゲインを乗じるゲイン乗算器、105は過去の駆動音源を蓄え適応音源符号帳探索時に使用する適応音源符号帳、106は適応符号音源に対してゲインを乗じるゲイン乗算器、107は拡張適応音源符号帳103と適応音源符号帳105の出力のいずれかを選択する適応音源/拡張適応音源選択器、108は固定の音源符号ベクトルを格納した固定符号帳、109は固定音源にゲインを乗算するゲイン乗算器、110は適応音源/拡張適応音源のいずれかと固定音源を加算する加算器、111は加算器110により得られた駆動音源に対し聴感重み付きLPC合成を行う聴感重み付きLPC合成フィルタ、112は聴感重み付けフィルタ102により得られる聴感重み付き入力音声から聴感重み付きLPC合成フィルタ111により得られる聴感重み付き合成音声を減算する減算器、減算器112により得られた誤差信号の二乗誤差を最小にするような適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、雑音音源符号およびそれらのゲイン符号を決定する聴感重み付き二乗誤差最小化器、114は符号化後の駆動音源を用いて拡張適応音源符号帳を更新する拡張適応音源符号帳更新器、115は符号化により得られるLPC符号、適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、固定音源符号およびそれらのゲイン符号を多重化する多重化器である。
【0011】
以上のように構成された音声符号化装置について、図1を用いてその動作を説明する。まず従来のCELP符号化装置と同様、入力音声に対してLPC分析・量子化器101によりLPC分析および量子化を行い、得られた量子化LPC係数を用いて聴感重み付けフィルタ102により聴覚重み付き入力音声を得る。一方、拡張適応音源符号帳103とゲイン乗算器104または適応音源符号帳105とゲイン乗算器106により得られる拡張適応音源または適応音源と、固定符号帳108とゲイン乗算器109により得られる固定音源とを加算器110により加算して得られる駆動音源信号を聴感重み付きLPC合成フィルタ111により合成し、得られた合成信号を聴覚重み付き入力音声から減算器112により減算し、得られた誤差信号の二乗誤差を最小にするような適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、雑音音源符号およびそれらのゲイン符号を決定する。
【0012】
ここで、聴感重み付き二乗誤差を最小にするような適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、雑音音源符号およびそれらのゲイン符号の決定は、図2に示すような手順で順次決定する。まず、拡張適応音源符号帳探索および適応音源符号帳探索を各々独立に行い(S101、S102)、拡張適応音源符号帳および適応音源符号帳から最適な符号ベクトルを決定する。ここで、拡張適応音源符号帳探索においては、拡張適応音源符号帳内で、聴感重み付き二乗誤差を最小にする符号ベクトルdk n (n=0 〜N-1)を求めるか、または入力音声からLPC予測によりLPC残差信号を求めその残差信号との相関を最大にするような拡張適応音源符号ベクトルを求めてもよい。あるいは、残差信号との相関最大化により複数の符号ベクトル候補を求めておき、その中から聴感重み付き二乗誤差を最小にするものを選択してもよい。次に、得られた拡張適応音源と適応音源のうち、聴感重み付き二乗誤差の小さい方の音源を選択する(S103)。そして、選択された音源(拡張適応音源または適応音源)に対して固定音源探索を行う(S104)。最後に、選択された拡張適応音源または適応音源および固定音源に対するゲイン符号をゲイン探索により決定し、駆動音源符号化を終了する(S105)。なお、ゲイン探索は図2の手順に示すような音源符号化の最後にまとめて行う方法以外に、拡張適応音源または適応音源のゲインと固定音源のゲインを逐次的に決定することも可能である。
【0013】
音源符号化により決定された適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、雑音音源符号およびそれらのゲイン符号は、LPC分析および量子化を行うLPC分析・量子化器101により得られるLPC符号と共に、多重化器115により多重化され、符号化データとして出力される。また、拡張適応音源符号帳および適応音源符号帳は、符号化された駆動音源信号を用いて更新される。このうち、拡張適応音源符号帳の更新は、拡張適応音源符号帳更新器114を用いて以下のように行われる。まず、更新前の拡張適応音源符号帳ベクトルEAC n (n=0〜L+N-1)(符号帳ベクトルが一つの場合)に対して、符号化駆動音源e n (n=0〜N-1)と符号帳ベクトル内で類似する区間を探索する。方法としては、拡張適応音源符号帳ベクトルと駆動音源との相互相関最大化またはゲイン正規化後予測ゲイン最大化等による。それにより得られた符号帳内の類似区間に対して、以下により符号帳を更新する。
ここで、
M:類似区間先頭サンプル
α:更新係数
【0014】
次に、本実施の形態におけるCELP型音声符号化装置の復号側構成を図3を参照して説明する。図3において、151は符号化データに対して、LPC符号、適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、雑音音源符号およびそれらのゲイン符号を分離する分離器、152は過去の駆動音源の特徴が保持されている拡張適応音源符号帳であり、その内容は符号化側と同様である。153は拡張適応音源符号帳出力に対して拡張適応音源ゲイン符号から得られるゲインを乗じるゲイン乗算器、154は過去の駆動音源を蓄えた適応音源符号帳、155は適応音源に対して適応音源ゲイン符号から得られるゲインを乗じるゲイン乗算器、156は拡張適応音源符号帳152と適応音源符号帳154の出力のいずれかを選択する適応音源/拡張適応音源選択器、157は固定の音源符号ベクトルを格納した固定符号帳、158は固定音源に固定音源ゲイン符号から得られるゲインを乗算するゲイン乗算器、159は適応音源/拡張適応音源のいずれかと固定音源を加算する加算器、160はLPC符号からLPC係数を復号するLPC復号器、161は加算器159により得られた駆動音源に対しLPC合成を行うLPC合成フィルタである。
【0015】
以上のように、構成された音声符号化装置の復号側について、図3を用いてその動作を説明する。まず分離器151により符号化データに対して、LPC符号、適応音源または拡張適応音源符号と適応音源/拡張適応音源選択情報、固定音源符号およびそれらのゲイン符号を分離する。次に、適応音源/拡張適応音源選択情報により、適応音源または拡張適応音源とそのゲイン符号より適応音源または拡張適応音源いずれか符号化側で選択された音源を生成し、固定音源符号およびそのゲイン符号を用いて生成された固定音源と加算器159で加算し、駆動音源を生成する。そして、LPC復号器160で復号されたLPC係数を用いてLPC合成フィルタ161で駆動音源に対しLPC合成を行い復号音声を得る。最後に、拡張適応音源符号帳152および適応音源符号帳154が、符号化された駆動音源信号を用いて拡張適応音源符号帳更新器162により更新される。拡張適応音源符号帳の更新方法は符号化側と同様である。
【0016】
以上のように、本発明の第1の実施の形態によれば、過去の駆動音源の特徴が保持されている拡張適応音源符号帳を新たに設け、適応音源または拡張適応音源のいずれかと固定音源との和で駆動音源を表現し、適応音源探索および拡張適応音源探索の結果から、いずれか聴感重み付き二乗誤差の小さい方の音源を選択することにより、特に音声の立ち上がりや周囲騒音を含む信号に対し、従来の適応音源のみではうまく表現できなかった音源をより正確に表現でき、より高い音声品質を実現することができる。
【0017】
なお、図1に示したCELP型の全体構成は一つの典型的な例であり、本発明は他のCELP型の構成にも適用可能である。
【0018】
(実施の形態2)
次に、本発明の第2の実施の形態について説明する。第2の実施の形態におけるCELP型音声符号化装置の構成は、図1に示す符号化側および図3に示す復号側の構成と同じであるが、音源探索の動作手順が異なる。図4は第2の実施の形態の音源探索の動作手順を示したもので、第1の実施の形態とは異なり、拡張適応音源符号帳探索および適応音源符号帳探索それぞれに対して固定符号帳探索を行った結果に対して拡張適応音源か適応音源の選択をするものである。図4において、まず適応音源符号帳探索を行い(S201)、それにより得られた適応音源に対して固定音源探索を行った後(S202)、適応音源と固定音源のゲイン符号化を行い(S203)、最適な適応音源、固定音源およびそれらのゲイン符号を決定する。次に、拡張適応音源に対しても同様に拡張適応音源符号帳探索、固定音源探索およびゲイン符号化を行い(S204、S205、S206)、最適な拡張適応音源、固定音源およびそれらのゲイン符号を決定する。そして、得られた適応音源とそれに対応する固定音源および拡張適応音源とそれに対応する固定音源の組み合わせのうち、聴感重み付き二乗誤差が小さい方を最終的に選択する(S207)。なお、ゲイン符号化は、図4では固定音源探索後に行うようになっているが、適応音源符号帳探索または拡張適応音源符号帳探索直後にそれらのゲインを単独で符号化する方法も可能である。なお、上記した以外の動作は、拡張適応音源符号帳の更新も含め第1の実施の形態と同様である。
【0019】
以上のように、本発明の第2の実施の形態によれば、過去の駆動音源の特徴が保持されている拡張適応音源符号帳を新たに設け、適応音源または拡張適応音源のいずれかと固定音源との和で駆動音源を表現し、適応音源および拡張適応音源いずれか最適な音源を選択できるようにし、更に適応音源と拡張適応音源の選択法として、適応音源探索および拡張適応音源探索各々に対して固定音源探索を行った結果に対して聴感重み付き二乗誤差の小さい方の音源を選択するように動作することにより、特に音声の立ち上がりや周囲騒音を含む信号に対し、従来の適応音源のみではうまく表現できなかった音源をより正確に表現でき、より高い音声品質を実現することができる。
【0020】
(実施の形態3)
図5は本発明の第3の実施の形態におけるCELP型音声符号化装置の符号化側の構成を示したものである。図5において、101〜115までは第1および第2の実施の形態を示す図1と同一であり、図1と異なるのは、入力音声信号に対してピッチ分析を行い、ピッチ予測ゲイン等のピッチ周期性度合いを表す値を出力するピッチ分析器501を備えていることである。
【0021】
以上のように構成された音声符号化装置について、図5を用いてその動作を説明する。ここでは、第1および第2の実施の形態と異なるピッチ分析器501とその結果に基づいた適応音源/拡張適応音源選択器107の動作についてのみ説明する。それ以外の動作は第1および第2の実施の形態と同一である。ピッチ分析器501では、入力音声を用いてピッチ分析を行い、ピッチ予測ゲインや正規化最大相互相関値等のピッチ周期性度合いを表す値を出力する。なお、ピッチ分析は、図5では入力音声に対して行うようになっているが、聴感重み付けされた入力信号に対して行うことも可能である。そして、適応音源/拡張適応音源選択器107における適応音源と拡張適応音源の選択時に、ピッチ周期性度合いの値を参照し、ピッチ周期性度合いがあるしきい値以上に高い場合に、適応音源が無条件で選択されるように動作する。音声の母音定常区間等のピッチ周期性度合いが高い場合は、一般に適応音源の方が拡張適応音源より望ましく、このような区間で拡張適応音源が選択された場合、稀にかえって劣化を招く場合があり、本実施形態のような構成により、それを防ぐことができる。なお、本実施の形態は、第1および第2の実施の形態のいずれに対しても適用することができる。
【0022】
(実施の形態4)
図6は本発明の第4の実施の形態におけるCELP型音声符号化装置の符号化側の構成を示したものである。図6において、101〜115までは第1および第2の実施の形態を示す図1と同じであり、図1と異なるのは、適応音源の出力ラグ値、拡張適応音源信号、過去の駆動音源信号を入力とし、拡張適応音源が選択された場合を含めて、当該区間におけるピッチ周期ラグ値を固定音源符号帳へ出力するピッチ周期ラグ算出器601を備えたことである。
【0023】
以上のように構成された音声符号化装置について、図6を用いてその動作を説明する。ここでは、第1および第2の実施の形態と異なるピッチ周期ラグ算出器601と固定音源探索の動作についてのみ説明する。それ以外の動作は第1および第2の実施の形態と同一である。ピッチ周期ラグ算出器601において、適応音源の出力ラグ値、拡張適応音源信号、過去の駆動音源信号を入力とし、拡張適応音源が選択された場合を含めて、当該区間におけるピッチ周期ラグ値を固定音源符号帳へ出力する。ここで、適応音源が選択された場合は、その探索の結果得られる適応音源ラグをそのまま出力する。一方、拡張適応音源が選択された場合にも、当該区間のピッチ周期ラグに相当する値を算出して出力する。算出方法としては、当該区間の拡張適応音源信号および過去の駆動音源信号から最大残差相関算出等によりピッチ周期ラグを求めるか、または当該区間の前区間で得られた適応音源ラグ(前区間が適応音源が選択されていない場合は、その以前の適応音源ラグ)をそのまま用いる。ただし、最大残差相関値が小さい等、ピッチ周期性が低い場合は、そのような状態である旨の情報を出力する。そして、出力されたピッチ周期ラグは、その情報が必要なタイプの固定音源探索において使用される。これは、例えば雑音音源をラグの周期で音源符号化長の長さだけ繰り返す処理や、パルス音源をやはりラグの周期で繰り返し立てるというような場合である。拡張適応音源は主に音声の立ち上がり等、適応音源が有効に機能しない区間で効果を出すことができるが、母音等の定常区間において拡張適応音源が選択される場合もあり、そのような場合や、音源符号化区間長より短いピッチ周期ラグを持つような音声に対してその立上り区間で拡張適応音源が選択された場合に、ピッチ周期ラグ算出器601により得られるピッチ周期ラグを算出し、ピッチ周期ラグを必要とするタイプの固定音源探索に用いることにより、より高品質な符号化を行うことができる。
【0024】
【発明の効果】
本発明は、上記第1および第2の実施の形態から明らかなように、過去の駆動音源の特徴が保持されている拡張適応音源符号帳を新たに設け、適応音源または拡張適応音源のいずれかと固定音源との和で駆動音源を表現し、適応音源探索および拡張適応音源探索の結果から、いずれか聴感重み付き二乗誤差の小さい方の音源を選択するものであり、より過去の駆動音源の特徴が保持された拡張適応音源を用いることにより、低ビットレートにおいてより高い音声品質を実現することができる。特に音声の立ち上がりや周囲騒音を含む信号に対し、従来の適応音源のみではうまく表現できなかった音源をより正確に表現でき、より高い音声品質を実現することができる。
【0026】
また本発明は、上記第3の実施の形態から明らかなように、ピッチ分析器により得られるピッチ周期性度合いを表す値を、適応音源/拡張適応音源選択器における適応音源と拡張適応音源の選択時に参照し、ピッチ周期性度合いがあるしきい値以上に高い場合に、適応音源を無条件で選択することにより、音声の母音定常区間等のピッチ周期性度合いが高い区間に拡張適応音源が選択された場合に生じうる劣化を防ぐことができる。
【0027】
また本発明は、上記第4の実施の形態から明らかなように、適応音源の出力ラグ値、拡張適応音源信号、過去の駆動音源信号を入力とし、拡張適応音源が選択された場合を含めて、当該区間におけるピッチ周期ラグ値を固定音源へ出力するピッチ周期ラグ算出器を備えることにより、拡張適応音源選択時にも、固定音源探索時にピッチ周期情報を用いる方法を適用することができ、より音声品質の向上を図ることができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態1、2における音声符号化装置の符号化側のブロック図
【図2】本発明の実施の形態1における音源符号化部の動作手順を示すフロー図
【図3】本発明の実施の形態1、2における音声符号化装置の復号側のブロック図
【図4】本発明の実施の形態2における音源符号化部の動作手順を示すフロー図
【図5】本発明の実施の形態3における音声符号化装置の符号化側のブロック図
【図6】本発明の実施の形態4における音声符号化装置の符号化側のブロック図
【図7】従来の音声符号化装置のブロック図
【符号の説明】
101 LPC分析・量子化器
102 聴感重み付けフィルタ
103 拡張適応音源符号帳
104 ゲイン乗算器
105 適応音源符号帳
106 ゲイン乗算器
107 適応音源/拡張適応音源選択器
108 固定音源符号帳
109 ゲイン乗算器
110 加算器
111 聴感重み付きLPC合成フィルタ
112 減算器
113 二乗誤差最小化器
114 拡張適応音源符号帳更新器
115 多重化器
151 分離器
152 拡張適応音源符号帳
153 ゲイン乗算器
154 適応音源符号帳
155 ゲイン乗算器
156 適応音源/拡張適応音源選択器
157 固定音源符号帳
158 ゲイン乗算器
159 加算器
160 LPC復号器
161 LPC合成フィルタ
501 ピッチ分析器
601 ピッチ周期ラグ算出器
901 LPC分析・量子化器
902 聴感重み付けフィルタ
903 適応音源符号帳
904 ゲイン乗算器
905 固定音源符号帳
906 ゲイン乗算器
907 加算器
908 聴感重み付きLPC合成フィルタ
909 減算器
910 二乗誤差最小化器
911 多重化器[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech coding apparatus that performs code decoding of speech signals essential for digital mobile communication terminals such as digital mobile phones and voice mail.
[0002]
[Prior art]
Conventionally, CELP (Code Excited Linear Prediction) type is mainly used as a speech coding apparatus with a bit rate of about 4 to 8 kbps, and “Code Excited Linear Prediction (CELP): High-Quality Speech at Very Low Bit Rate” (by MR Schroeder and BSAtal, Proc.ICASSP'85, pp.937-940,1985), "Improved Speech Quality and Efficient Vector Quantization in SELP" (by WBKleijn, et.al., Proc.ICASSP'88, pp.155-158, 1988) are known. FIG. 7 shows the configuration of the coding side of a conventional CELP speech coding apparatus. An LPC analyzer / quantizer 901 that performs LPC analysis and quantization on input speech, and perceptual weighting on the input speech. An
[0003]
[Problems to be solved by the invention]
However, in the above-described conventional speech coding apparatus, the adaptive excitation codebook is provided to efficiently generate the pitch prediction signal included in the speech excitation signal, and is in a stationary section such as a vowel of the speech signal. Functions effectively, but does not function sufficiently for signals with rising voice or ambient noise, and it is difficult to achieve high voice quality at a low bit rate.
[0004]
The present invention solves the above-described conventional problems, and an object thereof is to provide an excellent speech encoding apparatus capable of realizing high speech quality at a low bit rate.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the present invention newly provides an extended adaptive excitation codebook that retains the characteristics of past driving excitations by updating the codebook with past driving excitations in addition to the adaptive excitation codebook. It is possible to select either the adaptive excitation codebook or the output of the extended adaptive excitation codebook, and when the adaptive excitation does not work effectively, the extended adaptation that preserves the characteristics of the past driving excitation By using a sound source, high voice quality can be realized at a low bit rate.
[0006]
DETAILED DESCRIPTION OF THE INVENTION
The inventions of claim 1 of the present invention, as excitation codebook used in coding the excitation signal for each fixed period, the extended adaptive excitation codebook obtained by updating with a past encoding excitation The extended adaptive excitation codebook comprises at least one codebook vector having a size greater than or equal to the encoded excitation vector length, and the update of the extended adaptive excitation codebook is past in the extended adaptive excitation codebook. This is a speech coding apparatus that is determined by searching for a section similar to the driving excitation vector of the above and performing weighted addition of the driving excitation vector to that section, and is an extended adaptive excitation that retains the characteristics of the past driving excitation By using, there is an effect that higher voice quality can be realized at a low bit rate .
[0007]
Further, inventions of claim 2, 3, 4 of the present invention, as a sound source codebook of CELP type speech coding, stores past excitations sequential adaptive excitation codebook, the codebook in the past excitations An extended adaptive excitation codebook similar to claim 1 in which features of past driving excitations are maintained by updating, and a fixed codebook storing fixed excitation code vectors, and the extended adaptive excitation codebook in the past And an adaptive excitation source or extension adaptive excitation selector that selects either the adaptive excitation codebook or the output of the extended adaptive excitation codebook. in sum configuration for excitation coding in with either the fixed excitation adaptive excitation, as a result of the adaptive excitation search and extended adaptive excitation search, or adaptive excitation search, extended adaptive excitation search and in their From the results of fixed sound source search for each obtained sound source, it is possible to achieve higher voice quality including the result of fixed sound source search by selecting one of the sound sources with smaller auditory weighted square errors. Has an effect.
[0008]
Further, the inventions of claim 5 of the present invention performs a pitch analysis with respect to the input speech or auditory weighting input speech, the pitch analyzer that outputs a value representing the pitch period of the degree of pitch prediction gain, etc. When the adaptive sound source / extended adaptive sound source selector selects the adaptive sound source and the extended adaptive sound source, the value of the pitch periodicity level is referred to, and if the pitch periodicity level is higher than a certain threshold value, it is adapted. The sound source is selected unconditionally, and the speech quality deterioration that may occur when the extended adaptive sound source is selected in the stationary section of the input speech is prevented.
[0009]
Further, the inventions of claim 6 of the present invention, the output lag value of adaptive excitation, extended adaptive excitation signal as input past excitation signals, including a case where the extended adaptive excitation has been selected, the section A pitch period lag calculator that outputs the pitch period lag value to a fixed sound source can be used, and even when an extended adaptive sound source is selected, a method that uses pitch period information when searching for a fixed sound source can be applied. It has the effect | action that improvement of can be aimed at.
[0010]
Hereinafter, embodiments of the present invention will be described with reference to FIGS.
(Embodiment 1)
FIG. 1 is a block diagram on the encoding side of the CELP speech encoding apparatus of the first invention. In FIG. 1, 101 is an LPC analyzer / quantizer that performs LPC analysis and quantization on input speech, 102 is an auditory weighting filter that performs auditory weighting on the input speech, and 103 holds the characteristics of past drive sound sources. This is an extended adaptive excitation codebook. The extended
EAC n, n = 0,1, ..., L + N-1
Then, the k-th extended adaptive excitation vector dk n obtained from this codebook is dk n = EAC k + n, n = 0,1, ..., N-1; k = 0,1,. .., L-1
It is expressed. Here, L is the codebook size, and N is the excitation vector length. 104 is a gain multiplier that multiplies the gain of the extended adaptive excitation codebook output, 105 is an adaptive excitation codebook that stores past drive excitations and is used when searching for the adaptive excitation codebook, and 106 is a gain multiplied by the adaptive code excitation. A
[0011]
The operation of the speech coding apparatus configured as described above will be described with reference to FIG. First, as in the conventional CELP coding apparatus, LPC analysis and quantization are performed on the input speech by the LPC analyzer /
[0012]
Here, the determination of the adaptive excitation or the extended adaptive excitation code and the adaptive / extended adaptive excitation selection information, the noise excitation code and their gain codes that minimize the perceptually weighted square error is performed as shown in FIG. Determine sequentially. First, an extended adaptive excitation codebook search and an adaptive excitation codebook search are performed independently (S101, S102), and an optimal code vector is determined from the extended adaptive excitation codebook and the adaptive excitation codebook. Here, in the extended adaptive excitation codebook search, a code vector dkn (n = 0 to N-1) that minimizes the audible weighted square error is obtained in the extended adaptive excitation codebook, or from the input speech. An extended adaptive excitation code vector that obtains an LPC residual signal by LPC prediction and maximizes the correlation with the residual signal may be obtained. Alternatively, a plurality of code vector candidates may be obtained by maximizing correlation with the residual signal, and the one that minimizes the audible weighted square error may be selected. Next, a sound source with a smaller audible weighted square error is selected from the obtained extended adaptive sound sources and adaptive sound sources (S103). Then, a fixed sound source search is performed on the selected sound source (extended adaptive sound source or adaptive sound source) (S104). Finally, a gain code for the selected extended adaptive sound source or adaptive sound source and fixed sound source is determined by gain search, and driving sound source coding is terminated (S105). In addition to the method in which the gain search is performed collectively at the end of the excitation coding as shown in the procedure of FIG. 2, it is also possible to sequentially determine the gain of the extended adaptive excitation or the adaptive excitation and the gain of the fixed excitation. .
[0013]
The adaptive excitation or the extended adaptive excitation code determined by the excitation coding and the adaptive excitation / extended adaptive excitation selection information, the noise excitation code and their gain codes are obtained by the LPC analyzer /
here,
M: Similar section head sample α: Update coefficient
Next, the decoding side configuration of the CELP speech coding apparatus in the present embodiment will be described with reference to FIG. In FIG. 3,
[0015]
The operation of the decoding side of the speech encoding apparatus configured as described above will be described with reference to FIG. First, the
[0016]
As described above, according to the first embodiment of the present invention, the extended adaptive excitation codebook in which the characteristics of the past driving excitation are retained is newly provided, and either the adaptive excitation or the extended adaptive excitation and the fixed excitation. By expressing the driving sound source with the sum of and the result of adaptive sound source search and extended adaptive sound source search, one of the sound sources with a smaller audible weighted square error is selected, and in particular the signal that includes the rise of the sound and ambient noise On the other hand, a sound source that could not be expressed well only by the conventional adaptive sound source can be expressed more accurately, and higher voice quality can be realized.
[0017]
Note that the entire CELP configuration shown in FIG. 1 is one typical example, and the present invention is applicable to other CELP configurations.
[0018]
(Embodiment 2)
Next, a second embodiment of the present invention will be described. The configuration of the CELP speech coding apparatus in the second embodiment is the same as that of the coding side shown in FIG. 1 and the decoding side shown in FIG. 3, but the operation procedure of the sound source search is different. FIG. 4 shows the operation procedure of the excitation search of the second embodiment. Unlike the first embodiment, the fixed codebook is used for each of the extended adaptive excitation codebook search and the adaptive excitation codebook search. The extended adaptive sound source or the adaptive sound source is selected for the result of the search. In FIG. 4, first, an adaptive excitation codebook search is performed (S201), a fixed excitation search is performed on the adaptive excitation obtained thereby (S202), and then gain coding of the adaptive excitation and the fixed excitation is performed (S203). ) To determine the optimum adaptive sound source, fixed sound source and their gain codes. Next, extended adaptive excitation codebook search, fixed excitation search, and gain encoding are similarly performed on the extended adaptive excitation (S204, S205, S206), and the optimal extended adaptive excitation, fixed excitation, and their gain codes are obtained. decide. Then, of the obtained combinations of the adaptive sound source, the corresponding fixed sound source and the extended adaptive sound source, and the corresponding fixed sound source, the one with the smaller audible weighted square error is finally selected (S207). Note that gain coding is performed after fixed excitation search in FIG. 4, but it is also possible to encode those gains independently immediately after adaptive excitation codebook search or extended adaptive excitation codebook search. . The operations other than those described above are the same as those in the first embodiment, including the update of the extended adaptive excitation codebook.
[0019]
As described above, according to the second embodiment of the present invention, an extended adaptive excitation codebook that retains the characteristics of past drive excitations is newly provided, and either an adaptive excitation or an extended adaptive excitation and a fixed excitation. The driving sound source is expressed as the sum of and the optimal sound source, either the adaptive sound source or the extended adaptive sound source, can be selected. By selecting the sound source with the smaller auditory weighted square error from the fixed sound source search results, the conventional adaptive sound source alone can be used, especially for signals that contain speech rises and ambient noise. Sound sources that could not be expressed well can be expressed more accurately, and higher voice quality can be realized.
[0020]
(Embodiment 3)
FIG. 5 shows the configuration of the coding side of the CELP speech coding apparatus according to the third embodiment of the present invention. In FIG. 5, 101 to 115 are the same as those in FIG. 1 showing the first and second embodiments. The difference from FIG. A
[0021]
The operation of the speech coding apparatus configured as described above will be described with reference to FIG. Here, only the operations of the
[0022]
(Embodiment 4)
FIG. 6 shows the configuration of the coding side of the CELP speech coding apparatus according to the fourth embodiment of the present invention. In FIG. 6, 101 to 115 are the same as those in FIG. 1 showing the first and second embodiments, and are different from FIG. 1 in that the output lag value of the adaptive sound source, the extended adaptive sound source signal, the past drive sound source This includes a pitch
[0023]
The operation of the speech coding apparatus configured as described above will be described with reference to FIG. Here, only the operations of pitch
[0024]
【The invention's effect】
As is clear from the first and second embodiments, the present invention newly provides an extended adaptive excitation codebook in which the characteristics of past drive excitations are retained, and is provided with either an adaptive excitation or an extended adaptive excitation. represent the excitation by the sum of the fixed excitation, adapted from the results of the sound source searching and extended adaptive excitation search, which selects the smaller of the sound source of any auditory weighting square error, more characteristic of past excitations By using the extended adaptive sound source in which is maintained, higher voice quality can be realized at a low bit rate. In particular, it is possible to more accurately represent a sound source that could not be expressed well only by a conventional adaptive sound source for a signal including the rise of sound and ambient noise, and higher sound quality can be realized.
[0026]
Further, as is clear from the third embodiment, the present invention selects a value representing the degree of pitch periodicity obtained by the pitch analyzer from the selection of the adaptive sound source and the extended adaptive sound source in the adaptive sound source / expanded adaptive sound source selector. When the degree of pitch periodicity is higher than a certain threshold, sometimes the adaptive adaptive sound source is selected unconditionally, so that the extended adaptive sound source is selected for a section with a high degree of pitch periodicity, such as a steady vowel regular section. It is possible to prevent the deterioration that may occur if it is performed.
[0027]
Further, as is apparent from the fourth embodiment, the present invention includes the case where the extended adaptive sound source is selected with the output lag value of the adaptive sound source, the extended adaptive sound source signal, and the past drive sound source signal as inputs. By providing a pitch period lag calculator that outputs the pitch period lag value in the section to a fixed sound source, it is possible to apply a method using pitch period information when searching for a fixed sound source even when an extended adaptive sound source is selected. It has the effect that quality can be improved.
[Brief description of the drawings]
FIG. 1 is a block diagram on the coding side of a speech coding apparatus according to Embodiments 1 and 2 of the present invention. FIG. 2 is a flowchart showing an operation procedure of a sound source coding unit according to Embodiment 1 of the present invention. 3 is a block diagram on the decoding side of the speech coding apparatus according to Embodiments 1 and 2 of the present invention. FIG. 4 is a flowchart showing an operation procedure of a sound source coding unit according to Embodiment 2 of the present invention. FIG. 6 is a block diagram on the coding side of the speech coding apparatus according to Embodiment 3 of the present invention. FIG. 6 is a block diagram on the coding side of the speech coding apparatus according to Embodiment 4 of the present invention. Device block diagram [Explanation of symbols]
101 LPC analyzer /
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25858596A JP3874851B2 (en) | 1996-09-30 | 1996-09-30 | Speech encoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25858596A JP3874851B2 (en) | 1996-09-30 | 1996-09-30 | Speech encoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10105197A JPH10105197A (en) | 1998-04-24 |
JP3874851B2 true JP3874851B2 (en) | 2007-01-31 |
Family
ID=17322309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25858596A Expired - Lifetime JP3874851B2 (en) | 1996-09-30 | 1996-09-30 | Speech encoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3874851B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6678651B2 (en) * | 2000-09-15 | 2004-01-13 | Mindspeed Technologies, Inc. | Short-term enhancement in CELP speech coding |
JP4711099B2 (en) | 2001-06-26 | 2011-06-29 | ソニー株式会社 | Transmission device and transmission method, transmission / reception device and transmission / reception method, program, and recording medium |
-
1996
- 1996-09-30 JP JP25858596A patent/JP3874851B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10105197A (en) | 1998-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3346765B2 (en) | Audio decoding method and audio decoding device | |
EP2313887B1 (en) | Variable bit rate lpc filter quantizing and inverse quantizing device and method | |
EP0926660B1 (en) | Speech encoding/decoding method | |
CA2430111C (en) | Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs | |
JP3196595B2 (en) | Audio coding device | |
WO1998006091A1 (en) | Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus | |
JPH08263099A (en) | Encoder | |
JPH08272395A (en) | Voice encoding device | |
US6611797B1 (en) | Speech coding/decoding method and apparatus | |
JP3275247B2 (en) | Audio encoding / decoding method | |
JP3095133B2 (en) | Acoustic signal coding method | |
CA2239672C (en) | Speech coder for high quality at low bit rates | |
JP3874851B2 (en) | Speech encoding device | |
JP3148778B2 (en) | Audio encoding method | |
JP3268750B2 (en) | Speech synthesis method and system | |
JP2538450B2 (en) | Speech excitation signal encoding / decoding method | |
JP2613503B2 (en) | Speech excitation signal encoding / decoding method | |
US5943644A (en) | Speech compression coding with discrete cosine transformation of stochastic elements | |
JP3916934B2 (en) | Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus | |
JPH08292797A (en) | Voice encoding device | |
JP3299099B2 (en) | Audio coding device | |
JPH11259098A (en) | Method of speech encoding/decoding | |
JP3099836B2 (en) | Excitation period encoding method for speech | |
JP3024467B2 (en) | Audio coding device | |
JP2000029499A (en) | Voice coder and voice encoding and decoding apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061025 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |