JP2005316130A

JP2005316130A - 音声符号化装置および音声符号化方法

Info

Publication number: JP2005316130A
Application number: JP2004133956A
Authority: JP
Inventors: Tatsuo Inoue; 健生井上
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2004-04-28
Filing date: 2004-04-28
Publication date: 2005-11-10

Abstract

【課題】この発明は、ＡＤＰＣＭ方式の音声符号化装置における適用予測器の演算量を低減でき、かつ量子化誤差も従来の簡略手法に比べて低下させることができる音声符号化装置を提供することを目的とする。
【解決手段】適応予測器を備えているＡＤＰＣＭ方式の音声符号化装置において、適応予測器が全極型モデルで構成されており、適応予測器は全極型モデルの係数を学習同定法に基づいて求める係数更新手段を備えていることを特徴とする。
【選択図】図１

Description

この発明は、音声符号化装置および音声符号化方法に関し、特に適応差分パルス符号変調（ＡＤＰＣＭ：Adaptive Differential Pulse Code Modulation)方式の音声符号化装置および音声符号化方法の改良に関する。

音声の波形は統計的に強い相関をもっているので、その符号化にはその性質をうまく利用する方が効率がよい。その代表的な方法に適応差分パルス符号変調（ＡＤＰＣＭ) 方式がある。

ＡＤＰＣＭ方式の適応予測のために線形予測を用い、予測信号ｙ_e（ｎ）を、次式（１）に基づいて求める方法が知られている。

ｙ_e（ｎ）＝ａ₁・ｘ（ｎ−１）＋ａ₂・ｘ（ｎ−２）＋…＋ａ_P・ｘ（ｎ−Ｐ）
−ｂ₁・ｙ（ｎ−１）＋ｂ₂・ｙ（ｎ−２）＋…＋ｂ_P・ｙ（ｎ−Ｐ）
…（１）

上記式（１）において、ａ_i、ｂ_iは線形予測係数を表し、ｘ（ｎ−ｉ）は過去の入力信号を表し、ｙ（ｎ−ｉ）は過去の出力信号を示している。

しかしながら、線形予測係数ａ_i，ｂ_iを求めるためには多くの演算が必要であり、適応予測器を回路で構成する場合には規模が大きくなるという問題がある。

そこで、ａ_i＝０，ｂ₁＝−１，ｂ₂〜ｂ_P＝０（Ｐ≠１）とし、演算を簡略する方法（簡略手法）もあるが、この簡略手法では、規格化周波数が高い信号に対して量子化誤差が増大するという問題がある。
特許公報第３１４３４０６号

この発明は、適用予測器の演算量を低減でき、かつ量子化誤差も従来の簡略手法に比べて低下させることができる音声符号化装置および音声符号化方法を提供することを目的とする。

この発明による音声符号化装置は、適応予測器を備えているＡＤＰＣＭ方式の音声符号化装置において、適応予測器が全極型モデルで構成されており、適応予測器は全極型モデルの係数を学習同定法に基づいて求める係数更新手段を備えていることを特徴とする。

この発明による音声符号化方法は、適応予測器を備えているＡＤＰＣＭ方式の音声符号化方法において、適応予測器として全極型モデルを用い、かつ全極型モデルの係数を学習同定法に基づいて求めることを特徴とする。

この発明によれば、適用予測器の演算量を低減でき、かつ量子化誤差も従来の簡略手法に比べて低下させることができるようになる。

以下、図面を参照して、この発明の実施例について説明する。

〔１〕ＡＤＰＣＭ符号化装置およびＡＤＰＣＭ復号化装置の概略構成の説明
図１は、ＡＤＰＣＭ符号化装置１０１およびＡＤＰＣＭ復号化装置１０２の概略構成を示している。なお、以下の説明において用いられるｎは、整数である。

〔１−２〕ＡＤＰＣＭ符号化装置１０１について説明
まず、ＡＤＰＣＭ符号化装置１０１について説明する。

このＡＤＰＣＭ符号化装置１０１は、第１記憶手段１１３を備えている。第１記憶手段１１３には、表１に示されているような変換テーブルが記憶されている。表１は、符号Ｌ（ｎ）が４ビットである場合の例を示している。

この変換テーブルは、第２の予測誤差信号ｄｍ（ｎ）の範囲が記憶された第１欄、第１欄の第２の予測誤差信号ｄｍ（ｎ）の範囲に対応する符号Ｌ（ｎ）が記憶された第２欄、第２欄の符号Ｌ（ｎ）に対応する逆量子化値ｑ（ｎ）が記憶された第３欄および第２欄の符号Ｌ（ｎ）に対応する単位量子化幅Ｔ（ｎ＋１）の算出式が記憶された第４欄からなる。なお、単位量子化幅は実質的な量子化幅を決定するための値であり、実質的な量子化幅そのものではない。

第１加算器１１１は、ＡＤＰＣＭ符号化装置１０１に入力された信号ｘ（ｎ）と、適応予測信号ｆ（ｎ）との差分（以下、第１の予測誤差信号ｄ（ｎ）という）を、次式（２）に基づいて求める。

ｄ（ｎ）＝ｘ（ｎ）−ｆ（ｎ） …（２）

信号発生器１１９は、第１の予測誤差信号ｄ（ｎ）と第１量子化幅更新器１１８で得られた単位量子化幅Ｔ（ｎ）とに基づいて、補正信号ａ（ｎ）を発生する。つまり、信号発生器１１９は、次式（３）に基づいて、補正信号ａ（ｎ）を発生する。

ｄ（ｎ）≧０の場合：ａ（ｎ）＝Ｔ（ｎ）／２
ｄ（ｎ）＜０の場合：ａ（ｎ）＝−Ｔ（ｎ）／２ …（３）

第２加算器１１２は、第１の予測誤差信号ｄ（ｎ）と信号発生器１１９で得られた補正信号ａ（ｎ）とに基づいて、第２の予測誤差信号ｄｍ（ｎ）を求める。つまり、第２加算器１１２は、次式（４）に基づいて、第２の予測誤差信号ｄｍ（ｎ）を求める。

ｄｍ（ｎ）＝ｄ（ｎ）＋ａ（ｎ） …（４）

したがって、第２の予測誤差信号ｄｍ（ｎ）は、次式（５）で表される。

ｄ（ｎ）≧０の場合：ｄｍ（ｎ）＝ｄ（ｎ）＋Ｔ（ｎ）／２
ｄ（ｎ）＜０の場合：ｄｍ（ｎ）＝ｄ（ｎ）−Ｔ（ｎ）／２ …（５）

第１適応量子化器１１４は、第２加算器１１２で求められた第２の予測誤差信号ｄｍ（ｎ）と上記変換テーブルとに基づいて、符号Ｌ（ｎ）を求める。つまり、変換テーブルの第２欄の各符号Ｌ（ｎ）のうち、第２の予測誤差信号ｄｍ（ｎ）に対応する符号Ｌ（ｎ）が第１記憶手段１１３から読み出されて第１適応量子化器１１４から出力される。得られた符号Ｌ（ｎ）はメモリ１０３に送られる。

第１適応逆量子化器１１５は、第１適応量子化器１１４で求められた符号Ｌ（ｎ）と変換テーブルとに基づいて、逆量子化値ｑ（ｎ）を求める。つまり、変換テーブルの第３欄の各逆量子化値ｑ（ｎ）のうち、第１適応量子化器１１４で求められた符号Ｌ（ｎ）に対応する逆量子化値ｑ（ｎ）が第１記憶手段１１３から読み出されて第１適応逆量子化器１１５から出力される。

第１量子化幅更新器１１８は、第１適応量子化器１１４で求められた符号Ｌ（ｎ）と今回の単位量子化幅Ｔ（ｎ）と変換テーブルとに基づいて、次回の量子化幅Ｔ（ｎ＋１）を求める。つまり、変換テーブルの第４欄の各単位量子化幅算出式のうちの、第１適応量子化器１１４で求められた符号Ｌ（ｎ）に対応する単位量子化幅算出式に基づいて、次回の単位量子化幅Ｔ（ｎ＋１）が求められる。

第３加算器１１６は、今回の音声信号サンプリング値ｘ（ｎ）に対する適応予測信号ｆ（ｎ）と逆量子化値ｑ（ｎ）とに基づいて、再生信号ｂ（ｎ）を求める。つまり、第３加算器１１６は、次式（６）に基づいて、再生信号ｂ（ｎ）を求める。

ｂ（ｎ）＝ｆ（ｎ）＋ｑ（ｎ） …（６）

第１適応予測器１１７は、適用予測として全極型モデル（ＡＲ(Auto Regressive) モデル) を用いて、次の音声信号サンプリング値ｘ（ｎ＋１）に対する予測信号ｆ（ｎ＋１）を求める。なお、全極モデルの係数は学習同定法により求められる。以下、第１適応予測器１１７の処理内容について詳しく説明する。

全極型モデルの一般式は、次式（７）で表される。

上記式（７）において、ｙ（ｎ）は系の出力である。ｅ（ｎ）は予測誤差である。ｈｉ（ｎ）は係数である。

上記式（７）の係数ｈｉ（ｎ）を学習同定法により求める場合、係数ｈｉ（ｎ）は次式（８）に基づいて求められる。

上記式（８）において、記号”｜｜・｜｜”はベクトルのユークリッドノルム（要素の二乗和の平方根）を表している。また、αはステップゲインである。

Ｐ＝２として、第１適応予測器１１７に適用した場合について説明する。第１適応予測器１１７は、係数ｈ１（ｎ）およびｈ２（ｎ）を更新するための係数更新部１１７ａと、予測信号ｆ（ｎ）を算出するための適応予測部１１７ｂとから構成されている。

係数更新部１１７ａには、第１適応逆量子化器１１５によって求められた逆量子化値ｑ（ｎ）と、第３加算器１１６によって求められた再生信号ｂ（ｎ）とが入力される。適応予測部１１７ｂには、第３加算器１１６によって求められた再生信号ｂ（ｎ）と、係数更新部１１７ａによって求められた係数ｈ１（ｎ）およびｈ２（ｎ）とが入力される。

係数更新部１１７ａは、次式（９）に基づいて、係数ｈ１（ｎ）およびｈ２（ｎ）を更新する。係数ｈ１（ｎ）およびｈ２（ｎ）の初期値としては、たとえば、ｈ１（ｎ）＝２ｋ，ｈ２（ｎ）＝−ｋに設定される。係数ｈ１（ｎ）およびｈ２（ｎ）の初期値として、０を設定してもよい。

適応予測部１１７ｂは、次式（１０）に基づいて、予測値ｆ（ｎ）を算出する。

〔１−３〕ＡＤＰＣＭ復号化装置１０２について説明
次に、ＡＤＰＣＭ復号化装置１０２について説明する。

このＡＤＰＣＭ復号化装置１０２は、第２記憶手段１２１を備えている。第２記憶手段１２１には、上記第１記憶手段１１３に記憶されている変換テーブルと同じ内容（表１参照）の変換テーブルが記憶されている。

第２適応逆量子化器１２２は、メモリ１０３から得られた符号Ｌ’（ｎ）と変換テーブルとに基づいて、逆量子化値ｑ’（ｎ）を求める。つまり、変換テーブルの第３欄の各逆量子化値ｑ（ｎ）のうち、メモリ１０３から得られた符号Ｌ’（ｎ）が該当する第２欄の符号Ｌ（ｎ）に対応する逆量子化値ｑ’（ｎ）が第２記憶手段１２１から読み出されて第２適応逆量子化器１２２から出力される。

なお、ＡＤＰＣＭ符号化装置１０１で求めたＬ（ｎ）が、正しくＡＤＰＣＭ復号化装置１０２に伝送されれば、即ちＬ（ｎ）＝Ｌ’（ｎ）の場合には、ＡＤＰＣＭ復号化装置１０２側で用いられているｑ’（ｎ），ｆ’（ｎ），Ｔ’（ｎ）およびｂ’（ｎ）は、それぞれＡＤＰＣＭ符号化装置１０１側で用いられているｑ（ｎ），ｆ（ｎ），Ｔ（ｎ）およびｂ（ｎ）の値と等しくなる。

第２量子化幅更新器１２３は、メモリ１０３から得られた符号Ｌ’（ｎ）と今回の単位量子化幅Ｔ’（ｎ）と変換テーブルとに基づいて、次回の単位量子化幅Ｔ’（ｎ＋１）を求める。つまり、変換テーブルの第４欄の各単位量子化幅算出式のうちの、メモリ１０３から得られた符号Ｌ’（ｎ）に対応する単位量子化幅算出式に基づいて、次回の単位量子化幅Ｔ’（ｎ＋１）が求められる。

第４加算器１２４は、第２適応逆量子化器１２２で求められた逆量子化値ｑ’（ｎ）と第２適応予測器１２５で得られた予測信号ｆ’（ｎ）とに基づいて、再生信号ｂ’（ｎ）を求める。つまり、第４加算器１２４は、次式（１１）に基づいて、再生信号ｂ’（ｎ）を求める。求められた再生信号ｂ’（ｎ）は、ＡＤＰＣＭ復号化装置１０２から出力される。

ｂ’（ｎ）＝ｆ’（ｎ）＋ｑ’（ｎ） …（１１）

第２適応予測１２５は、第１適応予測器１１７と同様に、適用予測として全極型モデルを用いて、次の予測信号ｆ’（ｎ＋１）を求め、得られた予測信号ｆ’（ｎ＋１）を第４加算器１２４に送る。なお、全極モデルの係数は学習同定法により求められる。以下、第２適応予測器１２５の処理内容について詳しく説明する。

第２適応予測器１２５は、係数ｈ１’（ｎ）およびｈ２’（ｎ）を更新するための係数更新部１２５ａと、予測信号ｆ’（ｎ）を算出するための適応予測部１２５ｂとから構成されている。

係数更新部１２５ａには、第２適応逆量子化器１２２によって求められた逆量子化値ｑ’（ｎ）と、第４加算器１２４によって求められた再生信号ｂ’（ｎ）とが入力される。適応予測部１２５ｂには、第４加算器１２４によって求められた再生信号ｂ’（ｎ）と、係数更新部１２５ａによって求められた係数ｈ１’（ｎ）およびｈ２’（ｎ）とが入力される。

係数更新部１２５ａは、次式（１２）に基づいて、係数ｈ１’（ｎ）およびｈ２’（ｎ）を更新する。係数ｈ１’（ｎ）およびｈ２’（ｎ）の初期値としては、たとえば、ｋを予め定められた定数とすると、ｈ１’（ｎ）＝２ｋ，ｈ２’（ｎ）＝−ｋに設定される。係数ｈ１’（ｎ）およびｈ２’（ｎ）の初期値として、０を設定してもよい。

適応予測部１２５ｂは、次式（１３）に基づいて、予測値ｆ’（ｎ）を算出する。

図２は、上記ＡＤＰＣＭ符号化装置１０１の動作手順を示している。

まず、入力信号ｘ（ｎ）から予測信号ｆ（ｎ）が減算されることにより、第１の予測誤差信号ｄ（ｎ）が求められる（ステップ２１）。

次に第１の予測誤差信号ｄ（ｎ）が、０以上であるか、０より小さいかが判別される（ステップ２２）。第１の予測誤差信号ｄ（ｎ）が、０以上である場合には、第１の予測誤差信号ｄ（ｎ）に単位量子化幅Ｔ（ｎ）の１／２が加算されることにより、第２の予測誤差信号ｄｍ（ｎ）が求められる（ステップ２３）。

第１の予測誤差信号ｄ（ｎ）が、０より小さい場合には、第１の予測誤差信号ｄ（ｎ）に単位量子化幅Ｔ（ｎ）の１／２が減算されることにより、第２の予測誤差信号ｄｍ（ｎ）が求められる（ステップ２４）。

ステップ２３またはステップ２４によって第２の予測誤差信号ｄｍ（ｎ）が求められると、変換テーブルに基づいて、符号化および逆量子化が行われる（ステップ２５）。つまり、符号Ｌ（ｎ）および逆量子化値ｑ（ｎ）が求められる。

次に変換テーブルに基づいて、単位量子化幅Ｔ（ｎ）が更新される（ステップ２６）。次に、今回の音声信号サンプリング値ｘ（ｎ）に対する適応予測信号ｆ（ｎ）と逆量子化値ｑ（ｎ）と、上記式（６）とに基づいて、再生信号ｂ（ｎ）が求められる（ステップ２７）。そして、上記数式（９），（１０）に基づいて、次の音声信号サンプリング値ｘ（ｎ＋１）に対する予測信号ｆ（ｎ＋１）が求められる（ステップ２８）。

図３は、上記ＡＤＰＣＭ復号化装置１０２の動作手順を示している。
まず、メモリ１０３から符号Ｌ’（ｎ）が読み出され、変換テーブルに基づいて逆量子化値ｑ’（ｎ）が求められる（ステップ３１）。次に、逆量子化値ｑ’（ｎ）と第２適応予測器１２５で得られた予測信号ｆ’（ｎ）とに基づいて、再生信号ｂ’（ｎ）が求められる（ステップ３２）。

この後、上記式（１２），（１３）に基づいて、次の予測信号ｆ’（ｎ＋１）が求められる（ステップ３３）。

そして、変換テーブルに基づいて、次の符号Ｌ’（ｎ＋１）に対して用いられる単位量子化幅Ｔ’（ｎ＋１）が求められる（ステップ３４）。

図４は符号Ｌ（ｎ）が４ビットである場合におけるＡＤＰＣＭ符号化装置１０１の第１適応逆量子化器１１５によって得られる逆量子化値ｑ（ｎ）と第１の予測誤差信号ｄ（ｎ）との関係を示している。Ｔは、ある時点において第１量子化幅更新器１１８によって決定された単位量子化幅を示している。

第１の予測誤差信号ｄ（ｎ）の範囲Ａ〜Ｂを、Ａ，Ｂで示す際に、その範囲に境界Ａを含む場合には”［Ａ”と表し、境界Ａを含まない場合には、”（Ａ”と表すことにする。同様に、その範囲に境界Ｂを含む場合には”Ｂ］”と表し、境界Ｂを含まない場合には、”Ｂ）”と表すことにする。

逆量子化値ｑ（ｎ）は、第１の予測誤差信号ｄ（ｎ）の値が（−０．５Ｔ，０．５Ｔ）の範囲にあるときは０となり、第１の予測誤差信号ｄ（ｎ）の値が［０．５Ｔ，１．５Ｔ）の範囲にあるときはＴとなり、第１の予測誤差信号ｄ（ｎ）の値が［１．５Ｔ，２．５Ｔ）の範囲にあるときは２Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が［２．５Ｔ，３．５Ｔ）の範囲にあるときは３Ｔとなる。

また、逆量子化値ｑ（ｎ）は、第１の予測誤差信号ｄ（ｎ）の値が［３．５Ｔ，５．５Ｔ）の範囲にあるときは４．５となり、第１の予測誤差信号ｄ（ｎ）の値が［５．５Ｔ，７．５Ｔ）の範囲にあるときは６．５Ｔとなる。また、逆量子化値ｑ（ｎ）は、第１の予測誤差信号ｄ（ｎ）の値が［７．５Ｔ，１０．５Ｔ）の範囲にあるときは９Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が［１０．５Ｔ，∞］の範囲にあるときは１２Ｔとなる。さらに、逆量子化値ｑ（ｎ）は、第１の予測誤差信号ｄ（ｎ）の値が（−１．５Ｔ，−０．５Ｔ］の範囲にあるときは−Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が（−２．５Ｔ，−１．５Ｔ）の範囲にあるときは−２Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が（−３．５Ｔ，−２．５Ｔ］の範囲にあるときは−３Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が（−４．５Ｔ，−３．５Ｔ］の範囲にあるときは−４Ｔとなる。

また、逆量子化値ｑ（ｎ）は、第１の予測誤差信号ｄ（ｎ）の値が（−６．５Ｔ，−４．５Ｔ］の範囲にあるときは−５．５Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が（−８．５Ｔ，−６．５Ｔ）の範囲にあるときは−７．５Ｔとなる。また、逆量子化値ｑ（ｎ）は、第１の予測誤差信号ｄ（ｎ）の値が（−１１．５Ｔ，−８．５Ｔ］の範囲にあるときは−１０Ｔとなり、第１の予測誤差信号ｄ（ｎ）の値が［−∞，−１１．５Ｔ］の範囲にあるときは−１３Ｔとなる。

ＡＤＰＣＭ符号化装置およびＡＤＰＣＭ復号化装置の概略構成を示すブロック図である。図１のＡＤＰＣＭ符号化装置の動作を示すフローチャートである。図１のＡＤＰＣＭ復号化装置の動作を示すフローチャートである。予測誤差信号ｄ（ｎ）と逆量子化値ｑ（ｎ）との関係を示すグラフである。

符号の説明

１０１ＡＤＰＣＭ符号化装置
１０２ＡＤＰＣＭ復号化装置
１０３メモリ
１１１，１１２，１１６，１２４加算器
１１３，１２１記憶手段
１１４第１適応量子化器
１１５，１２２適応逆量子化器
１１７，１２５適応予測器
１１７ａ，１２５ａ係数更新部
１１７ｂ，１２５ｂ適応予測部
１１８，１２３量子化幅更新器
１１９信号発生器

Claims

適応予測器を備えているＡＤＰＣＭ方式の音声符号化装置において、適応予測器が全極型モデルで構成されており、適応予測器は全極型モデルの係数を学習同定法に基づいて求める係数更新手段を備えていることを特徴とする音声符号化装置。
適応予測器を備えているＡＤＰＣＭ方式の音声符号化方法において、適応予測器として全極型モデルを用い、かつ全極型モデルの係数を学習同定法に基づいて求めることを特徴とする音声符号化方法。