JP4734286B2

JP4734286B2 - 音声符号化装置

Info

Publication number: JP4734286B2
Application number: JP2007121223A
Authority: JP
Inventors: 利幸森井; 和敏安永
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-08-23
Filing date: 2007-05-01
Publication date: 2011-07-27
Anticipated expiration: 2020-08-23
Also published as: JP2007279754A

Description

本発明は、ディジタル通信システムにおいて使用される音声符号化装置に関する。

携帯電話などのディジタル移動通信の分野では、加入者の増加に対処するために低ビットレートの音声の圧縮符号化法が求められており、各研究機関において研究開発が進んでいる。

日本国内においては、モトローラ社が開発したビットレート１１．２ｋｂｐｓのＶＳＥＬＰという符号化法がディジタル携帯電話用の標準符号化方式として採用され、同方式を搭載したディジタル携帯電話は１９９４年秋から国内において発売されている。

また、ＮＴＴ移動通信網株式会社の開発したビットレート５．６ｋｂｐｓのＰＳＩ−ＣＥＬＰという符号化方式が現在製品化されている。これらの方式はいずれもＣＥＬＰ(Code Exited Linear Prediction: 非特許文献１に記載されている)という方式を改良したものである。

このＣＥＬＰ方式は、音声を音源情報と声道情報とに分離し、音源情報については符号帳に格納された複数の音源サンプルのインデクスによって符号化し、声道情報についてはＬＰＣ（線形予測係数）を符号化するということ及び音源情報符号化の際に声道情報を加味して入力音声とを比較することを行う方法(Ａ−ｂ−Ｓ:Analysis by Synthesis)を採用していることに特徴がある。

このＣＥＬＰ方式においては、まず、入力された音声データ（入力音声）に対して自己相関分析とＬＰＣ分析を行ってＬＰＣ係数を得て、得られたＬＰＣ係数の符号化を行ってＬＰＣ符号を得る。さらに、得られたＬＰＣ符号を復号化して復号化ＬＰＣ係数を得る。一方、入力音声は、ＬＰＣ係数を用いた聴感重み付けフィルタを用いて聴感重み付けされる。

適応符号帳と確率的符号帳に格納された音源サンプル（それぞれ適応コードベクトル（又は適応音源）、確率的コードベクトル（又は、確率的音源）と呼ぶ）のそれぞれのコードベクトルに対して、得られた復号化ＬＰＣ係数によってフィルタリングを行い、２つの合成音を得る。

そして、得られた２つの合成音と、聴感重み付けされた入力音声との関係を分析し、２つの合成音の最適値（最適ゲイン）を求め、求められた最適ゲインによって合成音をパワー調整し、それぞれの合成音を加算して総合合成音を得る。その後、得られた総合合成音と入力音声との間の符号化歪みを求める。このようにして、全ての音源サンプルに対して総合合成音と入力音声との間の符号化歪みを求め、符号化歪みが最も小さいときの音源サンプルのインデクスを求める。

このようにして得られたゲイン及び音源サンプルのインデクスを符号化し、これらの符号化されたゲイン及び音源サンプルをＬＰＣ符号と共に伝送路に送る。また、ゲイン符号と音源サンプルのインデクスに対応する２つの音源から実際の音源信号を作成し、それを適応符号帳に格納すると同時に古い音源サンプルを破棄する。

なお、一般的には、適応符号帳と確率的符号帳に対する音源探索は、分析区間をさらに細かく分けた区間（サブフレームと呼ばれる）で行われる。

ゲインの符号化（ゲイン量子化）は、音源サンプルのインデクスに対応する２つの合成音を用いてゲインの量子化歪を評価するベクトル量子化（ＶＱ）によって行われる。

このアルゴリズムにおいては、予めパラメータベクトルの代表的サンプル（コードベクトル）が複数格納されたベクトル符号帳を作成しておく。次いで、聴感重み付けした入力音声と、適応音源及び確率的音源を聴感重み付けＬＰＣ合成したものとに対して、ベクトル符号帳に格納されたゲインコードベクトルを用いて符号化歪を下記式１により計算する。

式１
ここで、
Ｅ_n：ｎ番のゲインコードベクトルを用いたときの符号化歪み
Ｘ_i：聴感重み付け音声
Ａ_i：聴感重み付けＬＰＣ合成済み適応音源
Ｓ_i：聴感重み付けＬＰＣ合成済み確率的音源
ｇ_n：コードベクトルの要素（適応音源側のゲイン）
ｈ_n：コードベクトルの要素（確率的音源側のゲイン）
ｎ：コードベクトルの番号
ｉ：音源データのインデクス
Ｉ：サブフレーム長（入力音声の符号化単位）

次いで、ベクトル符号帳を制御することによって各コードベクトルを用いたときの歪Ｅ_nを比較し、最も歪の小さいコードベクトルの番号をベクトルの符号とする。また、ベクトル符号帳に格納された全てのコードベクトルの中で最も歪みが小さくなるコードベクトルの番号を求め、これをベクトルの符号とする。

上記式１は一見して各ｎ毎に多くの計算を必要とするように見えるが、予めｉについての積和を計算しておけばよいので、少ない計算量でｎの探索を行うことができる。

一方、音声復号化装置（デコーダ）では、伝送されてきたベクトルの符号に基づいてコードベクトルを求めることによって符号化されたデータを復号化してコードベクトルを得る。

また、上記アルゴリズムを基本として、従来よりさらなる改良がなされてきた。例えば、人間の音圧の聴覚特性が対数であることを利用し、パワを対数化して量子化し、そのパワで正規化した２つのゲインをＶＱする。この方法は、日本国ＰＤＣハーフレートコーデックの標準方式で用いられている方法である。また、ゲインパラメータのフレーム間相関を利用して符号化する方法（予測符号化）がある。この方法は、ＩＴＵ−Ｔ国際標準Ｇ．７２９で用いられている方法である。しかしながら、これらの改良によっても十分な性能を得ることができていない。
M.R.Schroeder "High Quality Speech at Low Bit Rates" Proc.ICASSP'85 pp.937-940

これまで人間の聴覚特性やフレーム間相関を利用したゲイン情報符号化法が開発され、ある程度効率の良いゲイン情報の符号化が可能になった。特に、予測量子化によって性能は大きく向上したが、その従来法では、状態としての値として以前のサブフレームの値をそのまま用いて予測量子化を行っていた。しかしながら、状態として格納される値の中には、極端に大きな（小さな）値をとるものがあり、その値を次のサブフレームに用いると、次のサブフレームの量子化がうまくいかず、局所的異音になる場合がある。

本発明はかかる点に鑑みてなされたものであり、局所的異音を生じることなく音声符号化を行うことができるＣＥＬＰ型音声符号化装置を提供することを目的とする。

本発明は、１つのフレームを複数のサブフレームに分解して符号化を行うＣＥＬＰ型音声符号化装置であって、適応符号帳及び確率的符号帳に格納された適応音源及び確率的音源に対して、入力音声から求めたＬＰＣ係数を用いてフィルタリングすることにより、合成音を得るＬＰＣ合成手段と、前記適応音源及び前記確率的音源のゲインを求めるゲイン演算手段と、前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音源及び確率的音源、並びに前記ゲインのベクトル量子化を行うパラメータ符号化手段と、フレームの最初のサブフレームの適応符号帳探索を行う前に、前記複数のサブフレームに対して前記入力音声の自己相関係数とパワ成分とを求め、前記自己相関係数と前記パワ成分とを用いて最もピッチ周期に近似する値を代表ピッチ周期として算出するピッチ分析手段と、前記自己相関係数、前記パワ成分及び前記代表ピッチ周期を用いて、ラグの探索範囲の中心となる仮ピッチを求め、前記仮ピッチの前後の指定の範囲を前記複数のサブフレームのラグの探索範囲として設定する探索範囲設定手段と、を備え、前記適応符号帳探索は、前記ラグの探索範囲に対して行われる構成を採る。

本発明によれば、第２サブフレームの探索の時に第２サブフレームの仮ピッチ付近を探索できるので、フレームの後半から音声が始まる場合などの非定常なフレームでも、第１，第２サブフレームにおいて適当なラグ探索が可能になり、局所的異音を生じることなく音声符号化を行うことができる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１，２に係る音声符号化装置を備えた無線通信装置の構成を示すブロック図である。

この無線通信装置において、送信側で音声がマイクなどの音声入力装置１１によって電気的アナログ信号に変換され、Ａ／Ｄ変換器１２に出力される。アナログ音声信号は、Ａ／Ｄ変換器１２によってディジタル音声信号に変換され、音声符号化部１３に出力される。音声符号化部１３は、ディジタル音声信号に対して音声符号化処理を行い、符号化した情報を変復調部１４に出力する。変復調部１４は、符号化された音声信号をディジタル変調して、無線送信部１５に送る。無線送信部１５では、変調後の信号に所定の無線送信処理を施す。この信号は、アンテナ１６を介して送信される。なお、プロセッサ２１は、適宜ＲＡＭ２２及びＲＯＭ２３に格納されたデータを用いて処理を行う。

一方、無線通信装置の受信側では、アンテナ１６で受信した受信信号は、無線受信部１７で所定の無線受信処理が施され、変復調部１４に送られる。変復調部１４では、受信信号に対して復調処理を行い、復調後の信号を音声復号化部１８に出力する。音声復号化部１８は、復調後の信号に復号処理を行ってディジタル復号音声信号を得て、そのディジタル復号音声信号をＤ／Ａ変換器１９へ出力する。Ｄ／Ａ変換器１９は、音声復号化部１８から出力されたディジタル復号音声信号をアナログ復号音声信号に変換してスピーカなどの音声出力装置２０に出力する。最後に音声出力装置２０が電気的アナログ復号音声信号を復号音声に変換して出力する。

ここで、音声符号化部１３及び音声復号化部１８は、ＲＡＭ２２及びＲＯＭ２３に格納された符号帳を用いてＤＳＰなどのプロセッサ２１により動作する。また、これらの動作プログラムは、ＲＯＭ２３に格納されている。

図２は、本発明の実施の形態１に係るＣＥＬＰ型音声符号化装置の構成を示すブロック図である。この音声符号化装置は、図１に示す音声符号化部１３に含まれている。なお、図２に示す適応符号帳１０３は図１に示すＲＡＭ２２に格納されており、図２に示す確率的符号帳１０４は図１に示すＲＯＭ２３に格納されている。

図２に示す音声符号化装置においては、ＬＰＣ分析部１０２において、入力された音声データ（入力音声）１０１に対して自己相関分析及びＬＰＣ分析を行ってＬＰＣ係数を得る。また、ＬＰＣ分析部１０２では、得られたＬＰＣ係数の符号化を行ってＬＰＣ符号を得る。さらに、ＬＰＣ分析部１０２では、得られたＬＰＣ符号を復号化して復号化ＬＰＣ係数を得る。入力された音声データ１０１は、聴感重み付け部１０７に送られ、そこで上記ＬＰＣ係数を用いた聴感重み付けフィルタを用いて聴感重み付けされる。

次に、音源作成部１０５において、適応符号帳１０３に格納された音源サンプル（適応コードベクトル又は適応音源）と確率的符号帳１０４に格納された音源サンプル（確率的コードベクトル又は、確率的音源）を取り出し、それぞれのコードベクトルを聴感重みＬＰＣ合成部１０６へ送る。さらに、聴感重みＬＰＣ合成部１０６において、音源作成部１０５で得られた２つの音源に対して、ＬＰＣ分析部１０２で得られた復号化ＬＰＣ係数によってフィルタリングを行い、２つの合成音を得る。

なお、聴感重みＬＰＣ合成部１０６においては、ＬＰＣ係数や高域強調フィルタや長期予測係数（入力音声の長期予測分析を行うことによって得られる）を用いた聴感重み付けフィルターを併用してそれぞれの合成音に対して聴感重み付けＬＰＣ合成を行う。

聴感重みＬＰＣ合成部１０６は、２つの合成音をゲイン演算部１０８に出力する。ゲイン演算部１０８は、図３に示す構成を有する。ゲイン演算部１０８においては、聴感重みＬＰＣ合成部１０６で得られた２つの合成音及びを聴感重み付けされた入力音声を分析部１０８１に送り、そこで２つの合成音と入力音声との関係を分析し、２つの合成音の最適値（最適ゲイン）を求める。この最適ゲインは、パワ調整部１０８２に出力される。

パワ調整部１０８２では、求められた最適ゲインによって２つの合成音をパワ調整する。パワ調整された合成音は、合成部１０８３に出力されて、そこで加算されて総合合成音となる。この総合合成音は、符号化歪算出部１０８４に出力される。符号化歪算出部１０８４では、得られた総合合成音と入力音声との間の符号化歪みを求める。

符号化歪算出部１０８４は、音源作成部１０５を制御して、適応符号帳１０３及び確率的符号帳１０４の全ての音源サンプルを出力させ、全ての音源サンプルに対して総合合成音と入力音声との間の符号化歪みを求め、符号化歪みが最も小さいときの音源サンプルのインデクスを求める。

次に、分析部１０８１は、音源サンプルのインデクス、そのインデクスに対応する２つの聴感重み付けＬＰＣ合成された音源、及び入力音声をパラメータ符号化部１０９に送る。

パラメータ符号化部１０９では、ゲインの符号化を行うことによってゲイン符号を得、ＬＰＣ符号、音源サンプルのインデクスをまとめて伝送路へ送る。また、ゲイン符号とインデクスに対応する２つの音源から実際の音源信号を作成し、それを適応符号帳１０３に格納すると同時に古い音源サンプルを破棄する。なお、一般的には、適応符号帳と確率的符号帳に対する音源探索は、分析区間をさらに細かく分けた区間（サブフレームと呼ばれる）で行われる。

ここで、上記構成を有する音声符号化装置のパラメータ符号化部１０９のゲイン符号化の動作について説明する。図４は、本発明の音声符号化装置のパラメータ符号化部の構成を示すブロック図である。

図４において、聴感重み付け入力音声（Ｘ_i）、聴感重み付けＬＰＣ合成済み適応音源（Ａ_i）、及び聴感重み付けＬＰＣ合成済み確率的音源（Ｓ_i）がパラメータ計算部１０９１に送られる。パラメータ計算部１０９１では、符号化歪計算に必要なパラメータを計算する。パラメータ計算部１０９１で計算されたパラメータは、符号化歪計算部１０９２に出力され、そこで符号化歪が計算される。この符号化歪は、比較部１０９３に出力される。比較部１０９３では、符号化歪計算部１０９２及びベクトル符号帳１０９４を制御して、得られた符号化歪から最も適当とされる符号（復号化ベクトル）を求め、この符号を基にベクトル符号帳１０９４から得られるコードベクトルを復号化ベクトル格納部１０９６に出力し、復号化ベクトル格納部１０９６を更新する。

予測係数格納部１０９５は、予測符号化に用いる予測係数を格納する。この予測係数はパラメータ計算及び符号化歪計算に用いられるために、パラメータ計算部１０９１及び符号化歪計算部１０９２に出力される。復号化ベクトル格納部１０９６は、予測符号化のために状態を格納する。この状態は、パラメータ計算に用いられるため、パラメータ計算部１０９１に出力される。ベクトル符号帳１０９４は、コードベクトルを格納する。

次に、本発明に係るゲイン符号化方法のアルゴリズムについて説明する。
予め、量子化対象ベクトルの代表的サンプル（コードベクトル）が複数格納されたベクトル符号帳１０９４を作成しておく。各ベクトルは、ＡＣゲイン、ＳＣゲインの対数値に対応する値、及びＳＣの予測係数の調整係数の３つの要素からなる。

この調整係数は、以前のサブフレームの状態に応じて予測係数を調整する係数である。具体的には、この調整係数は、以前のサブフレームの状態が極端に大きな値又は極端に小さな値である場合に、その影響を小さくするように設定される。この調整係数は、多数のベクトルサンプルを用いた本発明者らが開発した学習アルゴリズムにより求めることが可能である。ここでは、この学習アルゴリズムについての説明は省略する。

例えば、有声音に多くの頻度で用いるコードベクトルは調整係数を大きく設定する。すなわち、同じ波形が並んでいる場合には、以前のサブフレームの状態の信頼性が高いので調整係数を大きくして、以前のサブフレームの予測係数をそのまま利用できるようにする。これにより、より効率的な予測を行うことができる。

一方、語頭などに使用するあまり使用頻度の少ないコードベクトルは調整係数を小さくする。すなわち、前の波形と全然違う場合には、以前のサブフレームの状態の信頼性が低い（適応符号帳が機能しないと考えられる）ので、調整係数を小さくして、以前のサブフレームの予測係数の影響を小さくする。これにより、次の予測の弊害を防いで良好な予測符号化を実現することができる。

このように、各コードベクトル（状態）に応じて予測係数を制御することにより、これまでの予測符号化の性能をさらに向上させることができる。

また、予測係数格納部１０９５には、予測符号化を行うための予測係数を格納しておく。この予測係数はＭＡ(moving average)の予測係数でＡＣとＳＣの２種類を予測次数分格納する。これらの予測係数値は、一般に、予め多くのデータを用いた学習により求めておく。また、復号化ベクトル格納部１０９６には、初期値として無音状態を示す値を格納しておく。

次に、符号化方法について詳細に説明する。まず、パラメータ計算部１０９１に聴感重み付け入力音声（Ｘ_i）、聴感重み付けＬＰＣ合成済み適応音源（Ａ_i）、聴感重み付けＬＰＣ合成済み確率的音源（Ｓ_i）を送り、さらに復号化ベクトル格納部１０９６に格納された復号化ベクトル（ＡＣ、ＳＣ、調整係数）、予測係数格納部１０９５に格納された予測係数（ＡＣ、ＳＣ）を送る。これらを用いて符号化歪計算に必要なパラメータを計算する。

符号化歪計算部１０９２における符号化歪計算は、下記式２にしたがって行う。

式２
ここで、
Ｇ_an，Ｇ_sn：復号化ゲイン
Ｅ_n：ｎ番のゲインコードベクトルを用いたときの符号化歪み
Ｘ_i：聴感重み付け音声
Ａ_i：聴感重み付けＬＰＣ合成済み適応音源
Ｓ_i：聴感重み付けＬＰＣ合成済み確率的音源
ｎ：コードベクトルの番号
ｉ：音源ベクトルのインデクス
Ｉ：サブフレーム長（入力音声の符号化単位）

この場合、演算量を少なくするために、パラメータ計算部１０９１では、コードベクトルの番号に依存しない部分の計算を行う。計算しておくものは、上記予測ベクトルと３つの合成音（Ｘ_i，Ａ_i，Ｓ_i）間の相関、パワである。この計算は、下記式３にしたがって行う。

式３
Ｄ_xx，Ｄ_xa，Ｄ_xs，Ｄ_aa，Ｄ_as，Ｄ_ss：合成音間の相関値、パワ
Ｘ_i：聴感重み付け音声
Ａ_i：聴感重み付けＬＰＣ合成済み適応音源
Ｓ_i：聴感重み付けＬＰＣ合成済み確率的音源
ｎ：コードベクトルの番号
ｉ：音源ベクトルのインデクス
Ｉ：サブフレーム長（入力音声の符号化単位）

また、パラメータ計算部１０９１では、復号化ベクトル格納部１０９６に格納された過去のコードベクトルと、予測係数格納部１０９５に格納された予測係数を用いて下記式４に示す３つの予測値を計算しておく。

式４
ここで、
Ｐ_ra：予測値（ＡＣゲイン）
Ｐ_rs：予測値（ＳＣゲイン）
Ｐ_sc：予測値（予測係数）
α_m：予測係数（ＡＣゲイン、固定値）
β_m：予測係数（ＳＣゲイン、固定値）
Ｓ_am：状態（過去のコードベクトルの要素、ＡＣゲイン）
Ｓ_sm：状態（過去のコードベクトルの要素、ＳＣゲイン）
Ｓ_cm：状態（過去のコードベクトルの要素、ＳＣ予測係数調整係数）
ｍ：予測インデクス
Ｍ：予測次数

上記式４から分かるように、Ｐ_rs、Ｐ_scについては、従来と異なり調整係数が乗算されている。したがって、ＳＣゲインの予測値及び予測係数については、調整係数により、以前のサブフレームにおける状態の値が極端に大きいか小さい場合に、それを緩和する（影響を小さくする）ことができる。すなわち、状態に応じて適応的にＳＣゲインの予測値及び予測係数を変化させることが可能となる。

次に、符号化歪計算部１０９２において、パラメータ計算部１０９１で計算した各パラメータ、予測係数格納部１０９５に格納された予測係数、及びベクトル符号帳１０９４に格納されたコードベクトルを用いて、下記式５にしたがって符号化歪を算出する。

式５
ここで、
Ｅ_n：ｎ番のゲインコードベクトルを用いたときの符号化歪み
Ｄ_xx，Ｄ_xa，Ｄ_xs，Ｄ_aa，Ｄ_as，Ｄ_ss：合成音間の相関値、パワ
Ｇ_an，Ｇ_sn：復号化ゲイン
Ｐ_ra：予測値（ＡＣゲイン）
Ｐ_rs：予測値（ＳＣゲイン）
Ｐ_ac：予測係数の和（固定値）
Ｐ_sc：予測係数の和（上記式４で算出）
Ｃ_an，Ｃ_sn，Ｃ_cn：コードベクトル、Ｃ_cnは予測係数調整係数であるがここでは使用しない
ｎ：コードベクトルの番号
なお、実際にはＤ_xxはコードベクトルの番号ｎに依存しないので、その加算を省略することができる。

次いで、比較部１０９３は、ベクトル符号帳１０９４と符号化歪計算部１０９２を制御し、ベクトル符号帳１０９４に格納された複数のコードベクトルの中で符号化歪計算部１０９２にて算出された符号化歪みの最も小さくなるコードベクトルの番号を求め、これをゲインの符号とする。また、得られたゲインの符号を用いて復号化ベクトル格納部１０９６の内容を更新する。更新は、下記式６にしたがって行う。

式６
ここで、
Ｓ_am，Ｓ_sm，Ｓ_cm：状態ベクトル（ＡＣ、ＳＣ、予測係数調整係数）
ｍ：予測インデクス
Ｍ：予測次数
Ｊ：比較部で求められた符号

式４から式６までで分かるように、本実施の形態では、復号化ベクトル格納部１０９６で状態ベクトルＳ_cmを格納しておいて、この予測係数調整係数を用いて予測係数を適応的に制御している。

図５は、本発明の実施の形態の音声復号化装置の構成を示すブロック図である。この音声復号化装置は、図１に示す音声復号化部１８に含まれている。なお、図５に示す適応符号帳２０２は図１に示すＲＡＭ２２に格納されており、図５に示す確率的符号帳２０３は図１に示すＲＯＭ２３に格納されている。

図５に示す音声復号化装置において、パラメータ復号化部２０１は、伝送路から、符号化された音声信号を得ると共に、各音源符号帳（適応符号帳２０２、確率的符号帳２０３）の音源サンプルの符号、ＬＰＣ符号、及びゲイン符号を得る。そして、ＬＰＣ符号から復号化されたＬＰＣ係数を得て、ゲイン符号から復号化されたゲインを得る。

そして、音源作成部２０４は、それぞれの音源サンプルに復号化されたゲインを乗じて加算することによって復号化された音源信号を得る。この際、得られた復号化された音源信号を、音源サンプルとして適応符号帳２０４へ格納し、同時に古い音源サンプルを破棄する。そして、ＬＰＣ合成部２０５では、復号化された音源信号に復号化されたＬＰＣ係数によるフィルタリングを行うことによって、合成音を得る。

また、２つの音源符号帳は、図２に示す音声符号化装置に含まれるもの（図２の参照符号１０３，１０４）と同様のものであり、音源サンプルを取り出すためのサンプル番号（適応符号帳への符号と確率的符号帳への符号）は、いずれもパラメータ復号化部２０１から供給される。

このように、本実施の形態の音声符号化装置では、各コードベクトルに応じて予測係数を制御することが可能になり、音声の局所的特徴により適応したより効率的な予測や、非定常部における予測の弊害を防ぐことが可能になり、従来得られなかった格別の効果を得ることができる。

（実施の形態２）
音声符号化装置において、上述したように、ゲイン演算部では、音源作成部から得られた適応符号帳、確率的符号帳の全ての音源について合成音と入力音声との間の比較を行う。このとき、演算量の都合上、通常は２つの音源（適応符号帳と確率的符号帳）はオープンループに探索される。以下、図２を参照して説明する。

このオープンループ探索においては、まず、音源作成部１０５は適応符号帳１０３からのみ音源候補を次々に選び、聴感重みＬＰＣ合成部１０６を機能させて合成音を得て、ゲイン演算部１０８へ送り、合成音と入力音声との間の比較を行って最適な適応符号帳１０３の符号を選択する。

次いで、上記適応符号帳１０３の符号を固定して、適応符号帳１０３からは同じ音源を選択し、確率的符号帳１０４からはゲイン演算部１０８の符号に対応した音源を次々に選択して聴感重みＬＰＣ合成部１０６へ伝送する。ゲイン演算部１０８で両合成音の和と入力音声との間の比較を行って確率的符号帳１０４の符号を決定する。

このアルゴリズムを用いた場合、全ての符号帳の符号をそれぞれに対して全て探索するよりは符号化性能は若干劣化するが、計算量は大幅に削減される。このため一般にはこのオープンループ探索が用いられる。

ここで、従来のオープンループの音源探索の中で代表的なアルゴリズムについて説明する。ここでは、１つの分析区間（フレーム）に対して２つのサブフレームで構成する場合の音源探索手順について説明する。

まず、ゲイン演算部１０８の指示を受けて、音源作成部１０５は適応符号帳１０３から音源を引出して聴感重みＬＰＣ合成部１０６へ送る。ゲイン演算部１０８において、合成された音源と第１サブフレームの入力音声との間の比較を繰り返して最適な符号を求める。ここで、適応符号帳の特徴を示す。適応符号帳は過去において合成に使用した音源である。そして、符号は、図６に示すようにタイムラグに対応している。

次に、適応符号帳１０３の符号が決まった後に、確率的符号帳の探索を行う。音源作成部１０５は適応符号帳１０３の探索で得られた符号の音源とゲイン演算部１０８で指定された確率的符号帳１０４の音源とを取り出して聴感重みＬＰＣ合成部１０６へ送る。そして、ゲイン演算部１０８において、聴感重み付け済みの合成音と聴感重み付け済みの入力音声との間の符号化歪みを計算し、最も適当な（二乗誤差が最小となるもの）確率的音源１０４の符号を決める。１つの分析区間（サブフレームが２の場合）での音源符号探索の手順を以下に示す。

１）第１サブフレームの適応符号帳の符号を決定
２）第１サブフレームの確率的符号帳の符号を決定
３）パラメータ符号化部１０９でゲインを符号化し、復号化ゲインで第１サブフレームの音源を作成し、適応符号帳１０３を更新する。
４）第２サブフレームの適応符号帳の符号を決定
５）第２サブフレームの確率的符号帳の符号を決定
６）パラメータ符号化部１０９でゲインを符号化し、復号化ゲインで第２サブフレームの音源を作成し、適応符号帳１０３を更新する。

上記アルゴリズムによって効率よく音源の符号化を行うことができる。しかしながら、最近では、さらなる低ビットレート化を目指し、音源のビット数を節約する工夫が行われている。特に注目されているのは、適応符号帳のラグに大きな相関があることを利用して、第１サブフレームの符号はそのままで、第２サブフレームの探索範囲を第１サブフレームのラグの近くに狭めて（エントリ数を減らして）ビット数を少なくするというアルゴリズムである。

このアルゴリズムでは、分析区間（フレーム）の途中から音声が変化する場合や、２つのサブフレームの様子が大きく異なる場合には局所的劣化を引き起こすことが考えられる。

本実施の形態では、符号化の前に２つのサブフレーム両方についてピッチ分析を行って相関値を算出し、得られた相関値に基づいて２つのサブフレームのラグの探索範囲を決定する探索方法を実現する音声符号化装置を提供する。

具体的には、本実施の形態の音声符号化装置は、１つのフレームを複数のサブフレームに分解してそれぞれを符号化するＣＥＬＰ型符号化装置において、最初のサブフレームの適応符号帳探索の前に、フレームを構成する複数のサブフレームのピッチ分析を行って相関値を算出するピッチ分析部と、上記ピッチ分析部がフレームを構成する複数のサブフレームの相関値を算出すると共に、その相関値の大小から各サブフレームで最もピッチ周期らしい値（代表ピッチと呼ぶ）を求め、ピッチ分析部にて得られた相関値と代表ピッチとに基づいて複数のサブフレームのラグの探索範囲を決定する探索範囲設定部と、を備えることを特徴としている。

そして、この音声符号化装置では、探索範囲設定部において、ピッチ分析部で得た複数のサブフレームの代表ピッチと相関値を利用して探索範囲の中心となる仮のピッチ（仮ピッチと呼ぶ）を求め、探索範囲設定部において、求めた仮ピッチの周りの指定の範囲にラグの探索区間を設定し、ラグの探索区間を設定するときに、仮ピッチの前後に探索範囲を設定する。また、その際に、ラグの短い部分の候補を少なくし、ラグのより長い範囲を広く設定し、適応符号帳探索の際に上記探索範囲設定部で設定された範囲でラグの探索を行う。

以下、本実施の形態に係る音声符号化装置について添付図面を用いて詳細に説明する。ここでは、１フレームは２サブフレームに分割されているものとする。３サブフレーム以上の場合でも同様の手順で符号化を行うことができる。

この音声符号化装置においては、いわゆるデルタラグ方式によるピッチ探索において、分割されたサブフレームについてすべてピッチを求め、ピッチ間でどの程度の相関があるかどうかを求めて、その相関結果に応じて探索範囲を決定する。

図７は、本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図である。まず、ＬＰＣ分析部３０２において、入力された音声データ（入力音声）３０１に対して自己相関分析とＬＰＣ分析を行うことによってＬＰＣ係数を得る。また、ＬＰＣ分析部３０２において、得られたＬＰＣ係数の符号化を行ってＬＰＣ符号を得る。さらに、ＬＰＣ分析部３０２において、得られたＬＰＣ符号を復号化して復号化ＬＰＣ係数を得る。

次いで、ピッチ分析部３１０において、２サブフレーム分の入力音声のピッチ分析を行い、ピッチ候補とパラメータを求める。１サブフレームに対するアルゴリズムを以下に示す。相関係数は、下記式７により、２つ求められる。なおこの時、Ｃ_ppはＰ_minについてまず求め、あとのＰ_min+1、Ｐ_min+2については、フレーム端の値の足し引きで効率的に計算できる。

式７
ここで、
Ｘ_i，Ｘ_i-P：入力音声
Ｖ_p：自己相関関数
Ｃ_pp：パワ成分
ｉ：入力音声のサンプル番号
Ｌ：サブフレームの長さ
Ｐ：ピッチ
Ｐ_min，Ｐ_max：ピッチの探索を行う最小値と最大値

そして、上記式７で求めた自己相関関数とパワ成分はメモリに蓄えておき、次の手順で代表ピッチＰ₁を求める。これはＶ_pが正でＶ_p×Ｖ_p／Ｃ_ppを最大にするピッチＰを求める処理となっている。ただし、割り算は一般的に計算量がかかるので、分子と分母を２つとも格納し、掛け算に直して効率化を図っている。

ここでは、入力音声と入力音声からピッチ分過去の適応音源との差分の二乗和が最も小さくなるようなピッチを探す。この処理はＶ_p×Ｖ_p／Ｃ_ppを最大にするピッチＰを求める処理と等価となる。具体的な処理は以下のようになる。

１）初期化（Ｐ＝Ｐ_min、ＶＶ＝Ｃ＝０、Ｐ₁＝Ｐ_min）
２）もし（Ｖ_p×Ｖ_p×Ｃ＜ＶＶ×Ｃ_pp）又は（Ｖ_p＜０）ならば４）へ。それ以外なら３）へ。
３）ＶＶ＝Ｖ_p×Ｖ_p、Ｃ＝Ｃ_pp、Ｐ₁＝Ｐとして４）へ
４）Ｐ＝Ｐ＋１とする。この時Ｐ＞Ｐ_maxであれば終了、それ以外の場合には２）へ。

上記作業を２サブフレームのそれぞれについて行い、代表ピッチＰ₁、Ｐ₂と自己相関係数Ｖ_1p、Ｖ_2p、パワー成分Ｃ_1pp、Ｃ_2pp（Ｐ_min＜ｐ＜Ｐ_max）を求める。

次に、探索範囲設定部３１１で適応符号帳のラグの探索範囲を設定する。まず、その探索範囲の軸となる仮ピッチを求める。仮ピッチはピッチ分析部３１０で求めた代表ピッチとパラメータを用いて行う。

仮ピッチＱ₁、Ｑ₂は以下の手順で求める。なお、以下の説明においてラグの範囲として定数Ｔｈ（具体的には６程度が適当である）を用いる。また、相関値は上記式７で求めたものを用いる。

まず、Ｐ₁を固定した状態でＰ₁の付近（±Ｔｈ）で相関の最も大きい仮ピッチ（Ｑ₂）を見つける。

１）初期化（ｐ＝Ｐ₁−Ｔｈ、Ｃ_max＝０、Ｑ₁＝Ｐ₁、Ｑ₂＝Ｐ₁）
２）もし（Ｖ_1p1×Ｖ_1p1／Ｃ_1p1p1＋Ｖ_2p×Ｖ_2p／Ｃ_2pp＜Ｃ_max）または（Ｖ_2p＜０）ならば４）へ。それ以外なら３）へ。
３）Ｃ_max＝Ｖ_1p1×Ｖ_1p1／Ｃ_1p1p1＋Ｖ_2p×Ｖ_2p／Ｃ_2pp、Ｑ₂＝ｐとして４）へ
４）ｐ＝ｐ＋１として２）へ。ただし、この時ｐ＞Ｐ₁＋Ｔｈであれば５）へ。

このようにして２）〜４）の処理をＰ₁−Ｔｈ〜Ｐ₁＋Ｔｈまで行って、相関の最も大きいものＣ_maxと仮ピッチＱ₂を求める。

次に、Ｐ₂を固定した状態でＰ₂の付近（±Ｔｈ）で相関の最も大きい仮ピッチ（Ｑ₁）を求める。この場合、Ｃ_maxは初期化しない。Ｑ₂を求めた際のＣ_maxを含めて相関が最大となるＱ₁を求めることにより、第１，第２サブフレーム間で最大の相関を持つＱ₁，Ｑ₂を求めることが可能となる。

５）初期化（ｐ＝Ｐ₂−Ｔｈ）
６）もし（Ｖ_1p×Ｖ_1p／Ｃ_1pp＋Ｖ_2p2×Ｖ_2p2／Ｃ_2p2p2＜Ｃ_max）又は（Ｖ_1p＜０）ならば８）へ。それ以外は７）へ。
７）Ｃ_max＝Ｖ_1p×Ｖ_1p／Ｃ_1pp＋Ｖ_2p2×Ｖ_2p2／Ｃ_2p2p2、Ｑ₁＝ｐ、Ｑ₂＝Ｐ₂として８）へ。
８）ｐ＝ｐ＋１として６）へ。ただし、この時ｐ＞Ｐ₂＋Ｔｈであれば９）へ。
９）終了。

このようにして６）〜８）の処理をＰ₂−Ｔｈ〜Ｐ₂＋Ｔｈまで行って、相関の最も大きいものＣ_maxと仮ピッチＱ₁、Ｑ₂を求める。この時のＱ₁、Ｑ₂が第１サブフレームと第２サブフレームの仮ピッチである。

上記アルゴリズムにより、２つのサブフレームの相関を同時に評価しながら大きさに比較的差のない（差の最大はＴｈである）仮ピッチを２つ選択することができる。この仮ピッチを用いることにより、第２サブフレームの適応符号帳探索の際に、探索の範囲を狭く設定しても符号化性能を大きく劣化させることを防止できる。例えば、第２サブフレームから音質が急に変化した場合などで、第２サブフレームの相関が強い場合は、第２サブフレームの相関を反映したＱ₁を用いることで第２サブフレームの劣化を回避出来る。

さらに、探索範囲設定部３１１は、求めた仮ピッチＱ₁を用いて適応符号帳の探索を行う範囲（Ｌ__ST〜Ｌ__EN）を下記式８のようにして設定する。

式８
ここで、
Ｌ__ST：探索範囲の始点
Ｌ__EN：探索範囲の終点
Ｌ_min：ラグの最小値（例：２０）
Ｌ_max：ラグの最大値（例：１４３）
Ｔ₁：第１サブフレームの適応符号帳ラグ

上記設定において、第１サブフレームは探索範囲を狭める必要はない。しかしながら、本発明者らは、入力音声のピッチに基づいた値の付近を探索区間とした方が性能が良いことを実験により確認しており、本実施の形態では２６サンプルに狭めて探索するアルゴリズムを使用している。

また、第２サブフレームは第１サブフレームで求められたラグＴ₁を中心にその付近に探索範囲を設定している。したがって、合計３２エントリで、第２サブフレームの適応符号帳のラグを５ビットで符号化できることになる。また、本発明者らは、この時もラグの小さい候補を少なく、ラグの大きい候補を多く設定することにより、より良い性能が得られることを実験により確認している。ただし、これまでの説明でわかるように、本実施の形態においては、仮ピッチＱ₂は使用しない。

ここで、本実施の形態における効果について説明する。探索範囲設定部３１１によって得られた第１サブフレームの仮ピッチの近くには、第２サブフレームの仮ピッチも存在している（定数Ｔｈで制限したため）。また、第１サブフレームにおいて探索範囲を絞って探索しているので、探索の結果得られるラグは第１サブフレームの仮ピッチから離れない。

したがって、第２サブフレームの探索の時には、第２サブフレームの仮ピッチから近い範囲を探索できることになり、第１，第２サブフレームの両方において適当なラグが探索できることになる。

例として、第１サブフレームが無音で、第２サブフレームから音声が立ち上がった場合を考える。従来法では、探索範囲を狭めることで第２サブフレームのピッチが探索区間に含まれなくなると、音質は大きく劣化してしまう。本実施の形態に係る方法においては、ピッチ分析部の仮ピッチの分析において、代表ピッチＰ₂の相関は強く出る。したがって、第１サブフレームの仮ピッチはＰ₂付近の値になる。このため、デルタラグによる探索の際に、音声が立ち上がった部分に近い部分を仮ピッチとすることができる。すなわち、第２サブフレームの適応符号帳の探索の時には、Ｐ₂付近の値を探索できることになり、途中で音声の立ち上がり生じても劣化なくデルダラグにより第２サブフレームの適応符号帳探索を行うことができる。

次に、音源作成部３０５において、適応符号帳３０３に格納された音源サンプル（適応コードベクトル又は適応音源）と確率的符号帳３０４に格納された音源サンプル（確率的コードベクトル又は確率的音源）を取り出し、それぞれを聴感重みＬＰＣ合成部３０６へ送る。さらに、聴感重みＬＰＣ合成部３０６において、音源作成部３０５で得られた２つの音源に対して、ＬＰＣ分析部３０２で得られた復号化ＬＰＣ係数によってフィルタリングを行って２つの合成音を得る。

さらに、ゲイン演算部３０８においては、聴感重みＬＰＣ合成部３０６で得られた２つの合成音と聴感重み付け部３０７で聴感重み付けされた入力音声との関係を分析し、２つの合成音の最適値（最適ゲイン）を求める。また、ゲイン演算部３０８においては、その最適ゲインによってパワ調整したそれぞれの合成音を加算して総合合成音を得る。そして、ゲイン演算部３０８は、その総合合成音と入力音声の符号化歪みの計算を行う。また、ゲイン演算部３０８においては、適応符号帳３０３と確率的符号帳３０４の全ての音源サンプルに対して音源作成部３０５、聴感重みＬＰＣ合成部３０６を機能させることによって得られる多くの合成音と入力音声との間の符号化歪みを行い、その結果得られる符号化歪みの中で最も小さいときの音源サンプルのインデクスを求める。

次に、得られた音源サンプルのインデクス、そのインデクスに対応する２つの音源、及び入力音声をパラメータ符号化部３０９へ送る。パラメータ符号化部３０９では、ゲインの符号化を行うことによってゲイン符号を得て、ＬＰＣ符号、音源サンプルのインデクスと共に伝送路へ送る。

また、パラメータ符号化部３０９は、ゲイン符号と音源サンプルのインデクスに対応する２つの音源から実際の音源信号を作成し、それを適応符号帳３０３に格納すると同時に古い音源サンプルを破棄する。

なお、聴感重みＬＰＣ合成部３０６においては、ＬＰＣ係数や高域強調フィルタや長期予測係数（入力音声の長期予測分析を行うことによって得られる）を用いた聴感重み付けフィルタを用いる。

上記ゲイン演算部３０８は、音源作成部３０５から得られた適応符号帳３０３、確率的符号帳３０４の全ての音源について入力音声との間の比較を行うが、計算量削減のため、２つの音源（適応符号帳３０３と確率的符号帳３０４）については上述したようにしてオープンループにより探索する。

このように、本実施の形態におけるピッチ探索方法により、最初のサブフレームの適応符号帳探索の前に、フレームを構成する複数のサブフレームのピッチ分析を行って相関値を算出することにより、フレーム内の全サブフレームの相関値を同時に把握することができる。

そして、各サブフレームの相関値を算出すると共に、その相関値の大小から各サブフレームで最もピッチ周期らしい値（代表ピッチと呼ぶ）を求め、ピッチ分析で得られた相関値と代表ピッチに基づいて複数のサブフレームのラグの探索範囲を設定する。この探索範囲の設定においては、ピッチ分析で得た複数のサブフレームの代表ピッチと相関値を利用して探索範囲の中心となる差の少ない適当な仮のピッチ（仮ピッチと呼ぶ）を求める。

さらに、上記探索範囲の設定で求めた仮ピッチの前後の指定の範囲にラグの探索区間を限定するので、適応符号帳の効率の良い探索を可能にする。その際、ラグの短い部分の候補を少なくし、ラグのより長い範囲を広く設定するので、良好な性能が得られる適当な探索範囲を設定することができる。また、適応符号帳探索の際に上記探索範囲の設定で設定された範囲でラグの探索を行うので、良好な復号化音を得ることができる符号化が可能になる。

このように、本実施の形態によれば、探索範囲設定部３１１によって得られた第１サブフレームの仮ピッチの近くには第２サブフレームの仮ピッチも存在しており、第１サブフレームにおいて探索範囲を絞っているので、探索の結果得られるラグは仮ピッチから離れて行かない。したがって、第２サブフレームの探索の時には第２サブフレームの仮ピッチ付近を探索できることになり、フレームの後半から音声が始まる場合などの非定常なフレームでも、第１，第２サブフレームにおいて適当なラグ探索が可能になり、局所的異音を生じることなく音声符号化を行うことができる。

上記実施の形態１，２に係る音声符号化／復号化は、音声符号化装置／音声復号化装置として説明しているが、これらの音声符号化／復号化をソフトウェアとして構成しても良い。例えば、上記音声符号化／復号化のプログラムをＲＯＭに格納し、そのプログラムにしたがってＣＰＵの指示により動作させるように構成しても良い。また、プログラム，適応符号帳，及び確率的符号帳（パルス拡散符号帳）をコンピュータで読み取り可能な記憶媒体に格納し、この記憶媒体のプログラム，適応符号帳，及び確率的符号帳（パルス拡散符号帳）をコンピュータのＲＡＭに記録して、プログラムにしたがって動作させるようにしても良い。このような場合においても、上記実施の形態１，２と同様の作用、効果を呈する。さらに、実施の形態１〜３におけるプログラムを通信端末でダウンロードし、その通信端末でプログラムを動作させるようにしても良い。

なお、上記実施の形態１，２については、個々に実施しても良く、組み合わせて実施しても良い。

本発明の音声符号化装置を備えた無線通信装置の構成を示すブロック図本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図図２に示す音声符号化装置におけるゲイン演算部の構成を示すブロック図図２に示す音声符号化装置におけるパラメータ符号化部の構成を示すブロック図本発明の実施の形態１に係る音声符号化装置で符号化された音声データを復号する音声復号化装置の構成を示すブロック図適応符号帳探索を説明するための図本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図

符号の説明

１０２，３０２ＬＰＣ分析部
１０３，３０３適応符号帳
１０４，３０４確率的符号帳
１０５，３０５音源作成部
１０６，３０６聴感重みＬＰＣ合成部
１０７，３０７聴感重み付け部
１０８，３０８ゲイン演算部
１０９，３０９パラメータ符号化部
３１０ピッチ分析部
３１１探索範囲設定部
１０９１パラメータ計算部
１０９２符号化歪計算部
１０９３比較部
１０９４ベクトル符号帳
１０９５予測係数格納部
１０９６復号化ベクトル格納部

Claims

１つのフレームを複数のサブフレームに分解して符号化を行うＣＥＬＰ型音声符号化装置であって、
適応符号帳及び確率的符号帳に格納された適応音源及び確率的音源に対して、入力音声から求めたＬＰＣ係数を用いてフィルタリングすることにより、合成音を得るＬＰＣ合成手段と、
前記適応音源及び前記確率的音源のゲインを求めるゲイン演算手段と、
前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音源及び確率的音源、並びに前記ゲインのベクトル量子化を行うパラメータ符号化手段と、
フレームの最初のサブフレームの適応符号帳探索を行う前に、前記複数のサブフレームに対して前記入力音声の自己相関係数とパワ成分とを求め、前記自己相関係数と前記パワ成分とを用いて最もピッチ周期に近似する値を代表ピッチ周期として算出するピッチ分析手段と、
前記自己相関係数、前記パワ成分及び前記代表ピッチ周期を用いて、ラグの探索範囲の中心となる仮ピッチを求め、前記仮ピッチの前後の指定の範囲を前記複数のサブフレームのラグの探索範囲として設定する探索範囲設定手段と、
を備え、
前記適応符号帳探索は、
前記ラグの探索範囲に対して行われる、
音声符号化装置。
前記探索範囲設定手段は、
前記仮ピッチに対してラグが短い側の候補が、ラグが長い側の候補よりも少なくなるように、前記仮ピッチの前後の指定の範囲を設定する、
請求項１記載の音声符号化装置。
１つのフレームを複数のサブフレームに分解して符号化を行うＣＥＬＰ型の音声符号化プログラム；過去に合成した音源信号が格納された適応符号帳；複数の音源ベクトルを格納した確率的符号帳；を格納した、コンピュータにより読み取り可能な記録媒体であって、
前記音声符号化プログラムは、
フレームの最初のサブフレームの適応符号帳探索を行う前に、前記複数のサブフレームに対して前記入力音声の自己相関係数とパワ成分とを求め、前記自己相関係数と前記パワ成分とを用いて最もピッチ周期に近似する値を代表ピッチ周期として算出する手順と、
前記自己相関係数、前記パワ成分及び前記代表ピッチ周期を用いて、ラグの探索範囲の中心となる仮ピッチを求め、前記仮ピッチの前後の指定の範囲を前記複数のサブフレームのラグの探索範囲として設定する手順と、
前記ラグの探索範囲に対して前記適応符号帳探索を行う手順と、
前記適応符号帳探索により求めた適応音源及び前記確率的符号帳に格納された確率的音源に対して、入力音声から求めたＬＰＣ係数を用いてフィルタリングすることにより、合成音を得る手順と、
前記適応音源及び前記確率的音源のゲインを求める手順と、
前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音源及び確率的音源、並びに前記ゲインのベクトル量子化を行う手順と、
を含む、
記録媒体。