JP4176349B2

JP4176349B2 - マルチモードの音声符号器

Info

Publication number: JP4176349B2
Application number: JP2001525686A
Authority: JP
Inventors: ヤングガオ，; アディルベネヤシン，; ジェスティッセン，; エヤールショロモット，; ハン−ユス，
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 1999-09-22
Filing date: 2000-09-15
Publication date: 2008-11-05
Anticipated expiration: 2020-09-15
Also published as: AU7486200A; EP1214706B9; JP2005338872A; JP2003513296A; EP1214706A1; KR20020033819A; ATE272885T1; BR0014212A; KR100488080B1; DE60012760T2; BRPI0014212B1; CN1451155A; CN1245706C; EP1214706B1; DE60012760D1

Description

【０００１】
（発明者）
ＹａｎｇＧａｏ、ＡｄｉｌＢｅｎｙａｓｓｉｎｅ、ＪｅｓＴｈｙｓｓｅｎ、ＥｙａｌＳｈｌｏｍｏｔ、Ｈｕａｎ−ｙｕＳｕ
（著作権表示の参照）
本特許文献の開示の一部は、著作権保護の対象となる材料を含む。著作権保持者は、米国特許商標庁の特許ファイルまたは記録に公開されるため、任意の者による特許文献または特許開示のファクシミリによる複製に異議を唱えないが、それ以外では、全ての著作権を保留する。
【０００２】
（技術分野）
本発明は、音声通信システムに関し、より詳細には、デジタル音声コード化のシステムに関する。
【０００３】
（背景）
人間のコミュニケーションの一般的なモードは、通信システムを使用する方法である。通信システムは、ワイヤラインタイプシステムとワイヤレス無線タイプシステムとの両方を含む。ワイヤレス通信システムは、ワイヤラインタイプシステムに電気的に結合され、無線周波数（ＲＦ）通信を用いてモバイル通信デバイスと通信する。現在、例えば、セルラーシステムにおいて通信可能な無線周波数は、中心が約９００ＭＨｚのセルラー周波数範囲内、および、中心が約１９００ＭＨｚのパーソナル通信サービス（ＰＣＳ）周波数範囲内である。ワイヤレスシステム内におけるデータおよび音声の伝達は、無線周波数の一部を消費するバンド幅を有する。携帯電話などのワイヤレス通信デバイスの拡大する人気が原因となって通信量が増加したため、ワイヤレスシステム内の伝達のバンド幅を削減することが望ましい。
【０００４】
ワイヤレス無線通信におけるデジタル伝達は、装置のノイズ排除性、信頼性、およびコンパクト性、ならびにデジタル技術を用いて複雑な信号処理機能を実行する能力が原因となり、音声とデータとの両方にますます適用されている。音声信号のデジタル伝達は、以下のステップを含む：Ａ／Ｄ変換器を用いるアナログ音声波形のサンプリング、音声圧縮（符号化）、伝達、音声解凍（復号化）、Ｄ／Ａ変換、およびイヤホンまたはスピーカへの再生。Ａ／Ｄ変換器を用いるアナログ音声波形のサンプリングは、デジタル信号を生成する。しかし、アナログ音声波形を表すためにデジタル信号に使用されるビット数は、比較的大きなバンド幅を生成する。例えば、各サンプルが１６ビットによって表される場合、８０００Ｈｚ（０．１２５ミリ秒毎に１回）の割合でサンプリングされる音声信号は、毎秒１２８，０００（１６ｘ８０００）ビットまたは１２８Ｋｂｐｓ（毎秒１２８キロビット）のビットレートとなる。
【０００５】
音声圧縮は、音声信号を表すビット数を減少させ、従って、伝達に必要なバンド幅を減少させるために使用され得る。しかし、音声圧縮は、解凍音声の質が劣化するという結果になり得る。通常、より高いビットレートは、より高い質をもたらし、より低いビットレートは、より低い質をもたらす。しかし、コード化技術などの現代の音声圧縮技術は、比較的低いビットレートにおいて比較的高品質の解凍音声を生成し得る。通常、現代のコード化技術は、実際の音声波形を保存することなく、音声信号の知覚的に（ｐｅｒｃｅｐｔｕａｌｌｙ）重要な機能を表すことを試みる。
【０００６】
ビットレートを低くするために使用される１つのコード化技術は、音声信号の圧縮される部分に応じて、音声圧縮の度合いを変化させる（すなわち、ビットレートを変化させる）ことを含む。典タイプ的には、音声信号の適切な知覚的表現がより困難である部分（例えば、有声（ｖｏｉｃｅｄ）音声、破裂音、または有声オンセット）は、より高いビット数を用いてコード化され伝達される。逆に、音声の適切な知覚的表現がそれほど困難でない部分（例えば、無声、または言葉の間の沈黙）は、より低いビット数を用いてコード化される。結果の音声信号の平均ビットレートは、同等質の解凍音声を提供する固定ビットレートの場合と比べて、比較的低い。
【０００７】
音声圧縮システムは、俗にコーデックと呼ばれ、エンコーダおよびデコーダを含み、デジタル音声信号のビットレートを減少させるために使用され得る。高品質の再構築された音声を保持することを試みながら、オリジナル音声をデジタルコード化するために必要なビット数を減少させる音声コーデックのための多数のアルゴリズムが開発されてきた。Ｍ．Ｒ．ＳｃｈｒｏｅｄｅｒおよびＢ．Ｓ．Ａｔａｌによる「Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：Ｈｉｇｈ−ＱｕａｌｉｔｙＳｐｅｅｃｈａｔＶｅｒｙＬｏｗＲａｔｅｓ」（Ｐｒｏｃ．ＩＣＡＳＳＰ−８５、ページ９３７〜９４０、１９８５）という題の記事において説明するように、コード励起線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ）（ＣＥＬＰ）のコード化技術は、１つの効果的な音声コード化アルゴリズムを提供する。可変レートのＣＥＬＰタイプ音声コーダの一例は、ＣＤＭＡ（符号分割多重アクセス）アプリケーションのために立案されたＴＩＡ（米国電気通信産業協会）ＩＳ−１２７規格である。ＣＥＬＰのコード化技術は、いくつかの予測（ｐｒｅｄｉｃｔｉｏｎ）技術を利用して、音声信号から冗長性を除去する。ＣＥＬＰのコード化アプローチは、サンプリングされた入力音声信号を、フレームと呼ばれるサンプリングのブロック内に格納するという意味で、フレームタイプである。データのフレームは、次いで、デジタル形式の圧縮音声信号を生成するために処理され得る。
【０００８】
ＣＥＬＰのコード化アプローチは、短期予測子（ｐｒｅｄｉｃｔｏｒ）および長期予測子の２種類の予測子を用いる。短期予測子は、典タイプ的には、長期予測子の前に適用される。短期予測子から導き出される予測エラーは、通常、短期残差（ｒｅｓｉｄｕａｌ）と呼ばれ、長期予測子から導き出される予測エラーは、通常、長期残差と呼ばれる。長期残差は、複数の固定コードブックのエントリまたはベクトルを含む固定コードブックを用いてコード化され得る。エントリの１つが選択され、固定コードブックゲインによって乗算されて、長期残差を表し得る。短期予測子はまた、ＬＰＣ（線形予測コード化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ））またはスペクトル表現と呼ばれ得、通常、１０予測パラメータを含む。長期予測子はまた、ピッチ予測子または適応コードブックと呼ばれ得、通常、遅延パラメータおよび長期予測子ゲインパラメータを含む。各遅延パラメータはまた、ピッチ遅延と呼ばれ得、各長期予測子ゲインパラメータはまた、適応コードブックゲインと呼ばれ得る。遅延パラメータは、適応コードブック内のエントリまたはベクトルを定義する。
【０００９】
ＣＥＬＰエンコーダは、ＬＰＣ分析を実行して、短期予測パラメータを決定する。ＬＰＣ分析に続いて、長期予測パラメータが決定され得る。さらに、長期残差を最適に表現する固定コードブックエントリおよび固定コードブックゲインが決定される。合成分析（ＡＢＳ）の強力な構想が、ＣＥＬＰコード化において使用される。ＡＢＳアプローチにおいて、固定コードブックからの最大の寄与（ｃｏｎｔｒｉｂｕｔｉｏｎ）、最適固定コードブックゲイン、および最適長期予測パラメータは、逆予測フィルタを用いてこれらを合成し、知覚的重み付け（ｐｅｒｃｅｐｔｕａｌｗｅｉｇｈｔｉｎｇ）測定を適用することによって見出され得る。短期（ＬＰＣ）予測係数および固定コードブックゲイン、ならびに遅延パラメータおよび長期ゲインパラメータは、次いで、量子化され得る。量子化インデックスおよび固定コードブックインデックスは、エンコーダからデコーダに送信され得る。
【００１０】
ＣＥＬＰデコーダは、固定コードブックインデックスを使用して、固定コードブックからベクトルを抽出する。ベクトルは、固定コードブックゲインによって乗算されて、固定コードブックの寄与としても公知の長期励起（ｅｘｃｉｔａｔｉｏｎ）を生成し得る。長期予測子の寄与は、長期励起に加算されて、通常単に励起と呼ばれる短期励起を生成し得る。長期予測子の寄与は、長期予測子ゲインによって乗算された過去の短期励起を含む。長期予測子の寄与を加算することは、一方では、適応コードブックの寄与または長期（ピッチ）フィルタリングとして見られ得る。短期励起は、合成音声を生成するためにエンコーダによって量子化される短期（ＬＰＣ）予測係数を用いる短期逆予測フィルタ（ＬＰＣ）を通過させられ得る。合成音声は、次いで、知覚的音声ノイズを減少させるポストフィルタ（ｐｏｓｔ−ｆｉｌｔｅｒ）を通過させられ得る。
【００１１】
これらの音声圧縮技術によって、音声信号を伝達する際に使用するバンド幅の量は削減される。しかし、バンド幅のさらなる削減は、多数のユーザにリソースを割り当てなければならない通信システムにおいて、特に重要である。従って、高品質の解凍音声を提供する一方で、音声表現に必要な平均ビットレートを最小化することが可能な音声コード化のシステムおよび方法が必要である。
【００１２】
（発明の開示）
本発明は、音声信号の符号化および復号化のシステムを提供する。実施形態は、波形マッチングおよび知覚に関する技術を用いる信号処理機能を使用するためのフレームワークとして、ＣＥＬＰのコード化技術および予測タイプコード化を使用し得る。これらの技術は、比較的低いビットレートを保持する一方で、知覚的機能を含むことにより、オリジナル音声と詳細まで共通する合成音声の生成を可能にする。実施形態の１つのアプリケーションは、ワイヤレス通信システムである。このアプリケーションにおいて、合成音声を生成するためのオリジナル音声の符号化または復号化は、モバイル通信デバイスにおいて生じ得る。さらに、符号化および復号化は、ワイヤラインタイプシステムにおいてか、またはワイヤラインタイプシステムにインターフェイスを提供するために他のワイヤレス通信システムにおいて生じ得る。
【００１３】
音声圧縮システムの一実施形態は、全レートのコーデック、半レートのコーデック、４分の１レートのコーデック、および８分の１レートのコーデックを含み、各々は、音声信号を符号化および復号化することが可能である。全レート、半レート、４分の１レート、および８分の１レートのコーデックは、それぞれ、８．５Ｋｂｐｓ、４Ｋｂｐｓ、２Ｋｂｐｓ、および０．８Ｋｂｐｓのビットレートにおいて音声信号を符号化する。音声圧縮システムは、コーデックの内の１つを選択するために、音声信号のフレーム上でレート選択を実行する。レート選択は、フレームごとに行われる。フレームは、音声信号を有限時間のセグメントに分割することによって生成される。各フレームは、異なるビットレートによってコード化され得るため、音声圧縮システムは、平均ビットレートにおいて音声をコード化する可変レート音声圧縮システムである。
【００１４】
レート選択は、音声信号の特定フレーム内に含まれる部分に基づいて、音声信号の各フレームの特性によって決定される。例えば、フレームは、定常有声、非定常有声、無声、バックグランドノイズ、沈黙などとして特徴づけられ得る。さらに、レート選択は、音声圧縮システムがどのモード（Ｍｏｄｅ）内で動作するかに基づく。異なるモードは、所望の平均ビットレートを示す。コーデックは、音声信号の異なる特性の中での最適コード化のために設計される。最適コード化は、所望の平均ビットレートを保持する一方で最高の知覚的品質の合成音声を提供したいという所望のバランスを保ち、それによって、利用可能なバンド幅の使用を最大限にする。作動中、音声圧縮システムは、選択的に、モードおよびフレーム特性に基づいてコーデックを活動化させ、合成音声の知覚的品質を最適化しようと試みる。
【００１５】
一旦、レート選択によって、全レートまたは半レートのコーデックが選択されると、コード化をさらに最適化するために音声信号のタイプ分類が生じる。タイプ分類は、急に変化しない高調波構造（ｈａｒｍｏｎｉｃｓｔｒｕｃｔｕｒｅ）およびホルマント構造を含むフレームの第１のタイプ（すなわち、タイプ１）、またはその他の全てのフレームの第２のタイプ（すなわち、タイプ０）であり得る。全レートおよび半レートのコーデックのビット割り当ては、フレームのコード化をさらに最適化するために、タイプ分類に応じて調節され得る。ビット割り当ての調節は、各フレーム内の音声信号の異なる局面を強調することにより、再構築された音声信号の改善された知覚的品質を提供する。
【００１６】
従って、音声コーダは、所望の平均ビットレートを保持する一方で再構築された音声信号の全体の品質を最大限にするために、コーデックを選択的に活動化させることが可能である。本発明の他のシステム、方法、機能、および利点は、下記の図面および詳細な説明を吟味することにより、当業者に明らかであるか、または明らかになる。このような全てのさらなるシステム、方法、機能、および利点が、この説明の中に含まれ、本発明の範囲内にあり、添付の請求項の範囲によって保護されることが意図される。
【００１７】
図中の構成要素は、必ずしも一律の縮尺に従わず、むしろ、本発明の原理を例示することに重点を置く。さらに、図中、同様の参照番号は、異なる図を通して、類似する部分を示す。
【００１８】
（発明を実行するモード）
実施形態は、音声信号に関して説明されるが、任意の他の信号を処理することが可能である。値にわずかな変動を起こし得るが機能性を含まない浮動小数点、固定小数点、少数、または他の同様の数的表現によって、開示される数値が数的に表され得ることも理解される。さらに、モジュールとして識別される機能ブロックは、個別の構造を表すことを意図せず、種々の実施形態において、組み合わせられるか、またはさらに細分され得る。
【００１９】
図１は、音声圧縮システム１０の一実施形態のブロック図である。音声圧縮システム１０は、図示のように結合され得る符号化システム１２、通信媒体１４、および復号化システム１６を含む。音声圧縮システム１０は、音声信号１８を受信および符号化し、次いで、音声信号１８を復号化して、処理後（ｐｏｓｔ−ｐｒｏｃｅｓｓｅｄ）の合成音声２０を生成することが可能な任意のシステムであり得る。典タイプ的な通信システムにおいて、ワイヤレス通信システムは、ワイヤラインタイプ通信システム内の公衆交換電話ネットワーク（ＰＳＴＮ）に電気的に結合される。ワイヤレス通信システム内において、携帯電話または携帯トランシーバなどのモバイル通信デバイスとの無線通信を提供するために、複数のベースステーションが典タイプ的に使用される。
【００２０】
音声圧縮システム１０は、音声信号１８を受信するために動作する。センダ（ｓｅｎｄｅｒ）（図示せず）によって放出される音声信号１８は、例えば、マイクロホン（図示せず）によって取り込まれ、Ａ／Ｄ変換器（図示せず）によってデジタル化され得る。センダは、人間の声、音楽楽器、またはアナログ信号を放出可能な任意の他のデバイスであり得る。音声信号１８は、有声音声、無声音声、バックグランドノイズ、沈黙、音楽などの任意の種類の音を表し得る。
【００２１】
符号化システム１２は、音声信号１８を符号化するために動作する。符号化システム１２は、モバイル通信デバイス、ベースステーション、またはＡ／Ｄ変換器によってデジタル化された音声信号１８の受信および符号化を行うことが可能な任意の他のワイヤレスもしくはワイヤライン通信デバイスの一部であり得る。ワイヤライン通信デバイスは、ボイスオーバーインターネットプロトコル（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）（ＶｏＩＰ）デバイスおよびシステムを含み得る。符号化システム１２は、音声信号１８をフレームに分割して、ビットストリームを生成する。音声圧縮システム１０の一実施形態は、８０００Ｈｚのサンプリングレートにおいて１フレームにつき２０ミリ秒に相当する１６０サンプルを含むフレームを使用する。ビットストリームによって表されるフレームは、通信媒体１４に提供され得る。
【００２２】
通信媒体１４は、通信チャネル、電波、マイクロ波、ワイヤ伝達、光ファイバー伝達、または符号化システム１２によって生成されるビットストリームを運ぶことが可能な任意の媒体などの任意の伝達メカニズムであり得る。通信媒体１４はまた、ビットストリームの伝達に使用される伝達デバイスおよび受信デバイスを含み得る。通信媒体１４の実施形態の例は、通信チャネル、アンテナ、およびワイヤレス通信システムにおける無線通信に関連するトランシーバを含み得る。通信媒体１４はまた、メモリデバイス、格納媒体、または符号化システム１２によって生成されるビットストリームの格納および検索を行うことが可能な他のデバイスなどの格納メカニズムであり得る。通信媒体１４は、符号化システム１２によって生成されるビットストリームを、復号化システム１６に伝達するために動作する。
【００２３】
復号化システム１６は、通信媒体１４からビットストリームを受信する。復号化システム１６は、モバイル通信デバイス、ベースステーション、またはビットストリームを受信可能な他のワイヤレスもしくはワイヤライン通信デバイスの一部であり得る。復号化システム１６は、ビットストリームを復号化し、デジタル信号形式の処理後の合成音声２０を生成するために動作する。処理後の合成音声２０は、次いで、Ｄ／Ａ変換器（図示せず）によってアナログ信号に変換され得る。Ｄ／Ａ変換器のアナログ出力は、人間の耳、磁気テープレコーダ、またはアナログ信号を受信可能な任意の他のデバイスであり得るレシーバ（図示せず）によって受信され得る。あるいは、デジタル記録デバイス、音声認識デバイス、またはデジタル信号を受信可能な任意の他のデバイスが、処理後の合成音声２０を受信し得る。
【００２４】
音声圧縮システム１０の一実施形態はまた、モードライン２１を含む。モードライン２１は、ビットストリームの所望の平均ビットレートを示すことにより、音声圧縮システム１０を制御するモード信号を運ぶ。モード信号は、例えば、モード信号生成モジュールを使用するワイヤレス通信システムによって、外部において生成され得る。モード信号生成モジュールは、処理後の合成音声２０の所望の品質、利用可能なバンド幅、ユーザによって契約が結ばれているサービス、または任意の他の関連要素などの複数の要素に基づいて、モード信号を決定する。モード信号は、音声圧縮システム１０が動作する通信システムによって制御および選択される。モード信号は、符号化システム１２に提供されて、符号化システム１２において、複数のコーデックの内のどれが活動化され得るかを決定する助けとなり得る。
【００２５】
コーデックは、符号化システム１２および復号化システム１６内にそれぞれ配置されるエンコーダ部分およびデコーダ部分を含む。音声圧縮システム１０の一実施形態において、４つのコーデック、すなわち、全レートコーデック２２、半レートコーデック２４、４分の１レートコーデック２６、および８分の１レートコーデック２８がある。コーデック２２、２４、２６、および２８の各々は、ビットストリームを生成するように動作可能である。各コーデック２２、２４、２６、および２８によって生成されるビットストリームのサイズ、従って、バンド幅、または通信媒体１４を介してビットストリームを伝達するために必要な容量は、異なる。
【００２６】
一実施形態において、全レートコーデック２２、半レートコーデック２４、４分の１レートコーデック２６、および８分の１レートコーデック２８は、それぞれ、各フレームにつき１７０ビット、８０ビット、４０ビット、および１６ビットを生成する。各フレームのビットストリームのサイズは、ビットレート、すなわち、全レートコーデック２２の８．５Ｋｂｐｓ、半レートコーデック２４の４．０Ｋｂｐｓ、４分の１レートコーデック２６の２．０Ｋｂｐｓ、および８分の１レートコーデック２８の０．８Ｋｂｐｓに対応する。しかし、別の実施形態において、より少ないまたはより多いコーデック、および他のビットレートも可能である。種々のコーデックを用いて音声信号１８のフレームを処理することにより、平均ビットレートが達成される。符号化システム１２は、フレームの特性、およびモード信号によって提供される所望の平均ビットレートに基づいて特定のフレームを符号化するために、コーデック２２、２４、２６および２８の内のどれが使用され得るかを決定する。フレームの特性は、音声信号１８の特定フレーム内に含まれる部分に基づく。例えば、フレームは、定常有声、非定常有声、無声、オンセット、バックグランドノイズ、沈黙などとして特徴づけられ得る。
【００２７】
一実施形態におけるモード信号ライン２１上のモード信号は、モード０、モード１、およびモード２を識別する。３つのモードの各々は、コーデック２２、２４、２６、および２８の各々の使用のパーセンテージを変化し得る異なる所望の平均ビットレートを提供する。モード０は、プレミアムモードと呼ばれ得、このモード０において、ほとんどのフレームが全レートコーデック２２によってコード化され得、より少ないフレームが半レートコーデック２４によってコード化され得、沈黙およびバックグランドノイズを含むフレームが４分の１レートコーデック２６および８分の１レートコーデック２８によってコード化され得る。モード１は、標準モードと呼ばれ得、このモード１において、オンセットおよびいくつかの有声フレームなどの大量の情報内容を有するフレームが、全レートコーデック２２によってコード化され得る。さらに、他の有声および無声のフレームは、半レートコーデック２４によってコード化され得、いくつかの無声フレームは、４分の１レートコーデック２６によってコード化され得、沈黙および定常バックグランドノイズのフレームは、８分の１レートコーデック２８によってコード化され得る。
【００２８】
モード２は、節約モードと呼ばれ得、このモード２において、大量の情報内容を有するフレームの少数のみが、全レートコーデック２２によってコード化され得る。モード２内のほとんどのフレームは、４分の１レートコーデック２６によってコード化され得るいくつかの無声フレームの例外を除いて、半レートコーデック２４によってコード化され得る。沈黙および定常バックグランドノイズのフレームは、モード２において、８分の１レートコーデック２８によってコード化され得る。従って、コーデック２２、２４、２６、および２８の選択を変化させることにより、音声圧縮システム１０は、可能な範囲における最高の品質を保持することを試みる一方で、所望の平均ビットレートにおいて、再構築された音声を配信し得る。超節約モード、または活動化される最大コーデックが半レートコーデック２４である半レート最大モードにおいて動作するモード３などのさらなるモードが、別の実施形態において利用可能である。
【００２９】
音声圧縮システム１０のさらなる制御はまた、半レート信号ライン３０によって提供され得る。半レート信号ライン３０は、半レート信号フラグ（ｓｉｇｎａｌｉｎｇｆｌａｇ）を提供する。半レート信号フラグは、ワイヤレス通信システムなどの外部ソースによって提供され得る。活動化されると、半レート信号フラグは、音声圧縮システム１０に命令して、最大レートとして半レートコーデック２４を使用させる。半レート信号フラグをいつ活動化させるかについての決定は、音声圧縮システム１０が動作する通信システムによって行われる。モード信号の決定と同様に、半レート信号モジュールは、通信システムによって決定される複数の要素に基づいて、半レート信号フラグの活動化を制御する。別の実施形態において、半レート信号フラグは、音声圧縮システム１０に命令して、別のコーデックの代わりにコーデック２２、２４、２６、および２８の１つを使用させるか、またはコーデック２２、２４、２６、および２８の１つ以上を最大または最低レートとして識別させる。
【００３０】
音声圧縮システム１０の一実施形態において、全レートおよび半レートのコーデック２２および２４は、ｅＸ−ＣＥＬＰ（拡張ＣＥＬＰ）アプローチに基づき得、４分の１レートおよび８分の１レートのコーデック２６および２８は、知覚マッチング（ｐｅｒｃｅｐｔｕａｌｍａｔｃｈｉｎｇ）アプローチに基づき得る。ｅＸ−ＣＥＬＰアプローチは、従来のＣＥＬＰの知覚マッチングと波形マッチング（ｗａｖｅｆｏｒｍｍａｔｃｈｉｎｇ）との間の従来のバランスを拡張する。詳細には、ｅＸ−ＣＥＬＰアプローチは、以下で説明されるレート選択およびタイプ分類を使用して、フレームを分類する。フレームの異なるカテゴリ内において、異なる知覚マッチング、異なる波形マッチング、および異なるビット割り当てを有する異なる符号化アプローチが利用され得る。４分の１レートコーデック２６および８分の１レートコーデック２８の知覚マッチングアプローチは、フレームを符号化する際、波形マッチングを使用せず、むしろ、知覚的局面に専念する。
【００３１】
ｅＸ−ＣＥＬＰアプローチまたは知覚マッチングアプローチのいずれかによる各フレームのコード化は、フレームを複数のサブフレームにさらに分割することに基づき得る。サブフレームは、各コーデック２２、２４、２６、および２８のサイズおよび数が異なり得る。さらに、ｅＸ−ＣＥＬＰアプローチに関して、サブフレームは、各カテゴリによって異なり得る。サブフレーム内において、音声のパラメータおよび波形は、いくつかの予測および非予測のスカラおよびベクトルの量子化技術によって、コード化され得る。スカラの量子化において、音声のパラメータまたは要素は、スカラの代表的な表の中で最も類似するエントリのインデックスロケーションによって表され得る。ベクトルの量子化において、いくつかの音声パラメータは、ベクトルを形成するためにグループ化され得る。ベクトルは、ベクトルの代表的な表の中で最も類似するエントリのインデックスロケーションによって表され得る。
【００３２】
予測コード化において、要素は、過去に基づいて予測され得る。要素は、スカラまたはベクトルであり得る。予測エラーは、次いで、スカラの表（スカラ量子化）またはベクトルの表（ベクトル量子化）を用いて量子化され得る。ｅＸ−ＣＥＬＰコード化アプローチは、従来のＣＥＬＰと同様に、強力な合成分析（ＡＢＳ）方式を使用して、いくつかのパラメータの最適表現を選択する。詳細には、パラメータは、適応コードブック、固定コードブック、およびそれらに対応するゲインであり得る。ＡＢＳ方式は、逆予測フィルタおよび知覚的重み付け計測を用いて、最適コードブックエントリを選択する。
【００３３】
音声圧縮システム１０の一実施形態の１つのインプリメンテーションは、デジタル信号処理（ＤＳＰ）チップ、モバイル通信デバイス、または無線伝達ベースステーションなどの信号処理デバイスにおいて行われ得る。信号処理デバイスは、ソースコードによってプログラムされ得る。ソースコードは、最初に固定小数点に変換され、次いで、信号処理デバイスに特有のプログラミング言語に変換され得る。変換されたソースコードは、次いで、ダウンロードされ、信号処理デバイス内で実行され得る。ソースコードの一例は、音声圧縮システム１０の一実施形態によって利用されるＣ言語コンピュータプログラムであり、Ｃ言語コンピュータプログラムは、添付のマイクロフィッシュＡＰＰＥＮＤＩＸ内にＡＰＰＥＮＤＩＸＡおよびＢとして含まれる。
【００３４】
図２は、図１に示される符号化システム１２のさらに詳細なブロック図である。符号化システム１２の一実施形態は、図示のように結合され得る処理前（ｐｒｅ−ｐｒｏｃｅｓｓｉｎｇ）モジュール３４、全レートエンコーダ３６、半レートエンコーダ３８、４分の１レートエンコーダ４０、および８分の１レートエンコーダ４２を含む。レートエンコーダ３６、３８、４０、および４２は、初期フレーム処理モジュール４４および励起処理モジュール５４を含む。
【００３５】
符号化システム１２によって受信される音声信号１８は、処理前モジュール３４によって、フレームレベルで処理される。処理前モジュール３４は、音声信号１８の初期処理を提供するように動作可能である。初期処理は、フィルタリング、信号拡張、ノイズ除去、増幅、および次の符号化のために音声信号１８を最適化することが可能な他の同等技術を含み得る。
【００３６】
全レート、半レート、４分の１レート、および８分の１レートエンコーダ３６、３８、４０、および４２は、それぞれ、全レート、半レート、４分の１レート、および８分の１レートコーデック２２、２４、２６、および２８の符号化部分である。初期フレーム処理モジュール４４は、初期フレーム処理、音声パラメータの抽出、およびレートエンコーダ３６、３８、４０、および４２の内のどれが特定のフレームを符号化するかについての決定を実行する。初期フレームモジュール４４は、例示的に、複数の初期フレーム処理モジュール、すなわち、初期全フレーム処理モジュール４６、初期半フレーム処理モジュール４８、初期４分の１フレーム処理モジュール５０、および初期８分の１フレーム処理モジュール５２に細分され得る。しかし、初期フレーム処理モジュール４４が、全てのレートエンコーダ３６、３８、４０、および４２に共通の処理、ならびに各レートエンコーダ３６、３８、４０、および４２に特有の特定処理を実行するということは、留意されるべきである。初期フレーム処理モジュール４４の、初期フレーム処理モジュール４６、４８、５０、および５２の各々への細分は、レートエンコーダ３６、３８、４０、および４２の各々に対応する。
【００３７】
初期フレーム処理モジュール４４は、共通処理を実行して、レートエンコーダ３６、３８、４０、および４２の内の１つを活動化させるレート選択を決定する。一実施形態において、レート選択は、音声信号１８のフレームの特性、および音声圧縮システム１０の動作モードに基づく。レートエンコーダ３６、３８、４０、および４２の内の１つを活動化させることは、それに対応して、初期フレーム処理モジュール４６、４８、５０、および５２の内の１つを活動化させる。
【００３８】
特定の初期フレーム処理モジュール４６、４８、５０、および５２が活動化されて、フレーム全体に共通する音声信号１８の局面を符号化する。初期フレーム処理モジュール４４による符号化は、フレーム内に含まれる音声信号１８のパラメータを量子化する。量子化されたパラメータは、結果として、ビットストリームの一部を生成することになる。通常、ビットストリームは、レートエンコーダ３６、３８、４０、および４２の内の１つを介して符号化システム１２によって処理された音声信号１８のフレームの圧縮された表現である。
【００３９】
レート選択に加えて、初期フレーム処理モジュール４４はまた、全レートおよび半レートエンコーダ３６および３８によって処理される各フレームのタイプ分類を決定するために処理を実行する。一実施形態のタイプ分類は、フレームによって第１のタイプ（すなわち、タイプ１）、または第２のタイプ（すなわち、タイプ０）として表される音声信号１８を分類する。一実施形態のタイプ分類は、音声信号１８の本質および特性による。別の実施形態において、さらなるタイプ分類および支持処理が提供され得る。
【００４０】
タイプ１の分類は、定常動作（ｓｔａｔｉｏｎａｒｙｂｅｈａｖｉｏｒ）を示す音声信号１８のフレームを含む。定常動作を示すフレームは、急に変化しない高調波構造およびホルマント構造を含む。他の全てのフレームは、タイプ０の分類を用いて分類され得る。別の実施形態において、さらなるタイプ分類は、時間領域および周波数領域などに基づいて、さらなる分類にフレームを分類し得る。タイプ分類は、以下で説明されるように、初期全レートフレーム処理モジュール４６および初期半レートフレーム処理モジュール４８によって、符号化を最適化する。さらに、タイプ分類とレート選択との両方は、全レートおよび半レートエンコーダ３６および３８に対応する励起処理モジュール５４の一部による符号化を最適化するために使用され得る。
【００４１】
励起処理モジュール５４の一実施形態は、全レートモジュール５６、半レートモジュール５８、４分の１レートモジュール６０、および８分の１レートモジュール６２に細分され得る。レートモジュール５６、５８、６０、および６２は、図２に示されるように、レートエンコーダ３６、３８、４０、および４２に対応する。一実施形態の全レートおよび半レートのモジュール５６および５８は、両方とも、説明されるように、実質的に異なる符号化を提供する複数のフレーム処理モジュールおよび複数のサブフレーム処理モジュールを含む。
【００４２】
全レートおよび半レートエンコーダ３６および３８の両方のための励起処理モジュール５４の部分は、タイプセレクタモジュール、第１のサブフレーム処理モジュール、第２のサブフレーム処理モジュール、第１のフレーム処理モジュール、および第２のサブフレーム処理モジュールを含む。さらに詳細には、全レートモジュール５６は、Ｆタイプセレクタモジュール６８、Ｆ０の第１のサブフレーム処理モジュール７０、Ｆ１の第１のフレーム処理モジュール７２、Ｆ１の第２のサブフレーム処理モジュール７４、およびＦ１の第２のフレーム処理モジュール７６を含む。用語「Ｆ」は全レートを示し、「０」および「１」は、タイプ０およびタイプ１をそれぞれ示す。同様に、半レートモジュール５８は、Ｈタイプセレクタモジュール７８、Ｈ０の第１のサブフレーム処理モジュール８０、Ｈ１の第１のフレーム処理モジュール８２、Ｈ１の第２のサブフレーム処理モジュール８４、およびＨ１の第２のフレーム処理モジュール８６を含む。
【００４３】
ＦおよびＨタイプのセレクタモジュール６８および７８は、音声信号１８の処理に命令して、タイプ分類に基づく符号化処理をさらに最適化する。タイプ１に分類されることは、フレームが、定常有声音声などの急に変化しない高調波構造およびホルマント構造を含むことを示す。従って、フレームを表す際にこれらの局面を利用する符号化を容易にするために、タイプ１に分類されるフレームを表すために用いられるビットは割り当てられ得る。タイプ０に分類されることは、フレームが、例えば、急に変化する高調波構造およびホルマント構造などの非定常動作を示し得ることか、フレームが、定常無声特性またはノイズのような特性を示し得ることを示す。タイプ０に分類されるフレームのビット割り当ては、従って、この動作をより良く表現し、説明するために調整され得る。
【００４４】
Ｆ０の第１のサブフレーム処理モジュール７０は、処理されるフレームがタイプ０に分類されると、全レートモジュール５６のためにビットストリームの一部を生成する。フレームがタイプ０に分類されると、Ｆ０の第１のサブフレーム処理モジュール７０が活動化されて、サブフレームごとにフレームを処理する。Ｆ１の第１のフレーム処理モジュール７２、Ｆ１の第２のサブフレーム処理モジュール７４、およびＦ１の第２のフレーム処理モジュール７６は、処理されるフレームがタイプ１に分類されると、ビットストリームの一部を生成するために結合する。タイプ１の分類は、全レートモジュール５６内におけるサブフレームとフレームとの両方の処理を含む。
【００４５】
同様に、半レートモジュール５８において、Ｈ０の第１のサブフレーム処理モジュール８０は、処理されるフレームがタイプ０に分類されると、サブフレームごとにビットストリームの一部を生成する。さらに、Ｈ１の第１のフレーム処理モジュール８２、Ｈ１の第２のサブフレーム処理モジュール８４、およびＨ１の第２のフレーム処理モジュール８６は、処理されるフレームがタイプ１に分類されると、ビットストリームの一部を生成するために結合する。全レートモジュール５６の場合と同様に、タイプ１の分類は、サブフレームとフレームとの両方の処理を含む。
【００４６】
４分の１レートおよび８分の１レートモジュール６０および６２は、それぞれ、４分の１レートおよび８分の１レートエンコーダ４０および４２の一部であり、タイプ分類を含まない。タイプ分類が含まれないのは、処理されるフレームの本質が原因である。４分の１レートおよび８分の１レートモジュール６０および６２は、活動化されると、サブフレームおよびフレームごとに、それぞれ、ビットストリームの一部を生成する。
【００４７】
レートモジュール５６、５８、６０、および６２は、フレームのデジタル表現を生成するために、初期フレーム処理モジュール４６、４８、５０、および５２によって生成されるビットストリームのそれぞれの部分と共にアセンブルされて、ビットストリームの一部を生成する。例えば、初期全レートフレーム処理モジュール４６および全レートモジュール５６によって生成されるビットストリームの部分は、アセンブルされて、全レートエンコーダ３６が活動化される際に生成されるビットストリームを形成して、フレームを符号化し得る。エンコーダ３６、３８、４０、および４２の各々からのビットストリームは、さらにアセンブルされて、音声信号１８の複数のフレームを表すビットストリームを形成し得る。エンコーダ３６、３８、４０、および４２によって生成されるビットストリームは、復号化システム１６によって復号化される。
【００４８】
図３は、図１に示される復号化システム１６の拡大されたブロック図である。復号化システム１６の一実施形態は、全レートデコーダ９０、半レートデコーダ９２、４分の１レートデコーダ９４、８分の１レートデコーダ９６、合成フィルタモジュール９８、および処理後モジュール１００を含む。全レート、半レート、４分の１レート、８分の１レートデコーダ９０、９２、９４、および９６、合成フィルタモジュール９８、ならびに処理後モジュール１００は、全レート、半レート、４分の１レート、および８分の１レートコーデック２２、２４、２６、および２８の復号部分である。
【００４９】
デコーダ９０、９２、９４、および９６は、ビットストリームを受信し、デジタル信号を復号化して、音声信号１８の異なるパラメータを再構築する。デコーダ９０、９２、９４、および９６は、レート選択に基づいて各フレームを復号化するために活動化され得る。レート選択は、ワイヤレス通信システムにおける制御チャネルなどの別個の情報伝達メカニズムによって、符号化システム１２から復号化システム１６に提供され得る。この実施形態の例において、レート選択は、ワイヤレス通信システム内のベースステーションによって生成される放送ビーコン信号（ｂｒｏａｄｃａｓｔｂｅａｃｏｎｓｉｇｎａｌ）の一部として、モバイル通信デバイスに提供され得る。通常、放送ビーコン信号は、ベースステーションとモバイル通信デバイスとの間で通信を行うために使用される識別情報を提供するために生成される。
【００５０】
合成フィルタ９８および処理後モジュール１００は、各デコーダ９０、９２、９４、および９６の復号化処理の一部である。合成フィルタ９８を使用して、デコーダ９０、９２、９４、および９６によって復号化される音声信号１８のパラメータをアセンブルすることにより、合成音声が生成される。合成音声は、処理後モジュール１００を通過して、処理後の合成音声２０を生成する。
【００５１】
全レートデコーダ９０の一実施形態は、Ｆタイプセレクタ１０２および複数の励起再構築モジュールを含む。励起再構築モジュールは、Ｆ０の励起再構築モジュール１０４およびＦ１の励起再構築モジュール１０６を含む。さらに、全レートデコーダ９０は、線形予測係数（ＬＰＣ）の再構築モジュール１０７を含む。ＬＰＣ再構築モジュール１０７は、Ｆ０のＬＰＣ再構築モジュール１０８およびＦ１のＬＰＣ再構築モジュール１１０を含む。
【００５２】
同様に、半レートデコーダ９２の一実施形態は、Ｈタイプセレクタ１１２および複数の励起再構築モジュールを含む。励起再構築モジュールは、Ｈ０の励起再構築モジュール１１４およびＨ１の励起再構築モジュール１１６を含む。さらに、半レートデコーダ９２は、ＨのＬＰＣ再構築モジュール１１８である線形予測係数（ＬＰＣ）の再構築モジュールを含む。概念は類似するが、全レートおよび半レートのデコーダ９０および９２は、それぞれ、対応する全レートおよび半レートエンコーダ３６および３８からのビットストリームを復号化するように指定されている。
【００５３】
ＦおよびＨタイプセレクタ１０２および１１２は、選択的に、タイプ分類に応じて、全レートおよび半レートデコーダ９０および９２のそれぞれの部分を活動化させる。タイプ分類がタイプ０の場合、Ｆ０またはＨ０の励起再構築モジュール１０４または１１４が活動化される。逆に言えば、タイプ分類がタイプ１の場合、Ｆ１またはＨ１の励起再構築モジュール１０６または１１６が活動化される。Ｆ０またはＦ１のＬＰＣ再構築モジュール１０８または１１０は、それぞれ、タイプ０およびタイプ１のタイプ分類によって活動化される。ＨのＬＰＣ再構築モジュール１１８は、単にレート選択にのみ基づいて活動化される。
【００５４】
４分の１レート復号器９４は、Ｑ励起再構築モジュール１２０およびＱＬＰＣ再構築モジュール１２２を含む。同様に、８分の１レート復号器９６は、Ｅ励起再構築モジュール１２４およびＥＬＰＣ再構築モジュール１２６を含む。Ｑ励起再構築モジュール１２０またはＥ励起再構築モジュール１２４のそれぞれ、あるいはＱ再構築モジュール１２２またはＥＬＰＣ再構築モジュール１２６の両方は、それぞれ単独でレートセクション上において活性化される。
【００５５】
それぞれの励起再構築モジュールは、活性化されると、短期励起線１２８上で短期励起を提供するために動作し得る。同様に、それぞれのＬＰＣ再構築モジュールは、短期予測係数線１３０上で短期予測係数を生成するために動作する。短期励起および短期予測係数は、合成フィルタ９８に提供される。さらに、１実施形態において、短期予測係数は、図３において示されるように、処理後モジュール１００に提供される。
【００５６】
処理後モジュール１００は、フィルタリング、信号エンハンスメント、ノイズ改変、増幅、ティルト訂正、および合成音声の知覚的質を高めることができる他の類似の技術を含む。処理後モジュール１００は、合成音声の質を低下させることなく、可聴ノイズを低減するために動作し得る。可聴ノイズを低減することは、合成音声のホルマント構造を強調することによってか、または知覚的に合成音声に適切でない周波数領域におけるノイズのみを抑制することによって達成され得る。可聴ノイズは、より低いビットレートにおいてより目立つので、処理後モジュール１００の１実施形態は、レート選択に別々に依存する合成音声の事後処理を提供するために活性化され得る。処理後モジュール１００の別の実施形態は、レート選択に基づく復号器９０、９２、９４および９６の異なったグループに異なった事後処理を提供するために動作し得る。
【００５７】
動作中、図２において示される、初期フレーム処理モジュール４４は、レート選択を決定し、かつコード２２、２４、２６および２８のうちの１つを活性化するために音声信号１８を分析する。例えば、全レートコード２２が、レート選択に基づいてフレームを処理するために活性化される場合、初期全レートフレーム処理モジュール４６は、フレームのタイプ分類を決定し、ビットストリームの部分を生成する。全レートモジュール５６は、タイプ分類に基づき、フレームのビットストリームの残りを生成する。
【００５８】
ビットストリームは、レート選択に基づいて全レート復号器９０によって受信され、復号され得る。全レートデコーダ９０は、エンコーディングの間に決定されたタイプ分類を利用してビットストリームを復号する。合成フィルタ９８および処理後モジュール１００は、事後処理された合成音声２０を生成するためにビットストリームからの復号されたパラメータを用いる。ビットストリームは、それぞれのコード２２、２４、２６および２８によって生成され、フレームにおける音声信号１８の異なったパラメータおよび／または特性を強調するために、非常に様々なビット割付けを含む。
【００５９】
（１．０ビット割付け）
図４、図５、図６および図７は、全レートコード２２、半レートコード２４、４分の１レートコード２６および８分の１レートコード２８のそれぞれのビット割付けの１実施形態を示す表である。ビット割付けは、初期フレーム処理モジュール４４によって生成されるビットストリームの部分、およびそれぞれの符号器３６、３８、４０および４２における励起処理モジュール５４によって生成されるビットストリームの部分を割り当てる。さらに、ビット割付けは、フレームを表すビットストリームにおける複数のビットを割り当てる。従って、活性化されたビットレートはコード２２、２４、２６および２８に依存して変化する。ビットストリームは、代表的ビットが符号化システム１２によって、それぞれフレームごとに生成されるか、またはサブフレームごとに生成されるかに依存する第１の部分と第２の部分に分類され得る。後述されるように、ビットストリームの第１の部分および第２の部分は、音声信号１８のフレームを符号化し、かつ復号するために選択されるコード２２、２４、２６および２８に依存して変化する。
【００６０】
（１．１全レートコーデックのビット割付け）
図２、図３および図４を参照して、全レートビットストリームコーデックの全レートビットストリーム２２が説明される。次に図４を参照して、全レートコーデック２２のビット割付けは、ラインスペクトル振動数（ＬＳＦ）コンポーネント１４０、タイプコンポーネント１４２、適応コードブックコンポーネント１４４、固定コードブックコンポーネント１４６およびゲインコンポーネント１４７を含む。ゲインコンポーネント１４７は、適応コードブックゲインコンポーネント１４８および固定コードブックゲインコンポーネント１５０を含む。ビットストリーム割付けは、さらに、タイプ０カラム１５２およびタイプ１カラム１５４によって規定される。タイプ０カラム１５２およびタイプ１カラム１５４は、上述のように音声信号１８のタイプ分類に基づいてビットストリームにおけるビットの割付けを割り当てる。１実施形態において、タイプ０カラム１５２およびタイプ１カラム１５４の両方は、音声信号１８を処理するためにそれぞれ５ミリ秒の４つのサブフレームを用いる。
【００６１】
図２において示される、初期全レートフレーム処理モジュール４６は、ＬＳＦコンポーネント１４０を生成する。ＬＳＦコンポーネント１４０は、短期予測パラメータごとに生成される。短期予測パラメータは、複数のラインスペクトル振動数（ＬＳＦ）に変換される。ＬＳＦは、フレームのスペクトルエンベロープを表す。さらに、前フレームのＬＳＦからの複数の予測ＬＳＦが決定される。予測ＬＳＦは、ＬＳＦ予測エラーを生成するためにＬＳＦから減算される。１実施形態において、ＬＳＦ予測エラーは、１０個のパラメータのベクトルを含む。ＬＳＦ予測エラーは、複数の量子化されたＬＳＦを生成するために予測ＬＳＦと組み合わされる。量子化されたＬＳＦは、詳細に後述されるように、それぞれのサブフレームの量子化された複数のＬＰＣ係数Ａｑ（ｚ）を形成するために、補間され、かつ変換される。さらに、ＬＳＦ予測エラーは、復号システム１６に伝送されるＬＳＦコンポーネント１４０を生成するために量子化される。
【００６２】
ビットストリームが復号システム１６において受信されると、ＬＳＦコンポーネント１４０は、量子化されたＬＳＦ予測エラーを表す量子化されたベクトルを見つけるために用いられる。量子化されたＬＳＦ予測エラーは量子化されたＬＳＦを生成するようい予測されたＬＳＦに追加される。量子化されたＬＳＦは、符号化システム１２と同様に、復号システム１６における前フレームのＬＳＦから決定される。結果として生じた量子化されたＬＳＦは、所定の重み付けを用いて、それぞれのサブフレームのために補間され得る。所定の重み付けは、固定されているか、または可変であり得る補間経路を規定する。補間経路は、前フレームの量子化されたＬＳＦと現在のフレームの量子化されたＬＳＦとの間に存在する。補間経路は、現在のフレームにおけるそれぞれのサブフレームのためのスペクトルエンベロープを提供するために用いられ得る。
【００６３】
タイプ０として分類されたフレームのために、図４において示されるように、複数のステージ１５６および補間構成要素１５８を利用してＬＳＦコンポーネント１４０の１実施形態が符号化される。ステージ１５６は、フレームのＬＳＦコンポーネント１４０を符号化するために使用されるＬＳＦ予測エラーを表す。補間構成要素１５８は、前フレームの量子化されたＬＳＦと、現在処理中のフレームの量子化されたＬＳＦとの間に複数の補間経路を提供するために用いられ得る。通常、補間構成要素１５８は、復号中のラインスペクトル振動数（ＬＳＦ）のコンター（ｃｏｎｔｏｕｒ）における選択可能調整を表す。選択可能調整は、タイプ０として分類されるフレームのスペクトルの性質が静的でないことが原因で用いられ得る。タイプ１として分類されるフレームのために、そのようなフレームのスペクトルの静的な性質が原因で、ＬＳＦコンポーネント１４０は、ステージ１５６および所定の線補間経路のみを用いて符号化され得る。
【００６４】
ＬＳＦコンポーネント１４０の１実施形態は、タイプ０として分類されるフレームのための補間構成コンポーネント１５８を符号化するために２ビットを含む。ビットは、特定の補間経路を識別する。それぞれの補間経路は、それぞれのサブフレームのための現在の量子化されたＬＳＦのそれぞれのサブフレームおよび重み付けのために、前の量子化されたＬＳＦの重み付けを調整する。補間経路の選択は、次に続くサブフレーム間のスペクトルエンベロープにおける変化の度合いに基づいて決定され得る。例えば、フレームの中心のスペクトルエンベロープにおいて相当な変化がある場合、補間構成要素１５８は、前フレームからの量子化されたＬＳＦの影響を低減する補間経路を選択する。補間構成要素１５８の１実施形態は、それぞれのサブフレームのために４個の異なった補間経路の任意の１つを表し得る。
【００６５】
予測ＬＳＦは、複数の移動平均予測係数を用いて生成され得る。予測係数は、前フレームのＬＳＦが現在のフレームのＬＳＦを予測するためにどれだけ用いられるかを決定する。全レートコーデック２２における予測係数は、ＬＳＦ予測係数表を用いる。表は、通常、以下のマトリクスによって示され得る：
【００６６】
【表１】

１実施形態において、ｍは２に等しく、ｎは１０に等しい。したがって、予測オーダーは２であり、予測係数の２個のベクトルが存在し、それぞれが１０個の要素を含む。ＬＳＦ予測係数表の１実施形態は、「Ｆｌｏａｔ６４Ｂ＿８５ｋ」と称され、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。
【００６７】
予測ＬＳＦが決定されると、ＬＳＦ予測エラーは現在のＬＳＦを用いて計算され得る。ＬＳＦ予測エラーは、全次元マルチステージ量子化器を用いて量子化され得る。複数の量子化ベクトルを含むＬＳＦ予測エラー量子化表は、マルチステージ量子化器を用いて使用され得るそれぞれのステージ１５６を表す。マルチステージ量子化器は、それぞれのステージ１５６のためのコンポーネント１４０の部分を決定する。ＬＳＦコンポーネント１４０の部分の決定は、剪定された（ｐｒｕｎｅｄ）検索アプローチに基づく。剪定された検索アプローチは、それぞれのステージから見込まれる量子化ベクトルの候補を決定する。すべてのステージの候補の決定の終結において、それぞれのステージのための最良の量子化ベクトルを選択する決定が同時に行なわれる。
【００６８】
第１のステージにおいて、マルチステージ量子化器は、複数の第１ステージの量子化エラー候補を決定する。第１ステージ量子化エラー候補は、第１ステージに位置付けられるＬＳＦ予測エラーと、最も適合する量子化ベクトルとの間の差異である。マルチステージ量子化器は、その後、第１ステージ量子化エラー候補と最も適合する第２ステージに位置付けられる量子化ベクトルを識別することによって、複数の第２ステージ量子化エラー候補を決定する。この双方向プロセスは、それぞれのステージについて完了され、それぞれのステージから有力候補が出される。それぞれのステージの最も代表的な量子化ベクトルの最終選択は、すべてのステージの候補が決定されたとき、同時に行なわれる。ＬＳＦコンポーネント１４０は、それぞれのステージからの最も適合する量子化ベクトルのインデックスロケーションを含む。ＬＳＦコンポーネント１４０の１実施形態は、ステージ１５６におけるインデックスロケーションを符号化するための２５ビットを含む。量子化アプローチのためのＬＳＦ予測エラー量子化テーブルは、通常、以下のマトリクスによって示され得る：
【００６９】
【表２】

タイプ０およびタイプ１の両方の分類の量子化テーブルの１実施形態は、４つのステージ（ｊ＝４）を用い、このステージにおいて、それぞれの量子化ベクトルは１０個の構成要素（ｎ＝１０）によって表される。この実施形態のステージ１５６は、ステージ１５６のうちの１つに対して１２８個の量子化ベクトル（ｒ＝１２８）および、残りのステージ１５６において６４個の量子化ベクトル（ｓ＝６４）を含む。したがって、ステージ１５６における量子化ベクトルのインデックスロケーションは、１２８個の量子化ベクトルを含むステージ１５６のうちの１つのために７ビットを用いて符号化され得る。さらに、６４個の量子化ベクトルを含むそれぞれのステージ１５６のインデックスロケーションは、６ビットを用いて符号化され得る。タイプ０およびタイプ１の両方の分類のために用いられるＬＳＦ予測エラー量子化テーブルの１実施形態は、「Ｆｌｏａｔ６４ＣＢｅｓ＿８５Ｋ」と称され、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。
【００７０】
復号システム１６において、全レート復号器９０におけるＦ０またはＦ１ＬＰＣ再構築モジュール１０８、１１０は、図３において示されるように、ビットストリームからＬＳＦコンポーネント１４０を受け取る。ＬＳＦコンポーネント１４０は、上述のように、量子化されたＬＳＦを再構築するために用いられ得る。量子化されたＬＳＦは、現在のフレームのそれぞれのサブフレームのための線形予測符号化係数を形成するために補間され、かつ変換され得る。
【００７１】
タイプ０分類のために、再構築はＦ０ＬＰＣ再構築モジュール１０８によって果たされる。再構築は、予測ＬＳＦを決定すること、量子化ＬＳＦ予測エラーを復号すること、かつ量子化ＬＳＦを再構築することを含む。さらに、量子化ＬＳＦは、識別された補間経路を用いて補間され得る。上述のように、４個の補間経路のうちの１つは、ＬＳＦコンポーネント１４０を形成する補間構成要素１５８によってＦ０ＬＰＣ再構築モジュール１０８に知らせられる。タイプ１分類の再構築は、Ｆ１ＬＰＣ再構築モジュール１１０による予測線形補間経路およびＬＳＦ予測エラー量子化テーブルの使用を含む。ＬＳＦコンポーネント１４０は、タイプ０およびタイプ１分類の両方においてフレームごとに符号化されるので、ＬＳＦコンポーネント１４０は、ビットストリームの第１の部分の１部を形成する。
【００７２】
タイプコンポーネント１４２も、ビットストリームの第１の部分の１部を形成する。図２において示されるように、タイプＦのセレクタモジュール６８は、特定のフレームのタイプ分類を表すために、タイプコンポーネント１４２を生成する。次に、図３を参照して、全レート復号器９０におけるタイプＦのセレクタモジュール１０２は、ビットストリームからタイプコンポーネント１４２を受信する。
【００７３】
適応コードブックコンポーネント１４４の１実施形態は、開ループの適応コードブックコンポーネント１４４ａまたは閉ループの適応コードブックコンポーネント１４４ｂであり得る。図２において示されるように、開ループの適応コードブックコンポーネント１４４ａまたは閉ループの適応コードブックコンポーネント１４４ｂは、初期全フレーム処理モジュール４６または、Ｆ０第１サブフレーム処理モジュール７０によって、それぞれ生成される。開ループの適応コードブックコンポーネント１４４ａ、１４４ｂは、フレームがタイプ０として分類されると、ビットストリームにおける閉ループの適応コードブックコンポーネント１４４ｂに取って代わられ得る。通常、開ループの指示は、合成による分析（ａｎａｌｙｓｉｓ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）（ＡＢＳ）を含まないフレームごとの処理を参考にする。閉ループの処理は、サブフレームごとに果たされ、合成による分析（ＡＢＳ）を含む。
【００７４】
ピッチラグの符号化は、音声信号１８の周期性に基づいており、適応コードブックコンポーネント１４４を生成する。開ループの適応コードブックコンポーネント１４４ａはフレームのために生成され、これに対して閉ループの適応コードブックコンポーネント１４４ｂは、サブフレームごとに生成される。したがって、開ループの適応コードブックコンポーネント１４４ａは、ビットストリームの第１の部分の１部であり、閉ループの適応コードブックコンポーネント１４４ｂは、ビットストリームの第２の部分の１部である。図４において示されるように、１実施形態において、開ループの適応コードブックコンポーネント１４４ａは８ビットを含み、閉ループの適応コードブック１４４ｂは２６ビットを含む。開ループの適応コードブックコンポーネント１４４ａおよび、閉ループの適応コードブックコンポーネント１４４ｂは、後述される適応コードブックベクトルを用いて生成され得る。次に図３を参照して、復号システム１６は、開ループの適応コードブックコンポーネント１４４ａまたは、閉ループの適応コードブックコンポーネント１４４ｂを受信する。開ループの適応コードブックコンポーネント１４４ａまたは、閉ループの適応コードブックコンポーネント１４４ｂはＦ０励起再構築モジュール１０４またはＦ１励起再構築モジュール１０６によってそれぞれ復号される。
【００７５】
固定コードブックコンポーネント１４６の１実施形態は、タイプ０固定コードブックコンポーネント１４６ａまたはタイプ１固定コードブックコンポーネント１４６ｂであり得る。図２において示されるように、タイプ０固定コードブックコンポーネント１４６ａは、Ｆ０第１サブフレーム処理モジュール７０によって生成される。Ｆ１サブフレーム処理モジュール７２は、タイプ１固定コードブックコンポーネント１４６ｂを生成する。タイプ０固定コードブックコンポーネント１４６ａまたはタイプ１固定コードブックコンポーネント１４６ｂは、後述されるサブフレームごとの固定コードブックベクトルおよび分析による合成（ｓｙｎｔｈｅｓｉｓ−ｂｙ−ａｎａｌｙｓｉｓ）を用いて生成される。固定コードブックコンポーネント１４６は、ｎパルスのコードブックを用いるサブフレームの長期残差を表し、その際、ｎはコードブックにおけるパルスの数であり得る。
【００７６】
次に図４を参照して、１実施形態のタイプ０固定コードブックコンポーネント１４６ａは、サブフレームごとに２２ビットを含む。タイプ０固定コードブックコンポーネント１４６ａは、複数のｎパルスコードブックのうちの１つ、コードブックにおけるパルスロケーション、およびパルスロケーションに対応する代表的パルスの符号（量「ｎ」）の識別を含む。例示的実施形態において、２個までのビットは、３個のｎパルスのうちのどれが符号化されているかを指示する。具体的には、２ビットのうちの第１のビットは、３個のｎパルスコードブックの第１のｎパルスコードブックが用いられることを指示するために「１」に設定される。第１のビットが「０」に設定される場合、２ビットのうちの第２のビットは、３個のｎパルスコードブックのうちの第２のｎパルスコードブックと第３のｎパルスコードブックのどちらが用いられるかを指示する。したがって、例示的実施形態において、３個のｎパルスコードブックのうちの第１のｎパルスコードブックは、パルスロケーションおよびパルス符号を表すために、２１ビットを利用でき、３個のｎパルスコードブックのうちの第２および第３のｎパルスコードブックは、２０ビットを利用できる。
【００７７】
ｎパルスコードブックのうちの１つにおけるそれぞれの代表的パルスは、対応するトラックを含む。トラックは、サブフレームにおけるサンプルロケーションのリストであり、その際、リストにおけるそれぞれのサンプルロケーションがパルスロケーションのうちの１つである。符号化されているサブフレームは、それぞれのサンプルロケーションがサンプル値を含む複数のサンプルロケーションに分割され得る。対応する代表的パルスのトラックは、サブフレームからのサンプルロケーションの部分のみをリスト化する。ｎパルスコードブックの１におけるそれぞれの代表的パルスは、対応するトラックにおけるパルスロケーションの１つによって表され得る。
【００７８】
動作中、それぞれの代表的パルスは、対応するトラックにおけるそれぞれのパルスロケーションにおいて順番に配置される。代表的パルスは、ＡＢＳを用いるサブフレームのサンプルロケーションにおけるサンプル値と比較され得る信号に変換される。代表的パルスは、パルスロケーションのサンプルロケーションより後のサンプルロケーションにおけるサンプル値と比較される。代表的パルスと、より後のサンプル値との間の差異を最小限にするパルスロケーションは、タイプ０固定コードブックコンポーネント１４６ａの部分を形成する。選択されたｎパルスコードブックにおけるそれぞれの代表的パルスは、タイプ０固定コードブックコンポーネント１４６ａの部分を形成する対応するパルスロケーションによって表され得る。トラックは、通常、以下のマトリクスによって表され得るトラックテーブルの中に含まれる：
【００７９】
【表３】

トラックテーブルの１実施形態は、「ｔｒａｃｋ．ｔａｂ」と称されるライブラリにおける「ｓｔａｔｉｃｓｈｏｒｔｔｒａｃｋ＿＿５＿＿４＿＿０」、「ｓｔａｔｉｃｓｈｏｒｔｔｒａｃｋ＿＿５＿＿３＿＿２」および「ｓｔａｔｉｃｓｈｏｒｔｔｒａｃｋ＿＿５＿＿３＿＿１」と称されるテーブルであり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸＢに含まれる。
【００８０】
図４において示される例示的実施形態において、ｎパルスコードブックは第１の３個の５パルスコードブック１６０が５個の代表的パルス（したがってｎ＝５）を含む場合、３個の５パルスコードブック１６０である。第１の代表的パルスは、サブフレームにおける４０個のサンプルロケーションのうちの１６個（ｆ＝１６）を含むトラックを有する。３個の５パルスコードブック１６０のうちの第１の５パルスコードブックからの第１の代表的パルスは、サンプルロケーションにおけるサンプル値と比較される。第１の代表的パルスと関連するトラックにおいて存在するサンプルロケーションのうちの１つは、４ビットを用いるパルスロケーションとして識別される。トラックにおいて識別されるサンプルロケーションは、第１の代表的パルスと、上述のより後のサンプル値との間の差異を最小限にするサブフレームにおけるサンプルロケーションである。トラックにおけるパルスロケーションの識別は、タイプ０固定コードブックコンポーネント１４６ａの部分を形成する。
【００８１】
この例示的実施形態において、第２の代表的パルスおよび第４の代表的パルスは、１６個のサンプルロケーション（ｇおよびｉ＝１６）を用いる対応するトラックを有し、第３および第４の代表的パルスは、８個のサンプルロケーション（ｈおよびｊ＝８）を備える対応するトラックを有する。したがって、第２の代表的パルスおよび第４の代表的パルスのパルスロケーションは、４ビットを用いて識別され、第３の代表的パルスのパルスロケーションおよび第５の代表的パルスのパルスロケーションは、３ビットを用いて識別される。その結果、３個の５パルスコードブック１６０の第１の５パルスコードブックのためのタイプ０固定コードブックコンポーネント１４６ａは、パルスロケーションを識別するための１８ビットを含む。
【００８２】
識別されたパルスロケーションにおける代表的パルスの符号も、タイプ０固定コードブックコンポーネント１４６ａにおいて識別され得る。例示的実施形態において、１つのビットは第１の代表的パルスの符号を表し、１つのビットは第２の代表的パルスおよび第４の代表的パルスの両方の組み合わされた符号を表し、かつ１つのビットは第３の代表的パルスおよび第５の代表的パルスの組み合わされた符号を表す。組み合わされた符号は、単一ビットを備える２つの別個の符号を伝送するためのパルスロケーションにおける情報の冗長度を用いる。したがって、３個の５パルスコードブック１６０の第１の５パルスコードブックのためのタイプ０固定コードブックコンポーネント１４６ａは、合計２１ビットの符号指示のための３ビットを含む。
【００８３】
例示的実施形態において、３個の５パルスコードブック１６０の第２の５パルスコードブックおよび第３の５パルスコードブックは、さらに、５個の代表的パルス（ｎ＝５）を含み、トラックテーブルにおけるトラックは、８個のロケーション（ｆ、ｇ、ｈ、ｊ＝８）をそれぞれ含む。したがって、３個の５パルスコードブック１６０の第２の５パルスコードブックおよび第３の５パルスコードブックにおけるそれぞれの代表的パルスのパルスロケーションは、３ビットを用いて識別される。さらに、この例示的実施形態において、それぞれのパルスロケーションの符号は１ビットを用いて識別される。
【００８４】
１実施形態において、タイプ１として分類されるフレームのｎパルスコードブックは、８パルスコードブック１６２（ｎ＝８）である。８パルスコードブック１６２は、タイプ１固定コードブックコンポーネント１４６ｂの１実施形態を作製するためにサブフレームごとに３０ビットを用いて符号化される。３０ビットは、タイプ０分類におけるようなトラックを用いるパルスロケーションを識別する２６ビット、および符号を識別する４ビットを含む。トラックテーブルの１実施形態は、「ｔｒａｃｋ．ｔａｂ」と称されるライブラリにおける「ｓｔａｔｉｃＩＮＴ１６ｔｒａｃｋ＿＿８＿＿４＿＿０」と称されるテーブルであり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。
【００８５】
例示的実施形態において、第１の代表的パルスおよび第５の代表的パルスと関連するトラックは、４ビットを用いて符号化される１６個のサンプルロケーションを含む。残りの代表的パルスと関連するトラックは、３ビットを用いて符号化される８個のサンプルロケーションを含む。第１の代表的パルスと第５の代表的パルス、第２の代表的パルスと第６の代表的パルス、第３の代表的パルスと第７の代表的パルス、および第４の代表的パルスと第８の代表的パルスは、両方の代表的パルスのために組み合わされた符号を用いる。図３において例示されるように、ビットストリームが復号システム１６によって受信されると、Ｆ０励起再構築モジュール１０４またはＦ１励起再構築モジュール１０６は、トラックのパルスロケーションを復号する。トラックのパルスロケーションは、３個の５パルスコードブック１６０のうちの１つか、または８パルスコードブック１６２のうちの１つに対してＦ０励起再構築モジュール１６４またはＦ１励起再構築モジュール１０６によってそれぞれ復号される。ビットストリームはサブフレームごとに生成されるので、固定コードブックコンポーネント１４６は、ビットストリームの第２の部分の１部である。
【００８６】
再び図４を参照して、ゲインコンポーネント１４７は、通常、適応コードブックゲインおよび固定コードブックゲインを表す。タイプ０分類のために、ゲインコンポーネント１４７は、タイプ０適応コードブックゲインコンポーネント１４８ａおよび固定コードブックゲインコンポーネント１５０ａであり、両方とも適応コードブックゲインおよび固定コードブックゲインを表す。ビットストリームはサブフレームごとに符号化されるので、タイプ０適応コードブックゲインコンポーネント１４８ａおよびタイプ０固定ゲインコンポーネント１５０ａは、ビットストリームの第２の部分の１部である。図２において示されるように、タイプ０適応コードブックゲインコンポーネント１４８ａおよびタイプ０固定コードブックゲインコンポーネント１５０ａは、Ｆ０第１サブフレーム処理モジュール７０によって生成される。
【００８７】
タイプ０として分類されるフレームのそれぞれのサブフレームのために、適応コードブックゲインは、タイプ０適応コードブックゲインコンポーネント１４８ａおよび固定コードブックゲイン１５０ａを生成するために、２次元ベクトル量子化器（２ＤＶＱ）１６４によって共同で符号化される。１実施形態において、量子化は、デシベルユニット（ｄＢ）単位で固定コードブックゲインを固定コードブックエネルギーに変換することを含む。さらに、予測固定コードブックエネルギーは、前フレームの量子化された固定コードブックエネルギー値から生成され得る。予測固定コードブックエネルギーは、複数の固定コードブック予測係数を用いて導出される。
【００８８】
ＬＳＦ予測係数と同様に、固定コードブック予測係数は、現在の固定コードブックエネルギーを予測するために、前フレームの固定コードブックがどれだけ使用され得るかを決定する。予測固定コードブックエネルギーは、予測固定コードブックエネルギーエラーを生成するために、固定コードブックエネルギーから減算される。それぞれのサブフレームのための前フレームおよび現在のフレームの重み付けを調整することによって、予測固定コードブックエネルギーは、予測固定コードブックエラーを最小限にするために計算され得る。
【００８９】
予測固定コードブックエネルギーエラーは、２次元ベクトルを形成するために、適応コードブックゲインから群化される。予測固定コードブックエネルギーエラーおよび適応コードブックゲインの量子化に続いて、後述されるように、２次元ベクトルは、量子化されたゲインベクトル（＼ｇ_ac）（本明細書中、以下＼は＾を表す。すなわち、＼ｇ_acは
【００９０】
【数１】

を表す）と呼ばれ得る。２次元ベクトルは、２Ｄゲイン量子化テーブルにおける複数の所定のベクトルと比較される。インデックスロケーションは、２次元ベクトルを最もよく表す所定のベクトルの２Ｄゲイン量子化テーブルにおけるロケーションであることを識別する。インデックスロケーションは、サブフレームのための適応コードブックゲインコンポーネント１４８ａおよび固定コードブックゲインコンポーネント１５０ａである。フレームのための適応コードブックゲインコンポーネント１４８ａおよび固定コードブックゲインコンポーネント１５０ａは、それぞれのサブフレームのために識別された指数を表す。
【００９１】
所定のベクトルは、２個の構成要素を含み、１つは適応コードブックゲインを表し、１つは予測固定コードブックエネルギーエラーを表す。２Ｄゲイン量子化テーブルは、通常、以下のテーブルによって表される：
【００９２】
【表４】

１実施形態の２次元ベクトル量子化器（２ＤＶＱ）１６４は、１２８個の量子化ベクトル（ｎ＝１２８）のうちの１つのインデックスロケーションを識別するために、サブフレームごとに７ビットを利用する。２Ｄゲイン量子化テーブルの１実施形態は、「Ｆｌｏａｔ６４ｇａｉｎＶＱ＿＿２＿＿１２８＿＿８＿＿５」と称され、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。
【００９３】
図２において示されるように、タイプ１として分類されるフレームのために、Ｆ１第１フレーム処理モジュール７２によってタイプ１適応コードブックゲインコンポーネント１４８ｂが生成される。同様に、Ｆ１第２フレーム処理モジュール７６は、タイプ１固定コードブックゲインコンポーネント１５０ｂを生成する。タイプ１適応コードブックゲインコンポーネント１４８ｂおよびタイプ１固定コードブックゲインコンポーネント１５０ｂは、ビットストリームの第１の部分の１部を形成するために、フレームごとに生成される。
【００９４】
再び図４を参照して、タイプ１適応コードブックゲインコンポーネント１４８ｂは、１実施形態において４次元プレベクトル量子化器（４ＤプレＶＱ）１６６である多次元ベクトル量子化器を用いて生成される。「プレ」という用語は、１実施形態において、フレームにおけるすべてのサブフレームのための適応コードブックゲインが、任意のサブフレームのための固定コードブックにおける検索の前に量子化されることを強調するために用いられる。代替的な実施形態において、多次元量子化器は、ｎ個のサブフレームのためのベクトルを量子化するｎ次元ベクトル量子化器であり、その際、ｎはサブフレームの任意の数であり得る。
【００９５】
４次元プレベクトル量子化器（４ＤプレＶＱ）１６６によって量子化されたベクトルは、それぞれのサブフレームからのそれぞれの適応コードブックを表す構成要素を有する適応コードブックゲインベクトルである。後述されるように、量子化に続いて、適応コードブックゲインベクトルは、量子化されたピッチゲイン（＼ｇ^k _a）とも呼ばれ得る。適応コードブックゲインコンポーネント１４８ｂを生成するための適応コードブックゲインベクトルの量子化は、プレゲイン量子化テーブルにおける検索によって果たされる。プレゲイン量子化テーブルは、適応コードブックゲインベクトルを最もよく表す所定のベクトルを識別するために検索され得る複数の所定のベクトルを含む。プレゲイン量子化テーブルにおける識別された所定のベクトルのインデックスロケーションは、タイプ１適応コードブックコンポーネント１４８ｂである。１実施形態の適応コードブックゲインコンポーネント１４８ｂは６ビットを含む。
【００９６】
１実施形態において、所定のベクトルは４個の構成要素、すなわちそれぞれのサブフレームにつき１個の構成要素を含む。したがって、プレゲイン量子化テーブルは、通常、以下のように表される：
【００９７】
【表５】

プレゲイン量子化テーブルの１実施形態は、６４個の所定のベクトル（ｎ＝６４）を含む。プレゲイン量子化テーブルの実施形態は、「Ｆｌｏａｔ６４ｇｐ４＿＿タブ」と称され、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。
【００９８】
タイプ１固定コードブックゲインコンポーネント１５０ｂは、ｎ個のサブフレームのための多次元ベクトル量子化器を用いて同様に符号化され得る。１実施形態において、多次元ベクトル量子化器は、４次元遅延ベクトル量子化器（４Ｄ遅延ＶＱ）１６８である。「遅延」という用語は、サブフレームのための固定コードブックゲインの量子化は、すべてのサブフレームのための固定コードブックにおける検索の後にのみ行なわれることを強調する。再び図２を参照して、Ｆ１第２フレーム処理モジュール７６は、それぞれのサブフレームのための固定コードブックゲインを決定する。固定コードブックゲインは、全部のフレームが処理されるまでサブフレームごとに生成される第１の緩衝パラメータによって決定され得る。フレームが処理されると、すべてのサブフレームのための固定コードブックゲインは、タイプ１固定コードブックゲインコンポーネント１５０ｂを生成するための緩衝パラメータを用いて量子化される。１実施形態において、タイプ１固定コードブックゲインコンポーネント１５０ｂは、図４において示されるように、１０ビットを含む。
【００９９】
タイプ１固定コードブックゲインコンポーネント１５０ｂは、デシベル（ｄＢ）単位で複数の固定コードブックエネルギーを有する固定コードブックゲインを表すことによって生成される。固定コードブックエネルギーは、複数の量子化された固定コードブックエネルギーを生成するために量子化され、その後、複数の量子化された固定コードブックゲインを生成するために変換される。さらに、固定コードブックエネルギーは、複数の予測固定コードブックエネルギーを生成するための前フレームの量子化された固定コードブックエネルギーエラーから予測される。予測固定コードブックエネルギーと、固定コードブックエネルギーとの間の差異は、複数の予測固定コードブックエネルギーエラーである。１実施形態において、予測固定コードブックエネルギーを生成するために、それぞれの４個のサブフレームに対して異なった予測係数が用いられ得る。この例示的実施形態において、第１、第２、第３および第４のサブフレームの予測固定コードブックエネルギーが、前フレームの４個の量子化された固定コードブックエネルギーエラーから予測される。この例示的実施形態の第１、第２、第３および第４のサブフレームの予測係数は、それぞれ｛０．７，０．６，０．４，０．２｝、｛０．４，０．２，０．１，０．０５｝、｛０．３，０．２，０．０７５，０．０２５｝および｛０．２，０．０７５，０．０２５，０．０｝であり得る。
【０１００】
予測固定コードブックエネルギーエラーは、固定コードブックゲインベクトルを形成するために群化され得、これは量子化されると、量子化された固定コードブックゲイン（＼ｇ^kｅ）と呼ばれ得る。１実施形態において、それぞれのサブフレームの予測固定コードブックエネルギーエラーは、ベクトルにおける構成要素を表す。予測固定コードブックエネルギーエラーは、遅延ゲイン量子化テーブルにおける複数の所定のベクトルを用いて量子化される。量子化中、知覚重み付け測定は量子化エラーを最小限化するために組み入れられ得る。遅延ゲイン量子化テーブルにおける所定のベクトルを識別するインデックスロケーションは、フレームの固定コードブックゲインコンポーネント１５０ｂである。
【０１０１】
１実施形態の遅延ゲイン量子化テーブルにおける所定のベクトルは、４個の構成要素を含む。したがって、遅延ゲイン量子化テーブルは、前述のテーブル５によって表され得る。遅延ゲイン量子化テーブルの１実施形態は、１０２４個の所定のベクトル（ｎ＝１０２４）を含む。遅延ゲイン量子化テーブルの実施形態は、「Ｆｌｏａｔ６４ｇａｉｎＶＱ＿＿４＿＿１０２４」と称され、添付のマイクロフィッシュＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。
【０１０２】
再び図３を参照して、固定コードブックゲインコンポーネント１４８および適応コードブックゲインコンポーネント１５０は、タイプ分類に基づく復号システム１６における全レート復号器９０によって復号され得る。Ｆ０励起再構築モジュール１０４は、タイプ０適応コードブックゲインコンポーネント１４８ａおよびタイプ０固定コードブックゲインコンポーネント１５０ａを復号する。同様に、タイプ１適応コードブックゲインコンポーネント１４８ｂおよびタイプ１固定ゲインコンポーネント１５０ｂは、Ｆ１励起再構築モジュール１０６によって復号される。
【０１０３】
固定コードブックゲインコンポーネント１５８および適応コードブックゲインコンポーネント１６０の復号は、前述のように、全レート復号器９０によってそれぞれの予測ゲインの世代を含む。それぞれの量子化テーブルからのそれぞれの量子化ベクトルは、その後、それぞれのインデックスロケーションを用いて位置付けされる。それぞれの量子化ベクトルは、その後、それぞれの量子化コードブックゲインを生成するために、それぞれの予測ゲインを用いてアセンブルされる。タイプ０固定ゲインコンポーネント１４８ａおよびタイプ０適応ゲインコンポーネント１５０ａから生成された量子化コードブックゲインは、サブフレームのための固定コードブックゲインおよび適応コードブックゲインの両方の値を表す。タイプ１適応コードブックゲインコンポーネント１４８ｂおよびタイプ１固定コードブックゲインコンポーネント１５０ｂから生成された量子化コードブックゲインは、フレームにおけるそれぞれのサブフレームの固定コードブックゲインおよび適応コードブックゲインをそれぞれ表す。
【０１０４】
（１．２半レートコーデックのためのビット割付け）
次に、図２、図３および図５を参照して、半レートコーデック２４の半レートビットストリームが説明される。半レートコーデック２４は、多くの点に関して、全レートコーデック２２と同じであるが、異なったビット割付けを有する。簡略化目的で、そのような説明は差異に焦点が合わせられる。次に、図５を参照して、半レートコーデック２４の１実施形態のビットストリーム割付けは、ラインスペクトル振動数（ＬＳＦ）コンポーネント１７２、タイプコンポーネント１７４、適応コードブックコンポーネント１７６、固定コードブックコンポーネント１７８およびゲインコンポーネント１７９を含む。ゲインコンポーネント１７９は、さらに、適応コードブックゲインコンポーネント１８０および固定コードブックゲインコンポーネント１８２を含む。半レートコーデック２４のビットストリームも、タイプ０カラム１８４およびタイプ１カラム１８６によってさらに規定される。１実施形態において、タイプ０カラム１８４は、それぞれ８０個のサンプルを含む１０ミリ秒の２個のサブフレームを用いる。１実施形態のタイプ１カラム１８６は、３個のサブフレームを用い、その際、第１のサブフレームおよび第２のサブフレームは５３個のサンプルを含み、第３のサブフレームは５４個のサンプルを含む。
【０１０５】
全レートコーデック２２と同様に生成されたにもかかわらず、ＬＳＦコンポーネント１７２は、タイプ０分類およびタイプ１分類の両方のための複数のステージ１８８および予測子スイッチ１９０を含む。さらに、ＬＳＦコンポーネント１７２の１実施形態は、ビットストリームの第１の部分の１部を形成する２１ビットを含む。図２において示される、初期半レートフレーム処理モジュール４８は、全レートコーデック２２と同様に、ＬＳＦコンポーネント１７２を生成する。再び図５を参照して、１実施形態の半レートコーデック２４は、３個のステージ１８８、１２８個のベクトルを有する２個のステージ、および６４個のベクトルを有する１個のステージを含む。半レートコーデック２４の３個のステージ１８８は、後述されるように、予測子係数のセットの選択を例外とするタイプ１として分類されるフレームのための全レートコーデック２２と同様に動作する。それぞれの１２８個のベクトルのインデックスロケーションは、７ビットを用いて識別され、それぞれの６４個のベクトルのインデックスロケーションは６ビットを用いて識別される。半レートコーデック２４のＬＳＦ予測エラー量子化テーブルの１実施形態は、「Ｆｌｏａｔ６４ＣＢｅｓ＿＿４０ｋ」と称され、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。
【０１０６】
半レートコーデック２４も、予測子係数のセット間の選択における全レートコーデック２２とは異なる。１実施形態の予測子スイッチ１９０は、１ビットを用いる予測子係数の２個の考えられ得るセットのうちの１つを識別する。予測子係数の選択されたセットは、全レートコーデック２２と同様に、予測ラインスペクトル振動数（ＬＳＦ）を決定するために用いられ得る。予測子スイッチ１９０は、予測子係数のセットのうちのどれが量子化エラーを最小限にするかを決定し、かつ識別する。予測子係数のセットは、ＬＳＦ予測子係数テーブルにおいて含まれ得、通常、以下のマトリクスによって示され得る：
【０１０７】
【表６】

１実施形態において、それぞれ１０個の構成要素（ｎ＝１０）を含む２個のセット（ｊ＝２）のそれぞれにおいて４個の予測子係数（ｍ＝４）が存在する。１実施形態における半レートコード２４のＬＳＦ予測子係数テーブルは、「Ｆｌｏａｔ６４Ｂ＿＿４０ｋ」と称され、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢにおいて含まれる。再び図３を参照して、ＬＳＦ予測エラー量子化テーブルおよびＬＳＦ予測子係数テーブルは、復号システム１６におけるＨＬＰＣ再構築モジュール１１８によって用いられる。ＨＬＰＣ再構築モジュール１１８は、量子化フレームＬＳＦを再構築するために、ビットストリームからＬＳＦコンポーネント１７２を受信し、かつ再構築する。全レートコ−デック２２と同様に、タイプ１として分類されるフレームのために、半レートコーデック２４は、所定の線形補間経路を用いる。しかしながら、半レートコーデック２４は、タイプ０として分類されるフレームおよびタイプ１として分類されるフレームの両方のための所定の線形補間経路を用いる。
【０１０８】
半レートコーデック２４における適応コードブックコンポーネント１７６は、音声信号１８の周期性に基づいたピッチラグをモデリングする。適応コードブックコンポーネント１７６は、タイプ０分類のためにサブフレームごとに符号化され、タイプ１分類のためにフレームごとに符号化される。図２において示されるように、初期半レートフレーム処理モジュール４８は、タイプ１分類を有するフレームの開ループの適応コードブックコンポーネント１７６ａを符号化する。タイプ０分類を有するフレームのために、Ｈ０第１サブフレーム処理モジュール８０は、閉ループの適応コードブックコンポーネント１７６ｂを符号化する。
【０１０９】
再び図５を参照して、開ループの適応コードブックコンポーネント１７６ａの１実施形態は、フレームごとに７ビットによって符号化され、閉ループの適応コードブックコンポーネント１７６ｂは、サブフレームごとに７ビットによって符号化される。したがって、タイプ０適応コードブックコンポーネント１７６ａは、ビットストリームの第１の部分の１部であり、タイプ１適応コードブックコンポーネント１７６ｂは、ビットストリームの第２の部分の１部である。図３において示されるように、復号システム１６は、閉ループの適応コードブックコンポーネント１７６ｂを受信する。閉ループの適応コードブックコンポーネント１７６ｂは、Ｈ０励起再構築モジュール１１４を用いて半レート復号器９２によって復号される。同様に、Ｈ１励起再構築モジュール１１６は、開ループの適応コードブックコンポーネント１７６ａを復号する。
【０１１０】
半レートコーデック２４用の固定コードブックコンポーネント１７８の一実施形態は、全レートコーデック２２にあるような、長期残差をエンコードする、タイプの分類に依存する。図２を再度参照すると、タイプ０の固定コードブックコンポーネント１７８ａまたはタイプ１の固定コードブックコンポーネント１７８ｂは、Ｈ０の第１のサブフレーム処理モジュール８０またはＨ１の第２のサブフレーム処理モジュール８４によって、それぞれ生成される。したがって、タイプ０の固定コードブックコンポーネント１７８ａおよびタイプ１の固定コードブックコンポーネント１７８ｂは、ビットストリームの第２の部分の一部を形成する。
【０１１１】
図５を再度参照すると、例示の実施形態のタイプ０の固定コードブックコンポーネント１７８ａは、サブフレーム（２ビットまでが、全レートコーデック２２において用いられるべきコードブックを識別する）あたり１５ビットを用いてエンコードされる。例示の実施形態において、タイプ０の固定コードブックコンポーネント１７８ａのエンコーディングは、２パルスコードブック１９２および３パルスコードブック１９４である複数のｎパルスのコードブックの使用を含む。さらに、この例示の実施形態において、ランダムな励起であるエントリーを含むガウスコードブック１９５を用いる。ｎパルスのコードブックに関して、半レートコーデック２４は、全レートコーデック２２に類似したトラック表を用いる。一実施形態において、マイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢの「ｔｒａｃｋｓ．ｔａｂ」という名称のライブラリ内に含まれる、「ｓｔａｔｉｃＩＮＴ１６ｔｒａｃｋ＿２＿７＿１」、「ｓｔａｔｉｃＩＮＴ１６ｔｒａｃｋ＿１＿３＿０」および「ｓｔａｔｉｃＩＮＴ１６ｔｒａｃｋ＿３＿２＿０）」という名称のトラック表を用いる。
【０１１２】
２パルスコードブック１９２の例示の実施形態において、トラック表の各トラックは、各代表的なパルスの８０個のサンプルロケーションを含む。第１および第２の代表的なパルス両方のパルスロケーションは、１３ビットを用いてエンコードされる。８０個の可能なパルスロケーションの１個のエンコーディングは、第１の代表的なパルスのパルスロケーションを識別し、このパルスロケーションに８０を乗算し、第２の代表的なパルスのパルスロケーションをこの結果に加算することによって、１３ビットで達成される。最後に得られる結果は、全レートコーデック２２にあるような、両方の代表的なパルスの符号を表すために用いられるビットを追加することによって、１３ビットでエンコードされ得る値である。
【０１１３】
３パルスコードブック１９４の例示の実施形態において、パルスロケーションは、４ビットによって規定される１６個のサンプルロケーションのうちの一つであり得る一般的なロケーションと、そこからの相対的な移動との組み合わせによって生成される。相対的な移動は、３パルスコードブック１９４内の３個の代表的なパルスのそれぞれを表す３個の値であり得る。これらの値は、一般的なロケーションから離れたロケーションの差を表し、各代表的なパルスに対して２ビットによって規定され得る。３個の代表的なパルスの符号は、パルスロケーションおよび符号の全ビットが１３ビットとなるように、それぞれ１ビットによって規定され得る。
【０１１４】
ガウスコードブック１９５は概して、２個の直交ベースのランダムなベクトルを用いて、エンコードされ得るノイズタイプの音声信号を表す。タイプ０の固定コードブックコンポーネント１７８ａは、ガウスコードブック１９５から生成された２個の直交ベースのランダムなベクトルを表す。タイプ０の固定コードブックコンポーネント１７８ａは、格納要件を増加させることなく、直交ベースのランダムなベクトルの数を増加するために、ガウス表の複数の直交ベースのランダムなベクトルをいかに摂動させるかを表す。例示的な実施形態において、直交ベースのランダムなベクトルの数は、３２個のベクトルから４５個のベクトルに増加する。各ベクトルが４０個の要素を含む、３２個のベクトルを含むガウス表は、例示の実施形態のガウスコードブックを表す。この例示の実施形態において、エンコーディング用に用いられる２個の直交ベースのランダムなベクトルは、相互配置されて、各サブフレーム内の８０個のサンプルを表す。ガウスコードブックは概して、以下のマトリックスによって表され得る。
【０１１５】
【表７】

ガウスコードブック１９５の一実施形態は、「ｄｏｕｂｌｅｂｖ」という名称であり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。ガウスコードブック１９５の例示の実施形態に関して、１１ビットが、エンコーディングに用いられる２個の直交ベースのランダムなベクトルの両方の組み合わされた指数（ロケーションおよび摂動）を識別し、２ビットが、直交ベースのランダムなベクトルの符号を規定する。
【０１１６】
タイプ１の固定コードブックコンポーネント１７８ｂのエンコーディングは、例示の実施形態における２パルスコードブック１９６および３パルスコードブック１９７である複数のｎパルスコードブックの使用を含む。２パルスコードブック１９６および３パルスコードブック１９７は、タイプ０に分類された、２パルスコードブック１９２および３パルスコードブック１９４と同様の機能を有するが、構造は異なる。例示の実施形態のタイプ１の固定コードブックコンポーネント１７８ｂは、サブフレームあたり１３ビットを用いてエンコードされる。１３ビットのうち、１ビットは、２パルスコードブック１９６または３パルスコードブック１９７を識別し、１２ビットは、それぞれのパルスロケーションおよび代表的なパルスの符号を表す。例示の実施形態の２パルスコードブック１９６において、トラックは、５ビットを用いてエンコードされ、残りの２ビットが各代表的なパルスの符号用に用いられる、各代表的なパルスの３２個のサンプルロケーションを含む。３パルスコードブック１９７において、一般的なロケーションは、４ビットを用いてエンコードされる８個のサンプルロケーションを含む。相対的移動は、２ビットによってエンコードされ、代表的なパルス用の符号は、タイプ０として分類されるフレームと同様に、３ビットでエンコードされる。
【０１１７】
図３を再度参照すると、デコーディングシステム１６は、タイプ０またはタイプ１の固定コードブックコンポーネント１７８ａおよび１７８ｂを受信する。タイプ０またはタイプ１の固定コードブックコンポーネント１７８ａおよび１７８ｂは、Ｈ０励起再構築モジュール１１４またはＨ１再構築モジュール１１６それぞれによってデコードされる。タイプ０の固定コードブックコンポーネント１７８ａのデコーディングは、２パルスコードブック１９２、３パルスコードブック１９４またはガウスコードブック１９５の一実施形態を用いて生じる。タイプ１の固定コードブックコンポーネント１７８ｂは、２パルスコードブック１９６または３パルスコードブック１９７を用いてデコードされる。
【０１１８】
図５を再度参照すると、ゲインコンポーネント１７９の一実施形態は、タイプ０の適応固定コードブックゲインコンポーネント１８０ａおよび１８２ａを含む。タイプ０の適応固定コードブックゲインコンポーネント１８０ａおよび１８２ａは、全レートコーデック２２に用いられる、二次元ベクトル量子化器（２ＤＶＱ）１６４および２Ｄゲイン量子化表（表４）を用いて、量子化され得る。一実施形態において、２Ｄゲイン量子化表は、「Ｆｌｏａｔ６４ｇａｉｎＶＱ＿３＿１２８」という名称であり、添付されたマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。
【０１１９】
タイプ１の適応コードブックゲインコンポーネント１８０ｂおよび固定コードブックゲインコンポーネント１８２ｂもまた、多次元のベクトル量子化器を用いて、全レートコーデック２２と同様に生成し得る。一実施形態において、三次元のプリベクトル量子化器（３ＤプリＶＱ（３ＤｐｒｅＶＱ））１９８および三次元の遅延タイプベクトル量子化器（３Ｄ遅延タイプＶＱ（３ＤｄｅｌａｙｅｄＶＱ））２００は、適応コードブックゲインコンポーネント１８０ｂおよび固定ゲインコンポーネント１８２ｂそれぞれのために用いられる。ベクトル量子化器１９８および２００は、各ゲイン量子化表を用いて量子化を実行する。一実施形態において、ゲイン量子化表は、適応固定ゲインコンポーネントおよび固定コードブックゲインのためのプリゲイン量子化表および遅延タイプゲイン量子化表のそれぞれである。多次元のゲイン表は、同様に構築され得、複数の所定のベクトルを含む。一実施形態における各多次元のゲイン表はそれぞれ、タイプ１として分類されるフレームの各サブフレーム用に３個の要素を含む。
【０１２０】
全レートコーデック２２と同様、適応ゲインコンポーネント１８０ｂ用の三次元のプリベクトル量子化（３ＤプリＶＱ）１９８は、適応ゲインを直接量子化し得る。さらに、固定ゲインコンポーネント１８２ｂ用の三次元の遅延タイプベクトル量子化器（３Ｄ遅延タイプＶＱ）２００は、固定コードブックエネルギーの予測エラーを量子化し得る。異なる予測係数が、各サブフレーム用の固定コードブックエネルギーを予測するために、用いられ得る。好適な実施形態において、第１、第２および第３のサブフレーム用の予測される固定コードブックエネルギーは、以前のフレームの３個の量子化および固定コードブックエネルギーエラーから予測される。この例示の実施形態において、第１、第２および第３のサブフレームの予測される固定コードブックエネルギーは、係数の組｛０．６、０．３、０．１｝、｛０．４、０．２５、０．１｝および｛０．３、０．１５、０．０７５｝それぞれを用いて予測される。
【０１２１】
半レートコーデック２４用のゲイン量子化表は概して、以下のように表され得る。
【０１２２】
【表８】

三次元のプリベクトル量子化器（３ＤプリＶＱ）１９８によって用いられるプリゲイン量子化表の一実施形態は、１６個のベクトル（ｎ＝１６）を含む。三次元の遅延タイプベクトル量子化器（３Ｄ遅延タイプＶＱ）２００は、２５６個のベクトル（ｎ＝２５６）を含む遅延タイプゲイン量子化表の一実施形態を用いる。一実施形態のプリベクトル量子化器（３ＤプリＶＱ）１９８および遅延タイプベクトル量子化器（３Ｄ遅延タイプＶＱ）２００用のゲイン量子化表は、それぞれ「Ｆｌｏａｔ６４ｇｐ３＿ｔａｂ」および「Ｆｌｏａｔ６４ｇａｉｎＶＱ＿３＿２５６」という名称であり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。
【０１２３】
図２を再度参照すると、タイプ０の適応ゲインコンポーネント１８０ａおよび固定コードブックゲインコンポーネントおよび１８２ａは、Ｈ０の第１のサブフレーム処理モジュール８０によって生成される。Ｈ１の第１のフレーム処理モジュール８２は、タイプ１の適応コードブックゲインコンポーネント１８０ｂを生成する。同様に、タイプ１の固定コードブックゲインコンポーネント１８２ｂは、Ｈ１の第２のフレーム処理モジュール８６によって生成される。図３を再度参照すると、デコーディングシステム１６は、タイプ０の適応ゲインコンポーネント１８０ａおよび固定コードブックゲインコンポーネント１８２ａを受信する。タイプ０の適応コードブックゲインコンポーネント１８０ａおよび固定ゲインコンポーネント１８２ａは、タイプ分類に基づいて、Ｈ０の励起再構築モジュール１１４によってデコードされる。同様に、Ｈ１の励起再構築モジュール１１６は、タイプ１の適応ゲインコンポーネント１８０ｂおよびタイプ１の固定コードブックゲインコンポーネント１８２ｂをデコードする。
（１．３４分の１レートコーデック用のビット割り当て）
ここで、図２、図３および図６を参照すると、４分の１レートコーデック２６の４分の１レートビットストリームを説明する。４分の１レートコーデック２６の例示の実施形態は、フレームベースおよびサブフレームベースの両方で動作するが、全レートコーデック２２および半レートコーデック２４にあるようなエンコーディングプロセスの一部としてのタイプ分類は含まない。ここで図６を参照すると、４分の１レートコーデック２６によって生成されたビットストリームは、ＬＳＦコンポーネント２０２およびエネルギーコンポーネント２０４を含む。４分の１レートコーデック２６の一実施形態は、それぞれがフレームあたり３９ビットを用いてフレームを処理する、１０ミリ秒の２個のサブフレームを用いて動作する。
【０１２４】
ＬＳＦコンポーネント２０２は、フレームがタイプ０として分類された場合に、全レートコーデック２２と同様のＬＳＦ量子化方式を用いて、フレームベースで、エンコードされる。４分の１レートコーデック２６は、補間要素２０６および複数のステージ２０８を用いて、ＬＳＦをエンコードし、フレームのスペクトルエンベロープを表す。ＬＳＦコンポーネント２０２の一実施形態は、２７ビットを用いてエンコードされる。２７ビットは、２ビットでエンコードされた補間要素２０６、および２５ビットでエンコードされたステージ２０８のうちの４個を表す。ステージ２０８は、７ビットを用いてエンコードされた１個のステージ、および６ビットを用いてエンコードされた３個のステージを含む。一実施形態において、４分の１レートコーデック２６は、全レートコーデック２２によって用いられる正確な量子化表および予測係数表を用いる。一実施形態の量子化表および予測係数表はそれぞれ、「Ｆｌｏａｔ６４ＣＢｅｓ＿８５ｋ」および「Ｆｌｏａｔ６４Ｂ＿８５ｋ」という名称であり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。
【０１２５】
エネルギーコンポーネント２０４は、エンコーディングシステム１２およびデコーディングシステム１６の両方によって生成され得る、同様であるが乱数のベクトルによって乗算され得るエネルギーゲインを表す。一実施形態において、エネルギーコンポーネント２０４は、サブフレームあたり６ビットを用いてエンコードされる。エネルギーコンポーネント２０４は、乱数に基づいて、サブフレーム用のエネルギーゲインをまず判定することによって生成される。さらに、予測されたエネルギーゲインは、過去のフレームのエネルギーゲインに基づいて、サブフレーム用に判定される。
【０１２６】
予測されたエネルギーゲインは、エネルギーゲインから減算されて、エネルギーゲイン予測エラーを判定する。エネルギーゲイン予測エラーは、エネルギーゲイン量子化器およびエネルギーゲイン量子化表の複数の所定のスカラを用いて、量子化される。各サブフレーム用の所定のスカラの指数ロケーションは、フレーム用のエネルギーコンポーネント２０４によって表され得る。
【０１２７】
エネルギーゲイン量子化表は概して、以下のマトリックスによって表され得る。
【表９】

一実施形態において、エネルギーゲイン量子化表は、６４個（ｎ＝６４）の所定のスカラを含む。エネルギーゲイン量子化表の一実施形態は、「Ｆｌｏａｔ６４ｇａｉｎＳＱ＿１＿６４」という名称であり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。
【０１２８】
図２において、ＬＳＦコンポーネント２０２は、最初の４分の１フレーム処理モジュール５０によって、フレームベースでエンコードされる。同様に、エネルギーコンポーネント２０４は、４分の１レートモジュール６０によって、サブフレームベースでエンコードされる。ここで図３を参照すると、デコーディングシステム１６は、ＬＳＦコンポーネント２０２を受信する。ＬＳＦコンポーネント２０２は、ＱＬＰＣ再構築モジュール１２２によってデコードされ、エネルギーコンポーネント２０４は、Ｑ励起再構築モジュール１２０によってデコードされる。ＬＳＦコンポーネント２０２のデコーディングは、タイプ１として分類されたフレーム用の全レートコーデック２２のデコーディング方法と同様である。エネルギーコンポーネント２０４は、デコードされて、エネルギーゲインを判定する。デコーディングシステム１６内で生成された、同様であるが乱数のベクトルは、エネルギーゲインによって乗算されて、短期励起を生成し得る。
（１．４８分の１レートコーデック用のビット割り当て）
図２、図３および図７において、８分の１レートコーデック２８の８分の１レートビットストリームは、エンコーディングプロセスの一部としてタイプ分類を含まず、フレームベースのみで動作し得る。ここで図７を参照すると、４分の１レートコーデック２６と同様、８分の１レートコーデック２８のビットストリームは、ＬＳＦコンポーネント２４０およびエネルギーコンポーネント２４２を含む。ＬＳＦコンポーネント２４０は、フレームがタイプ１として分類された場合、全レートコーデック２２と同様のＬＳＦ量子化方式を用いて、エンコードされ得る。８分の１レートコーデック２８は、複数のステージ２４４を用いて、短期予測子またはフレームのスペクトル表示をエンコードする。ＬＳＦコンポーネント２４０の一実施形態は、３個のステージ２４４において、フレームあたり１１ビットを用いてエンコードされる。３個のステージ２４４のうちの２個は、４ビットでエンコードされ、３個のステージ２４４のうちの最後の１個は、３ビットでエンコードされる。
【０１２９】
８分の１レートコーデック２８用にＬＳＦコンポーネント２４０を生成する量子化アプローチは、全レートコーデック２２に類似したＬＳＦ予測エラー量子化表および予測係数表を含む。ＬＳＦ予測エラー量子化表およびＬＳＦ予測係数表は概して、上述の表１および２によって表され得る。例示の実施形態において、８分の１レートコーデック２８用のＬＳＦ量子化表は、２個のステージに１６個の量子化ベクトル（ｒ＝１６）、１個のステージに８個の量子化ベクトル（ｓ＝８）を有し、各ベクトルが１０個の要素（ｎ＝１０）を有する、３個のステージ（ｊ＝３）を含む。一実施形態の予測係数表は、各ベクトルが１０個の要素（ｎ＝１０）を有する４個のベクトル（ｍ＝４）を含む。一実施形態の量子化表および予測係数表はそれぞれ、「Ｆｌｏａｔ６４ＣＢｅｓ＿０８ｋ」および「Ｆｌｏａｔ６４Ｂ＿０８ｋ」という名称であり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる。
【０１３０】
図２において、ＬＳＦコンポーネント２４０は、最初の８分の１フレーム処理モジュール５２によって、フレームベースでエンコードされる。エネルギーコンポーネント２４２も、８分の１レートモジュール６２によって、フレームベースでエンコードされる。エネルギーコンポーネント２４２は、４分の１レートコーデック２６と同様に判定およびコード化され得るエネルギーゲインを表す。エネルギーコンポーネント２４２の一実施形態は、図７に示すように、フレームあたり５ビットによって表される。
【０１３１】
４分の１レートコーデック２６と同様に、エネルギーゲインおよび予測されたエネルギーゲインは、エネルギー予測エラーを判定するために用いられ得る。エネルギー予測エラーは、エネルギーゲイン量子化器およびエネルギーエラー量子化表の複数の所定のスカラを用いて量子化される。エネルギーゲイン量子化表は概して、上述したような表９によって表され得る。一実施形態のエネルギーゲイン量子化器は、「Ｆｌｏａｔ６４ｇａｉｎＳＱ＿１＿３２」という名称であり、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＢに含まれる、３２個のベクトル（ｎ＝３２）を含むエネルギーゲイン量子化表を用いる。
【０１３２】
図３において、ＬＳＦコンポーネント２４０およびエネルギーコンポーネント２４２は、受信後に、デコーディングシステム１６によってデコードされ得る。ＬＳＦコンポーネント２４０およびエネルギーコンポーネント２４２は、ＥＬＰＣ再構築モジュール１２６およびＥ励起再構築モジュール１２４のそれぞれによってデコードされる。ＬＳＦコンポーネント２４０のデコーディングは、タイプ１として分類されるフレーム用の全レートコーデック２２と同様である。エネルギーコンポーネント２４２は、４分の１レートコーデック２６にあるような同様であるが乱数のベクトルに、デコードされたエネルギーゲインを付与することによってデコードされ得る。
【０１３３】
音声圧縮システム１０の一実施形態は、４個のコーデック２２、２４、２６および２８のうちの１個を用いて、ビットストリームを作成して、デコードすることが可能である。レート選択およびタイプ分類に依存して、フレーム内の音声信号１８の異なるパラメータに重点を置く、特定のコーデック２２、２４、２６および２８によって生成されるビットストリームが、エンコードされ得る。したがって、ビットストリームからデコードされて、後処理され、統合された音声２０の知覚される質が、最適化され得、一方所望の平均ビットレートが維持される。
【０１３４】
図２および図３の実施形態に例示された音声圧縮システムモジュールの構成および動作の詳細な記載を以下に提供する。読者は、理解をさらに深めるために、以下の説明とともに、添付のマイクロフィッシュのＡＰＰＥＮＤＩＸのＡＰＰＥＮＤＩＸＡに含まれるソースコードを吟味することが奨励される。
（２．０前処理モジュール）
ここで図８を参照すると、図２に示す前処理モジュール３４のブロック図を拡張したものを提供する。前処理モジュール３４の一実施形態は、サイレンスエンハンスメントモジュール３０２、ハイパスフィルタモジュール３０４およびノイズ抑圧モジュール３０６を含む。前処理モジュール３４は、音声信号１８を受信し、前処理音声信号３０８を提供する。
【０１３５】
サイレンスエンハンスメントモジュール３０２は、音声信号１８を受信し、最小のノイズの分解能を追跡する機能を行う。サイレンスエンハンスメント機能は、適宜、およびほぼ０の音声信号１８の最小の分解能およびレベルを追跡して、その時点のフレームが「サイレンスノイズ」であるか否かを検出する。「サイレンスノイズ」のフレームが検出されると、音声信号１８は、０レベルに減少され得る。そうでない場合には、音声信号１８は変更されなくともよい。例えば、Ａ法則によるコーディング方式は、このような聞き取れない「サイレンスノイズ」を明瞭に聞き取れるノイズに変換し得る。前処理モジュール３４の前の、音声信号１８のＡ法則によるエンコーディングおよびデコーディングは、ほぼ０のサンプル値を約＋８または−８の値に増幅し得、これにより、ほとんど聞き取れないノイズが聞き取れるノイズに変換する。サイレンスエンハンスメントモジュール３０２による処理後、音声信号１８は、ハイパスフィルタモジュール３０４に提供され得る。
【０１３６】
ハイパスフィルタモジュール３０４は、２次のポールゼロフィルタであり得、以下の転送関数Ｈ（ｚ）によって与えられ得る。
【０１３７】
【数２】

入力は、分子の係数を２で除算することによって、ハイパスフィルタリングの間、２の因数によって縮小し得る。
【０１３８】
ハイパスフィルタによる処理に続いて、音声信号１８は、ノイズ抑圧モジュール３０６に伝えられ得る。ノイズ抑圧モジュール３０６は、周波数領域においてノイズ控除を採用し、これは、ノイズを抑圧するための多くの周知の技術のうちの一つであり得る。ノイズ抑圧モジュール３０６は、「ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ，ＳｐｅｅｃｈＳｅｒｖｉｃｅＯｐｔｉｏｎ３ｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＤｉｇｉｔａｌＳｙｓｔｅｍｓ」という名称のＴＩＡ／ＥＩＡＩＳ−１２７規格のセクション４．１．２に記載されるようなノイズ抑圧アルゴリズムによって用いられるフーリエ変換プログラムを含み得る。
【０１３９】
一実施形態のノイズ抑圧モジュール３０６は、音声信号１８の各フレームを、スペクトル増幅がスペクトル相から分離され得る周波数領域に変換する。スペクトル増幅は、人間の聴覚チャネルバンドに従うバンドにグループ化され得る。減衰ゲインは、バンドごとに計算され得る。減衰ゲインは、高調波構造を有しそうなスペクトル領域にあまり重点を置かずに、計算され得る。このような領域において、暗騒音は、強い音声によってマスキングされ得る。したがって、音声が減衰すると、元の音声の質がゆがめられ得るが、ノイズの減少は知覚できるほどには改良されない。
【０１４０】
減衰ゲインの計算に続いて、各バンドのスペクトル増幅は、減衰ゲインによって乗算され得る。次いで、スペクトル増幅は、元のスペクトル相と組み合わされ得、音声信号１８は、時間領域に変換され得る。時間領域信号は、重複かつ追加され得、前処理音声信号３０８を生成する。前処理音声信号３０８は、フレーム処理モジュール４４を開始するために提供され得る。
（３．０最初のフレーム処理モジュール）
図９は、図２に示す最初のフレーム処理モジュール４４のブロック図である。最初のフレーム処理モジュール４４の一実施形態は、ＬＳＦ生成セクション３１２、知覚可能な重み付けフィルタモジュール３１４、開ループピッチ推定モジュール３１６、特徴付けセクション３１８、レート選択モジュール３２０、ピッチ前処理モジュール３２２、およびタイプ分類モジュール３２４を含む。特徴付けセクション３１８は、音声活動検出（ＶＡＤ）モジュール３２６および特徴付けモジュール３２８をさらに含む。ＬＳＦ生成セクション３１２は、ＬＰＣ分析モジュール３３０、ＬＳＦ平滑化モジュール３３２、およびＬＳＦ量子化モジュール３３４を含む。さらに、全レートエンコーダー３６内において、ＬＳＦ生成セクション３１２は、補間モジュール３３８を含み、半レートエンコーダー３８内において、ＬＳＦ生成セクションは、予測スイッチモジュール３３６を含む。
【０１４１】
図２を参照すると、最初のフレーム処理モジュール４４は、ＬＳＦコンポーネント１４０、１７２、２０２および２４０を生成し、レート選択およびタイプ分類を判定するために動作する。レート選択およびタイプ分類は、励起処理モジュール５４による処理を制御する。図９に示される最初のフレーム処理モジュール４４は、最初の全フレーム処理モジュール４６および最初の半フレーム処理モジュール４８の一実施形態を示す。最初の４分の１フレーム処理モジュール５０および最初の８分の１フレーム処理モジュール５２の実施形態は、いくらか異なる。
【０１４２】
上述したように、一実施形態において、タイプ分類は、最初の４分の１レートフレーム処理モジュール５０および最初の８分の１レートフレーム処理モジュール５２に関しては生じない。さらに、長期予測子および長期予測子残差は、別々に処理されず、図６および図７に示すエネルギーコンポーネント２０４および２４２を表す。したがって、図９に示すＬＳＦセクション３１２、特徴付けセクション３１８およびレート選択モジュール３２０のみが、最初の４分の１レートフレーム処理モジュール５０および最初の８分の１レートフレーム処理モジュール５２内で動作可能である。
【０１４３】
最初のフレーム処理モジュール４４の理解を容易にするため、まず動作の概略を説明し、次いで詳細な説明を行う。ここで図９を参照すると、前処理された音声信号３０８がまず、ＬＳＦ生成セクション３１２、知覚可能な重み付けフィルタモジュール３１４および特徴付けセクション３１８に提供される。しかし、特徴付けセクション３１８内の処理のいくつかは、開ループピッチ推定モジュール３１６内で起こる処理に依存する。ＬＳＦ生成セクション３１２は、前処理音声信号３０８のスペクトル表示を推定かつエンコードする。知覚可能な重み付けフィルタモジュール３１４は、人間の聴覚システムによる処理の間に生じる自然なマスキングによる、前処理された音声信号３０８のコーディングの間に知覚可能な重み付けを提供するように動作する。開ループピッチ推定モジュール３１６は、各フレームの開ループピッチラグを判定する。特徴付けセクション３１８は、前処理された音声信号３０８のフレームを分析および特徴付けして、引き続く処理を最適化する。
【０１４４】
特徴付けセクション３１８による処理の間、および処理の後、結果として生じたフレームの特徴付けは、ピッチ前処理モジュール３２２によって用いられ得、閉ループのピッチラグの生成において用いられるパラメータを生成する。さらに、フレームの特徴付けは、レート選択モジュール３２０によって用いられて、レート選択を判定する。ピッチ前処理モジュール３２２および特徴付けによって判定されたピッチラグのパラメータに基づいて、タイプ分類は、タイプ分類モジュール３２４によって判定される。
（３．１ＬＰＣ分析モジュール）
前処理音声信号３０８は、ＬＳＦ生成セクション３１２内のＬＰＣ分析モジュール３３０によって受信される。ＬＰＣ分析モジュール３３０は、ＬＳＦコンポーネント３１２を生成するために用いられる短期予測パラメータを判定する。ＬＰＣ分析モジュール３３０の一実施形態内に、前処理音声信号３０８のフレーム用に実行される３個の１０次のＬＰＣ分析がある。これらのＬＰＣ分析は、フレームの第２の４分の１、フレームの第４の４分の１およびルックアヘッド内の中心に集められる。ルックアヘッドは、次のフレーム内にかぶさる音声セグメントであり、移行効果が減少する。ルックヘッド内の分析は、その時点のフレームからのサンプル、および前処理された音声信号３０８の次のフレームからのサンプルを含む。
【０１４５】
異なるウィンドウが、フレーム内の各ＬＰＣ分析用に用いられ得、線形予測係数を計算する。一実施形態におけるＬＰＣ分析は、自己相関方法を用いて実行されて、自己相関係数を計算する。自己相関係数は、各ウィンドウ内の複数のデータサンプルから計算され得る。ＬＰＣ分析の間、６０Ｈｚに拡大されたバンド幅および１．０００１のホワイトノイズ訂正因数が、自己相関係数に適用され得る。バンド幅を拡大すると、引き続くエンコーディングの間の、信号およびラウンドオフエラーに対するロブスト性がさらに提供される。ホワイトノイズ訂正因数は効果的に、−４０ｄＢのノイズフロアを追加して、スペクトルダイナミックレンジを減少し、引き続くエンコーディングの間のエラーをさらに軽減する。
【０１４６】
複数の反射係数は、ルルー−グエグエン（Ｌｅｒｏｕｘ−Ｇｕｅｇｕｅｎ）アルゴリズムを用いて、自己相関係数から計算され得る。次いで、反射係数は、線形予測係数に変換され得る。上述したように、線形予測係数は、ＬＳＦ（ラインスペクトル周波数）にさらに変換され得る。第４の４分の１内で計算されたＬＳＦは、量子化されて、ＬＳＦコンポーネント１４０、１７２、２０２、２４０としてデコーディングシステム１６に送信され得る。第２の４分の１内で計算されたＬＳＦは、タイプ０として分類されたフレームの全レートエンコーダー３６の補間パスを判定するために用いられ得る。補間パスは選択可能であり、補間要素１５８で識別され得る。さらに、第２の４分の１およびルックアヘッド内で計算されるＬＳＦは、エンコーディングシステム１２内で用いられ得、後述する短期残差および重み付けされた音声を生成する。
（３．２ＬＳＦ平滑化モジュール）
定常暗騒音の間、フレームの第４の４分の１内で計算されたＬＳＦは、ＬＳＦを量子化する前に、ＬＳＦ平滑化モジュール３３２によって平滑化され得る。ＬＳＦは、暗騒音の知覚可能な特徴をよりよく保持するために平滑化される。平滑化は、後述するＶＡＤモジュール３２６およびフレームのスペクトル表示の発展の分析によって提供される音声活動判定によって制御される。ＬＳＦ平滑化因数をβ_lsfと示す。例示の実施形態において：
１．暗騒音セグメントの「平滑化」の開始時に、平滑化因数は、５個のフレーム上で、０から０．９に二次的に上がり得る。
２．暗騒音セグメントの「平滑化」の間、平滑化因数を０．９にしてもよい。
３．暗騒音セグメントの「平滑化」の終了時に、平滑化因数を即０に減少させてもよい。
４．暗騒音セグメントの非「平滑化」の間、平滑化因数を０にしてもよい。ＬＳＦ平滑化因数にしたがって、量子化用ＬＳＦを以下のように計算し得る。
ｌｓｆ_n（ｋ）＝β_lsf・ｌｓｆ_n-1（ｋ）＋（１−β_lsf）・ｌｓｆ₂（ｋ），ｋ＝１，２，_・・・，１０（式２）
ここで、ｌｓｆ_n（ｋ）およびｌｓｆ_n-1（ｋ）はそれぞれ、その時点および以前のフレームの平滑化されたＬＳＦを表し、ｌｓｆ₂（ｋ）は、その時点のフレームの最後の４分の１の中心に集められるＬＰＣ分析のＬＳＦを表す。
（３．３ＬＳＦ量子化モジュ−ル）
平滑化されたＬＳＦ（式２）によって与えられた１０次のＬＰＣモデルは、ＬＳＦ量子化モジュール３３４によってＬＳＦ領域内で量子化され得る。量子化された値は、複数の量子化されたＬＰＣ係数Ａ_q（ｚ）３４２である。量子化方式は、ｎ次の移動平均予測子を用いる。一実施形態において、量子化方式は、全レートコーデック２２および４分の１レートコーデック２６用の、２次の移動平均予測子を用いる。半レートコーデック２４に関して、４次の移動平均切替予測子（ａｖｅｒａｇｅｓｗｉｔｃｈｅｄｐｒｅｄｉｃｔｏｒ）が用いられ得る。８分の１レートコーデック２８に関して、４次の移動平均予測子が用いられ得る。上述したように、ＬＳＦ予測子エラーの量子化は、各コーデック内で、複数ステージコードブックによって実行され得る。
【０１４７】
ＬＳＦ量子化のエラー基準は、重み付け平均２乗エラー指標（ｗｅｉｇｈｔｅｄｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒｍｅａｓｕｒｅ）である。重み付け平均２乗エラーの重み付けは、ＬＰＣ大きさスペクトル（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｕｍ）の関数である。したがって、量子化の客観性は、以下によって与えられ得る。
【０１４８】
【数３】

ここで、重み付けは、
ｗ_i＝｜Ｐ（ｌｓｆ_n（ｉ））｜^0.4 （式４）
であり得、｜Ｐ（ｆ）｜は、周波数ｆにおけるＬＰＣパワースペクトルである（指数ｎは、フレーム数を示す）。例示の実施形において、１０個の係数がある。
【０１４９】
一実施形態において、量子化されたＬＰＣの係数Ａ_q（ｚ）３４２のオーダー化特性（ｏｒｄｅｒｉｎｇｐｒｏｐｅｒｔｙ）がチェックされる。１個のＬＳＦの対がフリップされると、量子化されたＬＰＣの係数が再度オーダー化され得る。２個以上のＬＳＦの対がフリップされると、量子化されたＬＰＣの係数Ａ_q（ｚ）３４２は、消去されたと宣言され得、後述するデコーディングシステム１６のフレームの消去隠匿（ｃｏｎｃｅａｌｍｅｎｔ）を用いて再構築され得る。一実施形態において、量子化されたＬＰＣの係数Ａ_q（ｚ）３４２の隣接する係数間の最小の間隔を５０Ｈｚにすることが実施され得る。
（３．４予測子スイッチモジュール）
予測子スイッチモジュール３３６は、半レートコーデック２４内で動作可能である。上述したように、予測されたＬＳＦは、移動平均予測子係数を用いて生成され得る。予測子係数は、その時点のフレームのＬＳＦを予測するために、過去のフレームのＬＳＦのいくつが用いられるかを判定する。上述したように、予測子スイッチモジュール３３６は、ＬＳＦ量子化モジュール３３４と結合されて、量子化エラーを最小限にとどめる予測子係数を提供する。
（３．５ＬＳＦ補間モジュール）
量子化されたＬＳＦおよび量子化されてないＬＳＦはまた、全レートコーデック２２内の各サブフレーム用に補間され得る。量子化されたＬＳＦおよび量子化されてないＬＳＦは、補間されて、各サブフレーム用に量子化された線形予測パラメータおよび量子化されてない線形予測パラメータを提供する。上述したように、ＬＳＦ補間モジュール３３８は、タイプ０に分類される全レートコーデック２２のフレーム用に補間パスを選択する。他のすべてのフレームに関しては、所定の線形補間パスが用いられ得る。
【０１５０】
ＬＳＦ補間モジュール３３８は、以前のフレームのＬＳＦおよびフレームの第２の４分の１において計算されたＬＳＦに関して、その時点のフレームのＬＳＦを分析する。補間パスは、サブフレーム間のスペクトルエンベロープ内の変種の程度に基づいて選択され得る。上述したように、異なる補間パスは、以前のフレームのＬＳＦの重み付け、およびその時点のサブフレーム用のその時点のフレームのＬＳＦの重み付けを調節する。ＬＳＦ補間モジュール３３８による調節に続いて、補間されたＬＳＦは、各サブフレーム用の予測子係数に変換され得る。
【０１５１】
全レートコーデック２２、半レートコーデック２４、４分の１レートコーデック２６および８分の１レートコーデック２８内のタイプ１の分類に関して、所定の線形補間パスが、重み付けを調節するために用いられ得る。補間されたＬＳＦも同様に、補間に続く予測子係数に変換され得る。さらに、予測子係数をさらに重み付けして、知覚可能な重み付けフィルタモジュール３１４によって用いられる係数を作成し得る。
（３．６知覚可能な重み付けフィルタモジュール）
知覚可能な重み付けフィルタモジュール３１４は、前処理された音声信号３０８を受信およびフィルタリングするために動作される。知覚可能な重み付けフィルタモジュール３１４によるフィルタリングは、前処理された音声信号３０８の谷区域には重点を置き、ピーク面積には重点を置かないことによって、実行され得る。知覚可能な重み付けフィルタモジュール３１４の一実施形態には２個の部分がある。第１の部分は、従来のポールゼロフィルタであり得、
【０１５２】
【数４】

によって与えられる。ここで、Ａ（ｚ／γ₁）および１／Ａ（ｚ／γ₂）は、それぞれゼロフィルタおよびポールフィルタである。ゼロフィルタおよびポールフィルタ用の予測係数は、各サブフレーム用に補間されたＬＳＦから取得され得、γ₁およびγ₂それぞれによって、重み付けされる。知覚可能な重み付けフィルタモジュール３１４の例示的な実施形態において、重み付けは、γ₁＝０．９、γ₂＝０．５である。知覚可能な重み付けフィルタモジュール３１４の第２の部分は、
【０１５３】
【数５】

によって与えられる、適応ローパスフィルタであり得る。
ここで、ηは、後述する定常長期スペクトル特性の関数である。一実施形態において、定常長期スペクトル特徴が、公衆交換電話ネットワーク（ＰＳＴＮ）と関連した通常のチルトを有する場合、η＝０．２であり、有さない場合には、η＝０．０である。通常のチルトは通常、改変されたＩＲＳ特徴またはスペクトルチルトと呼ばれる。知覚可能な重み付けフィルタモジュール３１４による処理の後、前処理された音声信号３０８は、重み付けされた音声３４４として記載され得る。重み付けされた音声３４４は、開ループピッチ推定モジュール３１６に提供される。
（３．７開ループピッチ推定モジュール）
開ループピッチ推定モジュール３１６は、フレーム用に開ループピッチラグを生成する。一実施形態において、開ループピッチラグは実際、３個の開ループピッチラグ、すなわち、フレームの前半用の第１のピッチラグ、フレームの後半用の第２のピッチラグおよびフレームのルックアヘッド部分用の第３のピッチラグを含む。
【０１５４】
各フレーム用に、第２および第３のピッチラグは、その時点のフレームに基づいて、開ループピッチ推定モジュール３１６によって推定される。第１の開ループピッチラグは、さらに調節され得る以前のフレームからの第３の開ループのピッチラグ（ルックアヘッド）である。３個の開ループピッチラグは、平滑化されて、連続したピッチの等高線を提供する。開ループピッチラグの平滑化は、一組の発見的および特定の決定ルールを採用し、フレームの最適ピッチ制御を保持する。開ループピッチ推定は、ｓ_w（ｎ）が示す重み付けされた音声３４４に基づく。一実施形態において、開ループピッチ推定モジュール３１６によって推定された値は、１７〜１４８の範囲のラグである。
【０１５５】
第１、第２および第３の開ループピッチラグは、以下の式にしたがって計算され得る正規化相関、Ｒ（ｋ）を用いて判定され得る。その式とは、
【０１５６】
【数６】

であり、例示の実施形態においてｎ＝７９であり、これは、サブフレーム内のサンプル数を表す。複数の領域それぞれの最大正規化相関Ｒ（ｋ）が判定される。この領域は、可能なラグの範囲内で４個の下位範囲を表す４個の領域であり得る。例えば、１７〜３３ラグからの第１の領域、３４〜６７ラグからの第２の領域、６８〜１３７ラグからの第３の領域、および１３８〜１４８ラグからの第４の領域である。各領域から正規化相関値Ｒ（ｋ）を最大にするラグに対応した１個の開ループピッチラグが、最初のピッチラグ候補である。最初のピッチラグ候補の最適な候補は、正規化相関、特徴付け情報および開ループピッチラグの履歴に基づいて選択される。この手順は、第２のピッチラグおよび第３のピッチラグ用に実行され得る。
【０１５７】
最後に、第１、第２および第３の開ループピッチラグは、全体的なピッチの等高線に最適に合うように調節され、フレーム用の開ループピッチラグを形成し得る。開ループピッチラグは、後述するさらなる処理用のピッチ前処理モジュール３２２に提供される。開ループピッチ推定モジュール３１６は、ピッチラグおよびピッチラグにおける正規化相関値も提供する。ピッチラグにおける正規化相関値は、ピッチ相関と呼ばれ、Ｒ_pとして記される。ピッチ相関Ｒ_pは、特徴付けセクション３１８内のフレームを特徴付けする際に用いられる。
（３．８特徴付けセクション）
特徴付けセクション３１８は、前処理された音声信号３０８の各フレームを分析および特徴付けするために動作される。特徴付け情報は、最初のフレーム処理モジュール４４内の複数のモジュールによって、および励起処理モジュール５４によって、利用される。特に、特徴付け情報は、レート選択モジュール３２０およびタイプ分類モジュール３２４内で用いられる。さらに、特徴付け情報は、量子化およびコーディングの間に用いられ得、特には、後述するクラス依存タイプ重み付けアプローチを用いた音声の知覚的に重要な特徴に重点を置いた情報が用いられ得る。
【０１５８】
特徴付けセクション３１８による、前処理された音声信号３０８の特徴付けは、各フレームに起こる。特徴付けセクション３１８の一実施形態の動作は概して、前処理された音声信号３０８の分析の６個のカテゴリーとして記載され得る。これらの６個のカテゴリーとは、音声活動判定、無音声のノイズのような音声の識別、６クラスの信号の特徴付け、信号対騒音比の導出、４ステージ特徴付け、および定常長期スペクトル特徴の特徴付けである。
（３．９音声活動検出（ＶＡＤ）モジュール）
音声活動検出（ＶＡＤ）モジュール３２６は、特徴付けにおける第１の工程として、音声活動判定を実行する。ＶＡＤモジュール３２６は、前処理された音声信号３０８が何らかの形態の音声であるか否か、あるいは、前処理された音声信号３０８が単なるサイレンスであるかまたは暗騒音であるかを判定するように動作する。ＶＡＤモジュール３２６の一実施形態は、暗騒音の挙動を追跡することによって、音声活動を検出する。ＶＡＤモジュール３２６は、その時点のフレームのパラメータと暗騒音を表すパラメータとの間の差をモニタリングする。一組の所定の閾値を用いると、フレームは、音声フレームまたは暗騒音フレームとして分類され得る。
【０１５９】
ＶＡＤモジュール３２６は、例えば、フレーム内のサンプルの最大の絶対値、反射係数、予測エラー、ＬＳＦ、およびＬＰＣ分析モジュール３３０によって提供される１０次の自己相関係数などの、複数のパラメータのモニタリングに基づいて、音声活動を判定するように動作する。さらに、ＶＡＤモジュール３２６の例示の実施形態は、最近のフレームのピッチラグおよび適応コードブックゲインのパラメータを用いる。ＶＡＤモジュールによって用いられるピッチラグおよび適応コードブックゲインは、その時点のフレームのピッチラグおよび適応コードブックゲインがまだ利用可能でないため、以前のフレームのものである。ＶＡＤモジュール３２６によって実行される音声活動判定は、エンコーディングシステム１２のいくつかの局面、および特徴付けモジュール３２８による最終クラスの特徴付け判定の一部の形成を制御するために用いられ得る。
（３．１０特徴付けモジュール）
ＶＡＤモジュール３２６による音声活動判定に続いて、特徴付けモジュール３２８が作動される。上述したように、特徴付けモジュール３２８は、前処理された音声信号３０８を分析する、第２、第３、第４および第５のカテゴリーを実行する。第２のカテゴリーは、無音声のノイズのような音声フレームである。
（３．１０．１無音声のノイズのような音声検出）
概して、無音声のノイズのような音声フレームは、高調波構造を含まないのに対し、音声フレームは、高調波構造を含む。一実施形態において、無音声のノイズのような音声フレームの検出は、前処理された音声信号３０８および重み付け残差信号Ｒ_w（ｚ）に基づく。重み付け残差信号Ｒ_w（ｚ）は、
Ｒ_w（Ｚ）＝Ａ（ｚ／γ₁）・Ｓ（ｚ）（式８）
によって与えられ、ここで、Ａ（ｚ／γ₁）は、重み付けγ₁によって重み付けされた０フィルタを表し、Ｓ（ｚ）は、前処理された音声信号３０８である。複数のパラメータ、例えば、以下の６個のパラメータが、その時点のフレームが無音声のノイズのような音声であるか否かを判定するために用いられ得る。これらの６個のパラメータを以下に記す。：
１．フレームの最初の３／４上で前処理された音声信号３０８のエネルギー。
２．所定の閾値下にあるフレーム内の音声サンプルの計数。
３．重み付けされた残差信号およびフレームサイズを用いて判定される残差シャープネス。シャープネスは、サンプルの平均絶対値と、サンプルの最大絶対値との比率によって与えられる。重み付けされた残差信号は、式８から判定され得る。
４．前処理された音声信号３０８の大きさスペクトルのチルトを表す第１の反射係数。
５．前処理された音声信号３０８の０交差レート。
６．前処理された音声信号３０８と重み付けされた残差信号との間の予測測定。
【０１６０】
一実施形態において、一組の所定の閾値は、フレームが無音声のノイズのような音声であるか否かを判定する際、上にリストしたパラメータと比較される。この結果の判定は、ピッチ前処理モジュール３２２を制御する際、および固定コードブック検索の際に用いられ得、これら両方は後述する。さらに、無音声のノイズのような音声判定は、前処理された音声信号３０８の６クラスの信号の特徴付けを判定する際に用いられる。
（３．１０．２６クラスの信号の特徴付け）
特徴付けモジュール３２８はまた、６クラスの信号の特徴付けである分析の第３のカテゴリーを実行し得る。６クラスの信号の特徴付けは、フレームの優性な特徴によって、６クラスのうちの１個にフレームを特徴付けることによって、実行される。一実施形態において、６クラスを、以下のように記載し得る。
０．サイレンス／暗騒音
１．定常のノイズのような無音声
２．非定常無音声
３．オンセット
４．非定常音声
５．定常音声
別の実施形態において、破裂音として特徴付けされるフレームなど、他のクラスも含まれる。初めに、特徴付けモジュール３２８は、サイレンス／暗騒音フレーム（クラス０）、非定常無音声フレーム（クラス２）、オンセットフレーム（クラス３）、クラス４および５によって表される音声フレームを区別する。非定常（クラス４）および定常（クラス５）としての音声フレームの特徴付けは、ピッチ前処理モジュール３２２の活動の間に、実行され得る。さらに、特徴付けモジュール３２８は初め、定常のノイズのような無音声フレーム（クラス１）と非定常の無音声フレーム（クラス２）とを区別し得ない。この特徴付けクラスはまた、上述した、無音声のノイズのような音声アルゴリズムによる判定を用いて、ピッチ前処理モジュール３２２による処理の間に識別され得る。
【０１６１】
特徴付けモジュール３２８は、例えば、前処理音声信号３０８およびＶＡＤモジュール３２６による音声活動検出を用いて、特徴付けを実行する。さらに、特徴付けモジュール３２８は、フレーム用に開ループピッチラグ、および第２の開ループピッチラグに対応した正規化相関Ｒ_pを利用し得る。
【０１６２】
複数のスペクトルチルトおよび複数の最大絶対値は、特徴付けモジュール３２８によって、前処理された音声信号３０８から得られ得る。例示の実施形態において、それぞれが８０個のサンプルを含む４個の重複したセグメントのスペクトルチルトが計算される。４個の重複されたセグメントは、８０個のサンプルのハミングウィンドウによって重み付けされ得る。例示の実施形態の最大絶対値は、前処理された音声信号３０８の８個の重複されたセグメントから得られる。概して、８個の重複されたセグメントのそれぞれの長さは、開ループピッチラグの期間の約１．５倍である。最大絶対値は、増幅エンベロープの平滑化された等高線を作成するために用いられ得る。
【０１６３】
スペクトルチルト、最大絶対値、およびピッチ相関Ｒ_pパラメータは、フレームごとに複数回更新してもよいし、または補間してもよい。これらのパラメータの平均値はまた、ＶＡＤモジュール３２６によって暗騒音として特徴付けされるフレーム用に数回計算され得る。例示の実施形態において、８個の更新かつ推定されたパラメータはそれぞれ、それぞれが２０個のサンプルを有する、８個のセグメントを用いて取得される。暗騒音用のパラメータの推定は、一組の「騒音消去」パラメータを作成するための暗騒音としては特徴付けられない、続きのフレーム用のパラメータの推定から除算され得る。
【０１６４】
一組の定常ベースの判定パラメータは、「騒音消去」パラメータおよび開ループピッチラグから計算され得る。統計ベースの判定パラメータはそれぞれ、平均化、導出、発展、最大または最小などの、元のパラメータの統計的特性を表す。一組の所定の閾値パラメータを用いると、統計的判定パラメータに基づいたその時点のフレーム用に、最初の特徴付けが判定され得る。最初の特徴付けの判定、過去の特徴付けの判定、およびＶＡＤモジュール３２６の音声活動判定に基づいて、最初のクラス判定が、そのフレーム用になされ得る。最初のクラス判定は、クラス０、２、３、またはクラス４および５が表す音声フレームとして、フレームを特徴付けする。
（３．１０．３信号対騒音比の導出）
フレームの特徴付けに加え、一実施形態の特徴付けモジュール３２８はまた、信号対騒音比（ＮＳＲ）を導出することによって、分析の第４のカテゴリーも実行する。ＮＳＲは、暗騒音エネルギーの推定とフレームのフレームエネルギーとの比率として計算され得る、従来の歪曲基準である。ＮＳＲ計算の一実施形態は、真実の暗騒音のみが、改変された音声活動判定を用いて、その比率に含まれることを保証する。改変された音声活動判定は、ＶＡＤモジュール３２６による最初の音声活動判定、前処理された音声信号３０８のフレームのエネルギー、およびルックアヘッド部分用に計算されたＬＳＦを用いて導出される。改変された音声活動判定は、フレームが暗騒音であり、暗騒音のエネルギーが更新されることを示す。
【０１６５】
暗騒音は、例えば、移動平均を用いて、フレームエネルギーから更新される。暗騒音のエネルギーレベルがフレームエネルギーのエネルギーレベルより大きい場合、暗騒音のエネルギーレベルは、フレームエネルギーと置換される。フレームエネルギーによる置換は、暗騒音のエネルギーレベルを低いレベルへと移動させ、この結果生じる端数を切り捨てることを含み得る。この結果は、ＮＳＲを計算する際に用いられ得る暗騒音エネルギーの推定を表す。
【０１６６】
ＮＳＲの計算に続いて、特徴付けモジュール３２８は、最初のクラス判定を改変されたクラス判定に訂正する。この訂正は、最初のクラス判定、音声活動判定、および無音声のノイズのような音声の判定を用いて実行され得る。さらに、例えば、反射係数によって表されるスペクトル、ピッチ係数Ｒ_p、ＮＳＲ、フレームのエネルギー、以前のフレームのエネルギー、残差シャープネス、および重み付けされた音声のシャープネスを表す、以前に計算されたパラメータも用いてもよい。最初のクラス判定の訂正は、特徴付け同調（ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｔｕｎｉｎｇ）と呼ばれる。これらの状態が識別された場合、特徴付け同調は、最初のクラスの判定を変化させ、オンセット状態フラグおよびノイズのある音声フラグを設定し得る。さらに、同調はまた、ＶＡＤモジュール３２６による音声活動判定における変化をトリガーし得る。
（３．１０．４４ステージ特徴付け）
特徴付けモジュール３２８はまた、特徴付けの第５のカテゴリー、すなわち、４ステージ特徴付けも生成し得る。４ステージ特徴付けは、ピッチ前処理モジュール３２２を制御するパラメータである。４ステージ特徴付けの一実施形態は、４つのカテゴリーを区別する。これらのカテゴリーは、１〜４の数字でラベル付けされ得る。１とラベル付けされたカテゴリーは、ピッチ前処理モジュール３２２をリセットして、遅延が蓄積し、これがピッチ前処理の間の予定の遅延を超えることを防ぐために用いられる。概して、残りのカテゴリーは、増加する音声強度を示す。増加する音声強度とは、音声の周期性の測定である。別の実施形態において、音声強度のレベルを示すために、多少のカテゴリーを含んでもよい。
（３．１０．５定常長期スペクトル特徴）
特徴付けモジュール３２８はまた、前処理された音声信号３０８の定常長期スペクトル特徴を判定することによって、分析の第６のカテゴリーを実行する。定常長期スペクトルの特徴は、例えば、ＬＳＦ、６クラス信号の特徴付けおよび開ループピッチゲインなどのスペクトル情報を用いて、複数のフレーム上で判定される。判定は、これらのパラメータの長期平均に基づく。
（３．１１レート選択モジュール）
特徴付けモジュール３２８による改変されたクラス判定に続いて、レート選択モジュール３２０は、開ループレート選択と呼ばれる最初のレート選択を行い得る。レート選択モジュール３２０は、例えば、改変されたクラス判定、ＮＳＲ、オンセットフラグ、残差エネルギー、シャープネス、ピッチ相関Ｒ_p、および開ループレート選択を判定する際の反射係数などのスペクトルパラメータを用い得る。開ループレート選択はまた、音声圧縮システム１０が動作するモードに基づいても選択され得る。このレート選択モジュール３２０は、モードのそれぞれによって示されるような所望の平均ビットレートを提供するように同調される。最初のレート選択は、後述するピッチ前処理モジュール３２２によって処理後に改変され得る。
（３．１２ピッチ前処理モジュール）
ピッチ前処理モジュール３２２は、フレームベースで動作して、重み付けされた音声３４４の分析および改変を実行する。ピッチ前処理モジュール３２２は、例えば、重み付けされた音声３４４のピッチサイクル上に圧縮技術または拡張技術を用い、エンコーディングプロセスを向上させる。図２、図４および図５に関して上述したように、開ループピッチラグは、ピッチ前処理モジュール３２２によって量子化されて、開ループの適応コードブックコンポーネント１４４ａまたは１７６ａを生成する。フレームの最終タイプの分類がタイプ１である場合、この量子化は、フレーム用のピッチラグを表す。しかし、図２、図４および図５に関して上述したように、タイプ分類がピッチ前処理モジュール３２２によって処理後に変更された場合、ピッチラグ量子化もまた変更されて、閉ループの適応コードブックコンポーネント１４４ｂまたは１７６ｂを表す。
【０１６７】
開ループピッチ推定モジュール３１６によって生成されたフレーム用の開ループピッチラグは、量子化および補間されて、ピッチトラック３４８を作成する。概して、ピッチ前処理モジュール３２２は、ピッチトラック３４８に合うように、重み付けされた音声３４４を改変しようとする。この改変が成功した場合、フレームの最終のタイプ分類はタイプ１である。この改変が不成功の場合、フレームの最終のタイプ分類はタイプ０である。
【０１６８】
後にさらに詳述するように、ピッチ前処理の改変手順は、重み付けされた音声３４４の連続した時間歪曲を実行し得る。歪曲は、可変遅延を導入する。例示的な実施形態において、エンコーディングシステム１２内の最大可変遅延は、２０個のサンプル（２．５ｍｓ）である。再構築／改変されたセグメント間の不連続性を回避するために、隣接するピッチサイクル間に特定の重複を有する、重み付けされた音声３４４は、ピッチサイクルベースで改変し得る。重み付けされた音声３４４は、ピッチトラック３４８にしたがって改変され得、改変された重み付けされた音声３５０を生成する。さらに、複数の量子化されていないピッチゲイン３５２が、ピッチ前処理モジュール３２２によって生成される。フレームのタイプ分類がタイプ１である場合、量子化されていないピッチゲイン３５２は、タイプ１の適応コードブックゲインコンポーネント１４８ｂ（全レートコーデック２２用）または１８０ｂ（半レートコーデック２４用）を生成するために用いられる。ピッチトラック３４８、改変され、重み付けされた音声３５０および量子化されていないピッチゲイン３５２は、励起処理モジュール５４に提供される。
【０１６９】
上述したように、特徴付けモジュール３２８による４ステージ特徴付けは、ピッチ前処理を制御する。一実施形態において、フレームが主に、カテゴリー１などの暗騒音または低ピッチ相関を備えた無音声である場合、フレームは不変のままであり、ピッチ前処理の蓄積された遅延が０にリセットされる。フレームが主に、カテゴリー２などのパルスのような無音声である場合、簡単な時間移動を除いては、信号を何ら歪曲させることなしに、蓄積された遅延が保持され得る。この時間移動は、入力音声信号１８の蓄積された遅延によって判定され得る。残りの４ステージ特徴付けを有するフレームに関して、ピッチ前処理アルゴリズムのコアが実行されて、信号を最適に歪曲させ得る。
【０１７０】
概して、一実施形態においてピッチ前処理モジュール３２２のコアは、３個の主なタスクを実行する。第１に、重み付けされた音声３４４は、ピッチトラック３４８と整合させようとして改変される。第２に、信号用のピッチゲインおよびピッチ相関が推定される。最後に、音声信号１８の特徴付けおよびレート選択が、ピッチ前処理分析の間に取得されるさらなる信号情報に基づいて改善される。別の実施形態において、波形補間などのさらなるピッチ前処理が含まれ得る。概して、波形補間は、前方−後方波形補間技術を用いて、特定の不規則移行セグメントを改変するために用いられ得、規則性を高め、重み付けされた音声３４４の不規則性を抑制する。
（３．１２．１改変）
重み付けされた音声３４４の改変は、緩和コード励起線形予測（ＲＣＥＬＰ）音声コーディングアプローチに類似したピッチコーディングモデルに、重み付けされた音声３４４をより正確に適合させる。ＲＣＥＬＰ音声コーディングの実施例は、ＴＩＡ（通信産業協会）ＩＳ−１２７規格に提供される。知覚できるような質の損失をまったく生じさせずに改変を実行することには、微細ピッチの検出、セグメントサイズの推定、目標の信号歪曲、および信号歪曲が含まれ得る。微細ピッチの検出は、フレームレベルベースで実行され得、一方、セグメントサイズ、目標の信号歪曲および信号の歪曲の推定が、ピッチサイクルごとに実行され得る。
（３．１２．１．１微細ピッチの検索）
微細ピッチの検索は、以前に判定された第２および第３のピッチラグ、レート選択および蓄積されたピッチ前処理遅延に基づいて、重み付けされた音声３４４上に実行され得る。微細ピッチの検索は、分数ピッチラグを検索する。分数ピッチラグは、ラグの量子化と組み合う非整数ピッチラグである。この組み合わせは、開ループピッチラグおよび重み付けされた音声３４４のピッチ相関を最大にする発見ラグを量子化するために用いられる、ラグの量子化表を検索することによって導出される。一実施形態において、検索は、異なるレート選択と関連した異なる量子化技術に起因して、各コーデックごとに異なって実行される。検索は、開ループピッチラグによって識別される検索エリアにおいて実行されて、蓄積された遅延によって制御される。
（３．１２．１．２セグメントサイズの推定）
セグメントサイズは、多少の調節は行なわれるが、ピッチ期間に従う。概して、ピッチサイクルのピッチ複合（ｃｏｍｐｌｅｘ）（主なパルス）は、セグメントの終端に向かって設けられ、これにより、知覚可能で最も重要な部分、ピッチ複合上の歪曲が最大に正確になる。所定のセグメントに関して、開始点は固定され、終点は移動されて、適合する最適モデルが得られ得る。終点の移動は効果的に、時間スケールを延ばしたりまたは圧縮する。この結果、セグメントの開始時におけるサンプルは、ほとんど移動せず、最大の移動は、セグメントの終端に向かって起こる。
（３．１２．１．３歪曲用の目標信号）
時間歪曲用の目標信号の一実施形態は、Ｓ’_w（ｎ）によって表される、改変され、重み付けされた音声３５０から導出されたその時点のセグメントと、Ｌ_p（ｎ）によって表されるピッチトラック３４８との合成である。ピッチトラック３４８によって、目標信号Ｓ’_w（ｎ），ｎ＝０，．．．，Ｎ_s−１の各サンプル値、Ｌ_p（ｎ）は、２１次のハミング重み付けされたシンク（Ｓｉｎｃ）ウィンドウを用いて、改変され、重み付けされた音声３５０の補間によって取得され得る。
【０１７１】
【数７】

ここで、ｉ（Ｌ_p（ｎ））およびｆ（Ｌ_p（ｎ））はそれぞれ、ピッチラグの整数および分数の部分である。ｗ_s（ｆ，ｉ）は、ハミング重み付けされたシンクウィンドウであり、Ｎ_sはセグメントの長さである。重み付けされた目標、
Ｓ^wt _w（ｎ）は、Ｓ^wt _w（ｎ）＝Ｗ_e（ｎ）・Ｓ^l _w（ｎ）によって与えられる。重み付けされた関数、ｗ_e（ｎ）は、２個の一次関数であり得、これは、ピッチ複合に重点を置き、ピッチ複合間の「ノイズ」に重点を置かない。４ステージの分類にしたがって、より高い周期性のセグメント用のピッチ複合への重点を強化することによって、重み付けを適用してもよい。
【０１７２】
重み付けされた目標のＳ^wt _w（ｎ）と重み付けされた音声３４４との間の正規化された交差相関を最大にする整数の移動は、ｓ_w（ｎ＋τ_acc）であり、ｓ_w（ｎ＋τ_acc）は、蓄積された遅延にしたがって移動した、重み付けされた音声３４４であり、τ_accは、
【０１７３】
【数８】

を最大にすることによって得られ得る。
微細（分数の）移動は、τ_shiftの近隣で、Ｒ（τ_shift）のアップサンプル（ｕｐｓａｍｐｌｅ）されたバージョンを検索することによって判定され得る。これにより、最終の最適移動τ_optと、対応し、正規化された交差相関Ｒ_n（τ_opt）が生じる。
【０１７４】
３．１２．１．４信号歪曲
セグメント用に改変され、重み付けされた音声３５０は、以下の式によって与えられるマッピングにしたがって再構築され得る。これらの式とは、
［ｓ_w（ｎ＋τ_acc），ｓ_w（ｎ＋τ_acc＋τ_c＋τ_opt）］→［ｓ’_w（ｎ），ｓ’_w（ｎ＋τ_c−１）］
（式１１）
かつ、
［ｓ_w（ｎ＋τ_acc＋τ_c＋τ_opt），ｓ_w（ｎ＋τ_acc＋τ_opt＋Ｎ_s−１）］→［ｓ’_w（ｎ＋τ_c），ｓ’_w（ｎ＋Ｎ_s−１）］（式１２）
であり、τ_cは、歪曲関数を規定するパラメータである。概して、τ_cは、ピッチ複合の開始を指定する。式１１によって与えられるマッピングは、時間歪曲を指定し、式１２によって与えられるマッピングは、時間移動（歪曲なし）を指定する。両方は、ハミング重み付けされたシンクウィンドウ関数を用いて実行される。
（３．１２．２ピッチゲインおよびピッチ相関推定）
ピッチゲインおよびピッチ相関は、ピッチサイクルベースで推定され得、式１１および１２によってそれぞれ規定される。ピッチゲインは、式９によって規定される目標ｓ’_w（ｎ）と、式１１および１２によって規定される、最終の改変された信号ｓ’_w（ｎ）との間の平均２乗エラーを最小限にとどめ、これは、
【０１７５】
【数９】

によって与えられ得る。ピッチゲインは、量子化されていないピッチゲイン３５２として、励起処理モジュール５４に提供される。ピッチ相関は、
【０１７６】
【数１０】

によって与えられ得る。両方のパラメータは、ピッチサイクルベースで利用可能であり、線形的に補間され得る。
（３．１２．３．微細な分類および微細なレート選択）
ピッチ前処理モジュール３２２によるピッチ前処理の後、特徴付けモジュール３２８およびレート選択モジュール３２０に平均ピッチ相関およびピッチゲインを提供する。特徴付けモジュール３２８およびレート選択モジュール３２０は、ピッチ相関およびピッチゲインを用いて、最終特徴付けクラスおよび最終レート選択をそれぞれ生成する。６クラスの信号特徴付けとフレームの開ループレートの選択とを微細化することにより、最終特徴付けクラスおよび最終レート選択を決定することが可能である。
【０１７７】
具体的には、特徴付けモジュール３２８は、特徴付けとして有声フレームを有するフレームをクラス４（すなわち、「非静止有声」）として特徴付けるべきか、それともクラス５（すなわち、「静止有声」）として特徴付けるかを決定する。加えて、特定のフレームが無声のノイズ状の音声の改変物であるという以前の決定に基づいて、特定のフレームが静止ノイズ状の無声音声であるという最終決定が行われ得る。ノイズ状の無声音声であると確認されたフレームは、クラス１（すなわち、「静止ノイズ状の無声音声」）として特徴付けられ得る。
【０１７８】
この最終特徴付けクラスと、レート選択モジュール３２０による開ループレート選択と、半レート信号ライン３０（図１）上の半レート信号送信フラグとに基づいて、最終レート選択を決定することが可能である。この最終レートの選択結果は、レート選択インジケータ３５４として、励起処理モジュール５４に提供される。加えて、フレームの最終特徴付けクラスは、制御情報３５６として、励起処理モジュール５４に提供される。
【０１７９】
（３．１３タイプ分類モジュール）
タイプ分類モジュール３２４は、全レートコーデック２２および半レートコーデック２４について、最終特徴付けクラスを用いることもできる。クラス０〜４の最終特徴付けクラスを有するフレームは、タイプ０フレームであると決定され、クラス５のフレームは、タイプ１フレームであると決定される。このタイプ分類は、タイプインジケータ３５８として励起処理モジュール５４に提供される。
【０１８０】
（４．０励起処理モジュール）
図２に示すように、タイプ分類モジュール３２４からのタイプインジケータ３５８は、レート選択結果に応じて、全レートモジュール５４または半レートモジュール５６のいずれかを選択的に活性化させる。図１０は、図２に示すＦ０またはＨ０第１のサブフレーム処理モジュール７０またはＨ０第１のサブフレーム処理モジュール８０を示すブロック図である。この第１のサブフレーム処理モジュール７０または８０は、タイプ０分類の場合に活性化される。同様に、図１１は、Ｆ１第１のフレーム処理モジュール７２またはＨ１第１のフレーム処理モジュール８２と、Ｆ１第２のサブフレーム処理モジュール７４またはＨ１第２のサブフレーム処理モジュール８４と、Ｆ１第２のフレーム処理モジュール７６またはＨ１第２のフレーム処理モジュール８６を示すブロック図である。これらのフレーム処理モジュールは、タイプ１分類の場合に活性化される。上述したように、「Ｆ」および「Ｈ」は、全レートコーデック２２および半レートコーデック２４をそれぞれ表す。
【０１８１】
図２に示す４分の１レートモジュール６０および８分の１レートモジュール６２の活性化は、レート選択に基づき得る。一実施形態において、擬似乱数シーケンスを生成およびスケーリングして、短期間の励起を表す。エネルギー成分２０４および２４２（図２）は、上述したような擬似乱数シーケンスのスケーリングを表す。一実施形態において、擬似乱数シーケンスを生成する際に用いられる「シード」をビットストリームから抽出し、これにより、符号化システム１２と復号化システム１６との間に同時性を提供する。
【０１８２】
上述したように、励起処理モジュール５４は、重み付けされた音声３５０の改変物、逆量子化ピッチゲイン３５２、レートインジケータ３５４および制御情報３５６も受信する。４分の１レートコーデック２６および８分の１レートコーデック２８は、処理中、これらの信号を用いない。しかし、これらのパラメータを用いて、全レートコーデック２２および半レートコーデック２４内の音声信号１８のフレームをさらに処理することが可能である。後述するように、全レートコーデック２２および半レートコーデック２４によるこれらのパラメータの利用は、フレームのタイプ分類がタイプ０であるのかそれともタイプ１であるのかに依存する。
【０１８３】
（４．１全レートコーデックおよび半レートコーデックのタイプ０フレームのための励起処理モジュール）
ここで図１０を参照して、Ｆ０またはＨ０の第１のサブフレーム処理モジュール７０、８０の一実施形態は、適応コードブックセクション３６２と、固定コードブックセクション３６４と、ゲイン量子化セクション３６６とを含む。タイプ０のフレームの処理およびコード化は、従来のＣＥＬＰ符号化（例えば、ＴＩＡ（通信産業協会）規格ＩＳ−１２７によるＣＥＬＰ符号化）に幾分類似する。上述したように、全レートコーデック２２の場合、フレームを４つのサブフレームに分割することが可能であり、半レートコーデック２４の場合、フレームを２つのサブフレームに分割することが可能である。図１０中に示した機能は、サブフレーム単位で実行される。
【０１８４】
Ｆ０またはＨ０の第１のサブフレーム処理モジュール７０および８０（図２）は、閉ループのピッチラグと、適応コードブックの対応する適応コードブックゲインとを決定するように動作する。加えて、固定コードブックを用いて長期残差を量子化し、対応する固定コードブックゲインも決定する。閉ループのピッチラグの量子化ならびに適応コードブックゲインおよび固定コードブックゲインの共量子化も行う。
【０１８５】
（４．１．１適応コードブックセクション）
適応コードブックセクション３６２は、適応コードブック３６８と、第１の乗算器３７０と、第１の合成フィルタ３７２と、第１の知覚重み付けフィルタ３７４と、第１の減算器３７６と、第１の最小化モジュール３７８とを含む。適応コードブックセクション３６２は、合成解析（ＡＤＳ）アプローチを用いて、適応コードブック３６８から最良の閉ループのピッチラグをサーチする。
【０１８６】
閉ループのピッチラグに対応する適応コードブック３６８からのセグメントを、適応コードブックベクトル（ｖ_a）３８２と呼ぶ場合がある。図９のピッチ前処理モジュール３２２からのピッチトラック３４８を用いて適応コードブック３６８中の領域を識別し、適応コードブックベクトル（ｖ_a）３８２のベクトルをサーチすることが可能である。第１の乗算器３７０は、選択された適応コードブックベクトル（ｖ_a）３８２をゲイン（ｇ_a）３８４で乗算する。ゲイン（ｇ_a）３８４を逆量子化すると、これは、後述するような計算が為される初期適応コードブックゲインを表すようになる。その結果得られた信号を、第１の合成フィルタ３７２に送る。この第１の合成フィルタ３７２は、上述したＬＰＣ解析と逆の機能を行う。第１の合成フィルタ３７２は、ＬＳＦ量子化モジュール３３４からの量子化ＬＰＣ係数Ａ_q（ｚ）３４２を受信し、第１の知覚重み付けフィルタモジュール３７４と共に、第１の再合成音声信号３８６を生成する。第１の減算器３７６は、重み付けされた音声３５０の改変物から第１の再合成音声信号３８６を減算して、長期エラー信号３８８を生成する。重み付けされた音声３５０の改変物は、適応コードブック３６８中のサーチのためのターゲット信号である。
【０１８７】
第１の最小化モジュール３７８は、長期エラー信号３８８を受信する。この長期エラー信号３８８は、閉ループのピッチラグの量子化におけるエラーを表すベクトルである。第１の最小化モジュール３７８は、ベクトルエネルギーの計算を行い、対応する重み付けされた２乗平均エラーを決定する。加えて、第１の最小化モジュール３７８は、長期エラー信号３８８のエネルギーを低減するために、適応コードブックベクトル（ｖ_a）３８２について、適応コードブック３６８からのベクトルのサーチおよび選択を制御する。
【０１８８】
第１の最小化モジュール３７８が、各サブフレームについて適応コードブック３６８からの適応コードブックベクトル（ｖ_a）３８２の最良のベクトルを選択し終えるまで、このサーチプロセスを繰り返す。適応コードブック３６８内の適応コードブックベクトル（ｖ_a）３８２の最良のベクトルのインデックスロケーションは、閉ループ適応コードブック成分１４４ｂ、ｌ７６ｂ（図２）の一部を形成する。このサーチプロセスを用いると、長期エラー信号３８８のエネルギーが有効に最小化される。適応コードブック３６８から最良の適応コードブックベクトル（ｖ_a）３８２を選択することにより、最良の閉ループのピッチラグを選択する。その結果得られた長期エラー信号３８８は、重み付けされた音声信号３５０の改変物であり、適応コードブックベクトル（ｖ_a）３８２のフィルタリングされた最良のベクトルよりも低い。
【０１８９】
（４．１．１．１全レートコーデックに関する、閉ループの適応コードブックサーチ）
閉ループの適応コードブック成分１４４ｂを用いて、全レートコーデック２２に関する閉ループのピッチラグを、ビットストリームとして表す。全レートコーデック２２の一実施形態において、上述したように、第１のサブフレームおよび第３のサブフレームに関する閉ループのピッチラグを８ビットで表し、第２のサブフレームおよび第４のサブフレームに関する閉ループのピッチラグを５ビットで表す。一実施形態において、このラグは、１７ラグ〜１４８ラグである。これらの８ビットおよび５ビットの数値は、同じピッチ分解能を表すことができるが、８ビットは、１つのサブフレームの閉ループのピッチラグの全範囲を示し、５ビットは、以前のサブフレームの閉ループのピッチラグの近隣にある閉ループのピッチラグの限界値も示すことができる。例示的実施形態において、閉ループのピッチラグの分解能は一様に０．２であり、ラグ１７とラグ３３との間である。この例示的実施形態のラグ３３からラグ９１において、分解能は、０．２から０．５に除々に増加し、ラグ９１〜ラグ１４８からの分解能は、一様に１．０である。
【０１９０】
適応コードブックセクション３６２は、閉ループの整数ピッチラグについて、整数ラグサーチを行う。第１のサブフレームおよび第３のサブフレーム（すなわち、８ビットで表されるサブフレーム）について、［Ｌ_p−３、．．．、Ｌ_p＋３］の範囲において、整数ラグサーチを行うことができる。ここで、Ｌ_pは、サブフレームのピッチラグである。サブフレームのピッチラグは、ピッチトラック３４８から入手される。このピッチトラック３４８は、適応コードブック３６８中のベクトルを識別する際に用いられる。整数ラグのサーチ範囲において、相互相関関数Ｒ（ｌ）を以下のように計算することが可能である。
【０１９１】
【数１１】

ここで、ｔ（ｎ）は、重み付けされた音声３５０の改変物であるターゲット信号であり、ｅ（ｎ）は、適応コードブックによる寄与（これは、適応コードブックベクトル（ｖ_a）３８２によって表される）であり、ｈ（ｎ）は、第１の合成フィルタ３７２および知覚重み付けフィルタ３７４の応答の組み合わせである。例示的実施形態において、１つのサブフレーム中に４０個のサンプルがあるが、これよりも多いかまたは少ない数のサンプルを用いることも可能である。
【０１９２】
Ｒ（ｌ）を最大化させる閉ループの整数ピッチラグを、微細な整数ラグとして選択することが可能である。９次オーダの調和重み付けされたＳｉｎｃを用いて相互相関関数Ｒ（ｌ）をアップサンプリングすることにより、適応コードブックベクトル（ｖ_a）３８２に関する適応コードブック３６８からの最良のベクトルを決定することが可能である。アップサンプリングの後、適応コードブック３６８内のベクトルのうち、１サンプルの微細な整数ラグ内にある閉ループのピッチラグに対応するものをサーチする。各サブフレーム用の適応コードブックベクトル（ｖ_a）３８２に関する最良のベクトルの適応コードブック３６８内のインデックスロケーションを、ビットストリーム中の閉ループの適応コードブック成分ｌ４４ｂによって示す。
【０１９３】
初期適応コードブックゲインを、以下のように概算することが可能である。
【０１９４】
【数１２】

ここで、Ｌ_p ^optは、適応コードブックベクトル（ｖ_a）３８２に関する最良のベクトルのラグを表し、ｅ（ｎ−Ｌ_p ^opt）は、適応コードブックベクトル（ｖ_a）３８２に関する最良のベクトルを表す。加えて、この例示的実施形態において、概算を、０．０≦ｇ≦１．２に限定し、ｎは、１つのサブフレーム中の４０個のサンプルを表す。１＝Ｌ_p ^optである場合、Ｒ（ｌ）を用いて、正規化された適応コードブック相関が得られる。正規化された適応コードブック相関と、初期クラスの決定と、適応コードブックの寄与のシャープネスとに従って、初期適応コードブックゲインをさらに正規化することが可能である。この正規化を行った結果、ゲイン（ｇ_a）３８４が得られる。ゲイン（ｇ_a）３８４を逆量子化すると、これは、閉ループのピッチラグに関する初期適応コードブックゲインを表す。
【０１９５】
（４．１．１．２半レートコード化に関する、閉ループの適応コードブックサーチ）
半レートコーデック２４に関する閉ループのピッチラグを、閉ループ適応コードブック成分１７６ｂ（図２）によって表す。一実施形態の半レートコーデック２４について、２つのサブフレームそれぞれについての閉ループのピッチラグを、それぞれ７ビットで符号化し、これにより、各サブフレームは、１７ラグ〜１２７ラグの範囲のラグを表す。全レートコーデック２２において行われる分数サーチの場合と対照的に、整数ラグサーチを、［Ｌ_p−３、．．．、Ｌ_p＋３］の範囲内において行うことが可能である。式１５のように相互相関関数Ｒ（ｌ）を計算することが可能であり、ここで、例示的実施形態の８０個のサンプルのサブフレームサイズについて、加算を行う。Ｒ（ｌ）を最大化させる閉ループのピッチラグを、微細な整数ラグとして選択する。各サブフレーム用の適応コードブックベクトル（ｖ_a）３８２に関する最良のベクトルの適応コードブック３６８内のインデックスロケーションを、ビットストリーム中の閉ループの適応コードブック成分１７６ｂによって示す。
【０１９６】
適応コードブックゲインの初期値を、式１６に従って計算することが可能である。ここで、例示的実施形態の８０個のサンプルのサブフレームサイズに加算を行う。次いで、上述したような正規化プロシージャを適用して、その結果、ゲイン（ｇ_a）３８４が得られ、このゲイン（ｇ_a）３８４は逆量子化される。
【０１９７】
サーチ中、全レートコーデック２２または半レートコーデック２４のいずれかによって生成された長期エラー信号３８８が、固定コードブックセクション３６４によって用いられる。固定コードブックサーチを行う前に、フレームに適用することが可能な図９のＶＡＤモジュール３２６から、有声活動の決定を得る。フレームについてのこの有声活動の決定を、各サブフレームについてのサブフレームの有声活動の決定に細分化することが可能である。このサブフレームの有声活動の決定を用いて、固定コードブックによる寄与による知覚選択を向上させる。
【０１９８】
（４．１．２固定コードブックセクション）
固定コードブックセクション３６４は、固定コードブック３９０と、第２の乗算器３９２と、第２の合成フィルタ３９４と、第２の知覚重み付けフィルタ３９６と、第２の減算器３９８と、第２の最小化モジュール４００とを含む。固定コードブックセクション３６４による、固定コードブックに対するサーチへの寄与は、適応コードブックセクション３６２内のサーチと類似する。
【０１９９】
サブフレームの長期残差を表す固定コードブックベクトル（ｖ_c）４０２を、固定コードブック３９０から提供する。第２の乗算器３９２は、固定コードブックベクトル（ｖ_c）４０２をゲイン（ｇ_c）４０４で乗算する。ゲイン（ｇ_c）４０４を逆量子化すると、これは、固定コードブックゲインの初期値を表し、この初期値は、後述のように計算することが可能である。その結果得られた信号を、第２の合成フィルタ３９４に提供する。第２の合成フィルタ３９４は、量子化されたＬＰＣ係数ｓＡ_q（ｚ）３４２をＬＳＦ量子化モジュール３３４から受信し、第２の知覚重み付けフィルタ３９６と共に、第２の再合成音声信号４０６を生成する。第２の減算器３９８は、この再合成音声信号４０６を長期エラー信号３８８から減算して、固定コードブックエラー信号４０８であるベクトルを生成する。
【０２００】
第２の最小化モジュール４００は、固定コードブック３９０による量子化における長期残差のエラーを表す固定コードブックエラー信号４０８を受信する。第２の最小化モジュール４００は、固定コードブックエラー信号４０８のエネルギーを低減させるために、固定コードブックエラー信号４０８のエネルギーを用いて、固定コードブック２９２からの固定コードブックベクトル（ｖ_c）４０２のベクトル選択を制御する。第２の最小化モジュール４００はまた、図９の特徴付けモジュール３２８から制御情報３５６も受信する。
【０２０１】
制御情報３５６中に含まれる最終特徴付けクラスは、第２の最小化モジュール４００によって固定コードブックベクトル（ｖ_c）４０２のベクトルが固定コードブック３９０から選択される様式を制御する。第２の最小化モジュール４００によるサーチによって各サブフレームに関する固定コードブック３９０から固定コードブックベクトル（ｖ_c）４０２の最良のベクトルが選択されるまで、このプロセスを反復する。固定コードブックベクトル（ｖ_c）４０２の最良のベクトルは、長期エラー信号３８８について、第２の再合成音声信号４０６内のエラーを最小化する。これらのインデックスは、固定コードブックベクトル（ｖ_c）４０２の最良のベクトルを識別し、上述したように、固定コードブック成分ｌ４６ａおよび１７８ａを形成するために用いることが可能である。
【０２０２】
（４．１．２．１全レートコーデックに関する固定コードブックサーチ）
上述したように、図２および図４を参照して、タイプ０分類のフレームの固定コードブック成分ｌ４６ａは、３つの５パルスコードブック１６０を用いて、全レートコーデック２２の４つのサブフレームそれぞれを表すことができる。サーチが開始すると、固定コードブック３９０内の固定コードブックベクトル（ｖ_c）４０２のベクトルを、長期エラー信号３８８を用いて決定することが可能である。この長期エラー信号３８８は、以下のように表すことができる：
【０２０３】
【数１３】

サーチ中、ピッチ向上を、固定コードブック３９０内の３つの５パルスコードブック１６０（図４に示す）に順方向に適用することが可能である。サーチは反復性で、制御を受ける、固定コードブックベクトル（ｖ_c）４０２の最良のベクトルについての複雑性サーチである。固定コードブックゲインの初期値はゲイン（ｇ_c）４０４で表すことができ、固定コードブックベクトル（ｖ_c）４０２の最良のベクトルに関するサーチと同時に発見することが可能である。
【０２０４】
例示的実施形態において、３つの５パルスコードブック１６０それぞれにおいて、固定コードブックベクトル（ｖ_c）４０２の最良のベクトルに関するサーチが終了する。３つの５パルスコードブック１６０それぞれにおけるサーチプロセスが終了する際、固定コードブックベクトル（ｖ_c）４０２に関する最良のベクトルの候補は識別されている。最良のベクトル候補のそれぞれの対応する固定コードブックエラー信号４０８を用いて、３つの５パルスコードブック１６０の選択結果と、対応する候補最良のベクトルのうち用いられるベクトルとを、決定することが可能である。対応する固定コードブックエラー信号４０８それぞれに関する重み付けされた２乗平均エラー（ＷＭＳＥ）の決定は、第２の最小化モジュール４００によって最初に行われる。これについて説明するために、３つの５パルスコードブック１６０それぞれからの最良のベクトル候補それぞれについての重み付けされた２乗平均エラー（ＷＭＳＥ５）を、第１の固定コードブックＷＭＳＥ、第２の固定コードブックＷＭＳＥおよび第３の固定コードブックＷＭＳＥと呼ぶ。
【０２０５】
第１の固定コードブックＷＭＳＥ、第２の固定コードブックＷＭＳＥおよび第３の固定コードブックＷＭＳＥは、まず重み付けされ得る。全レートコーデック２２内において、サブフレームの有声活動の決定により、タイプ０として分類されたフレームについて、第１の固定コードブックＷＭＳＥ、第２の固定コードブックＷＭＳＥおよび第３の固定コードブックＷＭＳＥを重み付けすることが可能である。加えて、第１の固定コードブックＷＭＳＥ、第２の固定コードブックＷＭＳＥおよび第３の固定コードブックＷＭＳＥのそれぞれと、図９の特徴付けモジュール３２８からのＮＳＲとのシャープネスを測定することにより、重み付けを行うことも可能である。この重み付け結果に基づいて、３つの５パルス固定コードブック１６０のうち１つと、当該コードブック中の最良のベクトルの候補とを選択することができる。
【０２０６】
その後、選択された５パルスコードブック１６０に細密（ｆｉｎｅ）サーチを行って、固定コードブックベクトル（ｖ_c）４０２について、最良のベクトルを最終決定することが可能である。この細密サーチは、選択された最良の候補ベクトルの近隣にある３つの５パルスコードブック１６０のうち選択されたもののベクトルについて行われる。３つの５パルスコードブック１６０のうち選択された１つの中の固定コードブックベクトル（ｖ_c）４０２の最良のベクトルを識別するインデックスは、ビットストリーム中の固定コードブック成分１７８ａの一部である。
【０２０７】
（４．１．２．２半レートコーデックに関する固定コードブックのサーチ）タイプ０の分類のフレームの場合、固定コードブック成分１７８ａは、半レートコーデック２４の２つのサブフレームそれぞれを表す。上述したように、図５を参照して、この表現は、パルスコードブック１９２、１９４と、ガウスコードブック１９５とに基づいて行うことが可能である。全レートコーデック２２の場合と同様に、ゲイン（ｇ_c）４０４によって表される固定コードブックゲインの初期ターゲットを決定することが可能である。加えて、全レートコーデック２２の場合と同様に、固定コードブック３９０内の固定コードブックベクトル（ｖ_c）４０２に関するサーチを重み付けすることが可能である。半レートコーデック２４において、パルスコードブック１９２および１９４それぞれと、ガウスコードブック１９５とからの最良の候補ベクトルに重み付けを適用することが可能である。重み付けを適用して、知覚の観点から見て最も適切な固定コードブックベクトル（ｖ_c）４０２を決定する。加えて、半レートコーデック２４中の重み付けされた２乗平均エラー（ＷＭＳＥ）の重み付けをさらに向上させて、知覚の観点から強調を行うことも可能である。重み付けにさらなるパラメータを設けることにより、さらなる向上を達成することが可能である。これらのさらなる要素は、閉ループのピッチラグおよび正規化された適応コードブック相関となり得る。
【０２０８】
重み付けの向上に加えて、最良の候補ベクトルについてコードブック１９２、１９４、１９５をサーチする前に、いくつかの特性を、パルスコードブック１９２、１９４中のエントリに組み込むことが可能である．これらの特性を用いると、知覚品質をさらに向上させることができる。一実施形態において、３つの向上を用いて第２の合成フィルタ３９４のフィルタ応答を改変することにより、サーチの間の知覚品質の向上を達成することが可能である。第１の向上は、高周波ノイズを固定コードブックに注入して高周波帯域を改変することにより、達成され得る。高周波ノイズの注入は、高周波ノイズのインパルス応答を第２の合成フィルタ３９４のインパルス応答に巻き込むことにより、第２の合成フィルタ３９４の応答に組み込むことが可能である。
【０２０９】
第２の向上を用いて、以前に量子化されたサブフレーム間の高い相関によって決定することが可能なロケーションに、さらなるパルスを組み込むことができる。これらのさらなるパルスの振幅を相関強度に従って調節することにより、符号化システム１２からさらなる情報を入手しなくても復号化システム１６が同じ動作を行うことが可能になる。これらのさらなるパルスからの寄与を、第２の合成フィルタ３９４のインパルス応答に組み込むことも可能である。第３の向上では、微弱な短期間のスペクトルフィルタを用いて固定コードブック３９０をフィルタリングして、帯域幅の拡大およびＬＳＦの量子化によって生じたホルマントのシャープネスの低減を補償する。
【０２１０】
固定コードブックベクトル（ｖ_c）４０２の最良のベクトルに関するサーチは、上述したように、固定コードブックエラー信号４０８のエネルギーの最小化に基づく。サーチはまず最初に２パルスコードブック１９２に行われ得る。次いで、３パルスコードブック１９４を２つの工程においてサーチする。第１の工程では、第２の工程（この工程は、フォーカスサーチと呼ばれ得る）の中心を決定することが可能である。逆方向および順方向に重み付けされたピッチ向上を、パルスコードブック１９２および１９４の両方におけるサーチについて適用することが可能である。最後に、上述したような符号化の際の２つの直交する基礎ベクトルを決定するために用いられる高速サーチルーチンを用いて、ガウスコードブック１９５がサーチされ得る。
【０２１１】
コードブック１９２、１９４および１９５の１つと、固定コードブックベクトル（ｖ_c）４０２の最良のベクトルとの選択を、全レートコーデック２２の場合と同様に行うことができる。選択されたコードブック内の固定コードブックベクトル（ｖ_c）４０２の最良のベクトルを識別するインデックスは、ビットストリーム中の固定コードブック成分１７８ａの一部である。
【０２１２】
この時点において、適応コードブックベクトル（ｖ_a）３８２および固定コードブックベクトル（ｖ_c）４０２の最良のベクトルは、適応コードブック３６８および固定コードブック３９０内においてそれぞれ発見されている。ここで、ゲイン（ｇ_a）３８４およびゲイン（ｇ_c）４０４の逆量子化初期値を、最良のゲイン値と取り代えることが可能になる。最良のゲイン値は、適応コードブックベクトル（ｖ_a）３８２と、以前に決定された固定コードブックベクトル（ｖ_c）４０２との最良のベクトルに基づいて決定され得る。最良のゲインを決定した後、これらの最良のゲインを共量子化する。ゲインの決定および量子化は、ゲイン量子化セクション３６６において発生する。
【０２１３】
（４．１．３ゲイン量子化セクション）
一実施形態のゲイン量子化セクション３６６は、２ＤＶＱゲインコードブック４１２と、第３の乗算器４１４と、第４の乗算器４１６と、加算器４１８と、第３の合成フィルタ４２０と、第３の知覚重み付けフィルタ４２２と、第３の減算器４２４と、第３の最小化モジュール４２６と、エネルギー改変セクション４２８とを含む。一実施形態のエネルギー改変セクション４２８は、エネルギー解析モジュール４３０と、エネルギー調節モジュール４３２とを含む。固定コードブックゲインおよび適応コードブックゲインの決定および量子化は、ゲイン量子化セクション３６６内において行われ得る。加えて、重み付けされた音声３５０の改変物に対するさらなる改変が、後述するようにエネルギー改変セクション４２８において発生し、これにより、量子化の際に用いることが可能なターゲット信号４３４の改変物が形成される。
【０２１４】
決定および量子化では、適応コードブックゲインおよび固定コードブックゲインの共量子化を表す、量子化されたゲインベクトル（＼ｇ_ac）４３３を決定するためのサーチが行われる。適応コードブックゲインおよび固定コードブックゲインは、サーチの際、以下の式に従って重み付けされた２乗平均エラーを最小化することにより得ることができる。
【０２１５】
【数１４】

ここで、上述したように、ｖ_a（ｎ）は、適応コードブックベクトル（ｖ_a）３８２の最良のベクトルであり、ｖ_c（ｎ）は、固定コードブックベクトル（ｖ_c）４０２の最良のベクトルである。この例示的実施形態において、加算は、８０個のサンプルを含むフレーム（例えば、半レートコーデック２４の一実施形態におけるフレーム）に基づく。最小化は、正規化された適応コードブックの相関の閾値に応じて、共に（ｇ_aおよびｇ_cを同時に入手するか）または逐次的に（ｇ_aを入手した後にｇ_cを入手）することにより、得ることができる。次いで、これらのゲインを部分的に改変して、音背景が有る場合の再構築された音声の変動を平滑にすることができる。改変が為されたゲインをｄｇ’_aおよびｇ’_cと呼ぶ。この改変が為されたゲインを用いて、以下の式を用いてターゲット信号４３４の改変物を生成することができる。
【０２１６】
【数１５】

量子化されたゲインベクトル（＼ｇ_ac）４３３の最良のベクトルに関するサーチを、２ＤＶＱのゲインコードブック４１２内において行う。２ＤＶＱゲインコードブック４１２は、テーブル４として示した上述した２Ｄゲイン量子化テーブルであり得る。２ＤＶＱのゲインコードブック４１２をサーチして、量子化されたゲインベクトル（＼ｇ_ac）４３３のベクトルのうち、２乗平均エラーを最小化するものを探す。すなわち、以下の式を最小化する。
【０２１７】
【数１６】

ここで、量子化された固定コードブックゲイン（＼ｇ_a）４３５および量子化された適応コードブックゲイン（＼ｇ_c）４３６を、２ＤＶＱゲインコードブック４１２から導出することが可能である。例示的実施形態において、加算は、８０個のサンプルを含むフレーム（例えば、半レートコーデック２４の一実施形態におけるフレーム）に基づく。２ＤＶＱゲインコードブック４１２中の量子化されたベクトルは実際、上述したような固定コードブックゲインの適応コードブックゲインおよび訂正要素を表す。
【０２１８】
ターゲット信号４３４の改変物を決定した後、量子化されたゲインベクトル（＼ｇ_ac）４３３を乗算器４１４、４１６に送る。第３の乗算器４１４は、適応コードブック３６８からの適応コードブックベクトル（ｖ_a）３８２の最良のベクトルを、量子化された適応コードブックゲイン（＼ｇ_a）４３５と乗算する。第３の乗算器４１４からの出力は、加算器４１８に提供される。同様に、第４の乗算器４１６は、量子化された固定コードブックゲイン（＼ｇ_c）４３６を、固定コードブック３９０からの固定コードブックベクトル（ｖ_c）４０２の最良のベクトルで乗算する。第４の乗算器４１６からの出力も、加算器４１８に提供される。加算器４１８は、乗算器４１４、４１６からの出力を加算し、その結果得られた信号を第３の合成フィルタ４２０に提供する。
【０２１９】
第３の合成フィルタ４２０および知覚重み付けフィルタ４２２の組み合わせは、第３の再合成音声信号４３８を生成する。第１の合成フィルタ３７２および第２の合成フィルタ３９４の場合と同様に、第３の合成フィルタ４２０は、量子化されたＬＰＣ係数Ａ_q（ｚ）３４２を受信する。第３の減算器４２４は、第３の再合成音声信号４３８をターゲット信号４３４の改変物から減算して、第３のエラー信号４４２を生成する。第３の最小化モジュール４２６は、２ＤＶＱゲインコードブック４１２による固定コードブックゲインおよび適応コードブックゲインの共量子化から得られたエラーを表す第３のエラー信号４４２を受信する。第３の最小化モジュール４２６は、第３のエラー信号４４２のエネルギーを低減するために、第３のエラー信号４４２のエネルギーを用いて、２ＤＶＱゲインコードブック４１２からのベクトルのサーチおよび選択を制御する。
【０２２０】
第３のエラー信号４４２のエネルギーを最小化させる各サブフレームの２ＤＶＱゲインコードブック４１２からの最良のベクトルを第３の最小化モジュール４２６が選択し終えるまで、このプロセスを繰り返す。第３のエラー信号４４２のエネルギーが各サブフレームについて最小化された後、共量子化されたゲイン（＼ｇ_a）４３５および（＼ｇ_c）４３６のインデックスロケーションを用いて、当該フレームのゲイン成分１４７、１７９を生成する。全レートコーデック２２の場合、ゲイン成分１４７は、固定されかつ適応するゲイン成分１４８ａ、１５０ａであり、半レートコーデック２４の場合、ゲイン成分１７９は、適応しかつ固定されたゲイン成分１８０ａおよび１８２ａである。
【０２２１】
合成フィルタ３７２、３９４および４２０と、知覚重み付けフィルタ３７４、３９６および４２２と、最小化モジュールｓ３７８、４００および４２６と、乗算器３７０、３９２、４１４および４１６と、加算器４１８と、減算器３７６、３９８および４２４と（ならびに本願に記載の他の任意のフィルタ、最小化モジュール、乗算器、加算器、および減算器と）を、当業者に公知の特定の用途に適した様式で、他の任意のデバイスまたは改変物と取り換えることが可能である。
【０２２２】
（４．２全レートコーデックおよび半レートコーデックのタイプ１フレームのための励起処理モジュール）
図１１において、Ｆ１第１のフレーム処理モジュール７２およびＨ１第１のフレーム処理モジュール８２は、３Ｄ／４Ｄ開ループＶＱモジュール４５４を含む。一実施形態のＦ１第２のサブフレーム処理モジュール７４およびＨ１第２のサブフレーム処理モジュール８４は適応コードブック３６８と、固定コードブック３９０と、第１の乗算器４５６と、第２の乗算器４５８と、第１の合成フィルタ４６０と、第２の合成フィルタ４６２とを含む。加えて、Ｆ１第２のサブフレーム処理モジュール７４およびＨ１第２のサブフレーム処理モジュール８４は、第１の知覚重み付けフィルタ４６４と、第２の知覚重み付けフィルタ４６６と、第１の減算器４６８と、第２の減算器４７０と、第１の最小化モジュール４７２と、エネルギー調節モジュール４７４とを含む。これらのＦ１第２のフレーム処理モジュール７６およびＨ１第２のフレーム処理モジュール８６は、第３の乗算器４７６と、第４の乗算器４７８と、加算器４８０と、第３の合成フィルタ４８２と、第３の知覚重み付けフィルタ４８４と、第３の減算器４８６と、バッファリングモジュール４８８と、第２の最小化モジュール４９０と、３Ｄ／４ＤＶＱゲインコードブック４９２とを含む。
【０２２３】
励起処理モジュール５４においてタイプ１として分類されたフレームの処理において、上述したようなフレーム基礎およびサブフレーム基礎両方に対する処理を行う。簡潔にするために、以下の記載において、全レートコーデック２２内のモジュールについて言及する。他に明記無き限り、半レートコーデック２４内のモジュールは、同様のものであるとみなすことができる。Ｆ１第１のフレーム処理モジュール７２による適応コードブックゲインの量子化によって、適応ゲイン成分１４８ｂが生成される。Ｆ１の第２のサブフレーム処理モジュール７４およびＦ１の第２のフレーム処理モジュール７６は、それぞれ上述したような固定コードブックベクトルおよび対応する固定コードブックゲインを決定するように動作する。Ｆ１第２のサブフレーム処理モジュール７４は、上述したようなトラックテーブルを用いて、図２に示すような固定コードブック成分１４６ｂを生成する。
【０２２４】
Ｆ１第２のフレーム処理モジュール７６は、固定コードブックゲインを量子化して、固定ゲイン成分１５０ｂを生成する。一実施形態において、全レートコーデック２２は、４つの固定コードブックゲインの量子化において１０ビットを用い、半レートコーデック２４は、３つの固定コードブックゲインの量子化において８ビットを用いる。量子化は、平均予測を移動させることにより行うことができる。一般的には、予測および量子化が行われる前に、予測状態を適切な寸法に変換する。
【０２２５】
（４．２．１第１のフレーム処理モジュール）
３Ｄ／４Ｄ開ループＶＱモジュール４５４の一実施形態は、上述した、全レートコーデック２２のための４次元プレベクトル量子化器（４ＤｐｒｅＶＱ）１６６および関連するゲイン前量子化テーブルであり得る。３Ｄ／４Ｄ開ループＶＱモジュール４５４の別の実施形態は、上述した、３次元プレベクトル量子化器（３ＤｐｒｅＶＱ）１９８と、半レートコーデック２４に関する関連するゲイン前量子化テーブルとであり得る。３Ｄ／４Ｄ開ループＶＱモジュール４５４は、逆量子化ピッチゲイン３５２をピッチ前処理モジュール３２２から受信する。逆量子化ピッチゲイン３５２は、上述したような開ループピッチラグの適応コードブックゲインを表す。
【０２２６】
３Ｄ／４Ｄ開ループＶＱモジュール４５４は、逆量子化ピッチゲイン３５２を量子化して、各サブフレームの最良の量子化されたピッチゲインを表す量子化されたピッチゲイン（＼ｋｇ_a）４９６を生成する（ｋはサブフレーム数である）。一実施形態において、全レートコーデック２２について４つのサブフレームがあり、半レートコーデック２４について３つのサブフレームがある。これらのサブフレームはそれぞれ、各サブフレームの４つの量子化されたゲイン（＼１ｇ_a、＼２ｇ_a、＼３ｇ_a、＼４ｇ_a）および３つの量子化されたゲイン（＼１ｇ_a、＼２ｇ_a、＼３ｇ_a）に対応する。ゲイン前量子化テーブル内の量子化されたピッチゲイン（＼ｋｇ_a）４９６のインデックスロケーションは、全レートコーデック２２の適応ゲイン成分１４８ｂまたは半レートコーデック２４の適応ゲイン成分１８０ｂを表す。量子化されたピッチゲイン（＼ｋｇ_a）４９６は、Ｆ１第２のサブフレーム処理モジュール７４またはＨ１第２のサブフレーム処理モジュール８４に提供される。
【０２２７】
（４．２．２第２のサブフレーム処理モジュール）
Ｆ１第２のサブフレーム処理モジュール７４またはＨ１第２のサブフレーム処理モジュール８４は、ピッチ処理前モジュール３２２によって提供されるピッチトラック３４８を用いて、適応コードブックベクトル（ｖ^k _a）４９８を識別する。適応コードブックベクトル（ｖ^k _a）４９８は、各サブフレームについての適応コードブックの寄与を表す（ｋは、サブフレームの数に等しい）。一実施形態において、全レートコーデック２２について４つのサブフレームがあり、半レートコーデック２４について３つのサブフレームがある。これらのサブフレームはそれぞれ、各サブフレームの適応コードブックの寄与のための４つのベクトル（ｖ¹ _a、ｖ² _a、ｖ³ _a、ｖ⁴ _a）および３つのベクトル（ｖ¹ _a、ｖ² _a、ｖ³ _a）に対応する。
【０２２８】
適応コードブックベクトル（ｖ^k _a）４９８について選択されたベクトルを、適応コードブック３６８およびピッチトラック３４８内に配置された過去ベクトルから導出することが可能である。ここで、ピッチトラック３４８を補間して、Ｌ_p（ｎ）で表すことができる。従って、サーチを行う必要は無い。適応コードブックベクトル（ｖ^k _a）４９８は、適応コードブック中の過去適応コードブックベクトル（ｖ^k _a）４９８を第２１次のオーダの調和重み付けされたＳｉｎｃウィンドウによって補間することにより得ることができる。これを式として表すと、以下のようになる。
【０２２９】
【数１７】

ここで、ｅ（ｎ）は過去の励起であり、ｉ（Ｌ_p（ｎ））およびｆ（Ｌ_p（ｎ））はそれぞれ、ピッチラグの整数部分および分数部分であり、ｗ_s（ｆ、ｉ）は、調和重み付けされたＳｉｎｃウィンドウである。
【０２３０】
適応コードブックベクトル（ｖ^k _a）４９８および量子化されたピッチゲイン（＼ｋｇ_a）４９６を、第１の乗算器４５６によって乗算する。第１の乗算器４５６は、第１の合成フィルタ４６０および第１の知覚重み付けフィルタモジュール４６４によって処理される信号を生成して、第１の再合成音声信号５００を提供する。第１の合成フィルタ４６０は、処理の一部として、量子化されたＬＰＣ係数Ａ_q（ｚ）３４２をＬＳＦ量子化モジュール３３４から受信する。第１の減算器４６８は、ピッチ前処理モジュール３２２によって提供される重み付けされた音声３５０の改変物から第１の再合成音声信号５００を減算して、長期エラー信号５０２を生成する。
【０２３１】
Ｆ１第２のサブフレーム処理モジュール７４またはＨ１第２のサブフレーム処理モジュール８４はまた、上述したＦ０第１のサブフレーム処理モジュール７０またはＨ０第１のサブフレーム処理モジュール８０によって行われる固定コードブックの寄与に類似する固定コードブックの寄与のサーチも行う。サーチ中、サブフレームに関する長期残差を表す固定コードブックベクトル（ｖ^k _c）５０４のベクトルを、固定コードブック３９０から選択する。第２の乗算器４５８は、固定コードブックベクトル（ｖ^k _c）５０４をゲイン（ｇ^k _c）５０６で乗算する（ｋは、サブフレームの数である）。ゲイン（ｇ^k _c）５０６を逆量子化すると、これは、各サブフレームの固定コードブックゲインを表す。その結果得られた信号を第２の合成フィルタ４６２および第２の知覚重み付けフィルタ４６６を用いて処理し、第２の再合成音声信号５０８を生成する。第２の減算器４７０を用いて、この第２の再合成音声信号５０８を長期エラー信号５０２から減算し、固定コードブックエラー信号５１０を生成する。
【０２３２】
固定コードブックエラー信号５１０は、制御情報３５６と共に第１の最小化モジュール４７２によって受信される。第１の最小化モジュール４７２は、図１０に示す上述した第２の最小化モジュール４００と同様に動作する。各サブフレームの固定コードブック３９０から固定コードブックベクトル（ｖ^k _c）５０４に関する最良のベクトルを第１の最小化モジュール４７２が選択し終えるまで、サーチプロセスを繰り返す。固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルは、固定コードブックエラー信号５１０のエネルギーを最小化する。これらのインデックスは、上述したような固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルを識別し、固定コードブック成分１４６および固定コードブック成分１７８ｂを形成する。
【０２３３】
（４．２．２．１全レートコーデックに関する固定コードブックサーチ）
一実施形態において、タイプＩのフレームの４つのサブフレームそれぞれについて、図４に示す８パルスコードブック１６２が、上述したような全レートコーデック２２によって用いられる。固定コードブックベクトル（ｖ^k _c）５０４のターゲットは、上述したような長期エラー信号５０２である。この長期エラー信号５０２は、ｔ^'（ｎ）によって表され、重み付けされた音声３５０の改変物（ｔ（ｎ）で示す）に基づき決定される。初期フレーム処理モジュール４４からの適応コードブックの寄与を、以下の式にしたがって除去する。
【０２３４】
【数１８】

固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルのサーチの間、ピッチ向上を順方向に適用することが可能である。加えて、サーチプロシージャは、複雑性の制御を伴う反復性サーチプロシージャを用いて固定コードブック残差５０８を最小化して、固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルを決定する。サーチ中、ゲイン（ｇ^k _c）５０６によって表される初期固定コードブックゲインを決定する。これらのインデックスは、固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルを識別し、上述したような固定コードブック成分１４６ｂを形成する。
【０２３５】
（４．２．２．２半レートコーデックに関する固定コードブックサーチ）
一実施形態において、上述したように、半レートコーデック２４の場合にタイプ１として分類されたフレームの３つのサブフレームそれぞれについて、長期残差を１３ビットで表す。この長期残差は、全レートコーデック２２における固定コードブックサーチに類似する様式でも決定することが可能である。タイプ０のフレームの半レートコーデック２４に関する固定コードブックサーチの場合と同様に、高周波ノイズ注入と、以前のサブフレームにおける高相関によって決定されるさらなるパルスと、微弱な短期間のスペクトルフィルタとを、第２の合成フィルタ４６２のインパルス応答に導入することが可能である。加えて、順方ピッチ向上も、第２の合成フィルタ４６２のインパルス応答に導入可能である。
【０２３６】
一実施形態において、図５に示す２パルスのコードブック１９６と、３パルスのコードブック１９７についてフルサーチを行う。パルスコードブック１９６、１９７と、固定コードブックエラー信号５１０を最小化させる固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルを、各サブフレームの長期残差の表現について選択する。加えて、全レートのコーデック２２の場合と同様のサーチの間、ゲイン（ｇ^k _c）５０６によって表される初期固定コードブックゲインを決定することが可能である。これらのインデックスは、固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルを識別し、固定コードブック成分１７８ｂを形成する。
【０２３７】
上述したように、Ｆ１第２のサブフレーム処理モジュール７４またはＨ１第２のサブフレーム処理モジュール８４は、サブフレーム基礎上で動作する。しかし、Ｆ１第２のフレーム処理モジュール７６またはＨ１第２のフレーム処理モジュール８６は、フレーム基礎上で動作する。従って、Ｆ１第２のサブフレーム処理モジュール７４またはＨ１第２のサブフレーム処理モジュール８４によって決定されるパラメータは、フレーム後で基礎上で用いることができるように、バッファリングモジュール４８８中に格納され得る。一実施形態において、これらの格納されたパラメータは、適応コードブックベクトル（ｖ^k _a）４９８の最良のベクトルであり、固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルである。加えて、ターゲット信号５１２の改変物と、初期適応を表すゲイン（＼ｋｇ_a）４９６およびゲイン（ｇ^k _c）５０６と、固定コードブックゲインとを、格納することが可能である。ターゲット信号５１２の改変物の生成については後述する。
【０２３８】
この時点において、適応コードブックベクトル（ｖ^k _a）４９８の最良のベクトルと、固定コードブックベクトル（ｖ^k _c）５０４の最良のベクトルと、量子化されたピッチゲイン（＼ｋｇ_a）４９６の最良のピッチゲインとが識別されている。これらの最良のベクトルおよび最良のピッチゲインを用いて、ゲイン（ｇ^k _c）５０６の最良の固定コードブックゲインを決定する。ゲイン（ｇ^k _c）５０６の最良の固定コードブックゲインを、ゲイン（ｇ^k _c）５０６について以前に決定された逆量子化初期固定コードブックゲインと取り換える。最良の固定コードブックゲインを決定するために、第２のフレーム処理モジュール７６および第２のフレーム処理モジュール８６を用いて、各サブフレームの固定コードブックゲインの共ラグ量子化を行う。
【０２３９】
（４．２．３第２のフレーム処理モジュール）
第２のフレーム処理モジュール７６および第２のフレーム処理モジュール８６は、固定ゲイン成分１５０および１８２ｂによって表される固定コードブックゲインを生成するように、フレーム基礎上で動作することができる。先ず、ゲイン決定およびタイプ０として分類されたフレームの量子化と同様の様式で、ターゲット５１２の改変物を決定する。各サブフレームについてターゲット５１２の改変物を決定し、ｔ”（ｎ）によって表す。ターゲットの改変物は、適応コードブックベクトル（ｖ^k _a）４９８および固定コードブックベクトル（ｖ^k _c）５０４と、以下の式１８によって得られる、適応コードブックゲインおよび固定コードブックゲイン初期値とについての最良のベクトルを用いて導出することが可能である。
ｔ”（ｎ）＝ｇ_aｖ_a（ｎ）＊ｈ（ｎ）＋ｇ_cｖ_c（ｎ）＊ｈ（ｎ）（式２３）
以下の最小化によって、サーチにおいて用いられる各サブフレームの固定コードブックゲインの初期値を得ることができる。
【０２４０】
【数１９】

ここで、ｖ_a（ｎ）は、特定のサブフレームの適応コードブックの寄与であり、ｖ_c（ｎ）は、特定のサブフレームの固定コードブックの寄与である。加えて、＼ｇ_aは、量子化された固定コードブックゲイン（＼ｇ^k _c）５１３のエレメントの１つである特定のサブフレームの、量子化および正規化が為された適応コードブックゲインである。計算された固定コードブックゲインｇ_cにさらに正規化および訂正を行って、第３の再合成音声信号と、バッファリングされたターゲット信号５１２の改変物との間の最良のエネルギー整合を提供する。以前のサブフレームからの逆量子化固定コードブックゲインを用いて、式２１に従って次のサブフレームを処理するための適応コードブックベクトル（ｖ^k _a）４９８を生成することが可能である。
【０２４１】
３Ｄ／４ＤＶＱゲインコードブック４９２内において、量子化された固定コードブックゲイン（＼ｇ^k _c）５１３のベクトルに関するサーチを行う。３Ｄ／４ＤＶＱゲインコードブック４９２は、上述した多次元ゲイン量子化器および関連するゲイン量子化テーブルであり得る。一実施形態において、３Ｄ／４ＤＶＱゲインコードブック４９２は、上述した全レートコーデック２２のための４ＤラグＶＱゲイン量子化器１６８であり得る。上述したように、４ＤラグＶＱゲイン量子化器１６８は、テーブル５として示される関連する遅延ゲイン量子化テーブルを用いて、動作することが可能である。別の実施形態において、３Ｄ／４ＤＶＱゲインコードブック４９２は、上述した半レートコーデック２４のための３ＤラグＶＱゲイン量子化器２００であり得る。３ＤラグＶＱゲイン量子化器２００は、上述したテーブル８として示される遅延ゲイン量子化テーブルを用いて動作することが可能である。
【０２４２】
３Ｄ／４ＤＶＱゲインコードブック４９２を、上述した図１０の２ＤＶＱゲインコードブック４１２に類似するエネルギーを最小化する、量子化された固定コードブックゲイン（＼ｇ^k _c）５１３のベクトルについて、サーチすることができる。３Ｄ／４ＤＶＱゲインコードブック４９２中の量子化されたベクトルは実際、上述したような予測される固定コードブックゲインの訂正要素を表す。サーチ中、第３の乗算器４７６は、適応コードブックベクトル（ｖ^k _a）４９８を、量子化されたピッチゲイン（＼ｋｇ_a）４９６で乗算し、その後、ターゲット５１２の改変物の決定が行われる。加えて、第４の乗算器４７８は、固定コードブックベクトル（ｖ^k _c）５０４を、量子化された固定コードブックゲイン（＼ｇ^k _c）５１３で乗算する。加算器４８０は、乗算器４７６および４７８から得られた信号を加算する。
【０２４３】
加算器４８０から得られた信号を、第３の合成フィルタ４８２および知覚重み付けフィルタモジュール４８４中を通過させて、第３の再合成音声信号５１４を生成する。第１の第２の合成フィルタ４６０および第２の合成フィルタ４６２の場合と同様に、第３の合成フィルタ４８２は、ＬＳＦ量子化モジュール３３４から、量子化されたＬＰＣ係数ｓＡ_q（ｚ）３４２を処理の一部として受信する。第３の減算器４８６は、バッファリングモジュール４８８中に以前に格納されたターゲット信号５１２の改変物から、第３の再合成音声信号５１４を減算する。その結果得られた信号は、重み付けされた２乗平均エラーであり、これを第３のエラー信号５１６と呼ぶ。
【０２４４】
第３の最小化モジュール４９０は、３Ｄ／４ＤＶＱゲインコードブック４９２による固定コードブックゲインの量子化から生じたエラーを表す第３のエラー信号５１６を受信する。第３の最小化モジュール４９０は、第３のエラー信号５１６のエネルギーを低減するために、この第３のエラー信号５１６を用いて、３Ｄ／４ＤＶＱゲインコードブック４９２からのベクトルのサーチおよび選択を制御する。第３のエラー信号５１６中のエラーを最小化する各サブフレームについての３Ｄ／４ＤＶＱゲインコードブック４９２から最良のベクトルを第３の最小化モジュール４９０が選択し終えるまで、サーチプロセスを繰り返す。第３のエラー信号５１６のエネルギーが最小化された後、３Ｄ／４ＤＶＱゲインコードブック４９２中の量子化された固定コードブックゲイン（＼ｇ^k _c）５１３のインデックスロケーションを用いて、全レートコーデック２２に関する固定コードブックゲイン成分１５０ｂと、半レートコーデック２４に関する固定コードブックゲイン成分１８２ｂとを生成する。
【０２４５】
（４．２．３．１３Ｄ／４ＤＶＱゲインコードブック）
一実施形態において、３Ｄ／４ＤＶＱゲインコードブック４９２が４次元コードブックである場合、以下を最小化するために、３Ｄ／４ＤＶＱゲインコードブック４９２をサーチすることができる。
【０２４６】
【数２０】

ここで、上述したように、サブフレーム処理中、初期フレーム処理モジュール４４と、｛ｔ¹（ｎ）、ｔ²（ｎ）、ｔ³（ｎ）、ｔ⁴（ｎ）｝、｛ｖ¹ _a（ｎ）、ｖ² _a （ｎ）、ｖ³ _a （ｎ）、ｖ⁴ _a （ｎ）｝および｛ｖ¹ _c（ｎ）、ｖ² _c （ｎ）、ｖ³ _c （ｎ）、ｖ⁴ _c （ｎ）｝とから発生する、量子化されたピッチゲイン｛ｇ¹ _a（ｎ）、ｇ² _a （ｎ）、ｇ³ _a （ｎ）、ｇ⁴ _a （ｎ）｝をバッファリングすることが可能である。例示的実施形態において、コードブックのエントリが、上述したような予測される固定コードブックゲインの４次元訂正要素を含む場合、固定コードブックゲイン｛ｇ¹ _c（ｎ）、ｇ² _c （ｎ）、ｇ³ _c （ｎ）、ｇ⁴ _c （ｎ）｝を、１０ビットのコードブックから導出する。加えて、フレームあたりに４０個のサンプルを表す場合、ｎ＝４０である。
【０２４７】
別の実施形態において、３Ｄ／４ＤＶＱゲインコードブック４９２が３次元コードブックである場合、以下を最小化するために、３Ｄ／４ＤＶＱゲインコードブック４９２をサーチすることができる。
【０２４８】
【数２１】

ここで、上述したように、サブフレーム処理の間、初期フレーム処理モジュール４４と、｛ｔ¹（ｎ）、ｔ²（ｎ）、ｔ³（ｎ）｝、｛ｖ¹ _a（ｎ）、ｖ² _a （ｎ）、ｖ³ _a （ｎ）｝および｛ｖ¹ _c（ｎ）、ｖ² _c （ｎ）、ｖ³ _c （ｎ））｝とから発生する量子化されたピッチゲイン｛ｇ¹ _a（ｎ）、ｇ² _a （ｎ）、ｇ³ _a （ｎ）｝をバッファリングすることができる。例示的実施形態において、コードブックのエントリが予測される固定コードブックゲインについて３次元訂正要素を含む場合、８ビットのコードブックから、固定コードブックゲイン｛ｇ¹ _c（ｎ）、ｇ² _c （ｎ）、ｇ³ _c （ｎ）｝を導出する。固定コードブックゲインの予測は、ログドメイン中の固定コードブックエネルギーの平均予測の移動に基づき得る。
【０２４９】
（５．０復号化システム）
ここで図１２を参照して、図３の全レート復号器９０および半レート復号器９２を示す拡大ブロック図が図示されている。全レート復号器９０または半レート復号器９２は、励起再構築モジュール１０４、１０６、１１４および１１６と、線形予測係数（ＬＰＣ）再構築モジュール１０７および１１８とを含む。励起再構築モジュール１０４、１０６、１１４および１１６のそれぞれの一実施形態は、適応コードブック３６８と、固定コードブック３９０と、２ＤＶＱゲインコードブック４１２と、３Ｄ／４Ｄ開ループＶＱコードブック４５４と、３Ｄ／４ＤＶＱゲインコードブック４９２とを含む。励起再構築モジュール１０４、１０６、１１４および１１６はまた、第１の乗算器５３０と、第２の乗算器５３２と、加算器５３４とも含む。一実施形態において、ＬＰＣ再構築モジュールｓ１０７、１１８は、ＬＳＦ復号化モジュール５３６およびＬＳＦ変換モジュール５３８を含む。加えて、半レートコーデック２４は予測子スイッチモジュール３３６を含み、全レートコーデック２２は補間モジュール３３８を含む。
【０２５０】
図１２中には、合成フィルタモジュール９８および処理後モジュール１００も図示されている。一実施形態において、処理後モジュール１００は、短期間のフィルタ後モジュール５４０と、長期フィルタモジュール５４２と、チルト補償フィルタモジュール５４４と、適応ゲイン制御モジュール５４６とを含む。レート選択に応じてビットストリームを復号して、処理後の合成音声２０を生成することが可能である。復号器９０および９２は、アルゴリズムパラメータに対し、ビットストリームの成分の逆マッピングを行う。この逆マッピングの後、全レートコーデック２２および半レートコーデック２４内の合成に応じて、タイプ分類を行う。
【０２５１】
４分の１レートコーデック２６および８分の１レートコーデック２８の復号化は、全レートコーデック２２および半レートコーデック２４に類似する。しかし、４分の１レートコーデック２６および８分の１レートコーデック２８は、上述したように、ゲインに関連する適応コードブック３６８および固定コードブック３９０の代わりに、類似するが乱数およびエネルギーゲインのベクトルを用いる。これらの乱数およびエネルギーゲインを用いて、フレームの短期間の励起を表す励起エネルギーを再構築することが可能である。ＬＰＣ再構築モジュール１２２および１２６も、予測子スイッチモジュール３３６および補間モジュール３３８以外は、全レートコーデック２２および半レートコーデック２４と同様である。
【０２５２】
（５．１励起の再構築）
全レート復号器９０および半レート復号器９２内において、励起再構築モジュール１０４、１０６、１１４および１１６の動作は、タイプ成分１４２および１７４によって提供されるタイプ分類に大きく依存する。適応コードブック３６８は、ピッチトラック３４８を受信する。ピッチトラック３４８は、符号化システム１２によってビットストリーム中に提供される適応コードブック成分１４４および１７６からの復号化システム１６によって再構築される。タイプ成分１４２および１７４によって提供されるタイプ分類に応じて、適応コードブック３６８は、量子化された適応コードブックベクトル（ｖ^k _a）５５０を乗算器５３０に提供する。乗算器５３０は、量子化された適応コードブックベクトル（ｖ^k _a）５５０を、適応コードブックゲインベクトル（ｇ^k _a）５５２で乗算する。適応コードブックゲインベクトル（ｇ^k _a）５５２の選択も、タイプ成分１４２および１７４によってて提供されるタイプ分類に依存する。
【０２５３】
例示的実施形態において、フレームが、全レートコーデック２２中のタイプ０として分類された場合、２ＤＶＱゲインコードブック４１２は、適応コードブックゲインベクトル（ｇ^k _a）５５２を乗算器５３０に提供する。適応コードブックゲインベクトル（ｇ^k _a）５５２を、適応コードブックゲイン成分１４８ａおよび固定コードブックゲイン成分１５０ａから決定する。適応コードブックゲインベクトル（ｇ^k _a）５５２は、（上述したようなＦ０第１のサブフレーム処理モジュール７０のゲインおよび量子化セクション３６６によって決定された）量子化されたゲインベクトル（＼ｇ_ac）４３３の最良のベクトルの一部と同じである。量子化された適応コードブックベクトル（ｖ^k _a）５５０を、閉ループの適応コードブック成分１４４ｂから決定する。同様に、量子化された適応コードブックベクトル（ｖ^k _a）５５０は、Ｆ０第１のサブフレーム処理モジュール７０によって決定された適応コードブックベクトル（ｖ_a）３８２の最良のベクトルと同じである。
【０２５４】
２ＤＶＱゲインコードブック４１２は２次元であり、適応コードブックゲインベクトル（ｇ^k _a）５５２を乗算器５３０に提供し、固定コードブックゲインベクトル（ｇ^k _c）５５４を乗算器５３２に提供する。同様に、適応コードブックゲイン成分１４８ａおよび固定コードブックゲイン成分１５０ａから決定される固定コードブックゲインベクトル（ｇ^k _c）５５４は、量子化されたゲインベクトル（＼ｇ_ac）４３３の最良のベクトルの一部である。ここでもタイプ分類に基づいて、固定コードブック３９０は、量子化された固定コードブックベクトル（ｖ^k _a）５５６を乗算器５３２に提供する。コードブック識別情報と、パルスロケーション（または半レートコーデック２４のガウスコードブック１９５）と、固定コードブック成分１４６ａによって提供されるパルスサインとから、量子化された固定コードブックベクトル（ｖ^k _a）５５６を再構築する。量子化された固定コードブックベクトル（ｖ^k _a）５５６は、上述したようなＦ０第１のサブフレーム処理モジュール７０によって決定された固定コードブックベクトル（ｖ_c）４０２の最良のベクトルと同じである。乗算器５３２は、量子化された固定コードブックベクトル（ｖ^k _a）５５６を、固定コードブックゲインベクトル（ｇ^k _c）５５４で乗算する。
【０２５５】
フレームのタイプ分類がタイプ１である場合、多次元ベクトル量子化器は、適応コードブックゲインベクトル（ｇ^k _a）５５２を乗算器５３０に提供する。ここで、多次元ベクトル量子化器中の次元数は、サブフレーム数に依存する。一実施形態において、多次元ベクトル量子化器は、３Ｄ／４Ｄ開ループＶＱ４５４であり得る。同様に、多次元ベクトル量子化器は、固定コードブックゲインベクトル（ｇ^k _c）５５４を乗算器５３２に提供する。適応コードブックゲインベクトル（ｇ^k _a）５５２および固定コードブックゲインベクトル（ｇ^k _c）５５４は、ゲイン成分１４７および１７９によって提供され、量子化されたピッチゲイン（＼ｋｇ_a）４９６および量子化された固定コードブックゲイン（＼ｇ^k _c）５１３とそれぞれ同じである。
【０２５６】
フレームがタイプ０またはタイプ１として分類された場合、第１の乗算器５３０からの出力は、加算器５３４によって受信され、第２の乗算器５３２からの出力に加算される。加算器５３４からの出力は、短期間の励起である。短期間の励起を、短期間の励起ライン１２８上の合成フィルタモジュール９８に提供する。
【０２５７】
（５．２ＬＰＣ再構築）
復号器９０および９２中の短期間の（ＬＰＣ）予測係数の生成は、符号化システム１２における処理に類似する。ＬＳＦ復号化モジュール５３６は、ＬＳＦ成分１４０および１７２から、量子化されたＬＳＦを再構築する。ＬＳＦ復号化モジュール５３６は、符号化システム１２によって用いられる、同じＬＳＦ予測エラー量子化テーブルおよびＬＳＦ予測子係数テーブルを用いる。半レートコーデック２４の場合、予測子スイッチモジュール３３６は、一連の予測子係数から１つを選択して、ＬＳＦ成分１４０、１７２によって指定されるような、予測されるＬＳＦを計算する。量子化されたＬＳＦの補間は、符号化システム１２において用いられる同じ線形補間経路を用いて行われる。タイプ０として分類されたフレーム用の全レートコーデック２２の場合、補間モジュール３３８は、ＬＳＦ成分１４０および１７２によって指定されるような、符号化システム１２において用いられる同じ補間経路のうちの１つを選択する。量子化されたＬＳＦに重み付けを行った後、ＬＳＦ変換モジュール５３８内の量子化されたＬＰＣ係数Ａ_q（ｚ）３４２に対して変換を行う。量子化されたＬＰＣ係数ｓＡ_q（ｚ）３４２は短期間の予測係数であり、短期間の予測係数ライン１３０上の合成フィルタ９８に供給される。
【０２５８】
（５．３合成フィルタ）
合成フィルタ９８は、量子化されたＬＰＣ係数ｓＡ_q（ｚ）３４２を用いて、短期間の予測係数をフィルタリングすることができる。合成フィルタ９８は、処理が終了する前に合成音声を生成する、短期間の逆予測フィルタであり得る。その後、合成音声を、処理後モジュール１００を通過させることができる。短期間の予測係数を処理後モジュール１００に提供することも可能である。
【０２５９】
（５．４処理後）
処理後モジュール１００は、レート選択および短期間の予測係数に基づいて、合成音声を処理する。先ず、短期間のフィルタ後モジュール５４０が、合成音声を処理し得る。短期間のフィルタ後モジュール５４０内におけるパラメータのフィルタリングは、図９を参照して上述したように、特徴付けモジュール３２８によって決定されたレート選択および長期スペクトル特性に従って適合させることが可能である。短期間のフィルタ後工程を、以下のように表すことができる。
【０２６０】
【数２２】

例示的実施形態において、γ₁ _、 _n＝０．７５・γ₁ _、 _n-1＋０．２５・γ₀およびγ₂＝０．７５であり、γ₀は、レート選択および長期スペクトル特性に基づいて決定される。長期フィルタモジュール５４２において、処理を継続する。
【０２６１】
長期フィルタモジュール５４２は、合成音声中のピッチ期間について、細密チューニングサーチを行う。一実施形態において、ピッチ相関と、レートから独立したゲイン制御による調和フィルタリングとを用いて、細密チューニングサーチを行う。４分の１レートコーデック２６および８分の１レートコーデック２８について、この調和フィルタリングをディセーブルする。一実施形態において、チルト補償フィルタモジュール５４４は、第１のオーダの有限インパルス応答（ＦＩＲ）フィルタである。図９を参照して上述した知覚重み付けフィルタモジュール３１４のスペクトルチルトに従って、ＦＩＲフィルタをチューニングすることが可能である。このフィルタは、やはり図９を参照して上述した特徴付けモジュール３２８によって決定された長期スペクトル特性に従ってチューニングすることも可能である。
【０２６２】
フィルタ後工程は、適応ゲイン制御モジュール５４６を用いて終了され得る。適応ゲイン制御モジュール５４６は、処理後モジュール１００内において処理された合成音声のエネルギーレベルを、処理が終了する前の合成音声のレベルにまで移動させる。レベルの平滑化および適合化も、適応ゲイン制御モジュール５４６内において行うことが可能である。処理後モジュール１００による処理の結果、処理後の合成音声２０が得られる。
【０２６３】
復号化システム１６の一実施形態において、復号化システム１６によって受信されたフレームのうち、（例えば、無線伝送の間に発生する信号損失などにより）消失したフレームを、復号化システム１６によって識別する。その後、復号化システム１６は、フレーム消失を隠蔽する動作を行うことができるようになる。この動作では、消失したフレームについて、以前のフレームから音声パラメータを補間する工程が行われる。補外音声パラメータを用いて、消失したフレームを合成することが可能である。加えて、パラメータ平滑化を行って、消失フレームの後続フレームの音声部分の連続性を補償することも可能である。別の実施形態において、復号化システム１６は、不良レートを決定する能力も含む。復号化システム１６によって受信されたフレームについて、不良レートの選択を識別する工程は、ビットストリーム中の不法シーケンスビを識別し、特定のフレームが消失していることを宣言することにより、達成される。
【０２６４】
上述した音声圧縮システム１０の実施形態では、全レートコーデック２２と、半レートコーデック２４と、４分の１レートコーデック２６と、８分の１レートコーデック２８とを用いて、可変レートの音声圧縮を行う。コーデック２２、２４、２６および２８は、異なるビット割り当てと、異なる符号化アプローチを用いたビットレートと共に動作して、音声信号１８のフレームを符号化する。全レートコーデック２２および半レートコーデック２４の符号化アプローチは、フレームのタイプ分類に応じて、異なる知覚整合と、異なる波形整合と、異なるビット割り当てとを有する。４分の１レートコーデック２６および８分の１レートコーデック２８は、パラメータを含む知覚表現のみを用いて、フレームを符号化する。モード信号は、音声圧縮システム１０について、所望の平均ビットレートを識別する。音声圧縮システム１０は、コーデック２２、２４、２６および２８を選択的に活性化して、処理後の合成音声２０の知覚品質の最適化により、所望の平均ビットレートのバランスをとる。
【０２６５】
本発明の様々な実施形態について説明してきたが、当業者にとって、他の多くの実施形態およびインプレメンテーションが、本発明の範囲内において可能であることは明らかである。従って、本発明は、本明細書中の特許請求の範囲およびその均等物以外のものによって限定されることはない。
マイクロフィッシュ

【図面の簡単な説明】
【図１】図１は、音声圧縮システムの一実施形態のブロック図である。
【図２】図２は、図１に示される符号化システムの一実施形態の拡大された（ｅｘｐａｎｄｅｄ）ブロック図である。
【図３】図３は、図１に示される復号化システムの一実施形態の拡大されたブロック図である。
【図４】図４は、全レートコーデックの一実施形態のビット割り当てを示す表である。
【図５】図５は、半レートコーデックの一実施形態のビット割り当てを示す表である。
【図６】図６は、４分の１レートコーデックの一実施形態のビット割り当てを示す表である。
【図７】図７は、８分の１レートコーデックの一実施形態のビット割り当てを示す表である。
【図８】図８は、図２に示される処理前モジュールの一実施形態の拡大されたブロック図である。
【図９】図９は、全レートおよび半レートコーデックのための、図２に示される初期フレーム処理モジュールの一実施形態の拡大されたブロック図である。
【図１０】図１０は、全レートおよび半レートコーデックのための、図２に示される第１のサブフレーム処理モジュールの一実施形態の拡大されたブロック図である。
【図１１】図１１は、全レートおよび半レートコーデックのための、図２に示される第１のフレーム処理モジュール、第２のサブフレーム処理モジュール、および第２のフレーム処理モジュールの一実施形態の拡大されたブロック図である。
【図１２】図１２は、全レートおよび半レートコーデックのための、図３に示される復号化システムの一実施形態の拡大されたブロック図である。

Claims

音声信号（１８）を処理する可変レートの音声圧縮システム（１０）であって、
該可変レートの音声圧縮システムは、
該音声信号のフレームのパラメータを抽出し、符号化するように動作可能な符号化システム（１２）を備え、
該符号化システムは、
第１のレートおよび第２のレートのうちの一方を含むレート選択と、第１のタイプ（１５２、１８４）および第２のタイプ（１５４、１８６）のうちの一方を含むタイプ分類との関数として、該フレームを表すパラメータを符号化するように動作可能なフレーム処理モジュール（４４、７２、７６、８２、８６）であって、該音声信号を改変して符号化を向上させるように動作可能なピッチ前処理モジュール（３２２）を含むフレーム処理モジュール（４４、７２、７６、８２、８６）と、
該レート選択および該タイプ分類の関数として、該フレームのサブフレームを表すパラメータを符号化するように動作可能なサブフレーム処理モジュール（７０、７４、８０、８４）と
を含み、
ピッチ前処理モジュールは、該音声信号の複数のカテゴリの関数として、該音声信号を改変するように動作可能であり、該複数のカテゴリのうちの１つは、蓄積された遅延をピッチ前処理中にリセットすることにより、該蓄積された遅延が該ピッチ前処理中に予定の遅延を超えることを防ぐために用いられ、
該第１のタイプは、サイレンス／バックグランド・ノイズ、定常のノイズのような無声、非定常の無声、オンセット音声および非定常の有声うちの少なくとも１つとして特徴付けられるフレームであり、該第２のタイプは、定常の有声として特徴付けられるフレームであり、
該タイプ分類が該第２のタイプを示す場合には、該フレーム処理モジュールは、開ループピッチラグ処理を用いて該フレームを表すパラメータを符号化することにより、適応コードブックコンポーネントを生成するために用いられ、該タイプ分類が該第１のタイプを示す場合には、該サブフレーム処理モジュールは、閉ループピッチラグ処理を用いて該サブフレームを表すパラメータを符号化することにより、該適応コードブックコンポーネントを生成するために用いられる、可変レートの音声圧縮システム。
前記ピッチ前処理モジュールは、前記音声信号の連続的な時間歪曲を行うように動作可能である、請求項１に記載の可変レートの音声圧縮システム。
前記ピッチ前処理モジュールは、前記音声信号の波形補間を行うように動作可能である、請求項１または２に記載の可変レートの音声圧縮システム。
前記フレーム処理モジュールは、補間モジュール（３３８）を備え、該補間モジュール（３３８）は、前記タイプ分類が前記第１のタイプであり、前記レート選択が前記第１のレートである場合、補間経路を選択するように動作可能であり、かつ、該補間経路の関数として短期間の予測パラメータを符号化するように動作可能である、請求項１に記載の可変レートの音声圧縮システム。
前記フレーム処理モジュールは、前記レート選択が前記第２のレートである場合に予測子係数を選択するように動作可能である予測子スイッチモジュール（３３６）を備え、該予測子係数の関数として短期間の予測パラメータを符号化するように動作可能である、請求項１に記載の可変レートの音声圧縮システム。
前記フレーム処理モジュールは、前記タイプ分類が前記第２のタイプである場合、短期間の予測パラメータと、開ループのピッチ遅れと、適応コードブックゲインと、固定コードブックゲインとを符号化するように動作可能である、請求項１に記載の可変レートの音声圧縮システム。
前記フレーム処理モジュールは、３Ｄ／４Ｄ開ループＶＱモジュール（４５４）を備え、該３Ｄ／４Ｄ開ループＶＱモジュール（４５４）は、前記タイプ分類が前記第２のタイプである場合、ゲイン前量子化テーブルによって適応コードブックゲインを符号化するように動作可能である、請求項１または６に記載の可変レートの音声圧縮システム。
前記フレーム処理モジュールは、３Ｄ／４ＤＶＱゲインコードブック（４９２）を備え、該３Ｄ／４ＤＶＱゲインコードブック（４９２）は、前記タイプ分類が前記第２のタイプである場合、遅延ゲイン量子化テーブルによって固定コードブックゲインを符号化するように動作可能である、請求項１、６または７に記載の可変レートの音声圧縮システム。
前記サブフレーム処理モジュールは、前記タイプ分類が前記第１のタイプである場合、閉ループのピッチ遅れと、固定コードブックの寄与と、適応コードブックゲインと、固定コードブックゲインとを符号化するように動作可能である、請求項１に記載の可変レートの音声圧縮システム。
前記サブフレーム処理モジュールは、固定コードブック（３９０）をサーチして、前記サブフレームについて固定コードブックの寄与を決定するように動作可能であり、前記レート選択が前記第１のレートであり、前記タイプ分類が前記第１のタイプである場合、該固定コードブックは、３つの５パルスコードブック（１６０）を備える、請求項１に記載の可変レートの音声圧縮システム。
前記サブフレーム処理モジュールは、固定コードブック（３９０）をサーチして、前記サブフレームについて固定コードブックの寄与を決定するように動作可能であり、前記レート選択が前記第１のレートであり、前記タイプ分類が前記第２のタイプである場合、該固定コードブックは、８パルスコードブック（１６２）を備える、請求項１または１０に記載の可変レートの音声圧縮システム。
前記サブフレーム処理モジュールは、固定コードブック（３９０）をサーチして、前記サブフレームについて固定コードブックの寄与を決定するように動作可能であり、前記レート選択が前記第２のレートであり、前記タイプ分類が前記第１のタイプである場合、該固定コードブックは、２パルスコードブック（１９２）と、３パルスコードブック（１９４）と、ガウスコードブック（１９５）とを備える、請求項１に記載の可変レートの音声圧縮システム。
前記サブフレーム処理モジュールは、固定コードブック（３９０）をサーチして、前記サブフレームについて固定コードブックの寄与を決定するように動作可能であり、前記レート選択が前記第２のレートであり、前記タイプ分類が前記第２のタイプである場合、該固定コードブックは、２パルスコードブック（１９６）および３パルスコードブック（１９７）を備える、請求項１または１２に記載の可変レートの音声圧縮システム。
前記サブフレーム処理モジュールは、前記固定コードブックに対して向上を行うように動作可能であり、該向上は、高周波ノイズの注入、さらなるパルスの補間およびフィルタリングのうち少なくとも１つを含む、請求項１２または１３に記載の可変レートの音声圧縮システム。
前記レート選択が前記第１のレートおよび前記第２のレートのうちの一方であり、前記タイプ分類が前記第１のタイプである場合、前記サブフレーム処理モジュールは、前記サブフレームに関して量子化ゲインベクトルを決定するように動作可能であり、該量子化ゲインベクトルは、適応コードブックゲインおよび固定コードブックゲインの共符号化を表す、請求項１に記載の可変レートの音声圧縮システム。
前記第１のレートは、１秒あたり８．５キロビットであり、前記第２のレートは、１秒あたり４．０キロビットである、請求項１に記載の可変レートの音声圧縮システム。
可変レートの音声圧縮システム（１０）を用いて音声信号（１８）を処理する方法であって、
ａ）該音声信号のフレームからパラメータを抽出することと、
ｂ）該抽出されたパラメータの関数としてレートを選択することと、
ｃ）該抽出されたパラメータの関数として第１のタイプ（１５２、１８４）および第２のタイプ（１５４、１８６）のうち一方を選択することと、
ｄ）該タイプ分類が該第１のタイプである場合、サブフレームのそれぞれについて適応コードブックゲインおよび固定コードブックゲインを共符号化することと、
ｅ）該タイプ分類が該第２のタイプである場合、該フレームについて、該適応コードブックゲインおよび該固定コードブックゲインを排他的に符号化することと
を包含し、
該第１のタイプは、サイレンス／バックグランド・ノイズ、定常のノイズのような無声、非定常の無声、オンセット音声および非定常の有声うちの少なくとも１つとして特徴付けられるフレームであり、該第２のタイプは、定常の有声として特徴付けられるフレームである、方法。
ｆ）前記タイプ分類が前記第１のタイプである場合、前記フレームの複数のサブフレームのそれぞれについて、閉ループピッチ遅れを符号化することと、
ｇ）該タイプ分類が前記第２のタイプである場合、該フレームを表す開ループピッチ遅れを符号化することと
をさらに包含する、請求項１７に記載の方法。
前記ａ）は、ピッチ前処理を行って前記音声信号を改変することを包含する、請求項１７または１８に記載の方法。
前記ｂ）は、モード信号の関数として前記レートを選択することを包含する、請求項１７に記載の方法。
前記ｂ）は、
開ループレート選択を行うことと、
前記開ループのレート選択と前記フレームの特徴付けと半レート信号フラグとの関数として、最終レート選択を行うことと
を包含する、請求項１７に記載の方法。
ｆ）前記タイプ分類が前記第１のタイプであり、前記選択されたレートが全レートである場合、短期間の予測パラメータを符号化するように補間経路を選択すること
をさらに包含する、請求項１７に記載の方法。
ｆ）前記選択されたレートが半レートである場合、１組の予測子係数を選択することと、
ｇ）該選択された１組の予測子係数の関数として、短期間の予測パラメータを符号化することと
をさらに包含する、請求項１７に記載の方法。
前記ｅ）は、前記適応コードブックゲインをゲイン前量子化テーブルを用いて符号化することを包含する、請求項１７に記載の方法。
前記ｃ）は、前記固定コードブックゲインを遅延ゲイン量子化テーブルを用いて符号化することを包含する、請求項１７または２４に記載の方法。
ｆ）前記レートを半レートとして選択することと、
ｇ）高周波ノイズを固定コードブックに注入することと、
ｈ）該固定コードブックにさらなるパルスを組み込むことと、
ｉ）固定コードブックの寄与を符号化することと
をさらに包含する、請求項１７に記載の方法。
前記ｂ）は、１秒あたり８．５キロビットおよび１秒あたり４キロビットのうちの一方を選択することを包含する、請求項１７に記載の方法。
音声信号を処理する音声圧縮システムであって、
該音声圧縮システムは、
該音声信号の特徴付けの関数として、該音声信号を符号化するためのレートを選択するように動作可能な符号化システム
を備え、
該符号化システムは、第１のタイプおよび第２のタイプのうちの一方を含むタイプ分類を選択するように動作可能であり、
該符号化システムは、第１のレートが選択された場合には、該レートおよび該タイプ分類の関数として、該音声信号を符号化するように動作可能であり、
該符号化システムは、第２のレートが選択された場合には、該タイプ分類にかかわらず該レートの関数として、該音声信号を符号化するように動作可能であり、
該符号化システムは、該第１のレートが選択され、かつ、該タイプ分類が該第２のタイプである場合には、適応コードブックゲインおよび固定コードブックゲインを符号化するように動作可能であり、該適応コードブックゲインは、該固定コードブックゲインとは排他的に符号化され、
該第１のタイプは、サイレンス／バックグランド・ノイズ、定常のノイズのような無声、非定常の無声、オンセット音声および非定常の有声うちの少なくとも１つとして特徴付けられるフレームであり、該第２のタイプは、定常の有声として特徴付けられるフレームである、音声圧縮システム。
前記符号化システムは、前記第１のレートが選択され、かつ、前記タイプ分類が前記第１のタイプである場合には、前記適応コードブックゲインおよび前記固定コードブックゲインを共符号化するように動作可能である、請求項２８に記載の音声圧縮システム。
前記共符号化された適応コードブックゲインおよび固定コードブックゲインは、前記音声信号の複数のサブフレームのそれぞれについて符号化されている、請求項２９に記載の音声圧縮システム。
前記適応コードブックゲインおよび前記固定コードブックゲインは、前記音声信号のフレームを表す、請求項３０に記載の音声圧縮システム。
前記符号化された音声信号は、前記第１のレートが選択された場合には第１の部分と第２の部分とを含み、該第１の部分はフレーム単位での該音声信号のパラメータを表し、該第２の部分はサブフレーム単位での該音声信号のパラメータを表す、請求項２８に記載の音声圧縮システム。
前記符号化システムは、初期フレーム処理モジュールと励起処理モジュールとを含み、前記フレームの前記タイプ分類が前記第１のタイプである場合には、該初期フレーム処理モジュールは、前記符号化された音声信号の前記第１の部分を生成するように動作可能であり、前記励起処理モジュールは、前記符号化された音声信号の前記第２の部分を生成するように動作可能である、請求項３２に記載の音声圧縮システム。
前記符号化システムは、初期フレーム処理モジュールと励起処理モジュールとを含み、前記フレームの前記タイプ分類が前記第２のタイプである場合には、該初期フレーム処理モジュールは、前記符号化された音声信号の前記第１の部分の一部を生成するように動作可能であり、前記励起処理モジュールは、前記符号化された音声信号の前記第１の部分の一部と前記符号化された音声信号の前記第２の部分とを生成するように動作可能である、請求項３２に記載の音声圧縮システム。
前記第１のレートは、１秒あたり８．５キロビットおよび１秒あたり４．０キロビットのうちの一方である、請求項２８に記載の音声圧縮システム。
前記第２のレートは、１秒あたり２．０キロビットおよび１秒あたり０．８キロビットのうちの一方である、請求項２８に記載の音声圧縮システム。
音声信号を処理する可変レートの音声圧縮システムであって、
該可変レートの音声圧縮システムは、
該音声信号の第１のフレームを符号化し復号化するように動作可能な第１のコーデックであって、選択されたビットレートの関数として活性化され、第１のタイプおよび第２のタイプのうちの一方を含むタイプ分類の関数として符号化し復号化するように動作可能な第１のコーデックと、
該音声信号の第２のフレームを符号化し復号化する動作可能な第２のコーデックであって、該タイプ分類にかかわらず該第２のフレームを符号化し復号化するように、選択されたビットレートの関数として活性化される第２のコーデックと
を備え、
該第１のコーデックは、該第１のレートが選択され、かつ、該タイプ分類が該第２のタイプである場合に、適応コードブックゲインおよび固定コードブックゲインを符号化するように動作可能であり、該適応コードブックゲインは、該固定コードブックゲインとは排他的に符号化され、
該第１のタイプは、サイレンス／バックグランド・ノイズ、定常のノイズのような無声、非定常の無声、オンセット音声および非定常の有声うちの少なくとも１つとして特徴付けられるフレームであり、該第２のタイプは、定常の有声として特徴付けられるフレームである、可変レートの音声圧縮システム。
前記第１のフレームおよび前記第２のフレームを特徴付けるように動作可能な初期フレーム処理モジュールをさらに備えており、該初期フレーム処理モジュールは、該特徴付けの関数として各フレームに対して該ビットレートを選択するようにさらに動作可能である、請求項３７に記載の可変レートの音声圧縮システム。
前記第１のフレームおよび前記第２のフレームのぞれぞれは、複数のクラスのうちの１つとして特徴付けられ、該複数のクラスは、サイレンス／バックグランド・ノイズ、定常のノイズのような無声、非定常の無声、オンセット音声、非定常の有声および定常の有声を含む、請求項３８に記載の可変レート音声圧縮システム。
前記初期フレーム処理モジュールは、モード信号の関数として前記ビットレートを選択するように動作可能であり、該モード信号は、プレミアムモード、標準モードおよび節約モードを含む、請求項３８に記載の可変レート音声圧縮システム。
複数のクラスのうちの１つとして前記第１のフレームを特徴付け、該特徴付けの関数として前記タイプ分類を実行するように動作可能な初期フレーム処理モジュールをさらに備えている、請求項３７に記載の可変レート音声圧縮システム。
前記第１のコーデックは、前記タイプ分類が前記第１のタイプである場合には、前記第１のフレームの複数のサブフレームのそれぞれを表す適応コードブックの寄与を符号化するように動作可能である、請求項３７に記載の可変レート音声圧縮システム。
前記第１のコーデックは、前記タイプ分類が前記第２のタイプである場合には、前記第１のフレームを表す適応コードブックの寄与を符号化するように動作可能である、請求項３７に記載の可変レート音声圧縮システム。
前記第１のコーデックは、全レートコーデックおよび半レートコーデックのうちの一方を含む、請求項３７に記載の可変レート音声圧縮システム。
前記第２のコーデックは、４分の１レートのコーデックおよび８分の１レートのコーデックうちの一方を含む、請求項３７に記載の可変レート音声圧縮システム。
音声信号のフレームを処理するシステムであって、
該システムは、
該フレームに対して選択されるレートの関数として選択的に活性化される第１のコーデックと、
該フレームに対して選択される該レートの関数として選択的に活性化される第２のコーデックと
を備え、
該第１のコーデックは、
該フレームのタイプ分類の関数として符号化された音声信号の第１の部分を形成するように動作可能な複数のフレーム処理モジュールであって、該第１の部分は、該フレームのパラメータを表す、複数のフレーム処理モジュールと、
該タイプ分類の関数として該符号化された第２の部分を形成するように動作可能な複数のサブフレーム処理モジュールであって、該第２の部分は、該フレームの複数のサブフレームのパラメータを表す、複数のサブフレーム処理モジュールと
を含み、
該第２のコーデックは、
該タイプ分類にかかわらず該フレームを表すパラメータを符号化するように動作可能な初期フレーム処理モジュールと、
該タイプ分類にかかわらず該フレームのパラメータを符号化するように動作可能なレートモジュールと
を含み、
該第１のコーデックは、該レートおよび該タイプ分類の関数として、適応コードブックゲインおよび固定コードブックゲインを符号化するように動作可能であり、該適応コードブックゲインは、該固定コードブックゲインとは排他的に符号化され、
該タイプ分類は、第１のタイプおよび第２のタイプのうちの一方を含み、該第１のタイプは、サイレンス／バックグランド・ノイズ、定常のノイズのような無声、非定常の無声、オンセット音声および非定常の有声うちの少なくとも１つとして特徴付けられるフレームであり、該第２のタイプは、定常の有声として特徴付けられるフレームである、システム。
前記第１のコーデックは、全レートコーデックおよび半レートコーデックのうちの一方を含む、請求項４６に記載のシステム。
前記第２のコーデックは、４分の１レートコーデックおよび８分の１レートコーデックのうちの一方を含む、請求項４６に記載のシステム。
前記第１のコーデックに対して選択される前記レートは、１秒あたり８．５キロビットおよび１秒あたり４．０キロビットのうちの一方を含む、請求項４６に記載のシステム。
前記第２のコーデックに対して選択される前記レートは、１秒あたり２．０キロビットおよび１秒あたり０．８キロビットのうちの一方を含む、請求項４６に記載のシステム。
前記第２のタイプは、定常の有声のふるまいを示すフレームを表し、前記第１のタイプは、その他のすべてのタイプのふるまいを表す、請求項４６に記載のシステム。
前記第２のコーデックの前記レートモジュールは、前記選択されたレートが８分の１レートである場合に、該フレームを表す予測されたエネルギーゲインを符号化するように動作可能である、請求項４６に記載のシステム。