JP5373217B2

JP5373217B2 - 可変レートスピーチ符号化

Info

Publication number: JP5373217B2
Application number: JP2013087419A
Authority: JP
Inventors: シャラス・マンジュナス; ウイリアム・ガードナー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-12-21
Filing date: 2013-04-18
Publication date: 2013-12-18
Anticipated expiration: 2019-12-21
Also published as: EP1141947A2; US6691084B2; HK1040807B; AU2377500A; JP2013178545A; US20040102969A1; CN102623015B; KR20010093210A; ATE424023T1; EP1141947B1; EP2085965A1; CN100369112C; JP4927257B2; CN1331826A; DE69940477D1; JP2002533772A; US7496505B2; ES2321147T3; CN101178899A; KR100679382B1

Description

本発明はスピーチ信号の符号化に関する。とくに、本発明はスピーチ信号の分類、およびその分類に基づいた複数の符号化モードの１つの使用に関する。

現在、多くの通信システム、とくに長距離のデジタル無線電話用では音声をデジタル信号として送信する。これらのシステムの性能は部分的に、最小の数のビットで音声信号を正確に表すことに依存している。スピーチをサンプリングしてデジタル化するだけで送信することには、通常のアナログ電話機のスピーチ品質を得るために６４キロビット／秒（ｋｂｐｓ）程度のデータレートが必要とされる。しかしながら、満足できるスピーチ再生のために必要とされるデータレートを著しく減少させる符号化技術が利用可能である。

“ボコーダ”という用語は一般に、人間のスピーチ発生のモデルに基づいてパラメータを抽出することにより有声音スピーチを圧縮する装置を示す。ボコーダには符号器と復号器とが含まれている。符号器は、入ってきたスピーチを解析して関連したパラメータを抽出する。復号器は、それが符号器から伝送チャンネルを介して受取ったパラメータを使用してスピーチを合成する。スピーチ信号はしばしば、ボコーダによって処理されたデータおよびブロックのフレームに分割される。

線形予測ベースの時間ドメイン符号化方式を中心として形成されたボコーダは、その他全てのタイプのコーダを数的にはるかに上回る。これらの技術はスピーチ信号から相関させられた要素を抽出し、相関されていない要素だけを符号化する。基本的な線形予測フィルタは、現在のサンプルを過去のサンプルの線形組合せとして予測する。この特定のクラスの符号化アルゴリズムの一例は、文献（Thomas E.Tremain氏他による“A 4.8 kbps コード励起線形予測コーダ(Code Excited Linear Predictive Coder),”Proceedings of the Mobile Satellite Conference,1988 ）に記載されている。

これらの符号化方式は、スピーチに固有の自然(natural)冗長（すなわち、相関させられた要素）を全て除去することによりデジタル化されたスピーチ信号を低いビットレートの信号に圧縮する。スピーチは一般に唇と舌の物理的活動の結果生じた短期間冗長と、声帯の振動の結果生じた長期間冗長とを示す。線形予測方式は、これらの動作をフィルタとしてモデル化し、冗長を除去し、その後結果的に得られた残留(residual)信号をホワイトガウス(white gaussian)雑音としてモデル化する。したがって、線形予測コーダは全帯域幅スピーチ信号ではなくフィルタ係数および量子化された雑音を送信することにより減少したビットレートを達成する。

しかしながら、スピーチ信号が長距離（たとえば、地上対衛星）を伝搬するか、あるいは混雑したチャンネル中でその他の多数の信号と共存しなければならない場合に、これらの減少したビットレートでさえ利用可能な帯域幅を越えることが多い。したがって、線形予測方式より低いビットレートを達成する改善された符号化方式が必要とされている。

本発明は、スピーチ信号の可変ビットレート符号化のための新しい改良された方法および装置である。本発明は入力スピーチ信号を分類し、この分類に基づいて適切な符号化モードを選択する。各分類について、本発明は、許容可能なスピーチ再生品質で最も低いビットレートを達成する符号化モードを選択する。本発明は、高忠実度モード（すなわち、異なったタイプのスピーチに広く適用可能な高ビットレート）を、この忠実度が許容可能な出力のために要求されるスピーチの部分の期間中に使用するだけで低い平均ビットレートを達成する。本発明は、これらのモードが許容可能な出力を生成するスピーチの部分の期間中に、低ビットレートモードに切換わる。

本発明の利点は、スピーチが低ビットレートで符号化される(be coded)ことである。低ビットレートは、高い容量、広い範囲および低い電力要求と言い換えられる。

本発明の特徴は、入力スピーチ信号がアクティブおよび非アクティブ領域に分類されることである。アクティブ領域は、有声音領域、無声音領域および過渡領域にさらに分類される。したがって、本発明は要求される忠実度のレベルに応じて種々の符号化モードを異なったタイプのアクティブスピーチに適用することができる。

本発明の別の特徴は、符号化モードが特定のモードのそれぞれの強さおよび弱さに応じて使用可能なことである。本発明は、スピーチ信号の特性が時間的に変化するにしたがってこれらのモード間で動的に切換る。

本発明のさらに別の特徴は、適切である場合にはスピーチの領域が擬似ランダム雑音としてモデル化され、その結果著しく低いビットレートが実現されることである。本発明は、無声音スピーチまたは背景雑音が検出された場合には常にこの符号化を動的に使用する。

本発明の特徴、目的および利点は、以下の詳細な説明および添付図面からさらに明らかになるであろう。なお、図面において同じ参照符号は同じまたは機能的に類似した構成要素を示している。さらに、参照符号の最大桁の数字はその参照符号が最初に現れた図面を示している。

信号伝送環境を示す概略図。符号器102 および復号器104 を示すさらに詳細な概略図。本発明による可変レートスピーチ符号化を示すフローチャート。サブフレームに分割された有声音スピーチのフレームを示す概略図。サブフレームに分割された無声音スピーチのフレームを示す概略図。サブフレームに分割された過渡スピーチのフレームを示す概略図。初期パラメータの計算を示すフローチャート。アクティブまたは非アクティブとしてスピーチを分類することを示すフローチャート。ＣＥＬＰ符号器を示す概略図。ＣＥＬＰ復号器を示す概略図。ピッチフィルタモジュールを示す概略図。ＰＰＰ符号器を示す概略図。ＰＰＰ復号器を示す概略図。符号化および復号を含むＰＰＰ符号化のステップを示すフローチャート。原型残留周期の抽出を示すフローチャート。残留信号の現在のフレームから抽出された原型残留周期と、前のフレームから抽出された原型残留周期とを示す概略図。回転パラメータの計算を示すフローチャート。符号化コードブックの動作を示すフローチャート。第１のフィルタ更新モジュールの実施形態を示す概略図。第１の周期インターポレータモジュール形態を示す概略図。第２のフィルタ更新モジュール形態を示す概略図。第２の周期インターポレータモジュール形態を示す概略図。第１のフィルタ更新モジュール形態の動作を示すフローチャート。第２のフィルタ更新モジュールの実施形態の動作を示すフローチャート。原型残留周期の整列および補間を示すフローチャート。第１の実施形態による原型残留周期に基づくスピーチ信号の再構成を示すフローチャート。第２の実施形態による原型残留周期に基づくスピーチ信号の再構成を示すフローチャート。ＮＥＬＰ符号器を示す概略図。ＮＥＬＰ復号器を示す概略図。ＮＥＬＰ符号化を示すフローチャート。

Ｉ．環境の概説
II．本発明の概説
III ．初期パラメータの決定
Ａ．ＬＰＣ係数の計算
Ｂ．ＬＳＩ計算
Ｃ．ＮＡＣＦ計算
Ｄ．ピッチトラックおよび遅延の計算
Ｅ．帯域エネルギおよびゼロ交差(Zero Crossing)レートの計算
Ｆ．ホルマント残留の計算
IV．アクティブ／非アクティブスピーチ分類
Ａ．ハングオーバーフレーム
Ｖ．アクティブスピーチフレームの分類
VI．符号器／復号器モード選択
VII ．コード励起線形予測（ＣＥＬＰ）符号化モード
Ａ．ピッチ符号化モジュール
Ｂ．符号化コードブック
Ｃ．ＣＥＬＰ復号器
Ｄ．フィルタ更新モジュール
VIII．原型(Prototype)ピッチ周期（ＰＰＰ）符号化モード
Ａ．抽出モジュール
Ｂ．回転コリレータ(Correlator)
Ｃ．符号化コードブック
Ｄ．フィルタ更新モジュール
Ｅ．ＰＰＰ復号器
Ｆ．周期インターポレータ(Interporator)
IX．雑音励起線形予測（ＮＥＬＰ）符号化モード
Ｘ．結論
［Ｉ．環境の概説］
本発明は、可変レートスピーチ符号化のための新しい改善された方法および装置に関する。図１は、符号器102 、復号器104 および伝送媒体106 を含む信号伝送環境100 を示している。符号器102 はスピーチ信号ｓ（ｎ）を符号化し、伝送媒体106 を横切って復号器104 に伝送するために符号化されたスピーチ信号ｓ_enc（ｎ）を形成する。復号器104 はｓ_enc（ｎ）を復号し、それによって合成されたスピーチ信号：

を生成する。

ここで使用されている“符号化”という用語は一般に、符号化および復号の両者を含む方法を示している。一般に、符号化方法および装置は、許容可能なスピーチ再生（すなわち、＾ｓ（ｎ）はｓ（ｎ）に近似している）を維持しながら、伝送媒体106 を介して伝送されるビットの数を最小化しようとする（すなわち、ｓ_enc（ｎ）の帯域幅を最小化しようとする）。符号化されたスピーチ信号の合成は、特定のスピーチ符号化方法にしたがっていろいろである。以下、種々の符号器102 、復号器104 およびそれらが動作する符号化方法を説明する。

以下に説明する符号器102 および復号器104 のコンポーネントは電子ハードウェア、コンピュータソフトウェア、または両者の組合せとして実施されることができる。以下、これらのコンポーネントをそれらの機能性に関して説明する。ハードウェアまたはソフトウェアのどちらで機能が実施されるかは、特定の用途とシステム全体に課される設計上の制約に依存する。当業者は、これらの状況下においてハードウェアおよびソフトウェアが交換可能であること、および説明された機能を特定の用途のそれぞれに対して最良に実施するための方法を認識するであろう。

当業者は、伝送媒体106 が地上ベース通信ライン、基地局と衛星との間のリンク、セルラー電話機と基地局との間の、またはセルラー電話機と衛星との間の無線通信を含む多数の異なった伝送媒体を代表することができるが、それに限定されないことを認識するであろう。

当業者はまた、ある通信に対する各パーティが受信だけでなく送信もまたしばしば行うことを認識するであろう。したがって、各パーティには符号器102 と復号器104 が必要である。しかしながら、以下の説明において信号伝送環境100 は、伝送媒体106 の一方の端部に符号器102 を含み、他端部に復号器104 を含むものとして示されている。当業者は、これらの考えをどのように２方向通信に拡大すべきかを容易に認識するであろう。

この説明のために、ｓ（ｎ）は、異なった声音と沈黙期間とを含む一般的な会話中に得られたデジタルスピーチ信号であると仮定する。スピーチ信号ｓ（ｎ）はフレームに分割され、各フレームはさらに（好ましくは４つの）サブフレームに分割されることが好ましい。これら任意の選択されたフレーム／サブフレーム境界は一般に、ここでのケースのように、何等かのブロック処理が行われる場合に使用される。フレームに関して行われていると説明された動作はサブフレームに関しても行われ、この意味においてフレームとサブフレームはここでは交換可能に使用されている。しかしながら、ブロック処理ではなく連続的な処理が実施される場合には、ｓ（ｎ）をフレーム／サブフレームに分割する必要は全くない。当業者は、以下に示すブロック技術がどのように連続処理に拡大されるかを容易に認識するであろう。

好ましい実施形態において、ｓ（ｎ）は８ｋＨｚでデジタル的にサンプリングされる。各フレームは２０ｍ秒のデータ、すなわち、好ましい８ｋＨｚのレートで１６０個のサンプルを含んでいることが好ましい。したがって、各サブフレームはデータの４０個のサンプルを含んでいる。以下に示す多くの式は、これらの値をとることを認識することが重要である。しかしながら、これらのパラメータはスピーチ符号化にとって適切ではあるが単なる例示に過ぎず、他の適切な代替パラメータが使用可能なことを当業者は認識するであろう。

［II．本発明の概説］
本発明の方法および装置は、スピーチ信号ｓ（ｎ）の符号化を含んでいる。図２は、符号器102 および復号器104 をさらに詳細に示している。本発明によると、符号器102 は初期パラメータ計算モジュール202 と、分類モジュール208 と、および１以上の符号器モード204 とを含んでいる。復号器104 は１以上の復号器モード206 を含んでいる。復号器モードの数Ｎ_dは一般に、符号器モードの数Ｎ_eに等しい。当業者に明らかなように、符号器モード１は復号器モード１と通信し、その他も同様に通信している。示されているように、符号化されたスピーチ信号ｓ_enc（ｎ）は伝送媒体106 を介して伝送される。

好ましい実施形態において、符号器102 は、現在のフレームにｓ（ｎ）の特性を与えた場合にどのモードが最も適切かに応じてフレームごとにマルチプル(multiple)符号器モード間で動的に切換る。復号器104 はまたフレームごとに対応した復号器モード間で動的に切換る。復号器において許容可能な信号再生を維持しながら利用可能な最も低いビットレートを得るために各フレームに対して特定のモードが選択される。このプロセスは、コーダのビットレートが時間にわたって変化する（信号の特性が変化するにつれて）ため、可変レートスピーチ符号化と呼ばれる。

図３は、本発明による可変レートスピーチ符号化を示すフローチャート300 である。ステップ302 において、初期パラメータ計算モジュール202 は、データの現在のフレームに基づいて種々のパラメータを計算する。好ましい実施形態において、これらのパラメータは、線形予測符号化（ＬＰＣ）フィルタ係数、線スペクトル情報（ＬＳＩ）係数、正規化された自己相関関数（ＮＡＣＦｓ）、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残留信号の１以上のものを含んでいる。

ステップ304 において、分類モジュール208 は現在のフレームを“アクティブ”スピーチまたは“非アクティブ”スピーチのいずれかを含むものとして分類する。上述したように、ｓ（ｎ）は、通常の会話に共通の、スピーチの周期と沈黙の周期の両方を含んでいると仮定される。アクティブスピーチは話された言葉を含むが、非アクティブスピーチはその他の全て、たとえば、背景雑音、沈黙、息つぎ等を含んでいる。以下、スピーチをアクティブまたは非アクティブとして分類するために使用される本発明による方法を詳細に説明する。

図３に示されているように、ステップ306 は、ステップ304 において現在のフレームがアクティブまたは非アクティブのいずれに分類されたかを考慮する。アクティブの場合、制御フローはステップ308 に進む。非アクティブの場合、制御フローはステップ310 に進む。

アクティブとして分類されたフレームは、ステップ308 において有声音フレームか、無声音フレームか、または過渡フレームのいずれかとしてさらに分類される。当業者は、人間のスピーチが多くの異なった方法で分類可能であることを認識するであろう。通常の２つのスピーチ分類は有声音および無声音である。本発明によると、有声音でも、あるいは無声音でもない全てのスピーチは、過渡スピーチとして分類される。

図４Ａは、有声音スピーチ402 を含むｓ（ｎ）の例示的な部分を示している。発声音は、声帯が緩和振動で振動するように調整された声帯の緊張状態を伴って空気を声門に押しやり、それによって声道を励起させる空気の擬似周期パルスを生成することにより生成される。有声音スピーチにおいて測定される１つの一般的な特性は、図４Ａに示されているピッチ周期である。

図４Ｂは、無声音スピーチ404 を含むｓ（ｎ）の例示的な部分を示している。無声音は、声道中のある地点にくびれ(constriction)（通常は口の末端に向かって）を形成し、乱流を生じさせるのに十分に高い速度で空気をそのくびれに押しやることによって生成される。結果的に得られた無声音スピーチ信号は、カラード(colored) 雑音に似ている。

図４Ｃは、過渡スピーチ406 （すなわち、有声音でもなく、無声音でもないスピーチ）を含むｓ（ｎ）の例示的な部分を示している。図４Ｃに示されている例示的な過渡スピーチ406 は、無声音スピーチと有声音スピーチとの間で推移している(transitioning)ｓ（ｎ）を表している。当業者は、ここに記載された技術にしたがってスピーチの多くの異なった分類を使用して、類似の結果を得ることが可能であることを認識するであろう。

ステップ310 において、ステップ306 および308 において行われたフレーム分類に基づいて符号器／復号器モードが選択される。図２に示されているように種々の符号器／復号器モードが並列に接続される。これらのモードの１以上のものが任意の与えられた時間に使用可能である。しかしながら、以下詳細に説明するように、任意の与えられた時間に１つのモードだけが動作することが好ましく、それは現在のフレームの分類にしたがって選択される。

いくつかの符号器／復号器モードが以下のセクションにおいて記載されている。異なった符号器／復号器モードが異なった符号化方式にしたがって動作する。あるモードは、ある特性を示すスピーチ信号ｓ（ｎ）の符号化部分においてより効果的である。

好ましい実施形態において、過渡スピーチとして分類されたフレームを符号化するために“コード励起線形予測”（ＣＥＬＰ）モードが選択される。ＣＥＬＰモードは、線形予測残留信号の量子化されたバージョンで線形予測声道モデルを励起する。ここに記載されている全ての符号器／復号器モードのうち、ＣＥＬＰにより一般に最も正確なスピーチ再生が得られるが、最高のビットレートが必要である。１実施形態において、ＣＥＬＰモードは８５００ビット／秒で符号化を行う。

有声音スピーチとして分類されたフレームを符号化するために、“原型ピッチ周期”（ＰＰＰ）モードが選択されることが好ましい。有声音スピーチは、ＰＰＰモードによって利用されるゆっくり時間と共に変化する周期的成分を含んでいる。ＰＰＰモードは、各フレーム内のピッチ周期のサブセットだけを符号化する。スピーチ信号の残りの周期は、これらの原型周期間において補間をすることにより再構成される。有声音スピーチの周期性を利用することにより、ＰＰＰはＣＥＬＰより低いビットレートを達成し、依然としてスピーチ信号を知覚的に正確な方法で再生することができる。１実施形態において、ＰＰＰモードは３９００ビット／秒で符号化を行う。

無声音スピーチとして分類されたフレームを符号化するために“雑音励起線形予測”（ＮＥＬＰ）モードが選択される。ＮＥＬＰは濾波された擬似ランダム雑音信号を使用して、無声音スピーチをモデル化する。ＮＥＬＰは符号化されたスピーチに対して最も簡単なモデルを使用し、したがって最も低いビットレートを達成する。１実施形態において、ＮＥＬＰモードは１５００ビット／秒で符号化を行う。

同じ符号化技術はしばしば異なったビットレートでさまざまな性能レベルにより動作されることができる。したがって、図２の異なった符号器／復号器モードは異なった符号化技術、または異なったビットレートで動作している同じ符号化技術、あるいはそれらの組合せを表すことができる。当業者は、符号器／復号器モード数の増加により、モードを選択する際にさらに高いフレキシビリティが可能であり、それは結果的にさらに低い平均ビットレートとなることができるが、システム全体の複雑性が増加することを認識するであろう。任意の与えられたシステムにおいて使用される特定の組合せは、利用可能なシステムリソースおよび特定の信号環境によって指示される。

ステップ312 において、選択された符号器モード204 は、現在のフレームを符号化し、符号化されたデータを伝送のためにデータパケットにパックすることが好ましい。ステップ314 において、対応した復号器モード206 はデータパケットをアンパックし、受信されたデータを復号し、スピーチ信号を再構成する。以下、これらの動作を適切な符号器／復号器モードに関してさらに詳細に説明する。

［III ．初期パラメータの決定］
図５は、ステップ302 をさらに詳細に説明するフローチャートである。本発明にしたがって種々の初期パラメータが計算される。パラメータは、たとえば、ＬＰＣ係数、線スペクトル情報（ＬＳＩ）係数、正規化された自己相関関数（ＮＡＣＦｓ）、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残留信号等を含んでいることが好ましい。これらのパラメータは、以下に説明するようにシステム全体内において種々の方法で使用される。

好ましい実施形態において、初期パラメータ計算モジュール202 は１６０＋４０個のサンプルの“ルックアヘッド”を使用する。これは、いくつかの目的にかなう。第１に、１６０個のサンプルのルックアヘッドにより、ピッチ周波数追跡は次のフレーム中の情報を使用して計算されることが可能になり、それによって以下に説明されている音声符号化とピッチ周期推定技術の粗さ(robstness)が著しく改善される。第２に、１６０個のサンプルのルックアヘッドはまた、ＬＰＣ係数、フレームエネルギおよび音声アクティビティが将来１つのフレームに関して計算されることを可能にする。これによって、フレームエネルギおよびＬＰＣ係数の効率的なマルチフレーム量子化が可能になる。第３に、付加的な４０個のサンプルのルックアヘッドは、以下に説明されるハミングウインドウド(Hamming windowed)スピーチに関してＬＰＣ係数を計算するためのものである。したがって、現在のフレームを処理する前にバッファされるサンプルの数は１６０＋１６０＋４０であり、これには現在のフレームと１６０＋４０個のサンプルのルックアヘッドが含まれている。

［Ａ．ＬＰＣ係数の計算］
本発明は、スピーチ信号中の短期間冗長を除去するためにＬＰＣ予測エラーフィルタを使用する。ＬＰＣフィルタに対する伝達関数は：

本発明においては前の式に示されているように１０次フィルタを構成することが好ましい。復号器中のＬＰＣ合成フィルタは冗長を再挿入し、それはＡ（ｚ）の逆数：

によって与えられる。

ステップ502 において、ＬＰＣ係数ａ_iは次のようにｓ（ｎ）から計算される。ＬＰＣパラメータは、現在のフレームに対する符号化手順中に次のフレームに対して計算されることが好ましい。

ハミングウインドウは、１１９番目と１２０番目のサンプルの間を中心とする現在のフレームに適用される（“ルックアヘッド”による好ましい１６０サンプルフレームを仮定して）。ウインドウ化されたスピーチ信号ｓ_w（ｎ）は、

によって与えられる。

４０個のサンプルのオフセットの結果、スピーチの好ましい１６０個のサンプルフレームの１１９番目と１２０番目のサンプルの間を中心とするスピーチのウインドウとなる。

１１個の自己相関値は、

として計算されることが好ましい。

自己相関値は、
Ｒ（ｋ）＝ｈ（ｋ）Ｒ（ｋ），０≦ｋ≦１０
によって与えられるＬＰＣ係数から得られた線スペクトル対（ＬＳＰ）のルート(roots)をミスする確率を減少するためにウインドウ化され、その結果、たとえば２５Ｈｚ等のわずかな帯域幅拡張になる。値ｈ（ｋ）は、２５５ポイントハミングウインドウの中心からとられることが好ましい。

その後、Ｄｕｒｂｉｎの帰納(recursion)を使用してウインドウ化された自己相関値からＬＰＣ係数が得られる。Ｄｕｒｂｉｎの帰納はよく知られた効率的な計算方法であり、文献（Rabiner & Schafer による“デジタル処理スピーチ信号(Digital Processing Speech Signals),”）に記載されている。

［Ｂ．ＬＳＩ計算］
ステップ504 において、ＬＰＣ係数は量子化および補間のために線スペクトル情報（ＬＳＩ）係数に変換される。ＬＳＩ係数は、本発明にしたがって以下の方法で計算される。

上述のように、Ａ（ｚ）は、
Ａ（ｚ）＝１−ａ₁ｚ^-1−…−ａ₁₀ｚ^-10，
によって与えられ、ここでａ_iはＬＰＣ係数であり、１≦ｉ≦１０である。

Ｐ_A（ｚ）およびＱ_A（ｚ）は、次のように規定される：

線スペクトルのコサイン（ＬＳＣ）は、以下の２つの関数の−１．０＜ｘ＜１．０における１０個のルートである：

その後、

にしたがってＬＳＩ係数が計算される。

ＬＳＣは、次式にしたがってＬＳＩ係数から得られる：

ＬＰＣフィルタの安定性により、２つの関数のルートが交互すること、すなわち、最も小さいルートｌｓｃ₁がＰ´（ｘ）の最小のルートであり、２番目に小さいルートｌｓｃ₂がＱ´（ｘ）の最小のルートであり、その他も同様であることが保証される。したがって、ｌｓｃ₁，ｌｓｃ₃，ｌｓｃ₅，ｌｓｃ₇およびｌｓｃ₉はＰ´（ｘ）のルートであり、ｌｓｃ₂，ｌｓｃ₄，ｌｓｃ₆，ｌｓｃ₈およびｌｓｃ₁₀はＱ´（ｘ）のルートである。

当業者は、量子化に対するＬＳＩ係数の感度を計算するための何等かの方法を使用することが好ましいことを認識するであろう。各ＬＳＩ中の量子化エラーを適切に加重するために量子化プロセスにおいて“感度加重(sensitivity weightings)”が使用可能である。

ＬＳＩ係数はマルチステージ(multistage)ベクトル量子化器(quantizer)（ＶＱ）を使用して量子化される。ステージの数は、使用される特定のビットレートおよびコードブックに依存していることが好ましい。コードブックは、現在のフレームが有声音のものであるか否かに基づいて選択される。

ベクトル量子化は、次式のように定義される加重平均自乗エラー（ＷＭＳＥ）を最小化する：

↑ｗはそれに関連した加重であり、↑ｙはコードベクトルである。好ましい実施形態において、↑ｗは感度加重であり、Ｐ＝１０である。

ＬＳＩベクトルは、

のような量子化として得られたＬＳＩコードから再構成され、ここでＣＢ_iは有声音フレームまたは無声音フレームのいずれか（これは、コードブックの選択を示すコードに基づく）に関するｉ番目のステージのＶＱコードブックであり、ｃｏｄｅ_iはｉ番目のステージに関するＬＳＩコードである。

ＬＳＩ係数がＬＰＣ係数に変換される前に、結果的に得られるＬＰＣフィルタが、そのＬＳＩ係数中へのチャンネルエラー注入雑音または量子化雑音のせいで不安定なものになっていないことを確実にするために安定性チェックが行われる。ＬＳＩ係数が順序付けられた状態のままである場合、安定性は保証される。

元のＬＰＣ係数を計算するときに、フレームの１１９番目のサンプルと１２０番目のサンプルの間を中心とするスピーチウインドウが使用された。フレーム中のその他のポイントに対するＬＰＣ係数は、前のフレームのＬＳＣと現在のフレームのＬＳＣとの間で補間をすることにより近似される。その後、結果的に得られた補間されたＬＳＣはＬＰＣ係数に変換されて戻される。各サブフレームに対して使用される正確な補間は、
ｉｌｓｃ_j＝（１−α_i）ｌｓｃｐｒｅｖ_j＋α_iｌｓｃｃｕｒｒ_j，
１≦ｊ≦１０
によって与えられる。ここで、α_iは４０個の各サンプルの４つのサブフレームに対する補間係数０．３７５，０．６２５，０．８７５，１．０００であり、ｉｌｓｃは補間されたＬＳＣである。＾Ｐ_A（ｚ）および＾Ｑ_A（ｚ）は補間されたＩＳＣにより次式にしたがって計算される：

４つのサブフレーム全てに対する補間されたＬＰＣ係数は、

［Ｃ．ＮＡＣＦ計算］
ステップ506 において、正規化された自己相関関数（ＮＡＣＦｓ）が本発明にしたがって計算される。

次のフレームに対するホルマント残留は４つの４０サンプルサブフレームに
対して以下のように計算される：

ここで、補間は現在のフレームの量子化されていないＬＳＣと次のフレームのＬ
ＳＣとの間において行われる。次のフレームのエネルギはまた以下のように計算
される：

上記で計算された残留は好ましくは長さ１５のゼロ位相ＦＩＲフィルタを使用
してローパスフィルタ処理され、デシメート（ｄｅｃｉｍａｔｅ）され、ゼロ位
相ＦＩＲフィルタの係数ｄｆ_i（−７≦ｉ≦７）は｛０．０８００，０．１２５
６，０．２５３２，０．４３７６，０．６４２４，０．８２６８，０．９５４４
，１．０００，０．９５４４，０．８２６８，０．６４２４，０．４３７６，０
．２５３２，０．１２５６，０．０８００｝である。ローパスフィルタ処理され
、デシメートされた残留は次のように計算される：

ここでＦ＝２はデシメーション係数であり、−７≦Ｆｎ＋ｉ≦６であるｒ（Ｆｎ
＋ｉ）は、量子化されていないＬＰＣ係数に基づく現在のフレームの残留の最後
の１４個の値から得られる。上述したように、これらのＬＰＣ係数は、前のフレ
ーム中に計算され記憶される。

次のフレームの２つのサブフレーム（デシメートされた４０個のサンプル）に対するＮＡＣＦｓは、以下のように計算される：

負のｎを有するｒ_d（ｎ）に対して、現在のフレームのローパスフィルタ処理されてデシメートされた残留（前のフレーム期間中に記憶された）が使用される。現在のサブフレームｃｃｏｒｒに対するＮＡＣＦｓもまた前のフレーム期間中に計算されて記憶される。

［Ｄ．ピッチトラックおよび遅延の計算］
ステップ508 において、ピッチトラックおよびピッチ遅延が本発明にしたがって計算される。ピッチ遅延は、以下のようにバックワードトラック(backward track)と共にビタビ状(Viterbi-like)サーチを使用して計算されることが好ましい。

Ｒ_2i+1に対する値を得るためにベクトルＲＭ_2iが次のように補間される：

ここでｃｆ_jは補間フィルタであり、その係数は｛−０．０６２５，０．５６２５，０．５６２５，−０．０６２５｝である。その後、

であるような遅延Ｌ_Cが選択され、現在のフレームのＮＡＣＦは、

に等しく設定される。その後、

より大きい最大相関に対応した遅延をサーチすることにより遅延倍数が除去される。

［Ｅ．帯域エネルギおよびゼロ交差レートの計算］
ステップ510 において、０−２ｋＨｚ帯域および２ｋＨｚ−４ｋＨｚ帯域中のエネルギが本発明にしたがって以下のように計算される：

Ｓ（ｚ），Ｓ_L（ｚ）およびＳ_H（ｚ）はそれぞれ入力スピーチ信号ｓ（ｎ）、ローパス信号ｓ_L（ｎ）およびハイパス信号ｓ_H（ｎ）のｚ変換されたものであり、

スピーチ信号エネルギ自身は、

である。ゼロ交差レートＺＣＲは、
ｓ（ｎ）ｓ（ｎ＋１）＜０ならば、ＺＣＲ＝ＺＣＲ＋１、０≦ｎ≦１５９
のように計算される。

［Ｆ．ホルマント残留の計算］
ステップ512 において、現在のフレームに対するホルマント残留が４つのサブ
フレームに対して以下のように計算される：

ここで、＾ａ_iは対応したサブフレームのｉ番目のＬＰＣ係数である。

［IV．アクティブ／非アクティブスピーチ分類］
図３を参照すると、ステップ304 において現在のフレームはアクティブスピーチ（たとえば、話されたワード）または非アクティブスピーチ（たとえば、背景雑音、沈黙）のいずれかとして分類される。図６は、ステップ304 をさらに詳細に示すフローチャート600である。好ましい実施形態において、２つのエネルギ帯域ベースの閾値化(thresholding)方式は、アクティブスピーチが存在するか否かを決定するために使用される。低い帯域（帯域０）の周波数範囲は０．１−２．０ｋＨｚであり、高い帯域（帯域１）の周波数範囲は２．０−４．０ｋＨｚである。音声アクティビティ検出は、以下に示す方法で現在のフレームに対する符号化手順中に次のフレームに対して決定されることが好ましい。

ステップ602 において、帯域ｉ＝０，１に対する帯域エネルギＥｂ［ｉ］が計算される。上記のセクションIII ．Ａに示されている自己相関シーケンスは帰納的な式：

を使用して１９に拡張される。この式を使用することにより、Ｒ（１１）はＲ（１）乃至Ｒ（１０）から計算され、Ｒ（１２）はＲ（２）乃至Ｒ（１１）から計算され、以下同様に行われる。その後、以下の式を使用して拡張された自己相関シーケンスから帯域エネルギが計算される：

ここで、Ｒ（ｋ）は現在のフレームに対する拡張された自己相関シーケンスであり、Ｒ_h(i)(k)は、表１に与えられている帯域ｉに対する帯域フィルタ自己相関シーケンスである。

表１：帯域エネルギ計算用のフィルタ自己相関シーケンス

ステップ604 において、帯域エネルギ推定が平滑化される。平滑化された帯域エネルギ推定Ｅ_smは、以下の式を使用して各フレームに対して更新される：
Ｅ_sm（ｉ）＝０．６Ｅ_sm（ｉ）＋０．４Ｅ_b（ｉ），ｉ＝０，１
ステップ606 において、信号エネルギおよび雑音エネルギ推定が更新される。信号エネルギ推定Ｅ_s（ｉ）は、以下の式を使用して更新されることが好ましい：
Ｅ_s（ｉ）＝ｍａｘ（Ｅ_sm（ｉ），Ｅ_s（ｉ）），ｉ＝０，１
雑音エネルギ推定Ｅ_n（ｉ）は以下の式を使用して更新されることが好ましい：
Ｅ_n（ｉ）＝ｍｉｎ（Ｅ_sm（ｉ），Ｅ_n（ｉ）），ｉ＝０，１
ステップ608 において、２つの帯域に対する長期間の信号対雑音比ＳＮＲ（ｉ）が計算される：
ＳＮＲ（ｉ）＝Ｅ_s（ｉ）−Ｅ_n（ｉ），ｉ＝０，１
ステップ610 において、これらのＳＮＲ値は以下のように規定される８つの領域Ｒｅｇ_SNR（ｉ）に分割されることが好ましい：

ステップ612 において、音声アクティビティ決定が本発明にしたがって以下の方法で行われる。Ｅ_b（０）−Ｅ_n（０）＞ＴＨＲＥＳＨ（Ｒｅｇ_SNR（０））またはＥ_b（１）−Ｅ_n（１）＞ＴＨＲＥＳＨ（Ｒｅｇ_SNR（１））のいずれかである場合、スピーチのそのフレームはアクティブであると宣言される。その他の場合は、スピーチのフレームは非アクティブであると宣言される。ＴＨＲＥＳＨの値は表２に規定されている。

表２：ＳＮＲ領域の関数としてのしきい値係数

信号エネルギ推定Ｅ_s（ｉ）は、以下の式を使用して更新されることが好ましい：
Ｅ_s（ｉ）＝Ｅ_s（ｉ）−０．０１４４９９，ｉ＝０，１
雑音エネルギ推定Ｅ_n（ｉ）は、以下の式を使用して更新されることが好ましい：

［Ａ．ハングオーバーフレーム］
信号対雑音比が低いとき、再構成されるスピーチの品質を改良するために“ハングオーバ”フレームが付加されることが好ましい。前の３つのフレームがアクティブとして分類され、現在のフレームは非アクティブと分類される場合、現在のフレームを含む次のＭフレームはアクティブスピーチとして分類される。ハングオーバフレームの数Ｍは、表３に規定されているようにＳＮＲ（０）の関数として定められることが好ましい。
表３：ＳＮＲ（０）の関数としてのハングオーバフレーム

［Ｖ．アクティブスピーチフレームの分類］
再び図３を参照すると、ステップ308 において、ステップ304 でアクティブであると分類された現在のフレームがスピーチ信号ｓ（ｎ）により示された特性にしたがってさらに分類される。好ましい実施形態では、アクティブスピーチは有声音スピーチ、無声音スピーチ、あるいは過渡スピーチのいずれかとして分類される。アクティブスピーチ信号によって示される周期性の程度は、それがどのように分類されるかを決定する。有声音スピーチは最高度の周期性を示す（本質的に擬似周期的）。無声音スピーチは周期性をほとんど、あるいは全く示さない。過渡スピーチは有声音スピーチと無声音スピーチの間の周期性の程度を示す。

しかしながら、ここに記載されている一般的なフレームワークは、以下に説明されている好ましい分類方式および特定の符号器／復号器モードに限定されない。アクティブスピーチは別の方法で分類されることが可能であり、また別の符号器／復号器モードが符号化に対して利用可能である。当業者は、分類と符号器／復号器モードとの多数の組合せが可能なことを認識するであろう。多くのこのような組合せの結果、ここに記載されている一般的なフレームワークにしたがって、すなわち、スピーチを非アクティブまたはアクティブと分類し、アクティブスピーチをさらに分類して、各分類の範囲内のスピーチにとくに適合させられた符号器／復号器モードを使用してスピーチ信号を符号化することにより、減少された平均ビットレートを達成することができる。

アクティブスピーチ分類は周期性の程度に基づいているが、分類決定は周期性の何等かの直接的な測定に基づいて行われないほうが好ましい。むしろ、分類決定は、たとえば、高いおよび低い帯域中の信号対雑音比およびＮＡＣＦ等のステップ302 において計算された種々のパラメータに基づいて行われる。好ましい分類は以下の擬似コードによって記述されてもよい：

Ｎ_noiseは背景雑音の推定であり、Ｅ_prevは前のフレームの入力エネルギである。

この擬似コードによって記述された方法は、それが実施される特定の環境にしたがって改良されることができる。当業者は、上記に与えられた種々のしきい値が単なる例示に過ぎず、実際にはその実施形態に応じて調整を要する可能性が高いことを認識するであろう。この方法はまた、ＴＲＡＮＳＩＥＮＴを２つのカテゴリー：高エネルギから低エネルギに移行する信号に対するカテゴリーと低エネルギから高エネルギに移行する信号に対するカテゴリーとに分割する等によって付加的な分類カテゴリーを追加することによってさらに精巧にされることができる。

当業者は、別の方法が有声音アクティブスピーチと、無声音アクティブスピーチと、および過渡アクティブスピーチとを識別するために利用できることを認識するであろう。同様に、当業者はアクティブスピーチに対する他の分類方式もまた可能であることを認識するであろう。

［VI．符号器／復号器モード選択］
ステップ310 において、符号器／復号器モードがステップ304 および308 の現在のフレームの分類に基づいて選択される。好ましい実施形態によると、モードは次のように選択される：非アクティブフレームおよびアクティブな無声音フレームはＮＥＬＰモードを使用して符号化され、アクティブな有声音フレームはＰＰＰモードを使用して符号化され、アクティブな過渡フレームはＣＥＬＰモードを使用して符号化される。以下のセクションでこれらの各符号器／復号器モードをさらに詳細に説明する。

別の実施形態において、非アクティブフレームは、ゼロレートモードを使用して符号化される。当業者は、非常に低いビットレートを要求する多くの別のゼロレートモードが利用できることを認識するであろう。ゼロレートモードの選択は、過去のモード選択を考慮することによりさらに改良されることができる。たとえば、前のフレームがアクティブと分類された場合、これは現在のフレームに対するゼロレートモードの選択を阻害する可能性がある。同様に、次のフレームがアクティブならば、現在のフレームに対してゼロレートモードが阻止される。さらに別の実施形態は、非常に多く連続するフレーム（たとえば、９個の連続しているフレーム）に対するゼロレートモードの選択を阻止するものである。当業者は、ある環境におけるその動作を改良するために基本モードの選択決定に対するその他多くの修正がなされてもよいことを認識するであろう。

上述のように、分類と符号器／復号器モードのその他多数の組合せがこの同じフレームワーク内において代りに使用されてもよい。以下のセクションにおいて、本発明によるいくつかの符号器／復号器モードを詳細に説明する。最初にＣＥＬＰモードを説明し、続いてＰＰＰモードとＮＥＬＰモードを説明する。

［VII ．コード励起線形予測（ＣＥＬＰ）符号化モード］
上述のように、現在のフレームがアクティブ過渡スピーチとして分類された場合、ＣＥＬＰ符号器／復号器モードが使用される。ＣＥＬＰモードは最も正確な信号再生（ここに示されている別のモードと比較して）を最高のビットレートで提供する。

図７は、ＣＥＬＰ符号器モード204 およびＣＥＬＰ復号器モード206 をさらに詳細に示している。図７Ａに示されているように、ＣＥＬＰ符号器モード204 はピッチ符号化モジュール702 、符号化コードブック704 およびフィルタ更新モジュール706 を含んでいる。ＣＥＬＰ符号器モード204 は符号化されたスピーチ信号ｓ_enc（ｎ）を出力し、これはＣＥＬＰ復号器モード206 に伝送するためのコードブックパラメータおよびピットフィルタパラメータを含んでいることが好ましい。図７Ｂに示されているように、ＣＥＬＰ復号器モード206 は復号コードブックモジュール708 、ピッチフィルタ710 およびＬＰＣ合成フィルタ712 を含んでいる。ＣＥＬＰ復号器モード206 は符号化されたスピーチ信号を受取り、合成されたスピーチ信号＾ｓ（ｎ）を出力する。

［Ａ．ピッチ符号化モジュール］
ピッチ符号化モジュール702 は、スピーチ信号ｓ（ｎ）および前のフレームからの量子化された残留ｐ_c（ｎ）（以下説明する）を受取る。この入力に基づいて、ピッチ符号化モジュール702 はターゲット信号ｘ（ｎ）と１組のピッチフィルタパラメータを生成する。好ましい実施形態において、これらのピッチフィルタパラメータは最適ピッチ遅延Ｌ^*と最適ピッチ利得ｂ^*を含んでいる。これらのパラメータは、符号化プロセスがこれらのパラメータを使用して、入力されたスピーチと合成されたスピーチとの間の加重されたエラーを最小にするピッチフィルタパラメータを選択する“合成による解析”方法にしたがって選択される。

図８は、ピッチ符号化モジュール702 をさらに詳細に示している。ピッチ符号化モジュール702 は、知覚的加重フィルタ802 と、加算器804 および816 と、加重されたＬＰＣ合成フィルタ806 および808 と、遅延および利得810 と、ならびに最小平方和(minimize sum of squares)812 とを含んでいる。

知覚加重フィルタ802 は元のスピーチと合成されたスピーチとの間のエラーを知覚的に意味のある方法で加重するために使用される。知覚的加重フィルタは、
Ｗ（ｚ）＝Ａ（ｚ）／Ａ（ｚ／γ）
という形態のものである。ここでＡ（ｚ）はＬＰＣ予測エラーフィルタであり、γは０．８に等しいことが好ましい。加重されたＬＰＣ解析フィルタ806 は、初期パラメータ計算モジュール202 により計算されたＬＰＣ係数を受取る。フィルタ806 はａ_zir（ｎ）を出力し、これはＬＰＣ係数を与えられたゼロ入力応答である。加算器804 は負の入力と濾波された入力信号を合計してターゲット信号ｘ（ｎ）を形成する。

遅延および利得810 は、与えられたピッチ遅延Ｌおよびピッチ利得ｂに関して推定されたピッチフィルタ出力ｂｐ_L（ｎ）を出力する。遅延および利得810 は、前のフレームからの量子化された残留サンプルｐ_c（ｎ）と、ｐ_o（ｎ）で与えられるピッチフィルタの将来の出力の推定とを受取り、

にしたがってｐ（ｎ）を形成し、これはその後Ｌ個のサンプルだけ遅延され、ｂによりスケールされてｂｐ_L（ｎ）を形成する。Ｌｐはサブフレーム長（好ましくは４０個のサンプル）である。好ましい実施形態において、ピッチ遅延Ｌは８ビットで表され、値２０．０，２０．５，２１．０，２１．５，…１２６．０，１２６．５，１２７．０，１２７．５をとることができる。

加重されたＬＰＣ解析フィルタ808 は、現在のＬＰＣ係数を使用してｂｐ_L（ｎ）を濾波し、その結果ｂｙ_L（ｎ）が得られる。加算器816 は負の入力ｂｙ_L（ｎ）をｘ（ｎ）と合計し、その出力は最小平方和812 によって受取られる。この最小平方和812 は、

にしたがってＥ_pitch（Ｌ）を最小にするＬおよびｂの値としてＬ^*で示されている最適なＬと、ｂ^*で示されている最適なｂとを選択する。

Ｌの与えられた値に対してＥ_pitch（Ｌ）を最小にするｂの値は、

ここでＫは無視されることのできる定数である。

Ｌおよびｂの最適値（Ｌ^*およびｂ^*）は、最初にＥ_pitch（Ｌ）を最小に
するＬの値を決定し、次にｂ^*を計算することにより見出されることができる。

これらのピッチフィルタパラメータは、各サブフレームに対して計算され、その後効率的な伝送のために量子化されることが好ましい。好ましい実施形態ではｊ番目のサブフレームに対する伝送コードＰＬＡＧ_jおよびＰＧＡＩＮ_jは以下のように計算される：

その後ＰＧＡＩＮ_jは、ＰＬＡＧ_jが０に設定された場合には−１になるように調節される。これらの伝送コードは、符号化されたスピーチ信号ｓ_enc（ｎ）の一部分であるピッチフィルタパラメータとしてＣＥＬＰ復号器モード206 に伝送される。

［Ｂ．符号化コードブック］
符号化コードブック704 はターゲット信号ｘ（ｎ）を受取り、量子化された残留信号を再構成するために、ピッチフィルタパラメータと共に、ＣＥＬＰ復号器モード206 により使用される１組のコードブック励起パラメータを決定する。

符号化コードブック704 は最初にｘ（ｎ）を次のように更新する：
ｘ（ｎ）＝ｘ（ｎ）−ｙ_pzir（ｎ），０≦ｎ≦４０
ここでｙ_pzir（ｎ）は、パラメータ＾Ｌ^*および＾ｂ^*（ならびに前のサブフレームの処理の結果得られたメモリ）を有するピッチフィルタのゼロ入力応答である入力への、加重されたＬＰＣ合成フィルタ（前のサブフレームの終わりから保存されたメモリを有する）の出力である。

バックフィルタ処理されたターゲット↑ｄ＝｛ｄ_n｝，０≦ｎ＜４０は、↑ｄ＝Ｈ^T↑ｘとして生成され、ここで

は、インパルス応答｛ｈ_n｝および↑ｘ＝｛ｘ（ｎ）｝，０≦ｎ＜４０から形成されたインパルス応答マトリクスである。その上、さらに２つのベクトル＾φ＝｛φ_n｝および↑ｓが生成される。

符号化コードブック704 は、以下のように値Ｅｘｙ^*およびＥyy^*をゼロに初期化して好ましくはＮ（０，１，２，３）の４つの値に関して最適励起パラメータをサーチする。

符号化コードブック704 は、コードブック利得Ｇ^*をＥｘｙ^*／Ｅｙｙ^*として計算し、その後その励起パラメータセットをｊ番目のサブフレームに対して以下の伝送コードにしたがって量子化する：

および量子化された利得＾Ｇ^*は、

ピッチ符号化モジュール702 を除去し、コードブックサーチだけを行って４つの各サブフレームに対するインデックスＩおよび利得Ｇを決定することにより、ＣＥＬＰ符号器／復号器モードの低ビットレート形態が実現されることができる。当業者は、上述した考えがこの低ビットレート形態を達成するためにどのように拡張されるかを認識するであろう。

［Ｃ．ＣＥＬＰ復号器］
ＣＥＬＰ復号器モード206 は、コードブック励起パラメータおよびピッチフィルタパラメータを含んでいることが好ましい符号化されたスピーチ信号をＣＥＬＰ符号器モード204 から受取り、このデータに基づいて合成されたスピーチ＾ｓ（ｎ）を出力する。復号コードブックモジュール708 はコードブック励起パラメータを受取り、Ｇの利得を有する励起信号ｃｂ（ｎ）を発生する。ｊ番目のサブフレームに対する励起信号ｃｂ（ｎ）は一般に、全ての値が

となるように計算された利得Ｇによりスケールされ、Ｇｃｂ（ｎ）を供給する値：
Ｓ_k＝１−２ＳＩＧＮｊｋ，０≦ｋ＜５
のインパルスを対応的に有する５つの位置：
Ｉ_k＝５ＣＢＩｊｋ＋ｋ，０≦ｋ＜５
を除いてゼロを含んでいる。

ピッチフィルタ710 は、受取られた伝送コードからピッチフィルタパラメータを以下の式にしたがって復号する：

その後ピッチフィルタ710 はＧｃｂ（ｎ）を濾波し、ここにおいてそのフィルタは以下の式によって与えられる伝達関数を有する：

好ましい実施形態において、ＣＥＬＰ復号器モード206 はまた余分のピッチ濾波動作であるピッチプレフィルタ(prefilter)（示されていない）をピッチフィルタ710 の後に追加する。ピッチプレフィルタに対する遅延は、ピッチフィルタ710 の遅延と同じであり、一方その利得は０．５の最大値までピッチ利得の半分であることが好ましい。

ＬＰＣ合成フィルタ712 は再構成された量子化された残留信号＾ｒ（ｎ）を受取り、合成されたスピーチ信号＾ｓ（ｎ）を出力する。

［Ｄ．フィルタ更新モジュール］
フィルタ更新モジュール706 は、前のセクションにおいて説明したようにフィルタメモリを更新するためにスピーチを合成する。フィルタ更新モジュール706 はコードブック励起パラメータおよびピッチフィルタパラメータを受取り、励起信号ｃｂ（ｎ）およびピッチフィルタＧｃｂ（ｎ）を生成し、その後＾ｓ（ｎ）を合成する。この合成を符号器において行うことにより、ピッチフィルタおよびＬＰＣ合成フィルタ中のメモリは、後続するサブフレームの処理時に使用されるように更新される。

［VIII．原型ピッチ周期（ＰＰＰ）符号化モード］
原型ピッチ周期（ＰＰＰ）符号化は、ＣＥＬＰ符号化を使用して得られることのできるものより低いビットレートを達成するためにスピーチ信号の周期性を使用する。一般に、ＰＰＰ符号化は、ここでは原型残留と呼ばれる残留信号の代表的な周期を抽出し、その後その原型を使用して、現在のフレームの原型残留と前のフレームからの類似のピッチ周期（すなわち、最後のフレームがＰＰＰであった場合は原型残留）との間で補間を行うことにより初期のピッチ周期をフレーム中に構成することを含んでいる。ＰＰＰ符号化の効果（低くされたビットレートに関する）は部分的に、現在および前の原型残留がどの程度その介在ピッチ周期に似ているかに依存する。この理由のために、ＰＰＰ符号化は、ここでは擬似周期スピーチ信号と呼ばれる比較的高度の周期性を示すスピーチ信号（たとえば、有声音スピーチ）に適用されることが好ましい。

図９には、ＰＰＰ符号器モード204 およびＰＰＰ復号器モード206 がさらに詳細に示されている。ＰＰＰ符号器モード204 は抽出モジュール904 と、回転コリレータ906 と、符号化コードブック908 と、およびフィルタ更新モジュール910 とを含んでいる。ＰＰＰ符号器モード204 は残留信号ｒ（ｎ）を受取り、符号化されたスピーチ信号ｓ_enc（ｎ）を出力し、これはコードブックパラメータおよび回転パラメータを含んでいることが好ましい。ＰＰＰ復号器モード206 はコードブック復号器912 と、回転子914 と、加算器916 と、周期インターポレータ920 と、およびワープ(warping)フィルタ918 とを含んでいる。

図１０は、符号化および復号を含むＰＰＰ符号化のステップを示すフローチャート1000である。これらのステップをＰＰＰ符号器モード204 およびＰＰＰ復号器モード206 の種々のコンポーネントと共に説明する。

［Ａ．抽出モジュール］
ステップ1002において、抽出モジュール904 は残留信号ｒ（ｎ）から原型残留ｒ_p（ｎ）を抽出する。上記のセクションIII ．Ｆで述べたように、初期パラメータ計算モジュール202 は、各フレームに対するｒ（ｎ）を計算するためにＬＰＣ解析フィルタを使用する。好ましい実施形態においては、このフィルタ中のＬＰＣ係数はセクションVII ．Ａにおいて説明されているように知覚的に加重される。ｒ_p（ｎ）の長さは、現在のフレームの中の最後のサブフレーム中に初期パラメータ計算モジュール202 によって計算されたピッチ遅延Ｌに等しい。

図１１は、ステップ1002をさらに詳細に示すフローチャートである。ＰＰＰ抽出モジュール904 は、以下に説明する制限の下でフレームの終わりに可能な限り近接したピッチ周期を選択することが好ましい。図１２は、擬似周期スピーチに基づいて計算された、現在のフレームと前のフレームからの最後のサブフレームとを含む残留信号の一例を示している。

ステップ1102において、“カットフリー領域”が決定される。カットフリー領域は、原型残留の終点になることのできない残留の中の１組のサンプルを規定する。このカットフリー領域は、残留の高エネルギ領域が原型の始めまたは終わりに生じないことを確実にする（この生成が許されたならば、出力において不連続性が生じる可能性が高い）。ｒ（ｎ）の最後のＬ個のサンプルのそれぞれの絶対値が計算される。変数Ｐ_Sは、ここでは“ピッチスパイク”と呼ばれる最も大きい絶対値を有するサンプルの時間インデックスに等しく設定される。たとえば、ピッチスパイクが最後のＬ個のサンプルの最後のサンプルで発生したならば、Ｐ_S＝Ｌ−１である。好ましい実施形態において、カットフリー領域の最小サンプルＧＦ_minは、Ｐ_S−６またはＰ_S−０．２５Ｌの小さいほうであるように設定される。カットフリー領域の最大のものＣＦ_maxは、Ｐ_S＋６またはＰ_S＋０．２５Ｌの大きいほうであるように設定される。

ステップ1104において、原型残留はＬ個のサンプルを残留から切断することにより選択される。選択された領域は、その領域の終点がカットフリー領域内にあってはならないという制限の下でフレームの終わりに可能な限り近接している。原型残留のＬ個のサンプルは、以下の擬似コードで記述されたアルゴリズムを使用して決定される：

［Ｂ．回転コリレータ］
再び図１０を参照すると、ステップ1004において回転コリレータ906 は、現在の原型残留ｒ_p（ｎ）と、前のフレームからの原型残留ｒ_prev（ｎ）とに基づいて１組の回転パラメータを計算する。これらのパラメータは、ｒ_prev（ｎ）がｒ_p（ｎ）の予測子として使用されるためにどのように回転され、スケールされるのが一番よいかを記述している。好ましい実施形態において、回転パラメータのセットは、最適回転Ｒ^*と最適利得ｂ^*とを含んでいる。図１３は、ステップ1004をさらに詳細に示すフローチャートである。

ステップ1302において、知覚的に加重されたターゲット信号ｘ（ｎ）は原型ピッチ残留周期ｒ_p（ｎ）を循環的に濾波することにより計算される。これは次のように行われる。一時的信号ｔｍｐ１（ｎ）は、

のようにｒ_p（ｎ）から生成され、これはゼロメモリを有する加重されたＬＰＣ合成フィルタによって濾波され、出力ｔｍｐ２（ｎ）を供給する。好ましい実施形態では、使用されるＬＰＣ係数は、現在のフレームの中の最後のサブフレームに対応した知覚的に加重された係数である。したがってターゲット信号ｘ（ｎ）は、
ｘ（ｎ）＝ｔｍｐ２（ｎ）＋ｔｍｐ２（ｎ＋Ｌ），０≦ｎ＜Ｌ
によって与えられる。

ステップ1304において、前のフレームからの原型残留ｒ_prev（ｎ）は、前のフレームの量子化されたホルマント残留（これもまたピッチフィルタのメモリ内に存在する）から抽出される。前の原型残留は前のフレームのホルマント残留の最後のＬ_p値として規定されることが好ましく、ここでＬ_pは、前のフレームがＰＰＰフレームでなかった場合はＬに等しく、その他の場合には前のピッチ遅延に設定される。

ステップ1306において、相関が正しく計算できるように、ｒ_prev（ｎ）の長さがｘ（ｎ）と同じ長さのものとなるように変更される。サンプリングされた信号の長さを変更するこの技術をここではワープと呼んでいる。ワープされたピッチ励起信号ｒｗ_prev（ｎ）は、
ｒｗ_prev（ｎ）＝ｒ_prev（ｎ^*ＴＷＦ），０≦ｎ＜Ｌ
として表されることができ、ここでＴＷＦは時間ワープ係数Ｌ_p／Ｌである。非整数点におけるサンプル値ｎ^*ＴＷＦは、１組のｓｉｎｃ関数テーブルを使用して計算されることが好ましい。選択されたｓｉｎｃシーケンスは、ｓｉｎｃ（−３−Ｆ：４−Ｆ）であり、ここでＦは１／８の最も近い倍数に丸められた(rounded)ｎ^*ＴＷＦの端数部分である。このシーケンスの始めは、ｒ_prev（（Ｎ−３）％Ｌ_p）と整列され、ここでＮは最も近い１／８に丸められた後のｎ^*ＴＷＦの整数部分である。

ステップ1308において、ワープされたピッチ励起信号ｒｗ_prev（ｎ）は循環的に濾波され、その結果ｙ（ｎ）が生成される。この動作はステップ1302に関して上述したものと同じであるが、ｒｗ_prev（ｎ）に適用される。

ステップ1310において、ピッチ回転サーチ範囲は最初に期待される回転Ｅ_rotを計算することにより計算される：

ここで、ｆｒａｃ（ｘ）はｘの端数部分を示す。Ｌ＜８０ならば、ピッチ回転サーチ範囲は｛Ｅ_rot−８，Ｅ_rot−７．５，…Ｅ_rot＋７．５｝であるように規定され、またＬ≧８０ならば｛Ｅ_rot−１６，Ｅ_rot−１５，…Ｅ_rot＋１５｝であるように規定される。

ステップ1312において、回転パラメータ、最適回転Ｒ^*および最適利得ｂ^*が計算される。ピッチ回転は結果的にｘ（ｎ）とｙ（ｎ）との間における最良の予測を生むものであるが、このピッチ回転は対応した利得ｂと共に選択される。これらのパラメータは、エラー信号ｅ（ｎ）＝ｘ（ｎ）−ｙ（ｎ）を最小にするように選択されることが好ましい。最適回転Ｒ^*および最適利得ｂ^*は、結果的にＥｘｙ² _R／Ｅｙｙの最大値を生じさせる回転Ｒおよび利得ｂの値であり、ここで、

これらに対して最適利得ｂ^*は回転Ｒ^*において

である。回転の端数値に対して、Ｅｘｙ_Rの値は、回転の整数値で計算されたＥｘｙ_R値を補間することによって近似される。簡単な４タップ補間フィルタが使用される。たとえば、

ここでＲは非整数回転（０．５の精度による）であり、

好ましい実施形態において、回転パラメータは効率的な伝送のために量子化される。最適利得ｂ^*は、

のように０．０６２５と４．０との間で均一に量子化されることが好ましく、ＰＧＡＩＮは伝送コードであり、量子化された利得＾ｂ^*は

によって与えられる。最適回転Ｒ^*は、Ｌ＜８０の場合は２（Ｒ^*−Ｅ_rot＋８）に設定され、Ｌ≧８０の場合にはＲ^*−Ｅ_rot＋１６に設定される伝送コードＰＲＯＴとして量子化される。

［Ｃ．符号化コードブック］
再び図１０を参照すると、ステップ1006において、符号化コードブック908 は受取られたターゲット信号ｘ（ｎ）に基づいて１組のコードブックパラメータを発生する。符号化コードブック908 は、スケールされて加算され濾波されたときに合計するとｘ（ｎ）に近似した信号となる１以上のコードベクトルを見出そうとする。好ましい実施形態では、符号化コードブック908 は、各ステージがスケールされたコードベクトルを生成する好ましくは３つのステージの、マルチステージコードブックとして構成される。したがって、コードブックパラメータのセットは、３つのコードベクトルに対応したインデックスおよび利得を含んでいる。図１４はステップ1006をさらに詳細に示すフローチャートである。

ステップ1402において、コードブックサーチが行われる前に、ターゲット信号ｘ（ｎ）は、
ｘ（ｎ）＝ｘ（ｎ）−ｂｙ（（ｎ−Ｒ^*）％Ｌ），０≦ｎ＜Ｌ
のように更新される。

上記の減算において回転Ｒ^*が非整数である（すなわち、０．５の端数を有する）場合、

ステップ1404において、コードブック値はマルチプル領域に区分される。好ましい実施形態によると、コードブックは

のように決定される。ここで、ＣＢＰは確率または訓練されたコードブックの値である。当業者は、これらのコードブック値がどのように生成されるかを認識するであろう。コードブックは長さＬをそれぞれ有するマルチプル領域に分割される。第１の領域は単一パルスであり、残りの領域は確率または訓練されたコードブックからの値から形成されている。領域の数Ｎは、

となる。

ステップ1406において、コードブックのマルチプル領域はそれぞれ循環的に濾波され、濾波されたコードブックｙ_reg（ｎ）を生成し、その連結が信号ｙ（ｎ）である。各領域に対して、循環的濾波が上述したようにステップ1302に関して行われる。

ステップ1408において、濾波されたコードブックエネルギＥｙｙ（ｒｅｇ）は各領域に対して計算され、記憶される：

ステップ1410において、マルチステージコードブックの各ステージに対するコードブックパラメータ（すなわち、コードベクトルインデックスおよび利得）が計算される。好ましい実施形態によると、Ｒｅｇｉｏｎ（Ｉ）＝ｒｅｇをサンプルＩが存在する領域と定義し、すなわち、

また、Ｅｘｙ（Ｉ）を

と定義する。

ｊ番目のコードブックステージに対するコードブックパラメータＩ^*とＧ^*は以下の擬似コードを使用して計算される：

好ましい実施形態によると、コードブックパラメータは効率的な伝送のために量子化される。伝送コードＣＢＩｊ（ｊ＝ステージ番号−０，１または２）はＩ^*に設定されることが好ましく、伝送コードＣＢＧｊおよびＳＩＧＮｊは利得Ｇ^*を量子化することより設定される。

また、量子化された利得＾Ｇ^*は、

その後、ターゲット信号ｘ（ｎ）は現在のステージのコードブックベクトルの影響を減算することにより更新される。

第２および第３のステージに対して、Ｉ^*，Ｇ^*および対応した伝送コードを計算するために擬似コードから始まる上記の手順が繰り返される。

［Ｄ．フィルタ更新モジュール］
再び図１０を参照すると、ステップ1008において、フィルタ更新モジュール910 はＰＰＰ符号器モード204 により使用されたフィルタを更新する。図１５Ａおよび１６Ａに示されているように、フィルタ更新モジュール910 として２つの別の実施形態が与えられている。図１５Ａの第１の別の実施形態で示されているように、フィルタ更新モジュール910は復号コードブック1502と、回転子1504と、ワープフィルタ1506と、加算器1510と、整列および補間モジュール1508と、更新ピッチフィルタモジュール1512と、およびＬＰＣ合成フィルタ1514とを含んでいる。図１６Ａに示されている第２の実施形態は、復号コードブック1602と、回転子1604と、ワープフィルタ1606と、加算器1608と、更新ピッチフィルタモジュール1610と、循環ＬＰＣ合成フィルタ1612と、および更新ＬＰＣフィルタモジュール1614とを含んでいる。図１７および１８は、この２つの実施形態によるステップ1008をさらに詳細に示すフローチャートである。

ステップ1702（および1802：両実施形態の第１のステップ）において、その長さがＬ個のサンプルである現在の再構成された原型残留ｒ_curr（ｎ）が、コードブックパラメータと回転パラメータとから再構成される。好ましい実施形態において、回転子1504（および1604）は、
ｒ_curr（（ｎ＋Ｒ^*）％Ｌ）＝ｂｒｗ_prev（ｎ），０≦ｎ＜Ｌ
にしたがって前の原型残留のワープされた形態を回転させる。ここでｒ_currは生成されるべき現在の原型であり、ｒｗ_prevはピッチフィルタメモリの最も新しいＬ個のサンプルから得られた前の周期のワープされた（上記のセクションVIII．Ａで述べたように、ＴＷＦ＝Ｌ_p／Ｌにより）形態であり、ｂおよびＲはそれぞれパケット伝送コード：

から得られたピッチ利得および回転である。ここで、Ｅ_rotは上記のセクションVIII．Ｂで述べたように計算された期待された回転である。

復号コードブック1502（および1602）は以下のように３つの各コードブックステージに対する影響をｒ_curr（ｎ）に加算する：

ここでＩ＝ＣＢＩｊであり、Ｇは前のセクションで説明したようにＣＢＧｊおよびＳＩＧＮｊから得られ、ｊはステージ番号である。

この点で、フィルタ更新モジュール910 に対する２つの別の実施形態は異なっている。最初に図１５Ａの実施形態を参照すると、ステップ1704において整列および補間モジュール1508が現在のフレームの始めから現在の原型残留の始め（図１２に示されている）までの残留サンプルの残りのものを充填する。ここで、残留信号に関して整列および補間が行われる。しかしながら、以下説明するように、これら同じ動作はスピーチ信号に関して行われることもできる。図１９はステップ1704をさらに詳細に示すフローチャートである。

ステップ1902において、前の遅延Ｌ_pが現在の遅延Ｌの２倍であるか、あるいは１／２であるかが決定される。好ましい実施形態では、その他の倍数はあまりありそうもないと考えられ、したがって考慮されない。Ｌ_p＞１．８５Ｌならば、Ｌ_pは半分にされ、前の周期ｒ_prev（ｎ）の第１の半分だけが使用される。Ｌ_p＜０．５４Ｌならば、現在の遅延Ｌはおそらく２倍であり、結果的にＬ_pもまた２倍にされ、前の周期ｒ_prev（ｎ）は繰返しにより拡張される。

ステップ1904において、両原型残留の長さが同じになるようにｒ_prev（ｎ）がワープされて、ステップ1306に関して上述したようにＴＷＦ＝Ｌ_p／Ｌによりｒｗ_prev（ｎ）を形成する。この動作は、フィルタ1506をワープすることによって、上述したようにステップ1702において行われたことに注意しなければならない。当業者は、ワープフィルタ1506の出力が整列および補間モジュール1508に利用できる場合には、ステップ1904が不要になることを認識するであろう。

ステップ1906において、整列回転の許容可能な範囲が計算される。期待される整列回転Ｅ_Aは、それが上記のセクションVIII．Ｂで述べたＥ_rotと同じになるように計算される。整列回転サーチ範囲は｛Ｅ_A−δＡ，Ｅ_A−δＡ＋０．５，Ｅ_A−δＡ＋１，…，Ｅ_A＋δＡ−１．５，Ｅ_A＋δＡ−１｝であるように規定され、ここでδＡ＝ｍａｘ｛６，０．１５Ｌ｝である。

ステップ1908において、整数整列回転Ｒに対する前の原型周期と現在の原型周期との間の相互相関は、

として計算され、非整数回転Ａに対する相互相関は、整数回転での相互相関の値を補間することによって近似される：

ここでＡ´＝Ａ−０．５である。

ステップ1910において、結果的にＣ（Ａ）の最大値になるＡの値（許容可能な回転の範囲に対する）は最適整列Ａ^*として選択される。

ステップ1912において、中間のサンプルＬ_avに対する平均遅延またはピッチ周期が以下のようにして計算される。周期数推定Ｎ_perは、

により与えられる中間サンプルに対する平均遅延により、

として計算される。

ステップ1914において、前の原型残留と現在の原型残留との間における以下の補間にしたがって現在のフレーム中の残りの残留サンプルが計算される：

ここでα＝Ｌ／Ｌ_avである。非整数点：

におけるサンプル値（ｎαまたはｎα＋Ａ^*のいずれかに等しい）は１組のｓｉｎｃ関数テーブルを使用して計算される。選択されたｓｉｎｃシーケンスはｓｉｎｃ（−３−Ｆ：４−Ｆ）であり、ここでＦは、１／８の最も近い倍数に丸められた

の端数部分である。このシーケンスの始めはｒ_prev（（Ｎ−３）％Ｌ_p）と整列され、ここでＮは、最も近い１／８に丸められた後の

の整数部分である。

この動作は本質的にステップ1306に関して上述したワープと同じであることを認識すべきである。したがって、別の実施形態では、ステップ1914の補間はワープフィルタを使用して計算される。当業者は、ここに示されている種々の目的に対して単一のワープフィルタを再使用することにより節約が実現できることを認識するであろう。

図１７を参照すると、ステップ1706において、更新ピッチフィルタモジュール1512が再構成された残留＾ｒ（ｎ）からの値をピッチフィルタメモリにコピーする。同様に、ピッチプレフィルタのメモリもまた更新される。

ステップ1708において、ＬＰＣ合成フィルタ1514は再構成された残留＾ｒ（ｎ）を濾波し、この再構成された残留＾ｒ（ｎ）はＬＰＣ合成フィルタのメモリの更新に影響を与える。

以下、図１６Ａに示されているフィルタ更新モジュール910 の第２の実施形態について説明する。ステップ1702に関して上述したように、ステップ1802において原型残留がコードブックおよび回転パラメータから再構成され、その結果ｒ_curr（ｎ）が得られる。

ステップ1804において、更新ピッチフィルタモジュール1610は、

にしたがってｒ_curr（ｎ）からＬ個のサンプルの複製をコピーすることによってピッチフィルタメモリを更新する。ここで、１３１は１２７．５の最大遅延に対するピッチフィルタの次数であることが好ましい。好ましい実施形態において、ピッチフィルタのメモリは現在の周期ｒ_curr（ｎ）の複製によって等しく置換される：

ステップ1806において、ｒ_curr（ｎ）は、好ましくは知覚的に加重されたＬＰＣ係数を使用してセクションVIII．Ｂで述べたように循環的に濾波され、結果的にｓ_c（ｎ）を生成する。

ステップ1808において、ｓ_c（ｎ）からの値は最後の１０個の値（１０次のＬＰＣフィルタに対して）であることが好ましく、ＬＰＣ合成フィルタのメモリを更新するために使用される。

［Ｅ．ＰＰＰ復号器］
図９および１０を参照すると、ステップ1010においてＰＰＰ復号器モード206 は、受取られたコードブックおよび回転パラメータに基づいて原型残留ｒ_curr（ｎ）を再構成する。復号コードブック912 、回転子914 およびワープフィルタ918 は、前のセクションで述べたように動作する。周期インターポレータ920 は再構成された原型残留ｒ_curr（ｎ）と、前の再構成された原型残留ｒ_prev（ｎ）を受取り、２つの原型の間のサンプルを補間し、合成されたスピーチ信号＾ｓ（ｎ）を出力する。次のセクションにおいて周期インターポレータ920 を説明する。

［Ｆ．周期インターポレータ］
ステップ1012において周期インターポレータ920 はｒ_curr（ｎ）を受取り、合成されたスピーチ信号＾ｓ（ｎ）を出力する。周期インターポレータ920 に対する２つの別の実施形態は、ここでは図１５Ｂおよび１６Ｂに示されている。図１５Ｂの第１の別の実施形態において、周期インターポレータ920 は、整列および補間モジュール1516と、ＬＰＣ合成フィルタ1518と、および更新ピッチフィルタモジュール1520とを含んでいる。図１６Ｂに示されている第２の別の実施形態のものは、循環ＬＰＣ合成フィルタ1616と、整列および補間モジュール1618と、更新ピッチフィルタモジュール1622と、および更新ＬＰＣフィルタモジュール1620とを含んでいる。図２０および２１はこれら２つの実施形態によるステップ1012をさらに詳細に示すフローチャートである。

図１５Ｂを参照すると、ステップ2002において整列および補間モジュール1516は現在の残留原型ｒ_curr（ｎ）と前の残留原型ｒ_prev（ｎ）との間のサンプルに対して残留信号を再構成して＾ｒ（ｎ）を形成する。整列および補間モジュール1516は、ステップ1704に関して上述したように（図１９に示されているように）動作する。

ステップ2004において、更新ピッチフィルタモジュール1520は、ステップ1706に関して上述したように、再構成された残留信号＾ｒ（ｎ）に基づいてピッチフィルタメモリを更新する。

ステップ2006において、ＬＰＣ合成フィルタ1518は、再構成された残留信号＾ｒ（ｎ）に基づいて出力スピーチ信号＾ｓ（ｎ）を合成する。ＬＰＣフィルタメモリは、この動作が行われたときに自動的に更新される。

図１６Ｂおよび２１を参照すると、ステップ2102において更新ピッチフィルタモジュール1622は、ステップ1804に関して上述したように、再構成された現在の残留原型ｒ_curr（ｎ）に基づいてピッチフィルタメモリを更新する。

ステップ2104において、循環ＬＰＣ合成フィルタ1616は、上記のセクションVIII．Ｂで述べたように、ｒ_curr（ｎ）を受取って現在のスピーチ原型ｓ_c（ｎ）（その長さがＬ個のサンプルである）を合成する。

ステップ2106において、更新ＬＰＣフィルタモジュール1620は、ステップ1808に関して上述したようにＬＰＣフィルタメモリを更新する。

ステップ2108において、整列および補間モジュール1618は、前の原型周期と現在の原型周期との間のスピーチサンプルを再構成する。前の原型残留ｒ_prev（ｎ）は、補間がスピーチドメインにおいて進行するように循環的に濾波される（ＬＰＣ合成装置において）。整列および補間モジュール1618は、その動作が残留原型ではなくスピーチ原型に関して行われることを除いて、ステップ1704に関して上述したように動作する（図１９参照）。整列および補間の結果、合成されたスピーチ信号＾ｓ（ｎ）が得られる。

［IX．雑音励起線形予測（ＮＥＬＰ）符号化モード］
雑音励起線形予測（ＮＥＬＰ）符号化はスピーチ信号を擬似ランダム雑音シーケンスとしてモデル化し、それによってＣＥＬＰまたはＰＰＰ符号化のいずれを使用して得られるより低いビットレートを達成する。ＮＥＬＰ符号化は、スピーチ信号が無声音スピーチまたは背景雑音のようなピッチ構造をほとんど、あるいは全く有しない場合、信号再生に関して最も効率的に動作する。

図２２は、ＮＥＬＰ符号器モード204 およびＮＥＬＰ復号器モード206 をさらに詳細に示している。ＮＥＬＰ符号器モード204 は、エネルギ推定装置(estimator)2202および符号化コードブック2204を含んでいる。ＮＥＬＰ復号器モード206 は復号コードブック2206と、ランダム数発生器2210と、乗算器2212と、およびＬＰＣ合成フィルタ2208とを含んでいる。

図２３は、符号化および復号を含むＮＥＬＰ符号化のステップを示すフローチャート2300である。これらのステップを、ＮＥＬＰ符号器モード204 およびＮＥＬＰ復号器モード206 の種々のコンポーネントと共に説明する。

ステップ2302において、エネルギ推定装置2202は、以下のように４つのサブフレームのそれぞれに関する残留信号のエネルギを計算する：

ステップ2304において、符号化コードブック2204は１組のコードブックパラメータを計算し、符号化されたスピーチ信号ｓ_enc（ｎ）を形成する。好ましい実施形態において、この１組のコードブックパラメータは単一のパラメータであるインデックスＩ0を含んでいる。インデックスＩ0は、

を最小にするｊの値に等しく設定される。コードブックベクトルＳＦＥＱは、サブフレームエネルギＥｓｆ_iを量子化するために使用され、フレーム内のサブフレームの数（すなわち、好ましい実施形態では４つ）に等しいいくつかの要素を含んでいる。これらのコードブックベクトルは、確率または訓練されたコードブックを生成するための、当業者に知られている標準的な技術にしたがって生成されることが好ましい。

ステップ2306において、復号コードブック2206は受取られたコードブックパラメータを復号する。好ましい実施形態では、サブフレームＧ_iのセットは、

にしたがって復号される。ここで、０≦ｉ＜４であり、Ｇprevは前のフレームの最後のサブフレームに対応したコードブック励起利得である。

ステップ2308において、ランダム数発生器2210は単位分散ランダムベクトルｎｚ（ｎ）を発生する。このランダムベクトルはステップ2310で各サブフレーム内の適切な利得Ｇ_iによってスケールされ、励起信号Ｇ_iｎｚ（ｎ）を生成する。

ステップ2312において、ＬＰＣ合成フィルタ2208は励起信号Ｇ_iｎｚ（ｎ）を濾波して出力スピーチ信号＾ｓ（ｎ）を形成する。

好ましい実施形態において、最も新しい非ゼロレートＮＥＬＰサブフレームから得られたＬＰＣパラメータおよび利得Ｇ_iが現在のフレーム中の各サブフレームに対して使用される場合、ゼロレートモードもまた使用される。当業者は、マルチプルＮＥＬＰフレームが連続的に発生した場合に、このゼロレートモードが実効的に使用されることができることを認識するであろう。

［Ｘ．結論］
上記において本発明の種々の実施形態を説明してきたが、それらは単なる例示として与えられたに過ぎず、何等本発明に制限を課すものではないことを理解すべきである。したがって、本発明の技術的範囲は上記に示されている例示的な実施形態のいずれの制限も受けず、添付された請求の範囲およびその等価なものによってのみ規定される。

好ましい実施形態の上記の説明は、当業者が本発明を形成または使用できるようにするために与えられている。本発明はとくにその好ましい実施形態を参照して図示および説明されているが、当業者は、本発明の技術的範囲を逸脱することなく形態および詳細の種々の変更を行うことが可能であることを理解するであろう。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］以下のステップを含むスピーチ信号の可変レート符号化のための方法：
（ａ）スピーチ信号をアクティブまたは非アクティブのいずれかとして分類する；
（ｂ）前記アクティブスピーチを複数のタイプのアクティブスピーチの１つに分類する；
（ｃ）スピーチ信号がアクティブであるか、あるいは非アクティブであるかに基づいて、およびアクティブならば、さらに前記アクティブスピーチのタイプに基づいて符号化モードを選択する；
（ｄ）前記符号化モードにしたがってスピーチ信号を符号化して、符号化されたスピーチ信号を形成する。
［Ｃ２］さらに、前記符号化モードにしたがって前記符号化されたスピーチ信号を復号して、合成されたスピーチ信号を形成するステップを含んでいるＣ１記載の方法。
［Ｃ３］前記符号化モードはＣＥＬＰ符号化モード、ＰＰＰ符号化モード、またはＮＥＬＰ符号化モードを含んでいるＣ１記載の方法。
［Ｃ４］前記符号化するステップは、前記符号化モードに関連した予め定められたビットレートで前記符号化モードにしたがって符号化するＣ３記載の方法。
［Ｃ５］前記ＣＥＬＰ符号化モードは８５００ビット／秒のビットレートに関連し、前記ＰＰＰ符号化モードは３９００ビット／秒のビットレートに関連し、そして、前記ＮＥＬＰ符号化モードは１５５０ビット／秒のビットレートに関連しているＣ４記載の方法。
［Ｃ６］前記符号化モードはさらに、ゼロレートモードを含んでいるＣ３記載の方法。
［Ｃ７］前記複数のタイプのアクティブスピーチは、有声音、無声音、および過渡アクティブスピーチを含んでいるＣ１記載の方法。
［Ｃ８］符号化モードを選択する前記ステップは、
（ａ）前記スピーチがアクティブな過渡スピーチとして分類された場合には、ＣＥＬＰモードを選択する、
（ｂ）前記スピーチがアクティブな有声音スピーチとして分類された場合には、ＰＰＰモードを選択する、
（ｃ）前記スピーチが非アクティブスピーチまたはアクティブな無声音スピーチとして分類された場合には、ＮＥＬＰモードを選択する、
ステップを含んでいるＣ７記載の方法。
［Ｃ９］前記符号化されたスピーチ信号は、前記ＣＥＬＰモードが選択された場合にはコードブックパラメータおよびピッチフィルタパラメータを含み、前記ＰＰＰモードが選択された場合にはコードブックパラメータおよび回転パラメータを含み、前記ＮＥＬＰモードが選択された場合にはコードブックパラメータを含んでいるＣ８記載の方法。
［Ｃ１０］スピーチをアクティブまたは非アクティブとして分類する前記ステップは、２つのエネルギ帯域ベースの閾値化方式を含んでいるＣ１記載の方法。
［Ｃ１１］スピーチをアクティブまたは非アクティブとして分類する前記ステップは、前のＮ _ho フレームがアクティブとして分類されていた場合、次のＭフレームをアクティブとして分類するステップを含んでいるＣ１記載の方法。
［Ｃ１２］さらに、“ルックアヘッド”を使用して初期パラメータを計算するステップを含んでいるＣ１記載の方法。
［Ｃ１３］前記初期パラメータはＬＰＣ係数を含んでいるＣ１２記載の方法。
［Ｃ１４］前記符号化モードはＮＥＬＰ符号化モードを含み、スピーチ信号は、線形予測符号化（ＬＰＣ）解析フィルタによりスピーチ信号を濾波することにより発生された残留信号により表され、前記符号化するステップは、以下のステップを含む：
（ｉ）残留信号のエネルギを推定する、
（ii）第１のコードブックからコードベクトルを選択する、前記コードベクトルは前記推定されたエネルギに近似する、
前記復号するステップは、以下のステップを含む：
（ｉ）ランダムベクトルを発生する、
（ii）前記コードベクトルを第２のコードブックから検索する、
(iii)前記コードベクトルに基づいて前記ランダムベクトルをスケールする、前記スケールされたランダムベクトルのエネルギは前記推定されたエネルギに近似する、
（iv）前記スケールされたランダムベクトルをＬＰＣ合成フィルタで濾波する、前記濾波されたスケールされたランダムベクトルが前記合成されたスピーチ信号を形成する、Ｃ１記載の方法。
［Ｃ１５］スピーチ信号はフレームに分割され、前記各フレームは２以上のサブフレームを含み、エネルギを推定する前記ステップは、前記サブフレームのそれぞれに関する残留信号のエネルギを推定するステップを含み、前記コードベクトルは、前記サブフレームのそれぞれに関する前記推定されたエネルギに近似した値を含んでいるＣ１４記載の方法。
［Ｃ１６］前記第１のコードブックおよび前記第２のコードブックは確率コードブックであるＣ１４記載の方法。
［Ｃ１７］前記第１のコードブックおよび前記第２のコードブックは訓練されたコードブックであるＣ１４記載の方法。
［Ｃ１８］前記ランダムベクトルは単位分散ランダムベクトルであるＣ１４記載の方法。
［Ｃ１９］以下を具備するスピーチ信号を符号化するための可変レート符号化システム：
スピーチ信号をアクティブまたは非アクティブとして分類し、アクティブの場合、アクティブスピーチを複数のタイプのアクティブスピーチの１つとして分類するための分類手段、
スピーチ信号を符号化されたスピーチ信号として符号化するための複数の符号化手段、前記符号化手段は、スピーチ信号がアクティブであるか、あるいは非アクティブであるかに基づいて、およびアクティブである場合には、さらに前記タイプのアクティブスピーチに基づいて、スピーチ信号を符号化するために動的に選択される。
［Ｃ２０］さらに、前記符号化されたスピーチ信号を復号するための複数の復号手段を含んでいるＣ１９記載のシステム。
［Ｃ２１］前記複数の符号化手段はＣＥＬＰ符号化手段、ＰＰＰ符号化手段およびＮＥＬＰ符号化手段を含んでいるＣ１９記載のシステム。
［Ｃ２２］前記複数の復号手段はＣＥＬＰ復号手段、ＰＰＰ復号手段およびＮＥＬＰ復号手段を含んでいるＣ２０記載のシステム。
［Ｃ２３］前記各符号化手段は、予め定められたビットレートで符号化するＣ２１記載のシステム。
［Ｃ２４］前記ＣＥＬＰ符号化手段は８５００ビット／秒のレートで符号化し、前記ＰＰＰ符号化手段は３９００ビット／秒のレートで符号化し、または前記ＮＥＬＰ符号化手段は１５５０ビット／秒のレートで符号化するＣ２３記載のシステム。
［Ｃ２５］前記複数の符号化手段はさらに、ゼロレート符号化手段を含み、前記複数の復号手段はさらに、ゼロレート復号手段を含んでいるＣ２１記載のシステム。
［Ｃ２６］前記複数のタイプのアクティブスピーチは、有声音、無声音、および過渡アクティブスピーチを含んでいるＣ１９記載のシステム。
［Ｃ２７］前記スピーチがアクティブな過渡スピーチとして分類された場合には前記ＣＥＬＰ符号器が選択され、前記スピーチがアクティブな有声音スピーチとして分類された場合にはＰＰＰ符号器が選択され、前記スピーチが非アクティブスピーチまたはアクティブな無声音スピーチとして分類された場合にはＮＥＬＰ符号器が選択されるＣ２６記載のシステム。
［Ｃ２８］前記符号化されたスピーチ信号は、前記ＣＥＬＰ符号器が選択された場合にはコードブックパラメータおよびピッチフィルタパラメータを含み、前記ＰＰＰ符号器が選択された場合にはコードブックパラメータおよび回転パラメータを含み、あるいは、前記ＮＥＬＰ符号器が選択された場合にはコードブックパラメータを含んでいるＣ２７記載のシステム。
［Ｃ２９］前記分類手段は、２つのエネルギ帯域閾値化方式に基づいてスピーチをアクティブまたは非アクティブとして分類するＣ１９記載のシステム。
［Ｃ３０］前記分類手段は、前のＮ _ho フレームがアクティブとして分類された場合、次のＭフレームをアクティブとして分類するＣ１９記載のシステム。
［Ｃ３１］スピーチ信号は、線形予測符号化（ＬＰＣ）解析フィルタでスピーチ信号を濾波することにより発生された残留信号によって表され、前記複数の符号化手段は、以下を含むＮＥＬＰ符号化手段を含む：
残留信号のエネルギの推定を計算するためのエネルギ推定装置手段、
コードベクトルを第１のコードブックから選択するためのコードブック符号化手段、ここにおいて前記コードベクトルは、前記推定されたエネルギに近似する、ここにおいて前記複数の復号手段は、以下を含むＮＥＬＰ復号手段を含む：
ランダムベクトルを発生するためのランダム数発生手段、
前記コードベクトルを第２のコードブックから検索するためのコードブック復号手段、前記コードベクトルに基づいて前記ランダムベクトルをスケールする、前記スケールされたランダムベクトルのエネルギは前記推定に近似するための乗算手段、
前記スケールされたランダムベクトルをＬＰＣ合成フィルタで濾波するための手段、前記濾波されたスケールされたランダムベクトルは、前記合成されたスピーチ信号を形成するＣ１９記載のシステム。
［Ｃ３２］スピーチ信号はフレームに分割され、前記各フレームは２以上のサブフレームを含み、前記エネルギ推定装置手段は、前記サブフレームのそれぞれに関する残留信号のエネルギの推定を計算し、前記コードベクトルは、前記サブフレームのそれぞれに関する前記サブフレーム推定に近似した値を含んでいるＣ１９記載のシステム。
［Ｃ３３］前記第１のコードブックおよび前記第２のコードブックは確率コードブックであるＣ１９記載のシステム。
［Ｃ３４］前記第１のコードブックおよび前記第２のコードブックは訓練されたコードブックであるＣ１９記載のシステム。
［Ｃ３５］前記ランダムベクトルは、単位分散ランダムベクトルを含んでいるＣ１９記載のシステム。

Claims

(a1)以下を含むスピーチ信号の可変レート符号化のための方法：
(a2)分類手段により、前記スピーチ信号をアクティブまたは非アクティブのいずれかとして分類すること、(a3)ここにおいてスピーチをアクティブまたは非アクティブとして分類することは、２つのエネルギ帯域ベースの閾値化方式を含み、(a4)前記スピーチ信号をアクティブまたは非アクティブとして分類することは、前のＮ_hoフレームがアクティブとして分類され、及び現在のフレームが非アクティブと分類されていた場合、次のＭフレームをアクティブとして分類することを更に含み、この場合、前記現在のフレームを含む前記次のＭフレームは、アクティブスピーチとして分類される；
(a5)前記分類手段により、前記アクティブスピーチを複数のタイプのアクティブスピーチの１つのタイプに分類すること、ここにおいて前記複数のタイプのアクティブスピーチは、有声音、無声音、および過渡スピーチを含む；
(a6)符号化手段により、前記スピーチ信号がアクティブであるか、あるいは非アクティブであるかに基づいて、およびアクティブならば、さらに前記タイプのアクティブスピーチに基づいて符号器モードを選択すること、(a7)ここにおいて前記選択された符号器モードは、符号化アルゴリズムによって特徴付けられ、ここにおいて前記符号器モードを選択することは、
（ａ）前記スピーチがアクティブな過渡スピーチとして分類された場合には、コード励起線形予測（ＣＥＬＰ）モードを選択する、
（ｂ）前記スピーチがアクティブな有声音スピーチとして分類された場合には、原型ピッチ周期（ＰＰＰ）モードを選択する、
（ｃ）前記スピーチが非アクティブスピーチまたはアクティブな無声音スピーチとして分類された場合には、雑音励起線形予測（ＮＥＬＰ）モードを選択する；および
(a8)前記符号化手段により、前記符号器モードにしたがって前記スピーチ信号を符号化して、符号化されたスピーチ信号を形成すること。
以下を含むスピーチ信号の可変レート符号化のための方法：
分類手段により、前記スピーチ信号をアクティブまたは非アクティブのいずれかとして分類すること、ここにおいてスピーチをアクティブまたは非アクティブとして分類することは、前のＮ_hoフレームがアクティブとして分類され、及び現在のフレームが非アクティブと分類されていた場合、次のＭフレームをアクティブとして分類することを含む；
前記分類手段により、前記アクティブスピーチを複数のタイプのアクティブスピーチの１つのタイプに分類すること、ここにおいて前記複数のタイプのアクティブスピーチは、有声音、無声音、および過渡スピーチを含む；
符号化手段により、前記スピーチ信号がアクティブであるか、あるいは非アクティブであるかに基づいて、およびアクティブならば、さらに前記タイプのアクティブスピーチに基づいて符号器モードを選択すること、ここにおいて前記選択された符号器モードは、符号化アルゴリズムによって特徴付けられ、ここにおいて前記符号器モードを選択することは、
（ａ）前記スピーチがアクティブな過渡スピーチとして分類された場合には、コード励起線形予測（ＣＥＬＰ）モードを選択する、
（ｂ）前記スピーチがアクティブな有声音スピーチとして分類された場合には、原型ピッチ周期（ＰＰＰ）モードを選択する、
（ｃ）前記スピーチが非アクティブスピーチまたはアクティブな無声音スピーチとして分類された場合には、雑音励起線形予測（ＮＥＬＰ）モードを選択する；および
前記符号化手段により、前記符号器モードにしたがって前記スピーチ信号を符号化して、符号化されたスピーチ信号を形成すること。
以下を具備するスピーチ信号を符号化するための可変レート符号化システム：
２つのエネルギ帯域閾値化方式に基づいて前記スピーチ信号をアクティブまたは非アクティブとして分類し、アクティブである場合、アクティブスピーチを複数のタイプのアクティブスピーチの１つのタイプとして分類するための分類手段、ここにおいて前記スピーチ信号をアクティブまたは非アクティブのいずれかとして分類することは、前のＮ_hoフレームがアクティブとして分類され、及び現在のフレームが非アクティブと分類されていた場合、次のＭフレームをアクティブとして分類することを更に含む；および
前記スピーチ信号を符号化されたスピーチ信号として符号化するための複数の符号化手段、ここにおいて前記符号化手段は、前記スピーチ信号がアクティブであるか、あるいは非アクティブであるかに基づいて、およびアクティブである場合には、さらに前記タイプのアクティブスピーチに基づいて、前記スピーチ信号を符号化するために動的に選択される、ここにおいて前記符号化手段は、
（ａ）前記スピーチがアクティブな過渡スピーチとして分類された場合には、コード励起線形予測（ＣＥＬＰ）モードを選択する、
（ｂ）前記スピーチがアクティブな有声音スピーチとして分類された場合には、原型ピッチ周期（ＰＰＰ）モードを選択する、
（ｃ）前記スピーチが非アクティブスピーチまたはアクティブな無声音スピーチとして分類された場合には、雑音励起線形予測（ＮＥＬＰ）モードを選択する。
以下を具備するスピーチ信号を符号化するための可変レート符号化システム：
前記スピーチ信号をアクティブまたは非アクティブとして分類するための分類手段、ここにおいて前記分類手段は、前のＮ_hoフレームがアクティブとして分類され、及び現在のフレームが非アクティブと分類されていた場合、次のＭフレームをアクティブとして分類し、そして、アクティブである場合、アクティブスピーチを複数のタイプのアクティブスピーチの１つのタイプとして分類する；
前記スピーチ信号を符号化されたスピーチ信号として符号化するための複数の符号化手段、ここにおいて前記符号化手段は、前記スピーチ信号がアクティブであるか、あるいは非アクティブであるかに基づいて、およびアクティブである場合には、さらに前記タイプのアクティブスピーチに基づいて、前記スピーチ信号を符号化するために動的に選択される、ここにおいて前記符号化手段は、
（ａ）前記スピーチがアクティブな過渡スピーチとして分類された場合には、コード励起線形予測（ＣＥＬＰ）モードを選択する、
（ｂ）前記スピーチがアクティブな有声音スピーチとして分類された場合には、原型ピッチ周期（ＰＰＰ）モードを選択する、
（ｃ）前記スピーチが非アクティブスピーチまたはアクティブな無声音スピーチとして分類された場合には、雑音励起線形予測（ＮＥＬＰ）モードを選択する。