JP2003522965A

JP2003522965A - 周期的スピーチコーディング

Info

Publication number: JP2003522965A
Application number: JP2000590162A
Authority: JP
Inventors: マンジュナス、シャラス; ガードナー、ウイリアム
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-12-21
Filing date: 1999-12-21
Publication date: 2003-07-29
Anticipated expiration: 2019-12-21
Also published as: DE69928288T2; EP1145228A1; JP4824167B2; ES2257098T3; AU2377600A; DE69928288D1; CN1331825A; US20020016711A1; KR20010093208A; CN1242380C; HK1040806B; EP1145228B1; HK1040806A1; ATE309601T1; WO2000038177A1; US6456964B2; KR100615113B1

Abstract

(57)【要約】擬似周期スピーチ信号をコーディングするための方法および装置である。スピーチ信号は、線形予測コーディング（ＬＰＣ）解析フィルタでスピーチ信号を濾波することにより生成された残留信号によって表される。残留信号は、その残留信号の現在のフレームから原型周期を抽出することによって符号化される。現在の原型周期を近似するために前の原型周期をどのように修正するかを記述する第１の組のパラメータが計算される。合計されたときに現在の原型周期と修正された前の原型周期との間の差を近似する１以上のコードベクトルが選択される。このエラー信号を符号化するために、マルチステージコードブックが使用される。第２の組のパラメータはこれらの選択されたコードベクトルを記述する。デコーダは、第１および第２の組のパラメータに基づいて現在の原型周期を再構成することにより出力スピーチ信号を合成し、また前の再構成された原型周期を合成する。その後、現在の再構成された原型周期と前の再構成された原型周期との間の領域に対して残留信号が補間される。デコーダは補間された残留信号に基づいて出力スピーチを合成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、スピーチ信号のコーディングに関する。とくに、本発明は、擬似周
期スピーチ信号を、その信号の原型部分だけを量子化することによるコーディン
グすることに関する。

【０００２】

【従来の技術】

現在、多くの通信システム、とくに長距離のデジタル無線電話用では音声をデ
ジタル信号として送信する。これらのシステムの性能は部分的に、最小の数のビ
ットで音声信号を正確に表すことに依存している。スピーチをサンプリングして
デジタル化することによって送信するだけで通常のアナログ電話機のスピーチ品
質を得るには、６４キロビット／秒（ｋｂｐｓ）程度のデータレートが必要であ
る。しかしながら、満足できるスピーチ再生のために必要とされるデータレート
を著しく減少させるコーディング技術が利用可能である。

【０００３】 “ボコーダ”という用語は一般に、人間のスピーチ発声のモデルに基づいて
パラメータを抽出することにより発声されたスピーチを圧縮する装置を示す。ボ
コーダにはエンコーダとデコーダとが含まれている。エンコーダは、入ってきた
スピーチを解析して関連したパラメータを抽出する。デコーダは、それがエンコ
ーダから伝送チャンネルを介して受取ったパラメータを使用してスピーチを合成
する。スピーチ信号はしばしば、ボコーダによって処理されたデータおよびブロ
ックのフレームに分割される。

【０００４】線形予測ベースの時間ドメインコーディング方式を中心として形成されたボ
コーダは、その他全てのタイプのコーダを数的にはるかに上回る。これらの技術
はスピーチ信号から相関させられた要素を抽出し、相関されていない要素だけを
符号化する。基本的な線形予測フィルタは、現在のサンプルを過去のサンプルの
線形組合せとして予測する。この特定のクラスのコーディングアルゴリズムの一
例は、文献（Thomas E.Tremain氏他による“A 4.8 kbps Code Excited Linear P
redictive Coder,”Proceedings of the Mobile Satellite Conference,1988 ）
に記載されている。

【０００５】これらのコーディング方式は、スピーチ中の固有冗長（すなわち、相関させ
られた要素）を全て除去することによりデジタル化されたスピーチ信号を低いビ
ットレートの信号に圧縮する。スピーチは一般に唇と舌の物理的活動の結果生じ
た短期間冗長と、声帯の振動の結果生じた長期間冗長とを示す。線形予測方式は
、これらの動作をフィルタとしてモデル化し、冗長を除去し、その後結果的に得
られた残留信号をホワイトガウス雑音としてモデル化する。したがって、線形予
測コーダは全帯域幅スピーチ信号ではなくフィルタ係数および量子化された雑音
を送信することにより減少したビットレートを達成する。

【０００６】

【発明が解決しようとする課題】

しかしながら、スピーチ信号が長距離（たとえば、地上対衛星）を伝搬するか
、あるいは混雑したチャンネル中でその他の多数の信号と共存しなければならな
い場合に、これらの減少したビットレートでさえ利用可能な帯域幅を越えること
が多い。したがって、線形予測方式以外の、低ビットレートを達成する改善され
たコーディング方式が必要とされている。

【０００７】

【課題を解決するための手段】

本発明は、擬似周期スピーチ信号をコーディングするための方法および装置で
ある。スピーチ信号は、線形予測コーディング（ＬＰＣ）解析フィルタでスピー
チ信号を濾波することにより生成された残留信号によって表される。残留信号は
、その残留信号の現在のフレームから原型周期を抽出することによって符号化さ
れる。現在の原型周期を近似するために前の原型周期をどのように修正するかを
記述する第１の組のパラメータが計算される。合計されたときに現在の原型周期
と修正された前の原型周期との間の差を近似する１以上のコードベクトルが選択
される。第２の組のパラメータは、これらの選択されたコードベクトルを記述す
る。デコーダは、第１および第２の組のパラメータに基づいて現在の原型周期を
再構成することにより出力スピーチ信号を合成する。その後、現在の再構成され
た原型周期と前の再構成された原型周期との間の領域に対して残留信号が補間さ
れる。デコーダは補間された残留信号に基づいて出力スピーチを合成する。

【０００８】本発明の特徴は、原型周期がスピーチ信号を表して再構成するために使用さ
れることである。スピーチ信号全体ではなく原型周期をコーディングすることに
より、必要とされるビットレートは減少し、それがさらに高い効率、さらに広い
範囲およびさらに低い電力要求となる。

【０００９】本発明の別の特徴は、過去の原型周期が現在の原型周期の予測子として使用
されることである。現在の原型周期と最適に回転されスケールされた過去の原型
周期との間の差が符号化されて送信され、それによって要求されるビットレート
がさらに減少される。

【００１０】本発明のさらに別の特徴は、連続する再構成された原型周期の加重された平
均と平均遅延とに基づいて連続する再構成された原型周期間で補間することによ
りデコーダにおいて残留信号が再構成されることである。

【００１１】本発明の別の特徴は、送信されたエラーベクトルを符号化するためにマルチ
ステージコードブックが使用されることである。このコードブックは、効率的な
記憶とコードデータのサーチを行う。所望のレベルの正確さを達成するために付
加的なステージが追加されてもよい。

【００１２】本発明の別の特徴は、コーディング動作にとって２つの信号の長さが等しい
ことが必要となった場合に、第２の信号の長さに適合するように第１の信号の長
さを効率的に変更するためにワープフィルタが使用されることである。

【００１３】本発明のさらに別の特徴は、原型周期が“カットフリー”領域を条件として
抽出され、それによって、高エネルギをフレーム境界に沿って分割することによ
る出力の不連続を避けることである。

【００１４】

【発明の実施の形態】

本発明の特徴、目的および利点は、以下の詳細な説明および添付図面からさら
に明らかになるであろう。なお、図面において同じ参照符号は同じまたは機能的
に類似した構成要素を示している。さらに、参照符号の最大桁の数字はその参照
符号が最初に現れた図面を示している。Ｉ．環境の概説 II．本発明の概説 III ．初期パラメータの決定Ａ．ＬＰＣ係数の計算Ｂ．ＬＳＩ計算Ｃ．ＮＡＣＦ計算Ｄ．ピッチトラックおよび遅延の計算Ｅ．帯域エネルギおよびゼロ交差レートの計算Ｆ．ホルマント残留の計算 IV．アクティブ／非アクティブスピーチ分類Ａ．ハングオーバーフレームＶ．アクティブスピーチフレームの分類 VI．エンコーダ／デコーダモード選択 VII ．コード励起線形予測（ＣＥＬＰ）コーディングモードＡ．ピッチ符号化モードＢ．符号化コードブックＣ．ＣＥＬＰデコーダＤ．フィルタ更新モジュール VIII．原型ピッチ周期（ＰＰＰ）コーディングモードＡ．抽出モジュールＢ．回転コリレータＣ．符号化コードブックＤ．フィルタ更新モジュールＥ．ＰＰＰデコーダＦ．周期インターポレータ IX．雑音励起線形予測（ＮＥＬＰ）コーディングモードＸ．結論

【００１５】［Ｉ．環境の概説］本発明は、可変レートスピーチコーディングのための新しい改善された方法お
よび装置に関する。図１は、エンコーダ102 、デコーダ104 および伝送媒体106
を含む伝送環境100 を示している。エンコーダ102 はスピーチ信号ｓ（ｎ）を符
号化し、伝送媒体106 を横切ってデコーダ104 に伝送するための符号化されたス
ピーチ信号ｓ_enc（ｎ）を形成する。デコーダ104 はｓ_enc（ｎ）を復号し、そ
れによって合成されたスピーチ信号：

【数１】を生成する。

【００１６】ここで使用されている“コーディング”という用語は一般に、符号化および
復号の両者を含む方法を示している。一般に、コーディング方法および装置は、
許容可能なスピーチ再生（すなわち、＾ｓ（ｎ）はｓ（ｎ）に近似している）を
維持しながら、伝送媒体106 を介して伝送されるビットの数を最小化しようとす
る（すなわち、ｓ_enc（ｎ）の帯域幅を最小化しようとする）。符号化されたス
ピーチ信号の合成は、特定のスピーチコーディング方法にしたがっていろいろで
ある。以下、種々のエンコーダ102 、デコーダ104 およびそれらが動作するコー
ディング方法を説明する。

【００１７】以下に説明するエンコーダ102 およびデコーダ104 のコンポーネントは電子
ハードウェア、コンピュータソフトウェア、または両者の組合せとして実施され
ることができる。以下、これらのコンポーネントをそれらの機能性に関して説明
する。ハードウェアまたはソフトウェアのどちらで機能が実施されるかは、特定
の用途とシステム全体に課される設計上の制約に依存する。当業者は、これらの
状況下においてハードウェアおよびソフトウェアが交換可能であること、および
説明された機能を特定の用途のそれぞれに対して最良に実施するための方法を認
識するであろう。

【００１８】当業者は、伝送媒体106 が地上ベース通信ライン、基地局と衛星との間のリ
ンク、セルラー電話機と基地局との間の、またはセルラー電話機と衛星との間の
無線通信を含む多数の異なった伝送媒体を代表することができるが、それに限定
されないことを認識するであろう。

【００１９】当業者はまた、ある通信に対する各パーティが受信だけでなく送信もまたし
ばしば行うことを認識するであろう。したがって、各パーティにはエンコーダ10
2 とデコーダ104 が必要である。しかしながら、以下の説明において信号伝送環
境100 は、伝送媒体106 の一方の端部にエンコーダ102 を含み、他端部にデコー
ダ104 を含むものとして示されている。当業者は、これらの考えをどのように２
方向通信に拡大すべきかを容易に認識するであろう。

【００２０】この説明のために、ｓ（ｎ）は、異なった声音と沈黙期間とを含む一般的な
会話中に得られたデジタルスピーチ信号であると仮定する。スピーチ信号ｓ（ｎ
）はフレームに分割され、各フレームはさらに（好ましくは４つの）サブフレー
ムに分割されることが好ましい。これら任意の選択されたフレーム／サブフレー
ム境界は一般に、ここでのケースのように、あるブロック処理が行われるときに
使用される。フレームに関して行われていると説明された動作はサブフレームに
関しても行われ、この意味においてフレームとサブフレームはここでは交換可能
に使用されている。しかしながら、ブロック処理ではなく連続的な処理が実施さ
れる場合には、ｓ（ｎ）をフレーム／サブフレームに分割する必要は全くない。
当業者は、以下に示すブロック技術がどのように連続処理に拡大されるかを容易
に認識するであろう。

【００２１】好ましい実施形態において、ｓ（ｎ）は８ｋＨｚでデジタル的にサンプリン
グされる。各フレームは２０ｍ秒のデータを含んでいる、すなわち好ましい８ｋ
Ｈｚ速度で１６０個のサンプルを含んでいることが好ましい。したがって、各サ
ブフレームはデータの４０個のサンプルを含んでいる。以下に示す多くの式は、
これらの値をとることを認識することが重要である。しかしながら、これらのパ
ラメータはスピーチコーディングにとって適切ではあるが単なる例示に過ぎず、
他の適切な代替パラメータが使用可能なことを当業者は認識するであろう。

【００２２】［II．本発明の概説］本発明の方法および装置は、スピーチ信号ｓ（ｎ）のコーディングを含んでい
る。図２は、エンコーダ102 およびデコーダ104 をさらに詳細に示している。本
発明によると、エンコーダ102 は初期パラメータ計算モジュール202 と、分類モ
ジュール208 と、および１以上のエンコーダモード204 とを含んでいる。デコー
ダ104 は１以上のデコーダモード206 を含んでいる。デコーダモードＮ_dの数は
一般に、エンコーダモードＮ_eの数に等しい。当業者に明らかなように、エンコ
ーダモード１はデコーダモード１と通信し、その他も同様に通信している。示さ
れているように、符号化されたスピーチ信号ｓ_enc（ｎ）は伝送媒体106 を介し
て伝送される。

【００２３】好ましい実施形態において、エンコーダ102 は、現在のフレームにｓ（ｎ）
の特性を与えた場合にどのモードが最も適切かに応じてフレームごとに多くのエ
ンコーダモード間で動的に切換わる。デーコーダ104 はまたフレームごとに対応
したデコーダモード間で動的に切換わる。デコーダにおいて許容可能な信号再生
を維持しながら最も低いビットレートを得るために各フレームに対して特定のモ
ードが選択される。このプロセスは、コーダのビットレートが時間的に変化する
（信号の特性が変化するにつれて）ため、可変レートスピーチコーディングと呼
ばれる。

【００２４】図３は、本発明による可変レートスピーチコーディングを示すフローチャー
ト300 である。ステップ302 において、初期パラメータ計算モジュール202 は、
データの現在のフレームに基づいて種々のパラメータを計算する。好ましい実施
形態において、これらのパラメータは、線形予測コーディング（ＬＰＣ）フィル
タ係数、線形スペクトル情報（ＬＳＩ）係数、正規化された自己相関関数（ＮＡ
ＣＦ）、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残留
信号の１以上のものを含んでいる。

【００２５】ステップ304 において、分類モジュール208 は現在のフレームを“アクティ
ブ”スピーチまたは“非アクティブ”スピーチのいずれかを含むものとして分類
する。上述したように、ｓ（ｎ）は、通常の会話に関して一般的であるようにス
ピーチの周期と沈黙の周期の両方を含んでいると仮定される。アクティブスピー
チは話された言葉を含み、非アクティブスピーチはその他の全て（たとえば、背
景雑音、沈黙、息つぎ等）を含んでいる。以下、スピーチをアクティブまたは非
アクティブとして分類するために使用される本発明による方法を詳細に説明する
。

【００２６】図３に示されているように、ステップ306 は、ステップ304 において現在の
フレームがアクティブまたは非アクティブのいずれに分類されたかを考慮する。
アクティブの場合、制御フローはステップ308 に進む。非アクティブの場合、制
御フローはステップ310 に進む。

【００２７】アクティブとして分類されたフレームは、ステップ308 において発声された
フレームか、無声化されたフレームか、または過渡フレームのいずれかとしてさ
らに分類される。当業者は、人間のスピーチが多くの異なった方法で分類可能で
あることを認識するであろう。通常の２つのスピーチ分類は発声された音および
無声音である。本発明によると、発声されていないまたは無声の全てのスピーチ
は過渡スピーチとして分類される。

【００２８】図４Ａは、発声されたスピーチ402 を含むｓ（ｎ）の例示的な部分を示して
いる。発声音は、声帯が緩和振動で振動し、それによって声道を励起させる空気
の擬似周期パルスを生成するように調節された声帯の緊張状態を伴って、強制的
に空気が声門を通過するようにすることにより生成される。発声されたスピーチ
において測定される１つの一般的な特性は、図４Ａに示されているピッチ周期で
ある。

【００２９】図４Ｂは、無声スピーチ404 を含むｓ（ｎ）の例示的な部分を示している。
無声音は、声道中のある地点にくびれ（通常は口の末端に向かって）を形成し、
強制的に空気が乱流を生じさせるのに十分に高い速度でそのくびれを通過するよ
うにすることによって生成される。結果的に得られた無声スピーチ信号は、カラ
ード(colored) 雑音に似ている。

【００３０】図４Ｃは、過渡スピーチ406 （すなわち、発声されたものでもなく、無声音
でもないスピーチ）を含むｓ（ｎ）の例示的な部分を示している。図４Ｃに示さ
れている例示的な過渡スピーチ406 は、無声スピーチと発声されたスピーチとの
間の過渡状態にあるｓ（ｎ）を表している。当業者は、これに匹敵した結果を得
るためにスピーチの多くの異なった分類をここに記載されている技術にしたがっ
て使用することが可能であることを認識するであろう。

【００３１】ステップ310 において、ステップ306 および308 におけるフレーム分類に基
づいてエンコーダ／デコーダモードが選択される。図２に示されているように種
々のエンコーダ／デコーダモードが並列に接続される。これらのモードの１以上
のものが任意の所定の時間に動作可能である。しかしながら、以下詳細に説明す
るように、任意の所定の時間に１つのモードだけが動作し、また、それは現在の
フレームの分類にしたがって選択されることが好ましい。

【００３２】いくつかのエンコーダ／デコーダモードが以下のセクションにおいて記載さ
れている。異なったエンコーダ／デコーダモードが異なったコーディング方式に
したがって動作する。あるモードは、ある特性を示すスピーチ信号ｓ（ｎ）のコ
ーディング部分においてより効果的である。

【００３３】好ましい実施形態において、過渡スピーチとして分類されたフレームをコー
ド化するために“コーディング励起線形予測”（ＣＥＬＰ）モードが選択される
。ＣＥＬＰモードは、線形予測残留信号の量子化されたバージョンで線形予測声
道モデルを励起する。ここに記載されている全てのエンコーダ／デコーダモード
のうち、ＣＥＬＰにより一般に最も正確なスピーチ再生が得られるが、最高のビ
ットレートが必要である。

【００３４】発声されたスピーチとして分類されたフレームをコード化するために、“原
型ピッチ周期”（ＰＰＰ）モードが選択されることが好ましい。発声されたスピ
ーチは、ＰＰＰモードによって利用されるゆっくり時間と共に変化する周期的成
分を含んでいる。ＰＰＰモードは、各フレーム内のピッチ周期のサブセットだけ
をコード化する。スピーチ信号の残りの周期は、これらの原型周期間において補
間をすることにより再構成される。発声されたスピーチの周期性を利用すること
により、ＰＰＰはＣＥＬＰより低いビットレートを達成し、依然としてスピーチ
信号を知覚的に正確な方法で再生することができる。

【００３５】無声スピーチとして分類されたフレームをコード化するために“雑音励起線
形予測”（ＮＥＬＰ）モードが選択される。ＮＥＬＰは濾波された擬似ランダム
雑音信号を使用して、無声スピーチをモデル化する。ＮＥＬＰはコード化された
スピーチに対して最も簡単なモデルを使用し、したがって最も低いビットレート
を達成する。

【００３６】同じコーディング技術は異なったビットレートで頻繁に動作されることが可
能であり、その結果性能レベルが変化する。したがって、図２の異なったエンコ
ーダ／デコーダモードは異なったコーディング技術、または異なったビットレー
トで動作している同じコーディング技術、あるいはそれらの組合せを表すことが
できる。当業者は、エンコーダ／デコーダモード数の増加により、モードを選択
する際にさらに高いフレキシビリティが可能であり、その結果平均ビットレート
をさらに低くすることができるが、システム全体の複雑性が増加することを認識
するであろう。任意の所定のシステムにおいて使用される特定の組合せは、利用
可能なシステムリソースおよび特定の信号環境によって指示される。

【００３７】ステップ312 において、選択されたエンコーダモード204 は、現在のフレー
ムを符号化し、符号化されたデータを伝送のためにデータパケットにパックする
ことが好ましい。ステップ314 において、対応したデコーダモード206 はデータ
パケットを分解し、受信されたデータを復号し、スピーチ信号を再構成する。以
下、これらの動作を適切なエンコーダ／デコーダモードに関してさらに詳細に説
明する。

【００３８】［III ．初期パラメータの決定］図５は、ステップ302 をさらに詳細に説明するフローチャートである。本発明
にしたがって種々の初期パラメータが計算される。パラメータは、たとえば、Ｌ
ＰＣ係数、線形スペクトル情報（ＬＳＩ）係数、正規化された自己相関関数（Ｎ
ＡＣＦ）、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残
留信号等を含んでいることが好ましい。これらのパラメータは、以下に説明する
ようにシステム全体内において種々の方法で使用される。

【００３９】好ましい実施形態において、初期パラメータ計算モジュール202 は１６０＋
４０個のサンプルの“ルックアヘッド”を使用する。これは、いくつかの目的の
ために機能する。第１に、１６０個のサンプルのルックアヘッドにより、ピッチ
周波数追跡は次のフレーム中の情報を使用して計算されることが可能になり、そ
れによって以下に説明されている音声コーディングとピッチ周期評価技術の粗さ
が著しく改善される。第２に、１６０個のサンプルのルックアヘッドにより、Ｌ
ＰＣ係数、フレームエネルギおよび音声アクティビティが将来の１つのフレーム
に対して計算されることが可能になる。これによって、フレームエネルギおよび
ＬＰＣ係数の効率的なマルチフレーム量子化が可能になる。第３に、付加的な４
０個のサンプルのルックアヘッドは、以下に説明されるハミングウインドウ(Ham
ming windowed)スピーチに関してＬＰＣ係数を計算するためのものである。した
がって、現在のフレームを処理する前にバッファされるサンプルの数は１６０＋
１６０＋４０であり、これには現在のフレームと１６０＋４０個のサンプルのル
ックアヘッドが含まれている。

【００４０】［Ａ．ＬＰＣ係数の計算］本発明は、スピーチ信号中の短期間冗長を除去するためにＬＰＣ予測エラーフ
ィルタを使用する。ＬＰＣフィルタに対する伝達関数は：

【数２】本発明においては前の式に示されているように１０次フィルタを構成することが
好ましい。デコーダ中のＬＰＣ合成フィルタは冗長を再挿入し、それはＡ（ｚ）
の逆数：

【数３】によって与えられる。

【００４１】ステップ502 において、ＬＰＣ係数ａ_iは次のようにｓ（ｎ）から計算され
る。ＬＰＣパラメータは、現在のフレームに対する符号化手順中に次のフレーム
に対して計算されることが好ましい。

【００４２】ハミングウインドウは、１１９番目と１２０番目のサンプルの間を中心とす
る現在のフレームに適用される（“ルックアヘッド”による好ましい１６０サン
プルフレームを仮定して）。ウインドウ化されたスピーチ信号ｓ_w（ｎ）は、

【数４】によって与えられる。

【００４３】４０個のサンプルのオフセットにより、結果的にスピーチの好ましい１６０
個のサンプルフレームの１１９番目と１２０番目との間を中心とするスピーチの
ウインドウが得られる。

【００４４】１１個の自己相関値は、

【数５】として計算されることが好ましい。

【００４５】自己相関値は、Ｒ（ｋ）＝ｈ（ｋ）Ｒ（ｋ），０≦ｋ≦１０によって与えられるようにＬＰＣ係数から得られたラインスペクトル対（ＬＳＰ
）のルートをミスする確率を減少するためにウインドウ化され、その結果、たと
えば２５Ｈｚ等のわずかな帯域幅拡張が生じる。値ｈ（ｋ）は、２５５ポイント
ハミングウインドウの中心からとられることが好ましい。

【００４６】その後、Ｄｕｒｂｉｎの帰納を使用してウインドウ化された自己相関値から
ＬＰＣ係数が得られる。Ｄｕｒｂｉｎの帰納はよく知られた効率的な計算方法で
あり、文献（Rabiner & Schafer による“Digital Processing Speech Signals,
”）に記載されている。

【００４７】［Ｂ．ＬＳＩ計算］ステップ504 において、ＬＰＣ係数は量子化および補間のためにラインスペク
トル情報（ＬＳＩ）係数に変換される。ＬＳＩ係数は、本発明にしたがって以下
の方法で計算される。

【００４８】上述のように、Ａ（ｚ）は、Ａ（ｚ）＝１−ａ₁ｚ^-1−…−ａ₁₀ｚ^-10，によって与えられ、ここでａ_iはＬＰＣ係数であり、１≦ｉ≦１０である。

【００４９】Ｐ_A（ｚ）およびＱ_A（ｚ）は、次のように規定される：

【数６】

【００５０】ラインスペクトルのコサイン（ＬＳＣ）は、以下の２つの関数の−１．０＜ｘ
＜１．０における１０個のルートである：

【数７】

【００５１】その後、

【数８】にしたがってＬＳＩ係数が計算される。

【００５２】ＬＳＣは、次式にしたがってＬＳＩ係数から得られる：

【数９】

【００５３】ＬＰＣフィルタの安定性により、２つの関数のルートが交互すること、すなわ
ち、最も小さいルートｌｓｃ₁がＰ´（ｘ）の最小のルートであり、２番目に小
さいルートｌｓｃ₂がＱ´（ｘ）の最小のルートであり、その他も同様であるこ
とが保証される。したがって、ｌｓｃ₁，ｌｓｃ₃，ｌｓｃ₅，ｌｓｃ₇および
ｌｓｃ₉はＰ´（ｘ）のルートであり、ｌｓｃ₂，ｌｓｃ₄，ｌｓｃ₆，ｌｓｃ ₈ およびｌｓｃ₁₀はＱ´（ｘ）のルートである。

【００５４】当業者は、ＬＳＩ係数の量子化に対する感度を計算するためのある方法を使
用することが好ましい認識するであろう。各ＬＳＩ中の量子化エラーを適切に加
重するために量子化プロセスにおいて“感度加重”が使用されることができる。

【００５５】ＬＳＩ係数はマルチステージベクトル（ＶＱ）量子化器を使用して量子化さ
れる。ステージの数は、使用される特定のビットレートおよびコードブックに依
存していることが好ましい。コードブックは、現在のフレームが発声されたか否
かに基づいて選択される。

【００５６】ベクトル量子化は、次式のように定義される加重平均自乗エラー（ＷＭＳＥ
）を最小化する：

【数１０】 ↑ｗはそれに関連した加重であり、↑ｙはコードベクトルである。好ましい実施
形態において、↑ｗは感度加重であり、Ｐ＝１０である。

【００５７】ＬＳＩベクトルは、

【数１１】のような量子化として得られたＬＳＩコードから再構成され、ここでＣＢ_iは発
声されたフレームまたは無声化されたフレームのいずれか（これは、コードブッ
クの選択を示すコードに基づく）に対するｉ番目のステージのＶＱコードブック
であり、ｃｏｄｅ_iはｉ番目のステージに対するＬＳＩコードである。

【００５８】ＬＳＩ係数がＬＰＣ係数に変換される前に、量子化雑音またはＬＳＩ係数中
へのチャンネルエラー注入雑音のせいで結果的に得られるＬＰＣフィルタが不安
定にならないことを確実にするために安定性チェックが行われる。ＬＳＩ係数が
順序付けられた状態のままである場合、安定性が保証される。

【００５９】元のＬＰＣ係数を計算するときに、フレームの１１９番目のサンプルと１２
０番目のサンプルの間を中心とするスピーチウインドウが使用された。フレーム
中のその他のポイントに対するＬＰＣ係数は、前のフレームのＬＳＣと現在のフ
レームのＬＳＣとの間で補間をすることにより近似される。その後、結果的に得
られた補間されたＬＳＣはＬＰＣ係数に変換されて戻される。各サブフレームに
対して使用される正確な補間は、ｉｌｓｃ_j＝（１−α_i）ｌｓｃｐｒｅｖ_j＋α_iｌｓｃｃｕｒｒ_j，１≦ｊ≦１０によって与えられる。ここで、α_iは４０個の各サンプルの４つのサブフレーム
に対する補間係数０．３７５，０．６２５，０．８７５，１．０００であり、ｉ
ｌｓｃは補間されたＬＳＣである。＾Ｐ_A（ｚ）および＾Ｑ_A（ｚ）は補間され
たＩＳＣにより次式にしたがって計算される：

【数１２】４つのサブフレーム全てに対する補間されたＬＰＣ係数は、

【数１３】［Ｃ．ＮＡＣＦ計算］ステップ506 において、正規化された自己相関関数（ＮＡＣＦ）が本発明にし
たがって計算される。

【００６０】次のフレームに対するホルマント残留は４つの４０サンプルサブフレームに
対して以下のように計算される：

【数１４】ここで、補間は現在のフレームの量子化されていないＬＳＣと次のフレームのＬ
ＳＣとの間において行われる。次のフレームのエネルギはまた以下のように計算
される：

【数１５】

【００６１】上記で計算された残留は好ましくは長さ１５のゼロ位相ＦＩＲフィルタを使用
してローパスフィルタ処理され、デシメート（ｄｅｃｉｍａｔｅ）され、ゼロ位
相ＦＩＲフィルタの係数ｄｆ_i（−７≦ｉ≦７）は｛０．０８００，０．１２５
６，０．２５３２，０．４３７６，０．６４２４，０．８２６８，０．９５４４
，１．０００，０．９５４４，０．８２６８，０．６４２４，０．４３７６，０
．２５３２，０．１２５６，０．０８００｝である。ローパスフィルタ処理され
、デシメートされた残留は次のように計算される：

【数１６】ここでＦ＝２はデシメーション係数であり、−７≦Ｆｎ＋ｉ≦６であるｒ（Ｆｎ
＋ｉ）は、量子化されていないＬＰＣ係数に基づく現在のフレームの残留の最後
の１４個の値から得られる。上述したように、これらのＬＰＣ係数は、前のフレ
ーム中に計算され記憶される。

【００６２】次のフレームの２つのサブフレーム（デシメートされた４０個のサンプル）
に対するＮＡＣＦは、以下のように計算される：

【数１７】

【００６３】負のｎを有するｒ_d（ｎ）に対して、現在のフレームのローパスフィルタ処理
されてデシメートされた残留（前のフレーム期間中に記憶された）が使用される
。現在のサブフレームｃｃｏｒｒに対するＮＡＣＦもまた計算されて前のフレ
ーム期間中に記憶される。

【００６４】［Ｄ．ピッチトラックおよび遅延の計算］ステップ508 において、ピッチトラックおよび遅延が本発明にしたがって計算
される。ピッチ遅延は後方トラックによりビタビ状サーチを使用して、以下のよ
うに計算されることが好ましい。

【００６５】

【数１８】Ｒ_2i+1に対する値を得るためにベクトルＲＭ_2iが次のように補間される：

【数１９】ここでｃｆ_jは補間フィルタであり、その係数は｛−０．０６２５，０．５６２
５，０．５６２５，−０．０６２５｝である。その後、遅延Ｌ_Cは、

【数２０】であるように選択され、現在のフレームのＮＡＣＦは、

【数２１】に等しく設定される。その後、

【数２２】より大きい最大相関に対応した遅延をサーチすることにより遅延倍数が除去され
る。

【００６６】［Ｅ．帯域エネルギおよびゼロ交差レートの計算］ステップ510 において、０−２ｋＨｚ帯域および２ｋＨｚ−４ｋＨｚ帯域中の
エネルギが本発明にしたがって以下のように計算される：

【数２３】Ｓ（ｚ），Ｓ_L（ｚ）およびＳ_H（ｚ）はそれぞれ入力スピーチ信号ｓ（ｎ）、
ローパス信号ｓ_L（ｎ）およびハイパス信号ｓ_H（ｎ）のｚ変換されたものであ
り、

【数２４】

【００６７】スピーチ信号エネルギ自身は、

【数２５】であり、ゼロ交差レートＺＣＲは、ｓ（ｎ）ｓ（ｎ＋１）＜０ならば、ＺＣＲ＝ＺＣＲ＋１、０≦ｎ≦１５９のように計算される。

【００６８】［Ｆ．ホルマント残留の計算］ステップ512 において、現在のフレームに対するホルマント残留が４つのサブ
フレームに対して以下のように計算される：

【数２６】ここで、＾ａ_iは対応したサブフレームのｉ番目のＬＰＣ係数である。

【００６９】［IV．アクティブ／非アクティブスピーチ分類］図３を参照すると、ステップ304 において現在のフレームはアクティブスピー
チ（たとえば、話されたワード）または非アクティブスピーチ（背景雑音、沈黙
）のいずれかとして分類される。図６は、ステップ304 をさらに詳細に示すフロ
ーチャート600 である。好ましい実施形態において、２つのエネルギ帯域ベース
のしきい値設定方式は、アクティブスピーチが存在するか否かを決定するために
使用される。低い帯域（帯域０）の周波数範囲は０．１−２．０ｋＨｚであり、
高い帯域（帯域１）は２．０−４．０ｋＨｚである。音声アクティビティ検出は
、以下に示す方法で現在のフレームに対する符号化工程中に次のフレームに対し
て決定されることが好ましい。

【００７０】ステップ602 において、帯域ｉ＝０，１に対する帯域エネルギＥｂ［ｉ］が
計算される。上記のセクションIII ．Ａに示されている自己相関シーケンスは帰
納的な式：

【数２７】を使用して１９に拡張される。この式を使用することにより、Ｒ（１１）はＲ（
１）乃至Ｒ（１０）から計算され、Ｒ（１２）はＲ（２）乃至Ｒ（１１）から計
算され、以下同様に行われる。その後、以下の式を使用して拡張された自己相関
シーケンスから帯域エネルギが計算される：

【数２８】ここで、Ｒ（ｋ）は現在のフレームに対する拡張された自己相関シーケンスであ
り、Ｒ_h(i)(k)は、表１に与えられている帯域ｉに対する帯域フィルタ自己相関
シーケンスである。

【００７１】表１：帯域エネルギ計算用のフィルタ自己相関シーケンス

【表１】

【００７２】ステップ604 において、帯域エネルギ推定値が平滑化される。平滑化された帯
域エネルギ推定値Ｅ_smは、以下の式を使用して各フレームに対して更新される：Ｅ_sm（ｉ）＝０．６Ｅ_sm（ｉ）＋０．４Ｅ_b（ｉ），ｉ＝０，１

【００７３】ステップ606 において、信号エネルギおよび雑音エネルギ推定値が更新される
。信号エネルギ推定値Ｅ_s（ｉ）は、以下の式を使用して更新されることが好ま
しい：Ｅ_s（ｉ）＝ｍａｘ（Ｅ_sm（ｉ），Ｅ_s（ｉ）），ｉ＝０，１

【００７４】雑音エネルギ推定値Ｅ_n（ｉ）は以下の式を使用して更新されることが好まし
い：Ｅ_n（ｉ）＝ｍｉｎ（Ｅ_sm（ｉ），Ｅ_n（ｉ）），ｉ＝０，１

【００７５】ステップ608 において、２つの帯域に対する長期間の信号対雑音比ＳＮＲ（ｉ
）が計算される：ＳＮＲ（ｉ）＝Ｅ_s（ｉ）−Ｅ_n（ｉ），ｉ＝０，１

【００７６】ステップ610 において、これらのＳＮＲ値は以下のように規定される８つの領
域Ｒｅｇ_SNR（ｉ）に分割されることが好ましい：

【数２９】

【００７７】ステップ612 において、音声アクティビティ決定が本発明にしたがって以下の
方法で行われる。Ｅ_b（０）−Ｅ_n（０）＞ＴＨＲＥＳＨ（Ｒｅｇ_SNR（０））
またはＥ_b（１）−Ｅ_n（１）＞ＴＨＲＥＳＨ（Ｒｅｇ_SNR（１））のいずれか
である場合、スピーチのそのフレームはアクティブであると宣言される。その他
の場合は、スピーチのフレームは非アクティブであると宣言される。ＴＨＲＥＳ
Ｈの値は表２に規定されている。

【００７８】信号エネルギ推定値Ｅ_s（ｉ）は、以下の式を使用して更新されることが好
ましい：Ｅ_s（ｉ）＝Ｅ_s（ｉ）−０．０１４４９９，ｉ＝０，１表２：ＳＮＲ領域の関数としてのしきい値係数

【表２】

【００７９】雑音エネルギ推定値Ｅ_n（ｉ）は、以下の式を使用して更新されることが好ま
しい：

【数３０】

【００８０】［Ａ．ハングオーバーフレーム］信号対雑音比が低いとき、再構成されるスピーチの品質を改良するために“ハ
ングオーバ”フレームが付加されることが好ましい。前の３つのフレームがアク
ティブとして分類され、現在のフレームは非アクティブと分類される場合、現在
のフレームを含む次のＭ個のフレームはアクティブスピーチとして分類される。
ハングオーバフレームの数Ｍは、表３に規定されているようにＳＮＲ（０）の関
数として定められることが好ましい。表３：ＳＮＲ（０）の関数としてのハングオーバフレーム

【表３】

【００８１】［Ｖ．アクティブスピーチフレームの分類］再び図３を参照すると、ステップ308 において、ステップ304 でアクティブで
あると分類された現在のフレームがスピーチ信号ｓ（ｎ）により示された特性に
したがってさらに分類される。好ましい実施形態では、アクティブスピーチは発
声されたスピーチ、無声スピーチ、あるいは過渡スピーチのいずれかとして分類
される。アクティブスピーチ信号によって示される周期性の程度は、それがどの
ように分類されるかを決定する。発声されたスピーチは最高度の周期性を示す（
本質的に擬似周期的）。無声スピーチは周期性をほとんど、あるいは全く示さな
い。過渡スピーチは発声されたスピーチと無声スピーチの間の周期性の程度を示
す。

【００８２】しかしながら、ここに記載されている一般的なフレームワークは、以下に説
明されている好ましい分類方式および特定のエンコーダ／デコーダモードに限定
されない。アクティブスピーチは別の方法で分類されることが可能であり、また
別のエンコーダ／デコーダモードがコーディングに対して利用可能である。当業
者は、分類とエンコーダ／デコーダモードとの多数の組合せが可能なことを認識
するであろう。多くのこのような組合せの結果、ここに記載されている一般的な
フレームワークにしたがって、すなわち、スピーチを非アクティブまたはアクテ
ィブと分類し、アクティブスピーチをさらに分類して、各分類の範囲内のスピー
チにとくに適合させられたエンコーダ／デコーダモードを使用してスピーチ信号
をコード化することにより、減少された平均ビットレートを達成することができ
る。

【００８３】アクティブスピーチ分類は周期性の程度に基づいているが、分類決定は周期
性のある直接的な測定に基づいて行われないほうが好ましい。むしろ、分類決定
は、たとえば、高いおよび低い帯域中の信号対雑音比およびＮＡＣＦ等のステッ
プ302 において計算された種々のパラメータに基づいて行われる。好ましい分類
は以下の擬似コードによって記述されてもよい：

【数３１】Ｎ_noiseは背景雑音の推定値であり、Ｅ_prevは前のフレームの入力エネルギであ
る。

【００８４】この擬似コードによって記述された方法は、それが実施される特定の環境に
したがって改良されることができる。当業者は、上記に与えられた種々のしきい
値が単なる例示に過ぎず、実際にはその実施形態に応じて調整を要する可能性が
高いことを認識するであろう。この方法はまた、ＴＲＡＮＳＩＥＮＴを２つのカ
テゴリー：高エネルギから低エネルギに移行する信号に対するカテゴリーと低エ
ネルギから高エネルギに移行する信号に対するカテゴリーとに分割する等によっ
て付加的な分類カテゴリーを追加することによってさらに精巧にされることがで
きる。

【００８５】当業者は、別の方法が発声されたアクティブスピーチと、無声アクティブス
ピーチと、および過渡アクティブスピーチとを分類するために利用できることを
認識するであろう。同様に、当業者はアクティブスピーチに対する他の分類方式
もまた可能であることを認識するであろう。

【００８６】［VI．エンコーダ／デコーダモード選択］ステップ310 において、エンコーダ／デコーダモードがステップ304 および30
8 の現在のフレームの分類に基づいて選択される。好ましい実施形態によると、
モードは次のように選択される：非アクティブフレームおよびアクティブな無声
フレームはＮＥＬＰモードを使用してコード化され、アクティブな発声されたフ
レームはＰＰＰモードを使用してコード化され、アクティブな過渡フレームはＣ
ＥＬＰモードを使用してコード化される。以下のセクションでこれらの各エンコ
ーダ／デコーダモードをさらに詳細に説明する。

【００８７】別の実施形態において、非アクティブフレームは、ゼロレートモードを使用
してコード化される。当業者は、非常に低いビットレートを要求する別のゼロレ
ートモードが利用できることを認識するであろう。ゼロレートモードの選択は、
過去のモード選択を考慮することによりさらに改良されることができる。たとえ
ば、前のフレームがアクティブと分類された場合、これは現在のフレームに対す
るゼロレートモードの選択を阻害する可能性がある。同様に、次のフレームがア
クティブならば、現在のフレームに対してゼロレートモードが阻止される。さら
に別の実施形態は、非常に多く連続するフレーム（たとえば、９個の連続してい
るフレーム）に対するゼロレートモードの選択を阻止するものである。当業者は
、ある環境におけるその動作を改良するために基本モードの選択決定に対するそ
の他多くの修正がなされてもよいことを認識するであろう。

【００８８】上述のように、分類とエンコーダ／デコーダモードのその他多数の組合せが
この同じフレームワーク内において代りに使用されてもよい。以下のセクション
において、本発明によるいくつかのエンコーダ／デコーダモードを詳細に説明す
る。最初にＣＥＬＰモードを説明し、続いてＰＰＰモードとＮＥＬＰモードを説
明する。

【００８９】［VII ．コード励起線形予測（ＣＥＬＰ）コーディングモード］上述のように、現在のフレームがアクティブ過渡スピーチとして分類された場
合、ＣＥＬＰエンコーダ／デコーダモードが使用される。ＣＥＬＰモードは最も
正確な信号再生（ここに示されている別のモードと比較して）を提供するが、そ
れは最高のビットレートでなされる。

【００９０】図７は、ＣＥＬＰエンコーダモード204 およびＣＥＬＰデコーダモード206
をさらに詳細に示している。図７Ａに示されているように、ＣＥＬＰエンコーダ
モード204 はピッチ符号化モジュール702 、符号化コードブック704 およびフィ
ルタ更新モジュール706 を含んでいる。ＣＥＬＰエンコーダモード204 は符号化
されたスピーチ信号ｓ_enc（ｎ）を出力し、これはＣＥＬＰデコーダモード206
に伝送するためのコードブックパラメータおよびピットフィルタパラメータを含
んでいることが好ましい。図７Ｂに示されているように、ＣＥＬＰデコーダモー
ド206 は復号コードブックモジュール708 、ピッチフィルタ710 およびＬＰＣ合
成フィルタ712 を含んでいる。ＣＥＬＰデコーダモード206 は符号化されたスピ
ーチ信号を受取り、合成されたスピーチ信号＾ｓ（ｎ）を出力する。

【００９１】［Ａ．ピッチ符号化モード］ピッチ符号化モジュール702 は、前のフレームｐ_c（ｎ）からスピーチ信号ｓ
（ｎ）および量子化された残留を受取る（以下説明する）。この入力に基づいて
、ピッチ符号化モジュール702 はターゲット信号ｘ（ｎ）と１組のピッチフィル
タパラメータを生成する。好ましい実施形態において、これらのピッチフィルタ
パラメータは最適ピッチ遅延Ｌ^*と最適ピッチ利得ｂ^*を含んでいる。これらの
パラメータは、符号化プロセスがこれらのパラメータを使用して入力スピーチと
合成されたスピーチとの間の加重されたエラーを最小にするピッチフィルタパラ
メータを選択する“合成による解析”方法にしたがって選択される。

【００９２】図８は、ピッチ符号化モジュール702 をさらに詳細に示している。ピッチ符
号化モジュール702 は、知覚的加重フィルタ802 と、加算器804 および816 と、
加重されたＬＰＣ合成フィルタ806 および808 と、遅延および利得810 と、なら
びに最小平方和812 とを含んでいる。

【００９３】知覚加重フィルタ802 は元のスピーチと合成されたスピーチとの間のエラー
を知覚的に意味のある方法で加重するために使用される。知覚的加重フィルタは
、Ｗ（ｚ）＝Ａ（ｚ）／Ａ（ｚ／γ）という形態のものである。ここでＡ（ｚ）はＬＰＣ予測エラーフィルタであり、
γは０．８に等しいことが好ましい。加重されたＬＰＣ解析フィルタ806 は、初
期パラメータ計算モジュール202 により計算されたＬＰＣ係数を受取る。フィル
タ806 はａ_zir（ｎ）を出力し、これはＬＰＣ係数を与えられたゼロ入力応答特
性である。加算器804 は負の入力と濾波された入力信号を合計してターゲット信
号ｘ（ｎ）を形成する。

【００９４】遅延および利得810 は、所定のピッチ遅延Ｌおよびピッチ利得ｂに対して評
価されたピッチフィルタ出力ｂｐ_L（ｎ）を出力する。遅延および利得810 は前
のフレームｐ_c（ｎ）からの量子化された残留サンプルと、ｐ_o（ｎ）で与えら
れるピッチフィルタの将来の出力の推定値とを受取り、

【数３２】にしたがってｐ（ｎ）を形成する。これはその後Ｌ個のサンプルだけ遅延され、
ｂによりスケールされてｂｐ_L（ｎ）を形成する。Ｌｐはサブフレーム長（好ま
しくは４０個のサンプル）である。好ましい実施形態において、ピッチ遅延Ｌは
８ビットで表され、値２０．０，２０．５，２１．０，２１．５，…１２６．０
，１２６．５，１２７．０，１２７．５をとることができる。

【００９５】加重されたＬＰＣ解析フィルタ808 は、現在のＬＰＣ係数を使用してｂｐ_L
（ｎ）を濾波し、その結果ｂｙ_L（ｎ）が得られる。加算器816 は負の入力ｂｙ _L （ｎ）をｘ（ｎ）と合計し、その出力は最小平方和812 によって受取られる。
この最小平方和812 は、

【数３３】にしたがってＥ_pitch（Ｌ）を最小にするＬおよびｂの値としてＬ^*で示されて
いる最適なＬと、ｂ^*で示されている最適なｂとを選択する。

【００９６】

【数３４】Ｌの所定の値に対してＥ_pitch（Ｌ）を最小にするｂの値は、

【数３５】ここでＫは無視されることのできる定数である。

【００９７】Ｌおよびｂの最適値（Ｌ^*およびｂ^*）は、最初にＥ_pitch（Ｌ）を最小に
するＬの値を決定し、次にｂ^*を計算することにより見出されることができる。

【００９８】これらのピッチフィルタパラメータは、各サブフレームに対して計算され、
その後効率的な伝送のために量子化されることが好ましい。好ましい実施形態で
はｊ番目のサブフレームに対する伝送コードＰＬＡＧ_jおよびＰＧＡＩＮ_jは以
下のように計算される：

【数３６】その後ＰＧＡＩＮ_jは、ＰＬＡＧ_jが０に設定された場合には−１になるように
調節される。これらの伝送コードは、符号化されたスピーチ信号ｓ_enc（ｎ）の
一部分であるピッチフィルタパラメータとしてＣＥＬＰデコーダモード206 に伝
送される。

【００９９】［Ｂ．符号化コードブック］符号化コードブック704 はターゲット信号ｘ（ｎ）を受取り、ピッチフィルタ
パラメータと共に量子化された残留信号を再構成するためにＣＥＬＰデコーダモ
ード206 により使用される１組のコードブック励起パラメータを決定する。

【０１００】符号化コードブック704 は最初にｘ（ｎ）を次のように更新する：ｘ（ｎ）＝ｘ（ｎ）−ｙ_pzir（ｎ），０≦ｎ≦４０ここでｙ_pzir（ｎ）は、パラメータ＾Ｌ^*および＾ｂ^*（ならびに前のサブフレ
ームの処理の結果得られたメモリ）を有するピッチフィルタのゼロ入力応答特性
である入力への、加重されたＬＰＣ合成フィルタ（前のサブフレームの終わりか
ら保存されたメモリを有する）の出力である。

【０１０１】バックフィルタ処理されたターゲット↑ｄ＝｛ｄ_n｝，０≦ｎ＜４０は、↑
ｄ＝Ｈ^T↑ｘとして生成され、ここで

【数３７】は、インパルス応答特性｛ｈ_n｝および↑ｘ＝｛ｘ（ｎ）｝，０≦ｎ＜４０から
形成されたインパルス応答マトリクスである。その上、さらに２つのベクトル＾
φ＝｛φ_n｝および↑ｓが生成される。

【０１０２】

【数３８】

【０１０３】符号化コードブック704 は、以下のように値Ｅｘｙ^*およびＥyy^*をゼロに初
期化して好ましくはＮ（０，１，２，３）の４つの値に関して最適励起パラメー
タをサーチする。

【０１０４】

【数３９】

【数４０】

【０１０５】符号化コードブック704 は、コードブック利得Ｇ^*をＥｘｙ^*／Ｅｙｙ^*とし
て計算し、その後その励起パラメータセットをｊ番目のサブフレームに対して以
下の伝送コードにしたがって量子化する：

【数４１】および量子化された利得＾Ｇ^*は、

【数４２】

【０１０６】ピッチ符号化モジュール702 を除去し、コードブックサーチだけを行って４つ
の各サブフレームに対するインデックスＩおよび利得Ｇを決定することにより、
ＣＥＬＰエンコーダ／デコーダモードの低ビットレート形態が実現されることが
できる。当業者は、上述した考えがこの低ビットレート形態を達成するためにど
のように拡張されるかを認識するであろう。

【０１０７】［Ｃ．ＣＥＬＰデコーダ］ＣＥＬＰデコーダモード206 は、コードブック励起パラメータおよびピッチフ
ィルタパラメータを含んでいることが好ましい符号化されたスピーチ信号をＣＥ
ＬＰエンコーダモード204 から受取り、このデータに基づいて合成されたスピー
チ＾ｓ（ｎ）を出力する。復号コードブックモジュール708 はコードブック励起
パラメータを受取り、Ｇの利得を有する励起信号ｃｂ（ｎ）を発生する。ｊ番目
のサブフレームに対する励起信号ｃｂ（ｎ）は一般に、全ての値が

【数４３】となるように計算された利得Ｇによりスケールされ、Ｇｃｂ（ｎ）を供給する値
：Ｓ_k＝１−２ＳＩＧＮｊｋ，０≦ｋ＜５のインパルスを対応的に有する５つの位置：Ｉ_k＝５ＣＢＩｊｋ＋ｋ，０≦ｋ＜５を除いてゼロを含んでいる。

【０１０８】ピッチフィルタ710 は、受取られた伝送コードからピッチフィルタパラメー
タを以下の式にしたがって復号する：

【数４４】その後ピッチフィルタ710 はＧｃｂ（ｎ）を濾波し、ここにおいてそのフィルタ
は以下の式によって与えられる伝達関数を有する：

【数４５】

【０１０９】好ましい実施形態において、ＣＥＬＰデコーダモード206 はまた余分のピッチ
濾波動作であるピッチプレフィルタ（示されていない）をピッチフィルタ710 の
後に追加する。ピッチプレフィルタに対する遅延は、ピッチフィルタ710 の遅延
と同じであり、一方その利得は０．５の最大値までピッチ利得の半分であること
が好ましい。

【０１１０】ＬＰＣ合成フィルタ712 は再構成された量子化された残留信号＾ｒ（ｎ）を
受取り、合成されたスピーチ信号＾ｓ（ｎ）を出力する。

【０１１１】［Ｄ．フィルタ更新モジュール］フィルタ更新モジュール706 は、前のセクションにおいて説明したようにフィ
ルタメモリを更新するためにスピーチを合成する。フィルタ更新モジュール706
はコードブック励起パラメータおよびピッチフィルタパラメータを受取り、励起
信号ｃｂ（ｎ）およびピッチフィルタＧｃｂ（ｎ）を生成し、その後＾ｓ（ｎ）
を合成する。この合成をエンコーダにおいて行うことにより、ピッチフィルタお
よびＬＰＣ合成フィルタ中のメモリは、後続するサブフレームの処理時に使用さ
れるように更新される。

【０１１２】［VIII．原型ピッチ周期（ＰＰＰ）コーディングモード］原型ピッチ周期（ＰＰＰ）コーディングは、ＣＥＬＰコーディングを使用して
得られることのできる低ビットレートを達成するためにスピーチ信号の周期性を
使用する。一般に、ＰＰＰコーディングは、ここでは原型残留と呼ばれる残留信
号の代表的な周期を抽出し、その後その原型を使用して、現在のフレームの原型
残留と前のフレームからの類似のピッチ周期（すなわち、最後のフレームがＰＰ
Ｐであった場合は原型残留）との間で補間を行うことにより初期のピッチ周期を
フレーム中に構成することを含んでいる。ＰＰＰコーディングの効果（低くされ
たビットレートに関する）は部分的に、現在および前の原型残留がどの程度その
介在ピッチ周期に似ているかに依存する。この理由のために、ＰＰＰコーディン
グは、ここでは擬似周期スピーチ信号と呼ばれる比較的高度の周期性を示すスピ
ーチ信号（たとえば、発声されたスピーチ）に適用されることが好ましい。

【０１１３】図９には、ＰＰＰエンコーダモード204 およびＰＰＰデコーダモード206 が
さらに詳細に示されている。ＰＰＰエンコーダモード204 は抽出モジュール904
と、回転コリレータ906 と、符号化コードブック908 と、およびフィルタ更新モ
ジュール910 とを含んでいる。ＰＰＰエンコーダモード204 は残留信号ｒ（ｎ）
を受取り、符号化されたスピーチ信号ｓ_enc（ｎ）を出力し、これはコードブッ
クパラメータおよび回転パラメータを含んでいることが好ましい。ＰＰＰデコー
ダモード206 はコードブックデコーダ912 と、回転子914 と、加算器916 と、周
期インターポレータ920 と、およびワープフィルタ918 とを含んでいる。

【０１１４】図１０は、符号化および復号を含むＰＰＰコーディングのステップを示すフ
ローチャート1000である。これらのステップをＰＰＰエンコーダモード204 およ
びＰＰＰデコーダモード206 の種々のコンポーネントと共に説明する。

【０１１５】［Ａ．抽出モジュール］ステップ1002において、抽出モジュール904 は残留信号ｒ（ｎ）から原型残留
ｒ_p（ｎ）を抽出する。上記のセクションIII ．Ｆで述べたように、初期パラメ
ータ計算モジュール202 は、各フレームに対するｒ（ｎ）を計算するためにＬＰ
Ｃ解析フィルタを使用する。好ましい実施形態においては、このフィルタ中のＬ
ＰＣ係数はセクションVII ．Ａにおいて説明されているように知覚的に加重され
る。ｒ_p（ｎ）の長さは、現在のフレームの中の最後のサブフレーム中に初期パ
ラメータ計算モジュール202 によって計算されたピッチ遅延Ｌに等しい。

【０１１６】図１１は、ステップ1002をさらに詳細に示すフローチャートである。ＰＰＰ
抽出モジュール904 は、以下に説明する制限の下でフレームの終わりに可能な限
り近接したピッチ周期を選択することが好ましい。図１２は、擬似周期スピーチ
に基づいて計算された、現在のフレームと前のフレームからの最後のサブフレー
ムとを含む残留信号の一例を示している。

【０１１７】ステップ1102において、“カットフリー領域”が決定される。カットフリー
領域は、原型残留の終点になることのできない残留の中の１組のサンプルを規定
する。このカットフリー領域は、残留の高エネルギ領域が原型の始めと終わりに
生じないことを確実にする（この生成が許されたならば、出力において不連続性
が生じる可能性が高い）。ｒ（ｎ）の最後のＬ個のサンプルのそれぞれの絶対値
が計算される。変数Ｐ_Sは、ここでは“ピッチスパイク”と呼ばれる最も大きい
絶対値を有するサンプルの時間インデックスに等しく設定される。たとえば、ピ
ッチスパイクが最後のＬ個のサンプルの最後のサンプルで発生したならば、Ｐ_S ＝Ｌ−１である。好ましい実施形態において、カットフリー領域の最小サンプル
ＧＦ_minは、Ｐ_S−６またはＰ_S−０．２５Ｌの小さいほうであるように設定さ
れる。カットフリー領域の最大のものＣＦ_maxは、Ｐ_S＋６またはＰ_S＋０．２
５Ｌの大きいほうであるように設定される。

【０１１８】ステップ1104において、原型残留はＬ個のサンプルを残留から切断すること
により選択される。選択された領域は、その領域の終点がカットフリー領域内に
あってはならないという制限の下でフレームの終わりに可能な限り近接している
。原型残留のＬ個のサンプルは、以下の擬似コードで記述されたアルゴリズムを
使用して決定される：

【数４６】

【０１１９】［Ｂ．回転コリレータ］再び図１０を参照すると、ステップ1004において回転コリレータ906 は、現在
の原型残留ｒ_p（ｎ）と、前のフレームからの原型残留ｒ_prev（ｎ）とに基づい
て１組の回転パラメータを計算する。これらのパラメータは、ｒ_prev（ｎ）がｒ _p （ｎ）の予測子として使用されるためにどのように回転され、スケールされる
のが一番よいかを記述している。好ましい実施形態において、回転パラメータの
セットは、最適回転Ｒ^*と最適利得ｂ^*とを含んでいる。図１３は、ステップ10
04をさらに詳細に示すフローチャートである。

【０１２０】ステップ1302において、知覚的に加重されたターゲット信号ｘ（ｎ）は原型
ピッチ残留周期ｒ_p（ｎ）を循環的に濾波することにより計算される。これは次
のように行われる。一時的信号ｔｍｐ１（ｎ）は、

【数４７】のようにｒ_p（ｎ）から生成され、これはゼロメモリを有する加重されたＬＰＣ
合成フィルタによって濾波され、出力ｔｍｐ２（ｎ）を供給する。好ましい実施
形態では、使用されるＬＰＣ係数は、現在のフレームの中の最後のサブフレーム
に対応した知覚的に加重された係数である。したがってターゲット信号ｘ（ｎ）
は、ｘ（ｎ）＝ｔｍｐ２（ｎ）＋ｔｍｐ２（ｎ＋Ｌ），０≦ｎ＜Ｌによって与えられる。

【０１２１】ステップ1304において、前のフレームからの原型残留ｒ_prev（ｎ）は、前の
フレームの量子化されたホルマント残留（これもまたピッチフィルタのメモリ内
に存在する）から抽出される。前の原型残留は前のフレームのホルマント残留の
最後のＬ_p値として規定されることが好ましく、ここでＬ_pは、前のフレームが
ＰＰＰフレームでなかった場合はＬに等しく、その他の場合には前のピッチ遅延
に設定される。

【０１２２】ステップ1306において、相関が正しく計算できるように、ｒ_prev（ｎ）の長
さがｘ（ｎ）と同じ長さのものとなるように変更される。サンプリングされた信
号の長さを変更するこの技術をここではワープと呼んでいる。ワープされたピッ
チ励起信号ｒｗ_prev（ｎ）は、ｒｗ_prev（ｎ）＝ｒ_prev（ｎ^*ＴＷＦ），０≦ｎ＜Ｌとして表されることができ、ここでＴＷＦは時間ワープ係数Ｌ_p／Ｌである。非
整数点におけるサンプル値ｎ^*ＴＷＦは、１組のｓｉｎｃ関数テーブルを使用し
て計算されることが好ましい。選択されたｓｉｎｃシーケンスは、ｓｉｎｃ（−
３−Ｆ：４−Ｆ）であり、ここでＦは１／８の最も近い倍数に丸められたｎ^*Ｔ
ＷＦの端数部分である。このシーケンスの始めは、ｒ_prev（（Ｎ−３）％Ｌ_p）
と整列され、ここでＮは最も近い１／８に丸められた後のｎ^*ＴＷＦの整数部分
である。

【０１２３】ステップ1308において、ワープされたピッチ励起信号ｒｗ_prev（ｎ）は循環
的に濾波され、その結果ｙ（ｎ）が生成される。この動作はステップ1302に関し
て上述したものと同じであるが、ｒｗ_prev（ｎ）に適用される。

【０１２４】ステップ1310において、ピッチ回転サーチ範囲は最初に期待される回転Ｅ_rot を計算することにより計算される：

【数４８】ここで、ｆｒａｃ（ｘ）はｘの端数部分を示す。Ｌ＜８０ならば、ピッチ回転サ
ーチ範囲は｛Ｅ_rot−８，Ｅ_rot−７．５，…Ｅ_rot＋７．５｝であるように規
定され、またＬ≧８０ならば｛Ｅ_rot−１６，Ｅ_rot−１５，…Ｅ_rot＋１５｝
であるように規定される。

【０１２５】ステップ1312において、回転パラメータ、最適回転Ｒ^*および最適利得ｂ^*
が計算される。ピッチ回転は結果的にｘ（ｎ）とｙ（ｎ）との間における最良の
予測を生むものであるが、このピッチ回転は対応した利得ｂと共に選択される。
これらのパラメータは、エラー信号ｅ（ｎ）＝ｘ（ｎ）−ｙ（ｎ）を最小にする
ように選択されることが好ましい。最適回転Ｒ^*および最適利得ｂ^*は、結果的
にＥｘｙ² _R／Ｅｙｙの最大値を生じさせる回転Ｒおよび利得ｂの値であり、こ
こで、

【数４９】これらに対して最適利得ｂ^*は回転Ｒ^*において

【数５０】である。回転の端数値に対して、Ｅｘｙ_Rの値は、回転の整数値で計算されたＥ
ｘｙ_R値を補間することによって近似される。簡単な４タップ補間フィルタが使
用される。たとえば、

【数５１】ここでＲは非整数回転（０．５の精度による）であり、

【数５２】

【０１２６】好ましい実施形態において、回転パラメータは効率的な伝送のために量子化さ
れる。最適利得ｂ^*は、

【数５３】のように０．０６２５と４．０との間で均一に量子化されることが好ましく、Ｐ
ＧＡＩＮは伝送コードであり、量子化された利得＾ｂ^*は

【数５４】によって与えられる。最適回転Ｒ^*は、Ｌ＜８０の場合は２（Ｒ^*−Ｅ_rot＋８
）に設定され、Ｌ≧８０の場合にはＲ^*−Ｅ_rot＋１６に設定される伝送コード
ＰＲＯＴとして量子化される。

【０１２７】［Ｃ．符号化コードブック］再び図１０を参照すると、ステップ1006において、符号化コードブック908 は
受取られたターゲット信号ｘ（ｎ）に基づいて１組のコードブックパラメータを
発生する。符号化コードブック908 は、スケールされて加算され濾波されたとき
に合計するとｘ（ｎ）に近似した信号となる１以上のコードベクトルを見出そう
とする。好ましい実施形態では、符号化コードブック908 は、各ステージがスケ
ールされたコードベクトルを生成する好ましくは３つのステージの、マルチステ
ージコードブックとして構成される。したがって、コードブックパラメータのセ
ットは、３つのコードベクトルに対応したインデックスおよび利得を含んでいる
。図１４はステップ1006をさらに詳細に示すフローチャートである。

【０１２８】ステップ1402において、コードブックサーチが行われる前に、ターゲット信
号ｘ（ｎ）は、ｘ（ｎ）＝ｘ（ｎ）−ｂｙ（（ｎ−Ｒ^*）％Ｌ），０≦ｎ＜Ｌのように更新される。

【０１２９】上記の減算において回転Ｒ^*が非整数である（すなわち、０．５の端数を有
する）場合、

【数５５】

【０１３０】ステップ1404において、コードブック値は多数の領域に区分される。好ましい
実施形態によると、コードブックは

【数５６】のように決定される。ここで、ＣＢＰは確率または訓練されたコードブックの値
である。当業者は、これらのコードブック値がどのように生成されるかを認識す
るであろう。コードブックは長さＬをそれぞれ有する多数の領域に分割される。
第１の領域は単一パルスであり、残りの領域は確率または訓練されたコードブッ
クからの値から形成されている。領域の数Ｎは、

【数５７】となる。

【０１３１】ステップ1406において、コードブックの多数の領域はそれぞれ循環的に濾波
され、濾波されたコードブックｙ_reg（ｎ）を生成し、その連結が信号ｙ（ｎ）
である。各領域に対して、循環的濾波が上述したようにステップ1302に関して行
われる。

【０１３２】ステップ1408において、濾波されたコードブックエネルギＥｙｙ（ｒｅｇ）
は各領域に対して計算され、記憶される：

【数５８】

【０１３３】ステップ1410において、マルチステージコードブックの各ステージに対するコ
ードブックパラメータ（すなわち、コードベクトルインデックスおよび利得）が
計算される。好ましい実施形態によると、Ｒｅｇｉｏｎ（Ｉ）＝ｒｅｇをサンプ
ルＩが存在する領域と定義し、すなわち、

【数５９】また、Ｅｘｙ（Ｉ）を

【数６０】と定義する。

【０１３４】ｊ番目のコードブックステージに対するコードブックパラメータＩ^*とＧ^*
は以下の擬似コードを使用して計算される：

【数６１】

【０１３５】好ましい実施形態によると、コードブックパラメータは効率的な伝送のために
量子化される。伝送コードＣＢＩｊ（ｊ＝ステージ番号−０，１または２）はＩ ^* に設定されることが好ましく、伝送コードＣＢＧｊおよびＳＩＧＮｊは利得Ｇ ^* を量子化することより設定される。

【０１３６】

【数６２】また、量子化された利得＾Ｇ^*は、

【数６３】

【０１３７】その後、ターゲット信号ｘ（ｎ）は現在のステージのコードブックベクトルの
影響を減算することにより更新される。

【０１３８】

【数６４】

【０１３９】第２および第３のステージに対して、Ｉ^*，Ｇ^*および対応した伝送コードを
計算するために擬似コードから始まる上記の工程が繰り返される。

【０１４０】［Ｄ．フィルタ更新モジュール］再び図１０を参照すると、ステップ1008において、フィルタ更新モジュール91
0 はＰＰＰエンコーダモード204 により使用されたフィルタを更新する。図１５
Ａおよび１６Ａに示されているように、フィルタ更新モジュール910 として２つ
の別の実施形態が与えられている。図１５Ａの第１の別の実施形態で示されてい
るように、フィルタ更新モジュール910 は復号コードブック1502と、回転子1504
と、ワープフィルタ1506と、加算器1510と、整列および補間モジュール1508と、
更新ピッチフィルタモジュール1512と、およびＬＰＣ合成フィルタ1514とを含ん
でいる。図１６Ａに示されている第２の実施形態は、復号コードブック1602と、
回転子1604と、ワープフィルタ1606と、加算器1608と、更新ピッチフィルタモジ
ュール1610と、循環ＬＰＣ合成フィルタ1612と、および更新ＬＰＣフィルタモジ
ュール1614とを含んでいる。図１７および１８は、この２つの実施形態によるス
テップ1008をさらに詳細に示すフローチャートである。

【０１４１】ステップ1702（および1802：両実施形態の第１のステップ）において、その
長さがＬ個のサンプルである現在の再構成された原型残留ｒ_curr（ｎ）が、コー
ドブックパラメータと回転パラメータとから再構成される。好ましい実施形態に
おいて、回転子1504（および1604）は、ｒ_curr（（ｎ＋Ｒ^*）％Ｌ）＝ｂｒｗ_prev（ｎ），０≦ｎ＜Ｌにしたがって前の原型残留のワープされた形態を回転させる。ここでｒ_currは生
成されるべき現在の原型であり、ｒｗ_prevはピッチフィルタメモリの最も新しい
Ｌ個のサンプルから得られた前の周期のワープされた（上記のセクションVIII．
Ａで述べたように、ＴＷＦ＝Ｌ_p／Ｌにより）形態であり、ｂおよびＲはそれぞ
れパケット伝送コード：

【数６５】から得られたピッチ利得および回転である。ここで、Ｅ_rotは上記のセクション
VIII．Ｂで述べたように計算された期待された回転である。

【０１４２】復号コードブック1502（および1602）は以下のように３つの各コードブック
ステージに対する影響をｒ_curr（ｎ）に加算する：

【数６６】ここでＩ＝ＣＢＩｊであり、Ｇは前のセクションで説明したようにＣＢＧｊお
よびＳＩＧＮｊから得られ、ｊはステージ番号である。

【０１４３】この点で、フィルタ更新モジュール910 に対する２つの別の実施形態は異な
っている。最初に図１５Ａの実施形態を参照すると、ステップ1704において整列
および補間モジュール1508が現在のフレームの始めから現在の原型残留の始め（
図１２に示されている）までの残留サンプルの残りのものを充填する。ここで、
残留信号に関して整列および補間が行われる。しかしながら、以下説明するよう
に、これら同じ動作はスピーチ信号に関して行われることもできる。図１９はス
テップ1704をさらに詳細に示すフローチャートである。

【０１４４】ステップ1902において、前の遅延Ｌ_pが現在の遅延Ｌの２倍であるか、ある
いは１／２であるかが決定される。好ましい実施形態では、その他の倍数はあま
りありそうもないと考えられ、したがって考慮されない。Ｌ_p＞１．８５Ｌなら
ば、Ｌ_pは半分にされ、前の周期ｒ_prev（ｎ）の第１の半分だけが使用される。
Ｌ_p＜０．５４Ｌならば、現在の遅延Ｌはおそらく２倍であり、結果的にＬ_pも
また２倍にされ、前の周期ｒ_prev（ｎ）は繰返しにより拡張される。

【０１４５】ステップ1904において、両原型残留の長さが同じになるようにｒ_prev（ｎ）
がワープされて、ステップ1306に関して上述したようにＴＷＦ＝Ｌ_p／Ｌにより
ｒｗ_prev（ｎ）を形成する。この動作は、フィルタ1506をワープすることによっ
て、上述したようにステップ1702において行われたことに注意しなければならな
い。当業者は、ワープフィルタ1506の出力が整列および補間モジュール1508に利
用できる場合には、ステップ1904が不要になることを認識するであろう。

【０１４６】ステップ1906において、利用可能な範囲の整列回転が計算される。期待され
た整列回転Ｅ_Aが計算され、それは上記のセクションVIII．Ｂで述べたＥ_rotと
同じである。整列回転サーチ範囲は｛Ｅ_A−δＡ，Ｅ_A−δＡ＋０．５，Ｅ_A−
δＡ＋１，…，Ｅ_A＋δＡ−１．５，Ｅ_A＋δＡ−１｝であるように規定され、
ここでδＡ＝ｍａｘ｛６，０．１５Ｌ｝である。

【０１４７】ステップ1908において、整数整列回転Ｒに対する前の原型周期と現在の原型
周期との間の相互相関は、

【数６７】として計算され、非整数回転Ａに対する相互相関は、整数回転での相互相関の値
を補間することによって近似される：

【数６８】ここでＡ´＝Ａ−０．５である。

【０１４８】ステップ1910において、結果的にＣ（Ａ）の最大値になるＡの値（許容可能
な回転の範囲に対する）は最適整列Ａ^*として選択される。

【０１４９】ステップ1912において、中間のサンプルＬ_avに対する平均遅延またはピッチ
周期が以下のようにして計算される。周期数推定値Ｎ_perは、

【数６９】により与えられる中間サンプルに対する平均遅延により、

【数７０】として計算される。

【０１５０】ステップ1914において、前の原型残留と現在の原型残留との間における以下
の補間にしたがって現在のフレーム中の残りの残留サンプルが計算される：

【数７１】ここでα＝Ｌ／Ｌ_avである。非整数点：

【数７２】におけるサンプル値（ｎαまたはｎα＋Ａ^*のいずれかに等しい）は１組のｓｉ
ｎｃ関数テーブルを使用して計算される。選択されたｓｉｎｃシーケンスはｓｉ
ｎｃ（−３−Ｆ：４−Ｆ）であり、ここでＦは、１／８の最も近い倍数に丸めら
れた

【数７３】の端数部分である。このシーケンスの始めはｒ_prev（（Ｎ−３）％Ｌ_p）と整列
され、ここでＮは、最も近い１／８に丸められた後の

【数７４】の整数部分である。

【０１５１】この動作は本質的にステップ1306に関して上述したワープと同じであること
を認識すべきである。したがって、別の実施形態では、ステップ1914の補間はワ
ープフィルタを使用して計算される。当業者は、ここに示されている種々の目的
に対して単一のワープフィルタを再使用することが経済的に構成できることを認
識するであろう。

【０１５２】図１７を参照すると、ステップ1706において、更新ピッチフィルタモジュー
ル1512が再構成された残留＾ｒ（ｎ）からの値をピッチフィルタメモリにコピー
する。同様に、ピッチフィルタのメモリもまた更新される。

【０１５３】ステップ1708において、ＬＰＣ合成フィルタ1514は再構成された残留＾ｒ（
ｎ）を濾波し、この再構成された残留＾ｒ（ｎ）はＬＰＣ合成フィルタのメモリ
の更新に影響を与える。

【０１５４】以下、図１６Ａに示されているフィルタ更新モジュール910 の第２の実施形
態について説明する。ステップ1702に関して上述したように、ステップ1802にお
いて原型残留がコードブックおよび回転パラメータから再構成され、その結果ｒ _curr （ｎ）が得られる。

【０１５５】ステップ1804において、更新ピッチフィルタモジュール1610は、

【数７５】にしたがってｒ_curr（ｎ）からＬ個のサンプルの複製をコピーすることによって
ピッチフィルタメモリを更新する。ここで、１３１は１２７．５の最大遅延に対
するピッチフィルタの次数であることが好ましい。好ましい実施形態において、
ピッチフィルタのメモリは現在の周期ｒ_curr（ｎ）の複製によって等しく置換さ
れる：

【数７６】

【０１５６】ステップ1806において、ｒ_curr（ｎ）は、好ましくは知覚的に加重されたＬＰ
Ｃ係数を使用してセクションVIII．Ｂで述べたように循環的に濾波され、結果的
にｓ_c（ｎ）を生成する。

【０１５７】ステップ1808において、ｓ_c（ｎ）からの値は最後の１０個の値（１０次の
ＬＰＣフィルタに対して）であることが好ましく、ＬＰＣ合成フィルタのメモリ
を更新するために使用される。

【０１５８】［Ｅ．ＰＰＰデコーダ］図９および１０を参照すると、ステップ1010においてＰＰＰデコーダモード20
6 は、受取られたコードブックおよび回転パラメータに基づいて原型残留ｒ_curr （ｎ）を再構成する。復号コードブック912 、回転子914 およびワープフィルタ
918 は、前のセクションで述べたように動作する。周期インターポレータ920 は
再構成された原型残留ｒ_curr（ｎ）と、前の再構成された原型残留ｒ_prev（ｎ）
を受取り、２つの原型の間のサンプルを補間し、合成されたスピーチ信号＾ｓ（
ｎ）を出力する。次のセクションにおいて周期インターポレータ920 を説明する
。

【０１５９】［Ｆ．周期インターポレータ］ステップ1012において周期インターポレータ920 はｒ_curr（ｎ）を受取り、合
成されたスピーチ信号＾ｓ（ｎ）を出力する。周期インターポレータ920 に対す
る２つの別の実施形態は、ここでは図１５Ｂおよび１６Ｂに示されている。図１
５Ｂの第１の別の実施形態において、周期インターポレータ920 は、整列および
補間モジュール1516と、ＬＰＣ合成フィルタ1518と、および更新ピッチフィルタ
モジュール1520とを含んでいる。図１６Ｂに示されている第２の別の実施形態の
ものは、循環ＬＰＣ合成フィルタ1616と、整列および補間モジュール1618と、更
新ピッチフィルタモジュール1622と、および更新ＬＰＣフィルタモジュール1620
とを含んでいる。図２０および２１はこれら２つの実施形態によるステップ1012
をさらに詳細に示すフローチャートである。

【０１６０】図１５Ｂを参照すると、ステップ2002において整列および補間モジュール151
6は現在の残留原型ｒ_curr（ｎ）と前の残留原型ｒ_prev（ｎ）との間のサンプル
に対して残留信号を再構成して＾ｒ（ｎ）を形成する。整列および補間モジュー
ル1516は、ステップ1704に関して上述したように（図１９に示されているように
）動作する。

【０１６１】ステップ2004において、更新ピッチフィルタモジュール1520は、ステップ170
6に関して上述したように、再構成された残留信号＾ｒ（ｎ）に基づいてピッチ
フィルタメモリを更新する。

【０１６２】ステップ2006において、ＬＰＣ合成フィルタ1518は、再構成された残留信号
＾ｒ（ｎ）に基づいて出力スピーチ信号＾ｓ（ｎ）を合成する。ＬＰＣフィルタ
メモリは、この動作が行われたときに自動的に更新される。

【０１６３】図１６Ｂおよび２１を参照すると、ステップ2102において更新ピッチフィル
タモジュール1622は、ステップ1804に関して上述したように、再構成された現在
の残留原型ｒ_curr（ｎ）に基づいてピッチフィルタメモリを更新する。

【０１６４】ステップ2104において、循環ＬＰＣ合成フィルタ1616は、上記のセクションV
III．Ｂで述べたように、ｒ_curr（ｎ）を受取って現在のスピーチ原型ｓ_c（ｎ
）（その長さがＬ個のサンプルである）を合成する。

【０１６５】ステップ2106において、更新ＬＰＣフィルタモジュール1620は、ステップ180
8に関して上述したようにＬＰＣフィルタメモリを更新する。

【０１６６】ステップ2108において、整列および補間モジュール1618は、前の原型周期と
現在の原型周期との間のスピーチサンプルを再構成する。前の原型残留ｒ_prev（
ｎ）は、補間がスピーチドメインにおいて進行するように循環的に濾波される（
ＬＰＣ合成装置において）。整列および補間モジュール1618はステップ1704に関
して上述したように動作する（図１９参照）が、この動作は、残留原型ではなく
スピーチ原型に関して行われる。整列および補間の結果、合成されたスピーチ信
号＾ｓ（ｎ）が得られる。

【０１６７】［IX．雑音励起線形予測（ＮＥＬＰ）コーディングモード］雑音励起線形予測（ＮＥＬＰ）コーディングはスピーチ信号を擬似ランダム雑
音シーケンスとしてモデル化し、それによってＣＥＬＰまたはＰＰＰコーディン
グのいずれを使用して得られるより低いビットレートを達成する。ＮＥＬＰコー
ディングは、スピーチ信号が無声スピーチまたは背景雑音のようなピッチ構造を
ほとんど、あるいは全く有しない場合、信号再生に関して最も効率的に動作する
。

【０１６８】図２２は、ＮＥＬＰエンコーダモード204 およびＮＥＬＰデコーダモード206
をさらに詳細に示している。ＮＥＬＰエンコーダモード204 は、エネルギ評価
装置2202および符号化コードブック2204を含んでいる。ＮＥＬＰデコーダモード
206 は復号コードブック2206と、ランダム数発生器と、乗算器2212と、およびＬ
ＰＣ合成フィルタ2208とを含んでいる。

【０１６９】図２３は、符号化および復号を含むＮＥＬＰコーディングのステップを示す
フローチャート2300である。これらのステップを、ＮＥＬＰエンコーダモード20
4 およびＮＥＬＰデコーダモード206 の種々のコンポーネントと共に説明する。

【０１７０】ステップ2302において、エネルギ評価装置2202は、以下のように４つのサブ
フレームのそれぞれに対する残留信号のエネルギを計算する：

【数７７】

【０１７１】ステップ2304において、符号化コードブック2204は１組のコードブックパラメ
ータを計算し、符号化されたスピーチ信号ｓ_enc（ｎ）を形成する。好ましい実
施形態において、この１組のコードブックパラメータは単一のパラメータである
インデックスＩ０を含んでいる。インデックスＩ０は、

【数７８】を最小にするｊの値に等しく設定される。コードブックベクトルＳＦＥＱは、サ
ブフレームエネルギＥｓｆ_iを量子化するために使用され、フレーム内のサブフ
レームの数に等しい数の構成要素（すなわち、好ましい実施形態では４つ）を含
んでいる。これらのコードブックベクトルは、確率または訓練されたコードブッ
クを生成するための、当業者に知られている標準的な技術にしたがって生成され
ることが好ましい。

【０１７２】ステップ2306において、復号コードブック2206は受取られたコードブックパ
ラメータを復号する。好ましい実施形態では、サブフレームＧ_iのセットは、

【数７９】にしたがって復号される。ここで、０≦ｉ＜４であり、Ｇprevは前のフレームの
最後のサブフレームに対応したコードブック励起利得である。

【０１７３】ステップ2308において、ランダム数発生器2210は単位分散ランダムベクトル
ｎｚ（ｎ）を発生する。このランダムベクトルはステップ2310で各サブフレーム
内の適切な利得Ｇ_iによってスケールされ、励起信号Ｇ_iｎｚ（ｎ）を生成する
。

【０１７４】ステップ2312において、ＬＰＣ合成フィルタ2208は励起信号Ｇ_iｎｚ（ｎ）
を濾波して出力スピーチ信号＾ｓ（ｎ）を形成する。

【０１７５】好ましい実施形態において、最も新しい非ゼロレートＮＥＬＰサブフレーム
から得られた利得Ｇ_iおよびＬＰＣパラメータが現在のフレーム中の各サブフレ
ームに対して使用される場合、ゼロレートモードもまた使用される。当業者は、
多数のＮＥＬＰフレームが連続的に発生した場合に、このゼロレートモードが実
効的に使用されることができることを認識するであろう。

【０１７６】［Ｘ．結論］上記において本発明の種々の実施形態を説明してきたが、それらは単なる例示
として与えられたに過ぎず、何等本発明に制限を課すものではないことを理解す
べきである。したがって、本発明の技術的範囲は上記に示されている例示的な実
施形態のいずれの制限も受けず、添付された請求の範囲およびその等価なものに
よってのみ規定される。

【０１７７】好ましい実施形態の上記の説明は、当業者が本発明を形成または使用できる
ようにするために与えられている。本発明はとくにその好ましい実施形態を参照
して図示および説明されているが、当業者は、本発明の技術的範囲を逸脱するこ
となく形態および詳細の種々の変更を行うことが可能であることを理解するであ
ろう。

【図面の簡単な説明】

【図１】信号伝送環境を示す概略図。

【図２】エンコーダ102 およびデコーダ104 を示すさらに詳細な概略図。

【図３】本発明による可変レートスピーチコーディングを示すフローチャート。

【図４Ａ】サブフレームに分割された発声されたスピーチのフレームを示す概略図。

【図４Ｂ】サブフレームに分割された無声スピーチのフレームを示す概略図。

【図４Ｃ】サブフレームに分割された過渡スピーチのフレームを示す概略図。

【図５】初期パラメータの計算を示すフローチャート。

【図６】アクティブまたは非アクティブとしてスピーチを分類することを示すフローチ
ャート。

【図７Ａ】ＣＥＬＰエンコーダを示す概略図。

【図７Ｂ】ＣＥＬＰデコーダを示す概略図。

【図８】ピッチフィルタモジュールを示す概略図。

【図９Ａ】ＰＰＰエンコーダを示す概略図。

【図９Ｂ】ＰＰＰデコーダを示す概略図。

【図１０】符号化およびデコードを含むＰＰＰコーディングのステップを示すフローチャ
ート。

【図１１】原型残留周期の抽出を示すフローチャート。

【図１２】残留信号の現在のフレームから抽出された原型残留周期と、前のフレームから
抽出された原型残留周期とを示す概略図。

【図１３】回転パラメータの計算を示すフローチャート。

【図１４】符号化コードブックの動作を示すフローチャート。

【図１５Ａ】第１のフィルタ更新モジュールの実施形態を示す概略図。

【図１５Ｂ】第１の周期インターポレータモジュール形態を示す概略図。

【図１６Ａ】第２のフィルタ更新モジュール形態を示す概略図。

【図１６Ｂ】第２の周期インターポレータモジュール形態を示す概略図。

【図１７】第１のフィルタ更新モジュール形態の動作を示すフローチャート。

【図１８】第２のフィルタ更新モジュールの実施形態の動作を示すフローチャート。

【図１９】原型残留周期の整列および補間を示すフローチャート。

【図２０】第１の実施形態による原型残留周期に基づくスピーチ信号の再構成を示すフロ
ーチャート。

【図２１】第２の実施形態による原型残留周期に基づくスピーチ信号の再構成を示すフロ
ーチャート。

【図２２Ａ】ＮＥＬＰエンコーダを示す概略図。

【図２２Ｂ】ＮＥＬＰデコーダを示す概略図。

【図２３】ＮＥＬＰコーディングを示すフローチャート。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ガードナー、ウイリアムアメリカ合衆国、カリフォルニア州 92130 サン・ディエゴ、カーウッド・コート 4232 Ｆターム(参考） 5D045 CA01 CB01 CC02 DA02 DA11 5J064 BA13 BB03 BB04 BC01 BC02 BC11 BC25 【要約の続き】合成する。

Claims

【特許請求の範囲】

【請求項１】線形予測コーディング（ＬＰＣ）解析フィルタによりスピー
チ信号を濾波することにより発生された残留信号によってスピーチ信号が表され
、残留信号がデータのフレームに分割される擬似周期スピーチ信号のコーディン
グ方法において、（ａ）残留信号の現在のフレームから現在の原型を抽出し、（ｂ）修正された前の原型が現在の原型に近似するように前記前の原型をどの
ように修正すべきかを記述する第１の組のパラメータを計算し、（ｃ）１以上のコードベクトルを第１のコードブックから選択し、前記コード
ベクトルは加算されたときに前記現在の原型と前記修正された前の原型との間の
差に近似し、前記コードベクトルは第２の組のパラメータによって記述され、（ｄ）前記第１および第２の組のパラメータに基づいて現在の原型を再構成し
、（ｅ）前記現在の再構成された原型と前の再構成された原型との間の領域にわ
たって残留信号を補間し、（ｆ）前記補間された残留信号に基づいて出力スピーチ信号を合成するステッ
プを含んでいる方法。
【請求項２】前記現在のフレームはピッチ遅延を有し、前記現在の原型の
長さは前記ピッチ遅延に等しい請求項１記載の方法。
【請求項３】現在の原型を抽出する前記ステップは“カットフリー領域”
を条件とする請求項１記載の方法。
【請求項４】前記現在の原型は、前記カットフリー領域を条件として前記
現在のフレームの終わりから抽出される請求項３記載の方法。
【請求項５】第１の組のパラメータを計算する前記ステップは、（ｉ）前記現在の原型を循環的に濾波し、ターゲット信号を形成し、（ii）前記前の原型を抽出し、 (iii)前記前の原型の長さが前記現在の原型の長さに等しくなるように前記前
の原型をワープし、（iV）前記ワープされた前の原型を循環的に濾波し、（ｖ）最適回転および第１の最適利得を計算するステップを含み、前記濾波さ
れたワープされた前の原型は前記最適回転だけ回転されて前記第１の最適利得に
よりスケールされ、前記ターゲット信号にもっともよく近似している請求項１記
載の方法。
【請求項６】最適回転および第１の最適利得を計算する前記ステップは、
ピッチ回転サーチ範囲を条件として行われる請求項５記載の方法。
【請求項７】最適回転および第１の最適利得を計算する前記ステップは、
前記濾波されたワープされた前の原型と前記ターゲット信号との間の平均２乗差
を最小にする請求項５記載の方法。
【請求項８】前記第１のコードブックは１以上のステージを含んでおり、
１以上のコードベクトルを選択する前記ステップは、（ｉ）前記最適回転だけ回転されて前記第１の最適利得によってスケールされ
た前記濾波されたワープされた前の原型を減算することにより前記ターゲット信
号を更新し、（ii）前記第１のコードブックを複数の領域に分割し、前記各領域がコードベ
クトルを形成し、 (iii)前記各コードベクトルを循環的に濾波し、（iv）前記更新されたターゲット信号に最もぴったり近似している前記濾波さ
れたコードベクトルの１つを選択し、前記特定のコードベクトルが最適インデッ
クスによって記述され、（ｖ）前記更新されたターゲット信号と前記選択された濾波されたコードベク
トルとの間の相関に基づいて第２の最適利得を計算し、 (vi)前記第２の最適利得によってスケールされた前記選択された濾波されたコ
ードベクトルを減算することによって前記ターゲット信号を更新し、 (vii) 前記第１のコードブック中の前記ステージのそれぞれに対して前記ステ
ップ（iv）−(vi)を繰り返し、前記第２の組のパラメータが前記ステージのそれ
ぞれに対する前記最適インデックスおよび前記第２の最適利得を含んでいるステ
ップを含んでいる請求項５記載の方法。
【請求項９】現在の原型を再構成する前記ステップは、（ｉ）前の再構成された原型の長さが前記現在の再構成された原型の長さに等
しくなるように前記前の再構成された原型をワープし、（ii）前記ワープされた前の再構成された原型を前記最適回転だけ回転して前
記第１の最適利得により調整し、それによって前記現在の再構成された原型を形
成し、 (iii)第２のコードベクトルを第２のコードブックから検索し、前記第２のコ
ードベクトルが前記最適インデックスによって識別され、前記第２のコードブッ
クが前記第１のコードブックに等しい数のステージを含んでおり、（iv）前記第２の最適利得によって前記第２のコードベクトルを調整し、（ｖ）前記調整された第２のコードベクトルを前記現在の再構成された原型に
加算し、（vi）前記第２のコードブックの中の前記ステージのそれぞれに対して前記ス
テップ(iii) −（ｖ）を繰り返すステップを含んでいる請求項８記載の方法。
【請求項１０】残留信号を補間する前記ステップは、（ｉ）前記ワープされた前の再構成された原型と前記現在の再構成された原型
との間の最適整列を計算し、（ii）前記ワープされた前の再構成された原型と前記現在の再構成された原型
との間の平均遅延を前記最適整列に基づいて計算し、 (iii)前記ワープされた前の再構成された原型と前記現在の再構成された原型
とを補間し、それによって前記ワープされた前の再構成された原型と前記現在の
再構成された原型との間の領域にわたって残留信号を形成し、前記補間された残
留信号が前記平均遅延を有しているステップを含んでいる請求項９記載の方法。
【請求項１１】出力スピーチ信号を合成する前記ステップは、前記補間さ
れた残留信号をＬＰＣ合成フィルタで濾波するステップを含んでいる請求項１０
記載の方法。
【請求項１２】線形予測コーディング（ＬＰＣ）解析フィルタによりスピ
ーチ信号を濾波することにより発生された残留信号によってスピーチ信号が表さ
れ、残留信号がデータのフレームに分割される擬似周期スピーチ信号のコーディ
ング方法において、（ａ）残留信号の現在のフレームから現在の原型を抽出し、（ｂ）修正された前の原型が現在の原型に近似するように前記前の原型をどの
ように修正すべきかを記述する第１の組のパラメータを計算し、（ｃ）１以上のコードベクトルを第１のコードブックから選択し、前記コード
ベクトルは加算されたときに前記現在の原型と前記修正された前の原型との間の
差に近似し、前記コードベクトルは第２の組のパラメータによって記述され、（ｄ）前記第１および第２の組のパラメータに基づいて現在の原型を再構成し
、（ｅ）前記現在の再構成された原型をＬＰＣ合成フィルタで濾波し、（ｆ）前の再構成された原型を前記ＬＰＣ合成フィルタで濾波し、（ｇ）前記濾波された現在の再構成された原型と前記濾波された前の再構成さ
れた原型との間の領域にわたって補間し、それによって出力スピーチ信号を形成
するステップを含んでいる方法。
【請求項１３】線形予測コーディング（ＬＰＣ）解析フィルタによりスピ
ーチ信号を濾波することにより発生された残留信号によってスピーチ信号が表さ
れ、残留信号がデータのフレームに分割される擬似周期スピーチ信号をコーディ
ングするためのシステムにおいて、残留信号の現在のフレームから現在の原型を抽出する手段と、修正された前の原型が現在の原型に近似するように前記前の原型をどのように
修正するかを記述する第１の組のパラメータを計算する手段と、コードベクトルが加算されたときに前記現在の原型と前記修正された前の原型
との間の差に近似し、前記コードベクトルは第２の組のパラメータによって記述
される１以上の前記コードベクトルを第１のコードブックから選択する手段と、前記第１および第２の組のパラメータに基づいて現在の原型を再構成する手段
と、前記現在の再構成された原型と前の再構成された原型との間の領域にわたって
残留信号を補間する手段と、前記補間された残留信号に基づいて出力スピーチ信号を合成する手段とを備え
ているシステム。
【請求項１４】前記現在のフレームはピッチ遅延を有し、前記現在の原型
の長さは前記ピッチ遅延に等しい請求項１３記載のシステム。
【請求項１５】前記抽出する手段は、“カットフリー領域”について前記
現在の原型を抽出する請求項１３記載のシステム。
【請求項１６】前記抽出する手段は、前記カットフリー領域について前記
現在のフレームの終わりから前記現在の原型を抽出する請求項１５記載のシステ
ム。
【請求項１７】第１の組のパラメータを計算する前記手段は、前記現在の原型を受取ってターゲット信号を出力するように結合された第１の
循環ＬＰＣ合成フィルタと、前記前の原型を前のフレームから抽出する手段と、前記前の原型を受取るように結合され、前記現在の原型の長さに等しい長さを
有するワープされた前の原型を出力するワープフィルタと、前記ワープされた前の原型を受取るように結合され、濾波されたワープされた
前の原型を出力する第２の循環ＬＰＣ合成フィルタと、最適回転および第１の最適利得を計算する手段を具備し、前記最適回転だけ回転され前記第１の最適利得により調整された前記濾波され
たワープされた前の原型は前記ターゲット信号にもっともよく近似している請求
項１３記載のシステム。
【請求項１８】前記計算する手段はピッチ回転サーチ範囲について前記最
適回転および前記第１の最適利得を計算する請求項１７記載のシステム。
【請求項１９】前記計算する手段は、前記濾波されたワープされた前の原
型と前記ターゲット信号との間の平均２乗差を最小にする請求項１７記載のシス
テム。
【請求項２０】前記第１のコードブックは１以上のステージを含んでおり
、１以上のコードベクトルを選択する前記手段は、前記最適回転だけ回転されて前記第１の最適利得によって調整された前記濾波
されたワープされた前の原型を減算することにより前記ターゲット信号を更新す
る手段と、前記第１のコードブックを各領域がコードベクトルを形成する複数の領域に分
割する手段と、前記各コードベクトルを受取るように結合され、濾波されたコードベクトルを
出力する第３の循環ＬＰＣ合成フィルタと、前記第１のコードブックの中の前記ステージのそれぞれに対する最適インデッ
クスおよび第２の最適利得を計算する手段とを具備しており、この計算する手段
は、前記濾波されたコードベクトルの１つを選択し、前記選択された濾波された
コードベクトルが前記ターゲット信号に最もぴったり近似して、最適インデック
スにより記述される選択手段と、前記ターゲット信号と前記選択された濾波されたコードベクトルとの間の相
関に基づいて第２の最適利得を計算する手段と、前記第２の最適利得によってスケールされた前記選択された濾波されたコー
ドベクトルを減算することによって前記ターゲット信号を更新する手段とを含ん
でおり、前記第２の組のパラメータは、前記ステージのそれぞれに対する前記最適イン
デックスおよび前記第２の最適利得を含んでいる請求項１７記載のシステム。
【請求項２１】現在の原型を再構成する前記手段は、前の再構成された原型を受取るように結合され、前記現在の再構成された原型
の長さに等しい長さを有するワープされた前の再構成された原型を出力する第２
のワープフィルタと、前記ワープされた前の再構成された原型を前記最適回転だけ回転して前記第１
の最適利得によりスケールし、それによって前記現在の再構成された原型を形成
する手段と、前記第２の組のパラメータを復号し、第２のコードベクトルが前記第１のコー
ドブックと同数のステージを有する第２のコードブックの中の各ステージに対し
て復号される手段とを具備し、この復号する手段が、前記第２のコードベクトルを前記最適インデックスによって識別することに
よって前記第２のコードブックから検索する手段と、前記第２のコードベクトルを前記第２の最適利得により調整する手段と、前記調整された第２のコードベクトルを前記現在の再構成された原型に付加
する手段を含んでいる請求項２０記載のシステム。
【請求項２２】残留信号を補間する前記手段は、前記ワープされた前の再構成された原型と前記現在の再構成された原型との間
の最適整列を計算する手段と、前記ワープされた前の再構成された原型と前記現在の再構成された原型との間
の平均遅延を前記最適整列に基づいて計算する手段と、前記ワープされた前の再構成された原型と前記現在の再構成された原型とを補
間し、それによって前記ワープされた前の再構成された原型と前記現在の再構成
された原型との間の領域にわたって残留信号を形成する手段とを含み、前記補間
された残留信号が前記平均遅延を有している請求項２１記載のシステム。
【請求項２３】出力スピーチ信号を合成する前記手段は、ＬＰＣ合成フィ
ルタを含んでいる請求項２２記載のシステム。
【請求項２４】線形予測コーディング（ＬＰＣ）解析フィルタによりスピ
ーチ信号を濾波することにより発生された残留信号によってスピーチ信号が表さ
れ、残留信号がデータのフレームに分割される擬似周期スピーチ信号のコーディ
ングシステムにおいて、残留信号の現在のフレームから現在の原型を抽出する手段と、修正された前の原型が現在の原型に近似するように前記前の原型をどのように
修正すべきかを記述する第１の組のパラメータを計算する手段と、１以上のコードベクトルを第１のコードブックから選択し、前記コードベクト
ルが加算されたときに前記現在の原型と前記修正された前の原型との間の差に近
似し、前記コードベクトルが第２の組のパラメータによって記述される選択手段
と、前記第１および第２の組のパラメータに基づいて現在の原型を再構成する手段
と、前記現在の再構成された原型を受取るように結合され、濾波された現在の再構
成された原型を出力する第１のＬＰＣ合成フィルタと、前の再構成された原型を受取るように結合され、濾波された前の再構成された
原型を出力する第２のＬＰＣ合成フィルタと、前記濾波された現在の再構成された原型と前記濾波された前の再構成された原
型との間の領域にわたって補間し、それによって出力スピーチ信号を形成する手
段とを含んでいるシステム。