JP4931318B2

JP4931318B2 - スピーチ符号化における前方向誤り訂正

Info

Publication number: JP4931318B2
Application number: JP2001583504A
Authority: JP
Inventors: ジョナススヴェドベリ，; ジムサンドクビスト，; アンデルスウヴリデン，; アンデルスノールグレン，; マグナスウェステルンド，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2000-05-11
Filing date: 2001-05-10
Publication date: 2012-05-16
Anticipated expiration: 2021-05-10
Also published as: EP2711925A3; EP2711925A2; DE60136537D1; EP2017829A3; EP1281174B1; EP1281174A1; EP2711925B1; AU2001258973A1; PT2711925T; CN1441949A; EP2017829A2; EP2017829B1; US6757654B1; JP2003533916A; ATE414315T1; WO2001086637A1; ES2527697T3

Description

【０００１】
【発明の属する技術分野】
本発明は、音声情報を伝送する際に前方向誤り訂正を行うためのシステムおよび方法に関し、さらに詳細には、音声符号化された情報をパケットに基づいて伝送する際に前方向誤り訂正を行うためのシステムおよび方法に関する。
【０００２】
【従来の技術および発明が解決しようとする課題】
１．音声符号化
はじめに従来のスピーチ符号化の概念について説明することにより、先行技術による前方向誤り訂正（ＦＥＣ）技術の欠点を最もよく理解することができる。
【０００３】
１．１符号励振線形予測（ＣＥＬＰ）による符号化
図１は従来の符号励振線形予測（ＣＥＬＰ）による合成分析符号器１００を示している。符号器１００は、フレーム化モジュール１０４、線形予測符号化（ＬＰＣ）分析モジュール１０６、差分計算モジュール１１８、誤り重み付けモジュール１１４、誤り最小化モジュール１１６、および復号器モジュール１０２といった機能ユニットを含む。復号器モジュール１０２は、固定コードブック１１２、長期予測器（ＬＴＰ）フィルタ１１０、および線形予測符号化（ＬＰＣ）フィルタ１０８を含み、それらは合成信号

を生成するために、互いに縦続接続している。ＬＰＣフィルタ１０８は、スピーチ信号のスペクトル包絡に応じて、声道に由来するスピーチの短期相関関係をモデル化する。それは次の式で表される。
【数１】

ここで、ｐはフィルタ次数を、ａ_ｉはフィルタ係数を表す。一方、ＬＴＰフィルタ１１０は、スピーチ信号の細かい周期的なスペクトル構造に応じて、声帯に由来するスピーチの長期相関関係をモデル化する。例えば、次のような式で表される。
【数２】

ここで、Dは一般的に長期相関関係のピッチ周期に対応し、b_iはフィルタの長期利得係数に関する。固定コードブック１１２は一連の励起入力シーケンスを記憶する。該シーケンスにより、ＬＴＰフィルタ１１０、およびＬＰＣフィルタ１０８に励起信号が提供される。該シーケンスはまた、ＬＴＰフィルタ１１０、およびＬＰＣフィルタ１０８を用いる決定論的な方法では予想することができない、音楽の音声コンポーネントのようなスピーチ信号の特徴を、ある程度モデル化する際に有益である。
【０００４】
操作の際は、フレーム化モジュール１０４が入力スピーチ信号を受信し、連続するフレーム（例えば、継続時間２０ｍｓ）に分割する。その後、ＬＰＣ分析モジュール１０６がフレームを受信し、分析して、１セットのＬＰＣ係数を生成する。これらの係数は、スペクトル包絡線に対応してスピーチ信号の短期の特徴をモデル化するためにＬＰＣフィルタ１０８で利用される。次に、計算したＬＰＣ係数を含む逆フィルタから入力スピーチ信号を送り込んで、ＬＰＣ残差を形成する。図２に示すように、この残差は、オリジナルのスピーチ信号から線形予測分析により短期の冗長性を除いた後に残るコンポーネントを表す。２つのピッチパルス間の距離を「Ｌ」で表し、ラグと呼ぶ。次に符号器１００は、長期の係数を予想するために残差を用いることができる。これらの長期係数は、ＬＴＰフィルタ１１０において、（ピッチ遅延およびピッチ利得のような）スピーチ信号の細かいスペクトル構造をモデル化するために利用される。ＬＴＰフィルタ１１０およびＬＰＣフィルタ１０８は、スピーチ信号の長期および短期の特徴をモデル化する１つの縦続フィルタを形成する。固定コードブック１１２からの励起シーケンスにより励起されると、縦続接続したフィルタは、オリジナルのスピーチ信号s(n)を復元した合成スピーチ信号

を生成する。
【０００５】
符号器１００は、一連の合成スピーチ信号

を連続して生成し、合成スピーチ信号

をオリジナルのスピーチ信号s(n)と連続して比較し、

とs(n)の差分を最小化するために復号器モジュールの実行パラメータを連続して調整することにより、最適な励起順序を選択する。さらに詳細には、差分計算モジュール１１８はオリジナルのスピーチ信号s(n)と合成スピーチ信号

の間の差分（すなわち、誤り信号e(n)）を形成する。誤り重み付けモジュール１１４は誤り信号e(n)を受信し、知覚重み付け因子に基づく重み付け誤り信号e_w(n)を生成する。誤り最小化モジュール１１６は、サーチ手続きを利用して、オリジナルの信号s(n)に可能な限り近い合成信号

を生成するように、音声復号器１０２の実行パラメータを調整する。
【０００６】
最適合成信号

が到着すると、関連する符号器パラメータが伝送媒体（図示されていない）を介して復号器側（図示されていない）に伝送される。復号器側の復号器は、符号器１００の復号器モジュール１０２と同一の構造を含む。復号器は、符号器１００で計算された最適化された合成信号

を再生成するために転送されたパラメータを使用する。例えば、符号器１００は、関連するフィルタパラメータまたは係数（例えば、ＬＰＣ、およびＬＴＰパラメータ）と一緒に、固定コードブック１１２内の最適励起信号の位置を表すコードブックインデックスを転送することができる。入力スピーチ信号をもっと直接的に表示する方法の代わりに、パラメータを転送することにより、音声情報を伝送するのに必要な帯域幅が顕著に低減する。
【０００７】
図３は、図１で示した合成による分析符号器１００の変更例を示している。図３で示された符号器３００はフレーム化モジュール３０４、ＬＰＣ分析モジュール３０６、ＬＰＣフィルタ３０８、差分計算モジュール３１８、誤り重み付けモジュール３１４、誤り最小化モジュール３１６、および固定コードブック３１２を含む。これらのユニットそれぞれは、図１において類似の名前を有する部分に概ね対応する。しかし、図３では、ＬＴＰフィルタ１１０は適応コードブック３２０で置き換えられている。さらに、加算モジュール３２２は適応コードブック３２０および固定コードブック３１２からの励起信号出力を加算する。
符号器３００は、基本的に、図１の符号器１００と同様に機能する。しかし、符号器３００では、適応コードブック３２０がスピーチ信号の長期の特徴をモデル化する。さらに、ＬＰＣフィルタ３０８に適用される励起信号は、適応コードブック３２０への入力および固定コードブック３１２への入力の合計を表す。
【０００８】
１．２ＧＳＭエンハンスト・フルレート符号化（ＧＳＭ−ＥＦＲ）
従来の技術では、上記のようなＣＥＬＰ構成が多数具体的に実行されている。その１例として、欧州電気通信標準機関（ＥＴＳＩ）による「移動体通信のためのグローバルシステム：デジタル移動体通信システム：エンハンスト・フルレート（ＥＦＲ）音声トランスコーディング（ＧＳＭ０６．６０）（Global System for Mobile Communications:Digital Cellular Telecommunications Systeｍｓ: Enhanced full Rate (EFR) Speech Transcoding (GSM 06.60)）」（１９９６年１１月）に記載されたＧＳＭエンハンスト・フルレート（ＧＳＭ−ＥＦＲ）音声トランスコーディング標準規格を挙げることができ、該文献を参照して本明細書に包含する。
【０００９】
ＧＳＭ−ＥＦＲ標準規格で、は次の式を用いてスピーチ信号の短期のプロパティをモデル化する。
【数３】

ここで、

は定量化された線形予測パラメータを表す。前記規格は、スピーチ信号の長期の特徴を次の式を用いてモデル化する。
【数４】

ここで、Ｔはピッチ遅延に関し、g_pはピッチ利得に関する。適応コードブックはピッチの合成を実行する。さらに、ＧＳＭ−ＥＦＲ標準規格は、次の式で定義される知覚重み付けフィルタを使用する。
【数５】

ここで、A(z)は定量化されていないＬＰＣフィルタを定義し、そしてγ₁ およびγ₂は知覚重み付け因子を表す。最後に、ＧＳＭ−ＥＦＲ標準規格は、励起信号を提供するために、適応および固定（革新的な）コードブックを使用する。特に、固定コードブックはインターリーブされた単一パルス置換（ＩＳＰＰ）設計に基づく代数コードブックを形成する。励起ベクトルは０でない数学的に計算されたパルスの固定数からなる。励起は選択されたパルスの位置およびコードブック内の信号により特定される。
【００１０】
操作では、ＧＳＭ−ＥＦＲ符号器は入力音声信号を２０ｍｓのフレームに分割し、次に、５ｍｓのサブフレーム４つに分割する。その後、符号器は、各フレームに対して２回のＬＰＣ分析を行う。さらに詳細には、ＧＳＭ−ＥＦＲ符号器は、短期のパラメータを計算するために、３０ｍｓ非対称ウインドゥの自己相関接近を使用する。ＬＰＣ分析でルック−アヘッドは使用しない。ルック−アヘッドとは、分析を行う際に将来のフレームからサンプルを使用することを言う。
その後、ＬＰ係数それぞれは、定量化、およびＬＳＰ予測器を用いる補間および定量化のための線スペクトル対（ＬＳＰ）表示へ転換される。ＬＳＰ分析は、線スペクトル周波数（ＬＳＦ）値を生成するために、フィルタ係数を−πからπの領域の単位円上にマップする。ＬＳＰ値の使用により、ＬＰＣ値を使用するときに比べて、ビット誤りに対してロバスト性、安定性が向上する。さらに、ＬＳＦ値の使用は、ＬＰＣ値を使用するときに比べて、情報のより効率的な定量化を可能にする。ＧＳＭ−ＥＦＲは特に、次の予測器方程式を用いて残差を計算し、その後該残差は定量化される。
【数６】

LSF_res は、フレームｎのＬＳＦ残差ベクトルを表す。量(LSF - LSF_mean) は、フレームｎでの、平均除去されたＬＳＦベクトルを定義する。項(predFactor・ LSF_prev,res)はフレームｎでの予測されたＬＳＦベクトルを意味し、ここでpredFactorは予測因子定数を意味し、LSF_prev,resは以前のフレーム（つまりフレームｎ−１）からの第２残差ベクトルを表す。次の式７により、復号器では逆の過程をたどる。
【数７】

予測した結果を得るために、復号器内の以前の残差LSF _prev, _res は正しい値を有していなくてはならない。再現の後、係数は直接フィルタ形式に転換され、スピーチを合成するときに用いられる。
【００１１】
次に、符号器は、知覚重み付けスピーチ信号に基づいて、各フレーム（１０ｍｓ）の半分ごとにピッチラグを予測するために、いわゆる開ループ・ピッチ分析を実行する。その後、符号器は、それぞれのサブフレームについて複数の操作を行う。具体的には、符号器は、重み付けされたスピーチ信号からの重み付け合成フィルタW(z)H(z)に応じて、ゼロ入力を引くことにより、標的信号x(n)を計算する。その後符号器は重み付けされた合成フィルタのインパルス応答h(n)を計算する。符号器は、ピッチラグおよび利得を発見するために、いわゆる閉ループ分析を行うときにインパルス応答h(n)を使用する。閉ループ・サーチ分析は、オリジナルと合成スピーチの間の平均２乗重み付け誤りの最小化を行う。閉ループ・サーチは、最初の推定値として、開ループ・ラグ算定数値を用いる。その後、符号器は、適応コードブック寄与を取り除くことにより、標的信号x(n)を更新し、符号器はその結果として生じた標的を使用して、代数コードブック内の最適革新ベクトルを発見する。コードブックの関連するパラメータはその後、コードブック予測器を用いてスカラー定量化され、決定された励起信号を用いてフィルタ・メモリが更新されて次のサブフレーム内の標的信号を発見するために使用される。
【００１２】
符号器は、ＬＳＦ係数（３８ビット）２セット、ピッチ遅延パラメータ（３０ビット）、ピッチ利得パラメータ（１６ビット）、代数符号パラメータ（１４０ビット）、およびコードブック・利得パラメータ（２０ビット）を伝送する。復号器はこれらのパラメータを受信し、伝送されたパラメータにより表される符号器状態を複写することにより、合成スピーチを再現する。
【００１３】
１．３ＧＳＭ−ＥＦＲ符号化におけるエラー隠蔽（ＥＣ）
欧州電気通信標準機関（ＥＴＳＩ）は、参照文献として全文を添付した「デジタル移動電話通信システム：エンハンスト・フルレート（ＥＦＲ）スピーチ・トラフィック・チャネルのための損失フレームの置き換えおよび消音化（ＧＳＭ０６．６１）（Digital Cellular Telecommunications System: Substitution and Muting of Lost Frames for Enhanced Full Rate (EFR) Speech Traffic Channels (GSM 06.61)）」５．１．２版（１９９７年４月）でＧＳＭ−ＥＦＲでのエラー隠蔽の使用を提案している。参照した標準規格は例示的に、０から６までの、７つの状態を有する状態機械を提案する。不良フレーム示唆（ＢＦＩ）フラッグは、現在のフレームが誤りを含むかどうか（状態＝０の場合誤りなし、状態＝１の場合誤りあり）を示唆する。前の不良フレーム示唆(PrevBFI)は、前のスピーチフレームが誤りを含んでいるかどうか（状態＝０の場合誤りなし、状態＝１の場合誤りあり）示唆する。状態０は、現在、および前のフレームに誤りがないということに対応する（すなわち、ＢＦＩ＝０、ＰｒｅｖＢＦＩ＝０）。現在のフレーム内に誤りが検出されると、機械は状態＝１となる（フレームに８bitsの巡回冗長検査を用いて、誤りを検出することができる）。続くフレーム内に他の誤りを検出すると、状態機械はより高い状態に（最大の状態である６まで）連続的に進む。良好な（すなわち誤りのない）フレームを検出すると、状態機械は状態０に逆戻りするが、状態６の場合は状態５に戻る。
【００１４】
復号器は状態、フラッグBFIの値、およびPrevBFIの値によって、複数のエラー隠蔽操作を行う。連続してエラー・フリーのフレームを２つ受信すると、状態BFI＝０、およびPrebBFI＝０（状態０で）となる。この状態では、復号器はＧＳＭ−ＥＦＲ６．６０標準規格内に示された典型的な方法で、スピーチパラメータを処理する。その後、復号器はスピーチパラメータの現在のフレームを保存する。
「不良の」フレームを受信した後で、エラー・フリーのフレームを受信すると、状態BFI＝０、およびPrevBF＝１（状態０または５で）となる。この状態では、復号器はＬＴＰ利得、および固定コードブック利得を、最後に受信した良好なサブフレームで使用した値に限定する。言い換えれば、現在のＬＴＰ利得の値（g^P ）が受信した最後の良好なＬＴＰ利得の値以下の場合、現在のＬＴＰ利得を使用する。しかし、現在のＬＴＰ利得の値（g^P ）が、最後に受信した良好なＬＴＰ利得の値より大きい場合、現在のＬＴＰ利得の代わりに最後に受信したＬＴＰ利得の値を使用する。固定コードブックの利得の値は、同様の方法で調整される。
【００１５】
状態BFI＝１（状態は１から６の任意の値で、およびPrevBFI＝０または１）は現在のフレーム内の誤りが検出されたことを示唆する。この状態では、現在のＬＴＰ利得は次の利得で置き換えられる。
【数８】

ここでg^PはＬＴＰフィルタの利得を表し、α_state(n)は、状態ｎの増加につれて、連続的に減衰効果が増大する減衰係数を表し（例えば、α_state (1) = 0.98のときα_state (6) = 0.20）、「ｍｅｄｉａｎ」は最も最近の５つのサブフレームのg^P値のメジアン値を表し、g^P(-1)は直前のサブフレームを表す。固定コードブックの利得の値は、同様の方法で調整される。
【００１６】
上記の状態（すなわちBFI＝１のとき）では、復号器も、メモリ内の最も最近の４つの値の平均値を用いることにより、メモリ内のコードブック利得を更新する。さらに、復号器は過去のＬＳＦをそれらの平均値の方へシフトさせる。すなわち：
【数９】

ここでLSF_q1(i) および LSF_q2(i)は、現在のフレームからの２本のベクトルで、βは定数（例えば０．９５）、past_ LSF _q(i)は直前のフレームからのLSF_q2の値、そしてmean _LSF(i)はＬＳＦ値の平均値である。またさらに、復号器は、４番目のサブフレームから、過去のラグ値でLTP-lag値を置き換える。そして最後に、復号器で受信された固定コードブック励起パルスは、誤りフレームからそのまま利用される。
【００１７】
１．４ボコーダ
図４は、他のタイプのスピーチ・復号器、ＬＰＣベースのボコーダ４００を示している。この復号器では、ＬＰＣ残差が雑音ベクトル４０４（無声音のため）、または固定パルス形式４０２（有声スピーチのため）から作り出される。利得モジュール４０６は残差を所望のレベルまで調節する。利得モジュールの出力を、次の式で定義される例示的な関数を有するＬＰＣフィルタ４０８を含むＬＰＣフィルタ・ブロックに供給する。
【数１０】

ここで、a_iは予測誤りの平均２乗を最小化することにより計算できるフィルタの係数を示す。知られているボコーダの１つは、「ＬＰＣ−１０」と呼ばれている。
この復号器はアメリカ軍に低ビット速度通信を提するために開発された。ＬＰＣ-10ボコーダは２２．５ｍｓのフレームを使用し、５４ビット／フレームに等しく、そして２．４ｋビット／ｓに対応する。
【００１８】
操作では、ＬＰＣ−１０符号器（図示されていない）はパルス・トレイン、または雑音信号のどちらかを用いるため有声化決定をする。ＬＰＣ−１０では、サンプルの入力信号をローパス・フィルタを通して形成することによりこれを行うことができる。決定は信号のエネルギー、信号の最大対最小の比率、および信号のゼロ交差の数に基づく。現在のフレームの半分それぞれに有声化決定をし、これらの半分のフレームの決定２つ、および次の２つのフレームの決定に基づいて最後の有声化決定をする。
ピッチはローパスの逆フィルタされた信号から決定される。ピッチ利得は、信号の２乗平均値（ＲＭＳ）から決定される。符号化を特徴づける関連パラメータを定量化し、復号器に送信し、復号器内で合成信号を生成するために使用する。さらに詳細には、この符号化技術は、１０個の係数を伴う符号処理を提供する。
【００１９】
ボコーダ４００はＧＳＭ−ＥＦＲ技術より単純な合成モデルを使用するので、ＧＳＭ−ＥＦＲ技術より少ないビット数でスピーチを表現できるが、品質が低下する結果となる。低ビット速度の場合、ボコーダはスピーチのための冗長符号器に適切となる（以下に述べる）。ボコーダは、有声化、または無声化されたスピーチをモデル化する際にはうまく働くが、破裂音（完全閉鎖およびそれに続く声道閉塞の解放を表す）、および非スピーチ情報（例えば、音楽）は正確に扱うことができない。従来のスピーチ符号化の詳細は、ここで参照することにより本明細書に包含する、「デジタル・スピーチ（Desital Speech）：低ビット速度通信システムのための符号処理（Coding for Low Bit Rate Communication Systems）」（A.M.Kondoz著、１９９４年、John．Wiley&Sons）から得ることができる。
【００２０】
２．前方誤り訂正（ＦＥＣ）
ひとたび符号化されると、通信システムは多様なフォーマットでスピーチを伝送することができる。パケットに基づくネットワークでは、音声データを、一連の個別パケットとして転送する。
パケットに基づく転送では、高いパケット損失率、ジッタ、および並び替えが起こることがある。前方誤り訂正（ＦＥＣ）は損失パケットに対応する１つの技術である。一般的に、ＦＥＣは符号化されたスピーチに伴う冗長情報の伝送を含む。復号器は、冗長情報を用いて損失パケットを再現しようと試みる。媒体に依存しないＦＥＣ技術は、音声ストリーム（スピーチストリームの特徴に関するより高いレベルの知識から独立している）内のビットに基づく冗長情報を加える。一方、媒体に依存するＦＥＣ技術は、スピーチストリームの特徴に基づく冗長情報を加える。
【００２１】
Shuster他による、米国特許番号第５，８７０，４１２号は、媒体依存型技術の一例について記述している。この方法では、一連のペイロードパケットそれぞれに、前方誤り訂正符号を１つ付加する。誤り訂正符号は、前特定数のペイロードパケットのＸＯＲ合計を行うことにより画定される。受信装置では、後続のパケットの冗長誤り訂正符号から損失ペイロードを再現することができ、連続する複数のパケットの損失も訂正することができる。この技術は、変化しやすい遅延を用いているという欠点がある。さらに、XOR結果は、計算で用いた最も大きなペイロードと同じ大きさでなくてなならない。
【００２２】
図５は媒体に基づくＦＥＣ技術の概観を示している。符号器モジュール５０２は、主要符号器５０８、および冗長符号器５１０を含む。パケット化装置５１６は主要符号器５０８、および冗長符号器５１０の出力を受信し、そして、その出力を伝送媒体５０６を介して送信する。復号器モジュール５０４は、主要復号器５１２、および冗長復号器５１４を含む。主要復号器５１２、および冗長復号器５１４の出力は、制御ロジック５１８で制御される。
操作では、主要符号器５０８は、主要合成モデルを用いて主要符号データを生成する。冗長符号器５１０は、冗長合成モデルを用いて冗長符号データを生成する。冗長合成モデルは、主要合成モデル（例えば、結果的により低い帯域、および低い品質を有する）に比べて、より強力に圧縮された形のスピーチを提供する。例えば、知られている方法の１つでは、ＰＣＭ−符号データを主要符号スピーチとして、ＬＰＣ−符号データを冗長符号スピーチとして用いる（注、例えばV. Hardman共著、「インターネットを介して用いるための、信頼のおける音声（Reliable Audio for Use Over the Internet）」１９９５年、INET'95の議事録）。ＬＰＣ−符号データはＰＣＭ−符号データよりずっと低いビット速度を有する。
【００２３】
図６はどのように冗長データ（影のついた部分）を主要データ（影のない部分）に付加するかを示す。例えば、最も上位のパケット列に関して、最初のパケットはフレームｎの主要データを含む。直前のフレーム、すなわちフレームｎ−１の冗長データがこの主要データに付加されている。このようにして、パケット内の冗長データは、常に、直前に伝送された主要データを参照する。この技術は、単一レベルの冗長を提供するが、（冗長データの追加のコピーを伝送することによって）追加のレベルを提供することができる。
主要データペイロードに冗長データを付加するための特定のフォーマットが提供されている。例えば、Perkins等は、リアルタイム・トランスポート・プロトコル（ＲＴＰ）内で、ＬＰＣ−符号冗長データを主要ペイロードデータに付加するための特定のフォーマットを提供する（例えば、C.Perkins共著、「冗長音声データのためのＲＴＰペイロード（RTP Payload for Redundant Audio Data）」RFC２１９８、１９９７年９月に注意）。パケットヘッダは、情報データに関する情報、および冗長データに関する情報を含む。例えば、ヘッダは、データの主要符号化の時間を示唆する主要符号化のタイムスタンプを提供するためのフィールドを含む。ヘッダはまた、パケット内に存在する主要符号化と冗長符号化の時間差を示すオフセット・タイムスタンプも含む。
【００２４】
図５および図６の両方を参照すると、復号器モジュール５０４は、主要、および冗長データの両方を含むパケットを受信する。復号器モジュール５０４は、主要データを冗長データから分離するためのロジック（図示されていない）を含む。主要復号器５１２は主要データを復号し、一方で、冗長復号器５１４は冗長データを復号する。さらに詳細には、復号器モジュール５０４は、フレームｎのための冗長データを含んでいる次のパケットが到着すると、主要データフレームｎを復号する。この遅延が再生に加わり、図６で「付加的な遅延」として示されている。
従来の技術では、受信したパケットが主要符号化データを含んでいる場合、制御ロジック５１８は復号器モジュール５０４に、主要復号器５１２により生成された合成スピーチを用いるように命令する。一方、制御ロジック５１８は、主要データを含むパケットを「損失」した場合、復号器モジュール５０４に、冗長復号器５１４により生成された合成スピーチを用いるように命令する。そのような場合、制御ロジック５１８は、受信した主要符号化フレームのビットストリーム内の隙間を冗長符号化フレームで単に埋めるために機能する。例えば、上記で参照したHardman等による技術では、ＰＣＭ−符号ビットストリーム内にパケット損失を検出すると、復号器はＰＣＭ−符号データの代わりにＬＰＣ−符号データを復号する。
【００２５】
従来のＦＥＣの使用は、パケットに基づく音声伝送の質の向上に十分ではない。例えば、スピーチ合成モデルは、現在の操作状態で正確なスピーチ合成を生成するために、過去の操作状態のパラメータを用いる。この点で、モデルは「過去に依存」する。例えば、代数符号励振線形予測（ＡＣＥＬＰ）スピーチモデルは、その適応コードブックを更新するために、以前に生成された合成を使用する。ＬＰＣフィルタ、エラー隠蔽履歴、および多様な定量化予測器も、現在の状態のスピーチを正確に生成するために以前の状態を用いる。従って、復号器が冗長データを用いて失ったフレームを再現することができても、主要データが損失しているので、主要合成モデルの「記憶」は不完全である。これにより、スピーチ合成の質の点で、「後に影響する」問題が起きることになる。例えば、適応コードブックの更新が不完全だと、１０より多いフレームで、歪んだ波形が生じることがありうる。従来のＦＥＣ技術はこのような「後に影響する」問題に何ら対処するものではない。
さらに、ＦＥＣに基づくスピーチ符号処理技術は、今までＦＥＣ技術で扱われていない多くの他の問題を有することがある。例えば、線形予測器を用いている合成による分析技術では、位相の不連続が非常によく聞こえてしまう場合がある。適応コードブックを用いている技術では、フィードバック・ループ内の位相エラーが多数のフレームに残っていくことがある。さらに、符号化されるとき予測されるＬＰ係数を用いているスピーチ符号器内では、ＬＰＣパラメータの損失が予測器の正確性を低下させる。これは、ＬＰＣスピーチ符号処理技術において、最も重要なパラメータに誤りをもたらす。
【００２６】
【課題を解決するための手段】
本発明の全体的な目的は、ＦＥＣ技術を用いて生成されるスピーチの質を改善することである。
本発明は、この目的、およびその他の目的を、音声データを符号化処理するためのＦＥＣ技術を改善して達成した。本技術では、符号器モジュールで、入力されたスピーチ信号を主要合成モデルを用いて主要符号化することにより主要符号化データを生成し、入力されたスピーチ信号を冗長合成モデルを用いて冗長符号化することにより冗長符号化データを生成する。パケット化装置は、主要符号化データと冗長符号化データを連続するパケットに結合させ、該パケットを、インターネット・プロトコル（ＩＰ）ネットワークのようなパケットに基づくネットワークを介して伝送する。復号化モジュールは主要合成モデルを用いているパケットを主要復号化し、冗長合成モデルを用いているパケットを冗長復号化する。本技術では復号化処理の間およびその後、主要合成モデルと冗長合成モデルを相関させることで、合成された出力スピーチ信号の品質を向上させる。そのような「相関」は、例えば、一方のモデルの状態を他方のモデルを用いて更新するという形態をとることがある。
【００２７】
さらに、本技術は、符号器モジュールおよび復号器モジュールでのルック−アヘッド処理を提供するために、主要フレームと冗長フレームのＦＥＣ-時差的結合（すなわち、フレームｎの主要データをフレームｎ−１の冗長データと結合させる）を利用する。ルック−アヘッド処理は、音声信号に関する利用可能な情報を追加するので、合成された出力スピーチの質を向上させる。
両方のモデルを協働させることによりスピーチ信号の符号化を行うことで、これまで従来のシステムにより企図された、冗長符号化処理の利用が大きく拡大する。
【００２８】
本発明の目的、特徴、および利点についての前述、および他の記述は、添付図面を参照にして次の詳細な説明を読むと、さらに容易に理解することができるであろう。
【００２９】
【発明の実施の形態】
次の記述は、説明のためであり、限定的なものではなく、本発明を完全に理解するために具体的な詳細を説明するものである。しかし、当業者にとって明らかであるように、本発明はこれらの具体的な詳細とは異なる他の実施形態で行うことができる。また、公知の方法、装置および回路の詳細な記述は省き、不必要な詳細のために本発明の記述が不明瞭にならないようにした。図面では、類似の参照番号は、類似の特徴を表す。
本発明は、音声データを処理するために、概して前方向誤り訂正の使用に適応される。しかし、論議を容易にするために、次の説明は音声信号符号処理の具体的な状況に絞って行う。
【００３０】
１．概要
図７は、本発明を実行するための例示的システム７００の概観を示し、符号器モジュール７０２、および復号器モジュール７０４を含む。符号器モジュール７０２は主要符号データを生成するための主要符号器７０８、冗長符号データを生成するための冗長符号器７１０を含む。符号器モジュール７０２内の制御ロジック７２０は、主要符号器７０８および冗長符号器７１０の操作を制御する。パケット化装置７１６は主要符号器７０８および冗長符号器７１０からの出力を受信し、その後、主要符号データおよび冗長符号データを伝送媒体７０６を介して伝送する。復号器モジュール７０４は、どちらも制御ロジック７１８で制御される主要復号器７１２および冗長復号器７１４を含む。さらに、復号器モジュール７０４は、少なくとも受信したパケットの冗長データが、後続のパケットに含まれて到着するまで、受信したパケットを一時的に保存するための受信バッファ（図示されていない）を含む。
【００３１】
操作では、主要符号器７０８は入力スピーチを主要符号化処理技術（主要合成モデルに基づく）を用いて符号化し、冗長符号器７１０は入力スピーチを冗長符号化処理技術（冗長合成モデルに基づく）を用いて符号化する。必ずしもというわけではないが、冗長符号処理技術は通常、主要符号処理技術に比べて、より小さい帯域を提供する。パケット化装置７１６は基本符号化データおよび冗長符号化データを一連のパケットに連結し、そのパケットそれぞれは主要および冗長データを含む。さらに詳細には、パケット化装置７１６は、図６に示したＦＥＣ技術を用いることができる。この技術では、現在のフレーム、すなわちフレームｎの主要データを含むパケットと、前のフレーム、すなわちフレームｎ−１に属する冗長データとを結合させる。本技術は単一の冗長レベルを提供するものである。パケット化装置７１６は、主要および冗長データを結合させるために、例えば従来の技術のところで述べたようなPerkins等によって提供されたフォーマットなど、任意の知られているパケットフォーマットを用いることができる（例えば、パケットヘッダが、主要ペイロードおよび冗長ペイロードの両方に関する情報を含んでいる場合、両方のペイロードに関するタイムスタンプ情報を含む）。
【００３２】
組み立てた後、パケット化装置７１６は伝送媒体７０６を介してパケットを転送する。伝送媒体７０６は、インターネットプロトコル（ＩＰ）ネットワークのような、任意のパケットに基づく伝送システムでよい。或いは、システム７００は、パケットを伝送せずに、後の検索のために記憶媒体内に単に記憶することもできる。
復号器モジュール７０４はパケットを受信し、主要復号器７１２および冗長復号器７１４を用いてスピーチ情報を再現する。復号器モジュール７０４は通常、主要復号器７１２を用いて主要データを復号し、主要データを利用できないときには、冗長復号器７１４を用いて冗長データを復号する。さらに詳細には、制御ロジック７１８は、主要復号器７１２および冗長復号器７１４の操作を管理するために状態機械を用いることができる。状態機械内の状態はそれぞれ、復号器モジュール７０４が経験した様々な誤り条件の１つを反映する。状態それぞれは、データの現在のフレームを復号するための命令も画定する。つまり、この命令は現在のフレームを復号するために、異なる誤り条件に適した様々な復号方法を指定する。さらに詳細には、前記方法は、主要合成モデルの使用、冗長合成モデルの使用、および/またはエラー隠蔽アルゴリズムの使用を含む。誤り条件は、前のフレームで用いた復号方法、現在のフレーム内での主要および冗長データの利用可能性、および次のパケットの受信または非受信に依存する。パケットの受信または非受信は、状態遷移のきっかけとなる。
【００３３】
従来のシステムとは異なり、上記システム７００は、主要、および冗長合成モデルを相関させるための複数のメカニズムを提供する。さらに詳細には、符号器モジュール制御ロジック７２０は、主要および冗長符号器（すなわち、符号器７０８、および７１０）それぞれで用いられる主要合成モデルと冗長合成モデル間に相関を提供するための制御メカニズムを含む。同様に、復号器モジュール制御ロジック７１８は、主要および冗長復号器（すなわち復号器７１２、および７１４）それぞれで用いられる主要合成モデルと冗長合成モデル間に相関を提供するための制御メカニズムを含む。図７は、主要符号器７０８と冗長符号器７１０の間の相関を矢印７５０で示し、主要復号器７１２と冗長復号器７１４の間の相関を矢印７５２で示す。
次の段落では上記の、主要合成モデルと冗長合成モデル間に上述の相関を提供するシステム７００で使用される特徴と、新しいＦＥＣスピーチ符号化の特徴の概要を述べる。
【００３４】
１．１復号器モジュール内の状態の更新
従来の技術について述べた部分で、従来のＦＥＣ技術は、基本的に主要データを復号したとき損失しているデータを、復号した冗長データで補うものとして機能するが、主要データ損失を反映するための、主要合成モデルの「記憶」の更新をしない。この問題に対して、本発明では、主要合成モデルの状態を更新するために冗長合成モデルから収集した情報を用いる。同様に、復号器モジュール７０４は、主要合成モデルから得られたパラメトリック情報を用いている冗長合成モデル内の「記憶」欠如を修正することができる。従って、一般的にいって、２つのモデルは、損失情報を供給するために「互いに補い合っている」。これに比べて、従来のＦＥＣでは、モデルは情報を共有しない。
モデルの更新に用いる特定の方法は、もちろんモデルの要求に依存する。一部のモデルは、他に比べて過去の状態へのより高い依存性を有することがある。また、復号器モジュール７０４内の優勢な誤り状態に依存する。繰り返すが、誤り条件は、前のフレームでスピーチを復号するために用いた手順（例えば、主要、冗長、エラー隠蔽）、現在のフレーム内のデータ（例えば、主要、または冗長）の利用可能性、および次のフレームの受信または非受信により特徴付けられる。従って、状態機械のそれぞれの状態に関連する復号化命令は、誤り状態に特有で、合成モデルを更新するための方法も画定するのが望ましい。この方法では、復号器モジュール７０４は更新手順を、優勢な誤り状態に適合させる。
【００３５】
本発明の更新についての特徴を図示するために、いくつかの例を示す。例えば、復号器モジュール７０４が現在のフレームの主要データを受信していない（すなわち、主要データを損失した）が、現在のフレームのための冗長データを運んでいる次のフレームのパケットを受信している状態を考える。この状態では、復号器モジュール７０４は、現在のフレームのための冗長データに基づいて、スピーチを復号する。復号した値は、その後、主要合成モデルを更新するために利用される。例えば、ＣＥＬＰに基づくモデルは、その適応コードブック、ＬＰＣフィルタ、エラー隠蔽の履歴、および多様な定量化予測器に更新を要求することができる。冗長パラメータは、主要復号器で使用されるパラメータ・フォーマットに適応させるために、いくつかの転換形式を必要とする。
【００３６】
復号器モジュール７０４がＧＳＭ−ＥＦＲ符号化処理に基づく主要合成モデルを用いるという、特定の場合を考える。従来の技術の部分で述べたように、ＧＳＭ−ＥＦＲモデルはＬＰＣパラメータの動きを低減するために、定量化の前に定量化予測器を用いる。この場合も、復号器モジュール７０４は定量化予測器を用いない冗長合成モデルを使用し、従って「絶対」符号化ＬＰＣを提供する。本方法は、主要合成モデルがＬＳＦ残差（すなわちLSF_res）に関する情報を提供する一方で、冗長モデルはこれらの係数（すなわちLSF_red ）のための絶対ＬＳＦ値に関する情報を提供する。復号器モジュール７０４は、次の式１１に従い、該残差および該絶対値を用いて予測器状態を計算し、よって迅速な予測器更新を提供する。
【数１１】

ここで、LSF_mean はＬＳＦ値の中間値を表し、predFactorという項は予測因子定数を表し、そしてLSF_prev,resは過去のフレーム（すなわちｎ−１）からの残差ＬＳＦを表す。復号器モジュール７０４はＬＳＦ残差を復号してＬＰＣ係数にするために（例えば上述の式７を用いて）更新された予測器状態を使用する。
パケットの損失のために予測器状態が不安定な場合、式１１を用いると特に有利である。
【００３７】
１．２復号器モジュールのルック−アヘッド
図６で示したように、復号器モジュール７０４はパケットに含まれる主要データの復号を、次のパケットを受信するまで遅らせなくてはならない。主要データを受信してから復号する間の遅延のために、復号器モジュール７０４はスピーチ合成の質を向上させるために、主要データを用いていかなるタイプの複合前処理をも行うことができる。これを、ここで「復号器ルック−アヘッド」と呼ぶ。例えば、復号器モジュール７０４が、主要符号化フレームｎを含んでいるパケットの受信に失敗したが、連続してフレームｎ＋１のための主要符号化データを含み、フレームnのための冗長符号化データを含むパケットを受信する場合を考える。従って、復号器モジュール７０４はフレームｎのためのデータを冗長データを用いて復号する。その間に、復号器モジュール７０４は、ルック−アヘッド処理のためにフレームｎ＋１（まだ復号されていない）の主要データを用いることができる。例えば、フレームｎからフレームｎ＋１への滑らかな移行を提供するために、エネルギーレベルの補間の向上のためにフレームｎ＋１の主要データを用いることができる。ルック−アヘッドは、フレームの終わり近くでより正確な補間結果を提供するために、ＬＰＣ補間にも使用することができる。
【００３８】
１．３符号器モジュールのルック−アヘッド
前に説明したように、符号器モジュール７０２のパケット化装置７１６は、現在のフレームに属する主要データと、前のフレームに属する冗長データとを結合させる。例えば、パケット化装置はフレームｎに属する主要データと、フレームｎ−１に属する冗長データとを結合させる。従って、符号器モジュール７０２は、冗長符号化データの伝送を１フレーム分遅らせなくてはならない。この１フレーム分の遅延のために、パケット内の結合された全データ（主要、および冗長）が同時に復号されるように、冗長符号器７１０はまた、その冗長データの符号化も遅らせることができる。例えば、符号器モジュール７０２は、フレームｎ−１の冗長データの符号化と同時に、フレームｎの主要データを符号化できる。従って、冗長データは復号の前に短期間利用できる。冗長データ（例えば冗長フレームｎ−１）を前もって利用できることにより、ルック−アヘッド処理の機会ができる。ルック−アヘッド処理の結果を、その後のフレームの冗長処理を向上するために利用することができる。例えば、ボコーダ合成モデル（冗長合成モデルとして機能する）内の発音決定を、計算でルック−アヘッド・データを使用することにより向上させることができる。これは発音セグメントが実際に始まる時点で、誤り決定が減るという結果になるはずである。
符号器モジュール７０２内のルック−アヘッドは、主要符号器７０８と冗長符号器７１０の間の相関を調整するための作用制御ロジック７２０の使用を通じて等、様々な方法で実行することができる。
【００３９】
１．４ピッチパルス位相の維持
ピッチ位相（すなわちピッチパルス位置）はＦＥＣ技術を実行するための有益な情報を提供する。最初の例では、復号器モジュール７０４は、直前のフレームに属する適応コードブック内の最終パルスの位置を同定する。さらに詳細には、モジュール７０４は、適応コードブックと所定のピッチパルスとの間の相関関係を計算することにより、ピッチパルス位置を示すことができる。ピッチパルス位相は、その後、相関スパイク波形または、複数のスパイク波形により決定することができる。最終パルスの位置およびピッチラグの情報に基づいて、その後復号器モジュール７０４は、続くパルスの現在のフレーム内の置を同定する。これは最終パルスの位置から１つ以上のピッチ周期分前進して新しいフレームに進むことによりこれを行う。本技術のある応用例では、ＧＳＭ−ＥＦＲが主要復号器として機能し、ボコーダに基づくモデルが冗長復号器として機能する。復号器モジュール７０４は、主要データの受信に失敗すると、冗長データを用いる。この環境では、復号器モジュール７０４は、適応コードブックから抽出された位相情報に基づくボコーダピッチパルスを配置するために前記技術を使用する。これはボコーダピッチパルスが完全に不適切な周期内に配置されないことを確実にするために役立つ。
【００４０】
第２の例では、符号器モジュール７０２は、冗長符号化におけるオリジナルのスピーチ信号のピッチ位相に関する情報（ピッチパルス位置、およびピッチパルス標識など）を決定し、伝送する。また、この情報は、適応コードブックと所定のピッチパルスとの間の相関を計算することによって得ることができる。受信すると、復号器モジュール７０４は、受信したピッチ位相情報と適応コードブックを用いて検出したピッチ位相情報（上記の方法で計算する）を比較することができる。冗長符号化ピッチ位相情報と適応コードブックピッチ位相情報の違いにより位相が不連続となる。この問題に対して、本技術は、フレームの最後で正しい位相を提供するために、現在のフレームの前進に従ってピッチ周期を調整することができる。結果として、適応コードブックは更新されるとき正しい位相情報を受信する。本技術のある応用例では、ＧＳＭ−ＥＦＲ技術が主要復号器として機能し、ボコーダに基づくモデルが冗長復号器として機能する。また、復号器モジュール７０４は、主要データの受信に失敗した場合、冗長データを用いる。この状況では、ボコーダは、冗長符号器からパルスの位置および標識に関する情報を受信する。その後、上記の方法により適応コードブックからパルスが発生するべき位置を算定する。受信した位置と算定した位置の間に位相の相違があっても、フレーム全体に亘って平坦化されるので、フレームの最後には位相が訂正される。これにより、次のフレーム内で主要復号化装置（例えば、ＧＳＭ−ＥＦＲ復号化装置）の使用に戻ったとき、復号器モジュール７０４は確実に適応コードブック内に記憶された正しい位相情報を有する。
【００４１】
第２例の代替案では、冗長復号器はパルス位置に関する情報を符号器側からなにも受信しない。代わりに、次のフレーム内の復号された主要データからパルス位置を算定する。これは、次の主要フレームからパルス位相情報を抽出し、次に、現在のフレーム内のパルスの正しい配置を決定するために現在のフレームに戻ることにより行う。そして、この情報を、前のフレームから前述の方法で算定したパルス配置のもう１つの表示と比較する。位置についてのわずかな不一致も上述の方法で訂正することができる（例えば、現在のフレーム全体にわたって位相誤りを平坦化することにより、適応コードブックに反映されるように、次のフレームは正しい位相を有する。）
【００４２】
１．５冗長パラメータの選択肢
図８は、ＦＥＣ技術で用いるための、別の符号器モジュール８００を示す。符号器８００は、パケット化装置８０８に接続している主要符号器８０２を含む。抽出装置８０４はパラメータに関する情報を主要符号器８０２から抽出する。遅延モジュール８０６は、抽出したパラメータを、例えば１フレーム分遅らせる。遅延モジュール８０６は、遅らせた冗長パラメータをパケット化装置８０８に進める。
【００４３】
操作では、抽出装置８０４は、主要符号化パラメータからパラメータのサブセットを選択する。サブセットは、冗長パラメータから合成スピーチが創出できるように、かつ要求されたときに主要合成モデル内の状態の更新ができるように選択するべきである。例えば、ＬＰＣ、ＬＴＰラグおよび利得値は、合成による分析符号化技術で複写に適している。一例では、抽出装置は主要符号器で生成されたパラメータ全部を抽出する。これらのパラメータは、低減された帯域にパラメータを対応させるために、異なるフォーマットに転換する事ができる（例えば、主要符号器８０２で用いた主要合成モデルよりも少ないビットを必要とする方法を用いてパラメータを定量化する）。遅延モジュール８０６は冗長パラメータを１フレーム分遅らせ、パケット化装置は遅延冗長パラメータと主要符号化パラメータを、例えば、図６に示したＦＥＣプロトコルを用いて結合させる。
【００４４】
２．例
２．１ＦＥＣに使用される主要および冗長符号化/復号化装置
従来の技術の部分で述べた、ＧＳＭ−ＥＦＲ音声符号化標準規格を、スピーチデータの主要ストリームを符号化するのに用いることができる。ＧＳＭ−ＥＦＲ標準規格は、さらに「移動通信体のためのグローバルシステム：デジタルセルラー・テレコミュニケーションズ・システムズ：エンハンスト・フルレート（ＥＦＲ）スピーチ・トランスコーディング（ＧＳＭ０．０６０）（Global System for Mobile Communications: Digital Cellular Telecommunications Systems: Enhanced Full Rate (EFR) Speech Transcoding (GSM 06.60)）」、（１９９６年１１月）に記載されている。上述のように、ＧＳＭ−ＥＦＲスピーチ符号化標準規格は代数符号励振線形予測（ＡＣＥＬＰ）符号化装置を用いる。ＧＳＭ−ＥＦＲのＡＣＥＬＰは、２４４ビット／フレームおよび１２．２ｋビット／ｓの符号化ストリームに対応する、１６０サンプルを含む２０ｍｓのフレームをコード化する。さらに、主要符号器は、「デジタル・セルラー・テレコミュニケーションズ・システム：エンハンスト・フルレート（ＥＦＲ）スピーチ・トラフィック・チャネルのための損失フレームの代替とミューティング（ＧＳＭ０６．６１）（Digital Cellular Telecommunications System: Substitution and Muting of Lost Frames for Enhanced Full Rate (EFR) Speech Traffic Channels (GSM 06.61)）」（上記で要約した）、バージョン５．１．２（１９９７年４月）に記述されているエラー隠蔽技術を使用する。
【００４５】
スピーチデータの冗長ビットストリームを符号化するために、ボコーダを使用することができる。この例で用いたボコーダは、従来の技術で論じたＬＰＣ−１０ボコーダの特徴と、ＧＳＭ−ＥＦＲシステムの特徴を備えている。ＧＳＭ−ＥＦＲに基づく特徴により、ボコーダの出力は、ＧＳＭ−ＥＦＲ主要符号器により生成された主要データにさらに容易に適応できるようになる。例えば、ＬＰＣ−１０ボコーダは２２．５ｍｓのフレームを使用するが、ＧＳＭ−ＥＦＲ符号器は２０ｍｓのフレームを使用する。従って、ハイブリッド設計では２０ｍｓのフレームの使用を組み込む。このＦＥＣアプリケーションのために設計されたハイブリッドボコーダは「ＧＳＭ−ＶＯＣ」ボコーダと呼ばれている。
ＧＳＭ−ＶＯＣ復号器は図４で示した、基本的で概念的な設定を含む。すなわち、ＧＳＭ−ＶＯＣは雑音ベクトル（無声音のための）または状態パルスフォーム（有声スピーチのための）を備える励起信号を使用するための機能性を含む。その後、励起はＬＰＣフィルタブロックにより処理され、合成信号を生産する。
【００４６】
操作では、ＧＳＭ−ＶＯＣ符号器は入力スピーチを２０ｍｓのフレームに分割し、そしてカットオフ周波数が８０Hzのフィルタを用いて、スピーチをハイパス・フィルタリングする。次いで、スピーチの２乗平均（ＲＭＳ）エネルギー値を計算する。その後、ＧＭＳ−ＶＯＣはＧＳＭ−ＥＦＲ標準規格で前述した方法を用いて、１セットのＬＰ係数を計算し、そして定量化する。（しかし、対照的に、上述のＧＳＭ−ＥＦＲ標準規格は２セットの係数を算出する。）ＧＳＭ−ＥＦＲ０６．６０標準規格と同様に、ＧＳＭ−ＶＯＣ符号器は、最後のサンプルにより重みのあるウインドゥに基づき１セットの係数を得る。符号器はＬＰ係数を見つけた後、残差を計算する。
【００４７】
そして、符号器はフレームの半分毎に開ループ・ピッチ・サーチを行う。さらに具体的には、符号器はこのサーチを、１８から１４３の範囲のサンプルのラグのために、８０サンプル以上の自己相関を計算することによって行う。その後符号器は小さいラグのために、計算した相関に重み付けをする。この重み付けは１８から１４３の範囲のサンプルを３つのセクタ、すなわち、１８−３５の第１の範囲、３６−７１の第２の範囲、そして７２−１４３の第３の範囲に分けることにより行う。その後、復号器はそれぞれのセクタの最大値を決定し、重み付けをし（小さいラグのために）、そして、最も大きな値を選択する。その後、符号器は２つの半分のフレームに関連する最大値を比較し、最も大きな相関を有する半分のフレームのＬＰＴラグを選択する。少ないラグのための重み付けは、相関に複数のラグ値が存在するときに主要（基本）ラグ値を選択するために有益である。
【００４８】
符号器は、開ループサーチから、重み付けしていない最大相関に基づいて有声化を計算する。さらに詳細には、図９に示したように、符号器は、直前の２つの半分のフレーム、現在の半分のフレーム、および次の２つの半分のフレーム（全部で５つの相関関係のために）に及ぶサンプル範囲を有声化決定の基礎とする。次のフレームの相関を計算するために、符号器は２０ｍｓのルック−アヘッドを要求する。ＦＥＣ技術は、符号器に追加の遅延を加えることなくルック−アヘッドを提供する。すなわち、符号器モジュールはフレームｎに属する情報データと、直前のフレーム、すなわちフレームｎ−１の冗長データを結合させる。冗長フレームｎ−１を主要フレームｎと同時に符号化することにより、冗長符号器はルック−アヘッド・フレームを利用できる。言い換えれば、冗長符号器は、冗長符号化処理の前に、冗長フレームｎ−１を「調査する」機会がある。
【００４９】
スピーチが発声されたか否かを決定するために、符号器は３つの異なる閾値に対して示された５つの相関を比較する。第１に、符号器は現在のフレームおよび次の２つの半分のフレームからメジアン値を計算し、そしてそのメジアン値を第１の閾値と比較する。符号器は、音声を含むセグメントのスタートに対して迅速に反応するために、最初の閾値を用いる。第２に、符号器は５つの相関全部から形成された別のメジアン値を計算し、そしてこのメジアン値を第２の閾値と比較する。第２の閾値は、第１の閾値より低く、そして音声を含むセグメントの間、音声を検出するために用いる。第３に、符号器は、直前の半分のフレームが音声を含んでいたか決定する。もし含んでいれば、符号器は、また、５つの相関全部から形成された前記メジアン値と、第３の閾値とを比較する。第３の閾値は、３つの閾値の中でもっと低い。符号器は第３の閾値を使用し、転移の真の地点まで、またはそれ以上に、音声を含むセグメントを拡大する（例えば「持ち出し」を作るために）。第３の閾値は、有声スピーチから無声スピーチへの移行が起こったときに、符号器が半分のフレームを有声音として記録することを確実にする。復号器に送られる情報は、両方の半分のフレームについて、前に算出した有声化を含む。
【００５０】
符号器はＬＰ係数を定量化するために、変更したＧＳＭ−ＥＦＲ０６．６０スピーチ符号化/復号化装置技術（または変更したＩＳ−６４１技術）を用いる。記述したように、ＧＳＭ−ＥＦＲ０６．６０は直前のフレームの線スペクトル周波数ＬＳＦに基づく予測因子を用いる予測器について記述している。対照的に、本技術の予測器は平均ＬＳＦ値を用いる（ここで平均値はＧＳＭ−ＥＦＲ０６．６０標準規格により算定される）。これはＩＰＣを定量化する際に、前のフレームへの依存性を取り除く。本技術は、予測から、残差に基づいて（例えば１０残差）３本のベクトルをひとまとめにする。本技術は次いで統計から作った表とベクトルを比較し、最も適合するものを決定する。最も適合するものを表す表のインデックスが戻される。３本のベクトルに対応する３つのインデックスは２６bits使用する。
さらに、符号器はＲＭＳ値をｄＢに変換し、そして７ビットを用いて線形定量化するが、より少ないビット数を用いてもよい（例えば５または６ビット）。有声状態では、半分のフレームそれぞれの有声音を表すために、２ビットを用いる。ピッチはサンプル範囲が決まっている（１８−１４３）。有効な数字を７ビットに適合させるために１８を引く（すなわち、範囲が０から１２５サンプルとなるようにする）。
【００５１】
次の表１は、上述のＧＳＭ−ＶＯＣ内のビット配分について要約したものである。
【表１】

【００５２】
ピッチパルス位置およびその信号は、ＦＥＣ技術を実行するために有益な情報を提供する。これらのパラメータは、１つのサンプルを分析するとともに、フレーム内のピッチパルスの開始位置を示唆する。この情報を用いると、この技術は励起およびオリジナルのスピーチとの位相における合成を維持することができる。これらのパラメータは、まず、残余と固定パルス形態を相関させることにより発見される。位置および記号は、正確なフレーム半分を同定するために用いる（例えば、有声化の決定は、有声化されなかったフレーム半分内で検出された「間違った」パルスを除外するために用いることができる）有声化決定を活用し、相関曲線上の位置を定められる。これに比べて、独立型の符号器（すなわち、ＦＥＣを実行するときに他の符号器に接続しない符号器）は、パルス位置に関するいかなる情報（すなわちパルス位相）も特定しない。これは、独立型のボコーダでは、長いピッチ・エポックは所定のピッチラグを有するので、ピッチ位相は無関係である。
【００５３】
さて、復号器については、ＣＳＭ−ＶＯＣ復号器は、有声化決定およびピッチから、励起ベクトルを作る。有声化は、２つの定常状態および４つの転移状態を含む、６つの異なる状態を有する。定常状態は、有声状態、および無声状態含む。転移状態は、無声状態から有声状態への転移に関する状態、および有声状態から無声状態への転移に関する状態を含む。これらの転移状態は、半分のフレームのどちらでも発生するので、従って４つの異なる状態を画定する。フレームの有声部分のために、復号器は計算されたエポックを決定するときに所定のピッチを用いる（ここで「エポック」という言葉は、サンプルの範囲、例えばピッチ周期、をいう）。一方、補間のために、復号器は、無声フレームをそれぞれ４０サンプルの４つのエポックに分割する。
【００５４】
ピッチエポックそれぞれに、復号器はＲＭＳおよびピッチの古い値、および新しい値（すなわち、直前のフレームおよび現在のフレームそれぞれの）を補間して、より滑らかな転移を提供する。さらに、有声スピーチの場合、復号化技術は、２５サンプル長さのパルスおよび低い強度の雑音から励起を作り出す。無声スピーチの場合、励起信号は雑音のみ含む。さらに具体的には、有声ピッチエポックの中で、復号器はパルスをローパス・フィルタし、雑音をハイパス・フィルタする。1 + 0.7αA(z)で定義されたフィルタは、作られた励起をフィルタリングし、ここでαはA(z)の利得である。これは、T. Tremain著「政府規格線形予測符号化アルゴリズム：ＬＰＣ−１０（The Government Standard Linear Predictive Coding Algorithm: LPC-10）」スピーチテクノロジー（Speech Technology）（１９８２年４月）の４０―４８ページに述べられているように、合成スピーチのピーク時の大きさを低減する。復号器は、ＲＭＳ値が直前のフレームの値の８倍より大きくなった無声音フレームのために、破裂音を加える。第１の無声音ピッチエポック内での破裂音の位置はランダムで、連続するプラスの（加算された）、およびマイナスの（減算された）パルスにより形成されるダブルパルスからなる。ダブルパルスはフィルタから最大の反応を提供する。そして技術は、補間された値（例えば、過去、現在、およびもし利用可能であれば次のフレームのＲＭＳ値から形成された補間されたＲＭＳ値）に合うようにエポックのＲＭＳ値を調整する。これは、現在の合成してフィルタにかけられた励起のＲＭＳ値を計算することにより行われる。
【００５５】
次に、復号器はＬＳＦドメイン内のＬＰＣを４０サンプル・サブフレーム毎に補間し、その結果を励起に適用する。有声励起に用いられたパルスはバイアスを含んでいる。ハイパス・フィルタは８０Hzのカットオフ周波数で、このバイアスを除去する。
ＧＳＭ −ＶＯＣ冗長符号器および復号器の特徴について述べたが、ＧＳＭ−ＥＦＲ（主要符号化および復号化のため）およびＧＳＭ−ＶＯＣ（冗長符号化および復号化のため）を用いる全体的なＦＥＣ技術の操作についてこれから述べる。
【００５６】
２．２ＦＥＣにおける主要および冗長符号化/復号化装置の利用
図１０は、制御ロジック７１８（図７）に具備された状態機械のダイアグラムを示している。それぞれのパケットの、到着または未到着は状態機械の状態間の転移（または、同じ状態に停滞）を促進する。さらに具体的には、次のパケットの到着が、図で「０」と標識付けした転移を規定する。次のパケットの未到着が（すなわちパケットの損失）、図で「１」と標識付けした転移を規定する。図１０に示した状態の特徴を次に確認する。
【００５７】
状態：EFR NORM
状態「EFR NORM」は復号器モジュールが現在のパケットおよび次のパケットの両方を受信したことを示す。
復号器モジュールは、主要復号器を用いて、例えばＧＳＭ−ＥＦＲ０６．６０で述べた標準プロトコルに従ってスピーチを復号する。
【００５８】
状態：EFR Nxt E
状態「EFR Nxt E」は復号器モジュールが現在のパケット受信したが、しかし次のパケットを受信していないことを示す（図１０の状態ダイアグラムは状態「EFR NORM」から「EFR Nxt E」への転移を「１」と標識付けし、パケット損失を示唆することに注意）。
この状態では、復号器モジュールは、状態「EFR NORM」と同じようにスピーチを復号する。しかし、このフレームの冗長データは損失しているので、ＲＭＳパラメータ値は提供されない。従って、復号器モジュールがＲＭＳ値を計算し、それを履歴に入れる。同様に、有声化状態パラメータを利用できないので、復号器モジュールは（例えば、生成された合成スピーチから）自己相関の最大値を取り出し、符号器内で使用される有声化決定モジュールにその最大値を送ることにより、フレームの有声化を計算する。ルック−アヘッドが使用されないので、決定の正確性は低減する結果となる。
【００５９】
状態：RED SINGLE ERROR
状態「RED SINGLE ERROR」は、復号器モジュールが現在のフレームの主要データを受信していない（すなわち、主要データを損失した）が、現在のフレームの冗長データを運んでいる次のフレームのパケットを受信したことを示唆する。
この場合、復号器モジュールは現在のフレームのための冗長データおよび次のフレームのための主要データを用いてスピーチを復号する。さらに具体的には、復号器モジュールは、冗長フレームから現在のフレームのサブフレーム４のためにＬＰＣを復号する。復号された値はその後、主要ＬＰＣ復号器の予測器（すなわち、ＬＰＣ値の定量化のための予測器）を更新するために使用される。復号器モジュールはこの更新計算を前のフレームのＬＳＦ残差に基づいて行う（これについては次の状態「ERF R+C”」に関して、より詳細に論じる）。冗長データの使用（主要データよりも）は、定量化誤りを導くことがある。復号器モジュールは、ＬＳＦ領域内で、現在のフレームの複合値と前のフレームのＬＰＣ値の間で補間することにより、他のサブフレームのＬＰＣ値を算出する。
【００６０】
符号化技術はＬＴＰラグ、ＲＭＳ値、ピッチパルス位置、およびピッチパルス標識を抽出し、抽出された値を復号パラメータ値に復号する。本技術はまた、有声化状態を作り出す際に使用するために、フレームから有声化決定を抽出する。有声化状態は、直前の半分のフレームでなされた有声化決定および２つの現在の半分のフレームでの決定による。有声化状態は励起を作成する際にとる行動を制御する。
この状態での復号化は、また、事前引用主要データの可能性を利用する。さらに具体的には、復号器モジュールは誤り訂正（ＥＣ）を現在のフレーム（上述のＧＳＭ０６．６１標準規格により利得の平均化および減衰からなる）のＬＴＰ利得および代数コードブック（Alg CB）利得に適用する。そして復号器モジュールは、予測器および履歴が現在のフレームに反応したとき、次のフレームのパラメータを復号する。これらの値は、次のフレームのＲＭＳを予測するために用いられる。さらに具体的には、技術は平均ＬＴＰ利得（すなわちLTP_gain _、 _mean）、直前のＲＭＳ値（prevRMS）、および適応された利得を伴うAlg CBベクトルのエネルギー（すなわちRMS(AlgCB・Alggain)）を用いて次の式に従って予測を行う。
【数１２】

【００６１】
定常状態有声スピーチを表す有声状態を有するフレーム内で、復号器モジュールは他の状態の場合とは異なる方法で励起を作り出す。すなわち、復号器モジュールはＧＳＭ−ＥＦＲ標準規格で述べた方法で励起を引き起こす。モジュールは、冗長データと直前のフレームの値の間のＬＴＰラグを補間し、そして結果を励起履歴にコピーすることにより、ＬＴＰベクトルを作成する。これは、冗長データの値と直前のフレームの値の差が規定の閾値未満、例えば８未満の場合に行われる。それ以外の場合は、復号化モジュールは全サブフレーム（冗長データの）内の新しいラグを使用する。モジュールは、２周期長ＬＴＰラグを選択する符号器の結果である隙間の補間を避けるために、閾値のチェックをする。本技術は、共鳴を避けるためにAlg CB を無作為化し、Alg CBベクトルがＬＴＰベクトルの１０分の１の利得値を有するように利得を計算する。
【００６２】
復号器モジュールはＬＴＰベクトルおよびAlg CBベクトルを合計して励起を形成する。次いで復号器モジュールは、サブフレーム毎に、ＲＭＳ値に合わせて励起ベクトルの大きさを調整する。このようなサブフレームバイアスの調整は、ピッチパルス・エネルギー分布が均等ではないので、最良の方法ではない。例えば、サブフレーム内でピッチパルスの２つの高エネルギー部分は、サブフレーム内で１つの高エネルギー部分に比べて、より小さな振幅を受信するだろう。この非最適結果を避けるため、復号器モジュールは代わりにピッチパルスに基づく調整を行うことができる。本技術は最初の３つのサブフレーム内で、直前のフレームの最後のサブフレームのＲＭＳ値と現在のフレームのＲＭＳ値の間のＲＭＳ値を補間する。現在のフレームの最後のサブフレームでは、本技術は現在のフレームの値と次のフレームの予測された値の間でＲＭＳ値を補間する。この結果、次のフレームへより滑らかに転移する。
【００６３】
定常状態有声化状態以外の、他の有声化状態のフレームでは、復号器モジュールはＧＳＭ−ＶＯＣ固有方法で励起を作成する。すなわち、定常状態無声状態で、励起は雑音を作り出す。復号器モジュールは雑音の振幅を調整するので、サブフレームは正確なＲＭＳを受信する。無声状態への転移では、前のフレームの合成とパルス形態を相関させることにより、符号化技術は最後のピッチパルスの位置を示す。それは、最終的な最大値を発見するまで、ＬＴＰラグ-サイズのステップを用いる相関の最大から、次の局所パルス最大を連続的に示す技術である。そして、本技術は、現在のフレーム内の最後のパルスの終わりでスタートするために、ボコーダ励起モジュールを更新する。さらに、符号化処理技術は損失したサンプルを、最後のパルスのスタート地点の直前の位置からコピーする。この位置が、無声セグメントがスタートする位置を越えていなければ、復号器モジュールは１つ以上のボコーダパルスを加え、フレームの値に対して、ＲＭＳ値を補間する。最後の有声パルスの終わりから、復号器モジュールはフレーム境界に対する雑音を生成する。復号器モジュールはまた、雑音ＲＭＳを補間するので、本技術は無声状態への滑らかな転移を提供する。
【００６４】
有声音化状態が有声状態への転移を表すとすると、符号化処理技術はパルス位置および記号に決定的に依存する。所定のピッチパルス位置まで、励起は雑音で構成される。復号器モジュールはこの雑音のＲＭＳを、受信した値（冗長データから）の方へ補間する。本技術は、補間したＲＭＳ値と共にボコーダパルスをピッチパルス位置に配置する。全パルスは受信したラグを使用する。本技術は、直前のフレームの最後のサブフレームの値とフレームの第１の半分内で受信した値の間の、および第２の半分内で受信した値と予測された値の間のＲＭＳ補間を形成する。
励起のためのＲＭＳ値を計算するとき、フィルタ利得を考慮に入れるために、復号器モジュールは訂正フィルタ状態で励起を合成フィルタする。エネルギーを調整した後、技術は、ボコーダパルスの歪んだ部分を除去するために、励起をハイパス・フィルタする。さらに、続くフレーム内でＬＴＰに仕事を与えるために、復号器モジュールは作成された励起を励起履歴に入れる。その後、復号器モジュールは、合成モデルに最後の合成を作成させる。定常状態有声状態からの合成はまた、フィルタを通ったものである。
【００６５】
状態：ERF AFTER RED
状態「ERF AFTER RED」では、復号器モジュールは現在および次のフレームのパケットを受信しているが、復号器モジュールは前のフレームを復号するために冗長データのみ使用した。
この状態では、本技術は従来のＧＳＭ−ＥＦＲ複合化処理を使用する。しかし、復号器モジュールは、すでに復号化されている利得パラメータを使用する。作成された合成はフレーム全体のＲＭＳ値が冗長データから受信した値に対応するように、その振幅を調整されている。高周波数雑音を作成することができる合成に不連続が発生しないように、復号器モジュールは励起に対して調整を行う。次に、次のフレームとの一貫性を保つために、モジュールは励起を励起履歴に送る。さらに、モジュールは合成フィルタを、現在のフレーム内の最初の状態にリセットし、そしてその後、前記フィルタを励起信号に対して再度使用する。
【００６６】
状態：EFR RED Nxt E
状態「EFR RED Nxt E」では、復号器モジュールは現在のフレームの主要データを受信しているが、次のフレームのパケットは受信していない（すなわち、次のパケットが損失している）。さらに、復号器モジュールは前のフレームを冗長データを用いて復号した。
この状態では合成のエネルギーレベルを訂正するときに使用するための冗長データが欠如している。代わりに、復号器モジュールは式１２を用いて予測を行う。
【００６７】
状態：EFR EC
状態「EFR EC」では、復号器モジュールが連続して複数のパケットの受信に失敗している。従って、現在のフレーム内に、スピーチを復号化するために使用できる主要データおよび冗長データはどちらも存在しない。
この状態では、ＧＳＭ−ＥＦＲエラー隠蔽技術を用いてデータの不足を補修しようと試みる（例えば、従来の技術の部分で述べたように）。これは利得履歴（ＬＩＰおよびAlg CB）の平均値をとり、前記平均値を減衰させ、そして前記平均値を履歴に送り返すことを含む。ビット誤りにより歪む代わりに、データが失われているので、復号器モジュールは受信した代数コードブックベクトルをそのまま使用することができない。従って、復号器モジュールは新しいコードブックベクトルを無作為化する。この方法は、パケットに基づくネットワークに適合したＧＳＭ−ＥＦＲで使用される。もし、対照的に、復号器モジュールが最後のフレームからのベクトルをコピーした場合、スピーチの共鳴が起こる場合がある。符号化処理技術は、状態「EFR nxt E」と同様に、合成されたスピーチから有声化状態およびＲＭＳ値を計算する。最後の良好なフレームのピッチを使用すると、励起履歴内で、パルス位置の大きな位相ドリフトをもたらす。
【００６８】
状態：RED AFTER EC
状態「RED AFTER EC」では、復号器モジュールは現在のフレームの冗長データを含む次のフレームのパケットを受信している。復号器モジュールは誤り訂正を１つ以上の前のフレームに適応する（そして、この状態は状態「RED SINGLE ERROR」とこの点を基準として区別することができる）。
この状態では、励起履歴は非常に不確実なので使用するべきではない。復号器モジュールは、ボコーダピッチパルスから、定常状態有声状態で励起を作成し、復号器モジュールはＲＭＳエネルギーを：前のフレームの値、現在の値、および次のフレームの予測により補間する。復号器モジュールは、励起履歴の位相をできるだけ正確にするために、受信した（冗長）データからパルスの位置および記号を取る。復号器モジュールは「RED SINGLE ERROR」状態の定常状態有声状態の処理に関連する方法で、励起履歴からの所定の位置の前の地点をコピーする（冗長データのピッチパルス位相情報が不足している場合、ピッチパルス配置は、上記の１．４章の最初で延べた技術を用いて決定することができる）。
【００６９】
状態：ERF R+EC Nxt E
状態「ERF R+EC Nxt E 」では、復号器モジュールが次のフレームのパケットの受信に失敗する。さらに、復号器モジュールは冗長データのみで前のフレームを、ＥＣでその前のフレームを復号した。
復号器モジュールは主要データで現在のフレームを復号する。しかしこの状態は、主要データを復号する状態の分類の中で、最悪の状態を意味するものである。例えば、ＬＳＦ予測器の動作はこの環境では不十分となり易く（例えば予測器が「ラインから外れている」）、利用可能なデータで訂正することはできない。従って、復号器モジュールは、ＧＳＭ−ＥＦＲＬＰＣを標準の方法で復号し、次いで帯域はＬＰＣを僅かに拡大する。さらに具体的には、これはＧＳＭ−ＥＦＲ誤り訂正の標準的な方法で行われるが、別のタイプの不安定性（例えば、平均値を使いすぎるとフィルタが不安定になる）が作り出されないように、より小規模で行われる。復号器モジュールは、予測された値、例えば式１２に関して、励起および合成のエネルギー調整を行う。その後、復号器モジュールは、現在のフレームのために、合成からＲＭＳおよび有声化を計算する。
【００７０】
状態：EFR R+EC
状態「ERF R+EC 」では、復号器モジュールは次のフレームのパケットを受信しているが、それは冗長データのみで直前のフレーム、その前のフレームをECで復号した。
この状態では、復号器モジュールは通常現在のフレームを主要データおよび冗長データを用いて復号する。さらに具体的には、ＥＣをＬＰ係数に適用した後も、予測器は正確な予測を提供する能力を失う。この状態では、復号器モジュールを冗長データで修正することができる。すなわち、復号器モジュールは冗長ＬＰＣ係数を復号する。これらの係数は、ＧＳＭ−ＥＦＲ標準規格により提供される第２の一連のＬＰＣ係数と同じ値を表す。符号化処理技術は、現在のフレームの予測器の推定値を計算するために両方を使用する。例えば、次の式を用いて計算する（式１３は式１１と同一だが、利便性のために複写した）。
【数１３】

【数１４】

【００７１】
この方法では、情報合成モデルはＬＳＦ残差（すなわちLSF_res）に関する情報を提供する一方で、冗長モデルはこれらの係数のために冗長ＬＳＦ値（すなわちＬＳＦ_red）に関する情報を提供する。復号器モジュールは、迅速な予測器の更新を提供するために、予測器状態を式１３を用いて計算するときにこれらの値を使用する。式１３では、項LSF_meanは平均ＬＳＦ値を定義し、項predFactorは予測因子定数を指し、そしてLSF_prev,resは過去のフレームからの残差ＬＳＦを指す。復号器モジュールはその後、上記の式１４を用いてＬＳＦ残差を復号してＬＰＣ係数にするために、更新された予測器状態を使用する。この概算は、現在のフレームのＬＰ係数が冗長ＬＰＣ定量化誤りと等しい誤りを有することを確実にするのに有利である。そうでなければ、現在のフレームのＬＳＦ残差で更新された場合、予測器は次のフレーム内で正しいということになる。
【００７２】
ＧＳＭ−ＥＦＲ標準規格は、代数コードブック利得のための、別の予測器を提供する。ＧＳＭ−ＥＦＲ利得の値はどちらかといえば、確率論的な情報である。そのような情報に適合する冗長パラメータはなく、 Alg CB 利得の評価の妨げとなる。予測器はフレームを損失した後、安定するのに大体１フレームかかる。予測器はフレーム間に存在するエネルギー変化に基づいて更新する事ができる。符号器モジュールはＬＴＰ利得と代数利得の間の分布（例えば比率）計測し、非常に少ないビット数（例えば２、または３ビット）で送ることができる。予測器を更新するための技術は有声化状態についても考慮しなくてはならない。有声状態への転移で、代数利得は、後のフレームで使用するＬＴＰ用の履歴を作成するには大きすぎることが多い。定常状態では、利得はより適度で、そして無声状態では、無声状態に見られる殆ど全ての無作為を形成する。
【００７３】
２．４変形
上述の例の多くの変形を考えることができる。例えば、最後のサブフレーム内でのＲＭＳ計測を最後に完了したピッチエポックの計測に代えて、ただ１つのピッチパルスが計測されるようにすることができる。最後のフレームに関しての現在の計測では、パルスの位置およびピッチラグに応じて、０、１つ、または２つの高エネルギー部分が存在する場合がある。状態「RED SINGLE ERROR」、および定常状態有声状態のエネルギー分布について同様の修正が可能である。これらの場合、エネルギー補間はピッチパルスの総量に基づいて調整できる。
符号器モジュール内のパルス位置サーチを、ルック−アヘッドに基づく有声化決定を使用するように、修正することができる。
誤り条件「RED AFTER EC」内では、本技術は第１のピッチパルスの配置を調整できる。この調整は受信したパルス位置および直前のフレームの合成内の位相情報の両方を考慮しなくてはならない。位相の不連続を最小にするために、位相誤りを訂正するため本技術はフレーム全体を使用しなくてはならない。これは直前のフレームの合成が有声音スピーチから成るとを仮定する。
【００７４】
線形補間の代わりに多項式を用いた補間を用いることができる。本技術では、多項式は以下の値に適応すると考えられる：直前のフレームの総ＲＭＳ、直前のフレームの最後のパルスのＲＭＳ、現在のフレームのＲＭＳおよび次のフレームの予測ＲＭＳ。
本技術は、エネルギーのより高度な予測を用いることができる。例えば、次のフレームのエネルギー包絡線を決定するための十分なデータがある。本技術を、前記包絡線から次のフレームのスタート地点におけるエネルギーおよびその微分係数を予測するように修正することができる。本技術では、より滑らかなフレーム境界を提供するために、この情報をエネルギー補間を改善するために使用することができる。本技術がやや不正確な予測を提供する場合には、本技術は次のフレーム内でエネルギーレベルを調整することができる。不連続にならないように、本技術はある種類の不均等な調整を用いることができる。例えば、本技術は利得調整をフレームの最初でほとんどゼロに設定し、フレームの中間部までに調整を所定の値まで増加させることができる。
【００７５】
ネットワークを介して伝送される冗長データ（オーバーヘッド）の総量を低減するために、符号化処理技術はいくつかのパラメータを放棄できる。さらに具体的には、本技術は有声化状態によって様々なパラメータを放棄できる。
例えば、表２は無声スピーチに適したパラメータを示す。本技術は雑音のスペクトル特性を表すためにＬＰＣを必要とする。本技術は雑音のエネルギーを伝送するために、ＲＭＳ値を必要とする。表は有声化状態を記載したものであるが、このパラメータは放棄することができる。その代わりに、本発明は無声スピーチのインジケータとしてデータサイズを用いることができる。つまり、有声化状態以外で、表２のパラメータのセットは３３ビットのフレームサイズおよび１６５０ｂ／ｓのビット速度を提供する。このデータサイズ（３３ビット）を無声スピーチのインジケータとして用いることができる（パケット化技術が、例えばパケットのヘッダ内で、このサイズの情報を指定した場合）。その上、符号化処理技術は雑音のスペクトル形成で使用するための精密な値を必要としない（有声セグメントと比べて）。その観点から、本技術は帯域を低減するために、それほど正確でないタイプの定量化を用いることができる。しかし、そのような修正は、主要ＬＰＣ復号器の予測器更新操作の有効性をそこなう。
【００７６】
【表２】

無声スピーチから有声スピーチへの転移では、本技術は表１（前述）の全パラメータを必要とする。これは、ＬＰＣパラメータが通常この環境内で極端に変化するからである。有声スピーチはピッチを含み、フレーム内に新しいレベルのエネルギーが存在する。このように、本技術は、励起の正確な位相を生成するために、ピッチパルスおよび標識を使用する。
【００７７】
定常状態有声状態および無声状態への転移では、本技術はピッチパルス位置および標識を除去することができ、従って、総ビット量を４２ビットに低減する（すなわち２１００ｂ／ｓ）ことができる。従って復号器モジュールはこれらのフレーム内で位相情報を受信せず、それにより出力の質に否定的な影響が出ることがある。これは復号器に直前のフレーム内での位相のサーチを強制し、それはまた、パケットをバースト損失するために、アルゴリズムが位相を検出できないので、位相誤りが拡大するという結果になる場合がある。またそれは、エラー隠蔽の期間の間に起きた位相ドリフトの訂正を不可能にする。
上記のＧＳＭ−ＶＯＣの代わりに、上記の冗長復号器はマルチ-パルス符号化処理を使用できる。マルチ-パルス復号化では、符号化処理技術は残差から最も重要なパルスを符号化する。この方法は、無声状態から有声状態への転移における変化に対してよりよい反応を示すと考えられる。さらに、この符号化処理技術をＧＳＭ−ＥＦＲと結合させると、位相複雑化は起こらないだろう。一方、本技術は上記のＧＳＭ−ＶＯＣより高い帯域を使用する。
【００７８】
上記の例は単一レベルの冗長を提供する。しかし、本技術は複数レベルの冗長も使用することができる。さらに、上記の例は、好適には同じパケット内で、主要データと冗長データを結合させる。しかし、本技術は、情報データ、および冗長データを別々のパケット、または他のフォーマットで転送することができる。
上述の原理のその他の変形ができることは当業者にとって明らかであろう。そのようなすべての変形および修正は、特許請求の範囲で限定される本発明の範囲および精神の範囲内にあるものと考えるべきである。
【図面の簡単な説明】
【図１】従来の符号励振線形予測（ＣＥＬＰ）符号器を示す。
【図２】図１のＣＥＬＰ符号器によって生成された残差を図示している。
【図３】適応コードブックを用いる他のタイプのＣＥＬＰ符号器を示している。
【図４】従来のボコーダを示している。
【図５】パケット化されたネットワークで前方向誤り訂正を行う従来のシステムを示している。
【図６】図５のシステム内における、主要および冗長情報の結合例を示している。
【図７】本発明の一実施例により、パケット化されたネットワークで前方向誤り訂正を行うシステムを示している。
【図８】本発明で使用する符号器モジュールの例を示している。
【図９】本発明の１実施例における、冗長符号器のサブフレーム区分を示す。
【図１０】図７で示した復号器モジュールの制御ロジック内で使用する状態機械の例を示す。

Claims

主要符号データおよび冗長符号データを含むパケット化された音声データを復号化するための復号器モジュールであって：
主要合成モデルを用いてパケットの主要符号データを復号化するための主要復号器と
冗長合成モデルを用いてパケットの冗長符号データを復号化するための冗長復号器と
パケットそれぞれについて、復号器モジュールが経験した受信状況の誤り条件に応じて、パケットの復号化に使用される複数の復号化方法から１つを選択するための制御ロジックとを備え、
うち１つの方法においては、前記冗長合成モデルにより得られた結果が前記主要合成モデル内の状態を更新するために使用され、および/または前記主要合成モデルにより得られた結果が前記冗長合成モデル内の状態を更新するために使用される、復号器モジュール。
前記状態は
適応コードブック状態、
ＬＰＣフィルタ状態、
エラー隠蔽履歴状態、および
定量化予測状態
の少なくとも１つに関連している、請求項１に記載の復号器モジュール。
前記状態は前記主要合成モデル内のＬＳＦ予測状態に関連し、次の式により更新される、請求項１に記載の復号器モジュール。
ＬＳＦ_pres,res= (ＬＳＦ_red-ＬＳＦ_mean-ＬＳＦ_res/predFactor
ここでＬＳＦ_pres,res は直前のフレームのＬＳＦ残差を、
ＬＳＦ_red は冗長データから供給された現在のフレームのＬＳＦを、
ＬＳＦ_mean は現在のフレームのＬＳＦの中間値を、
ＬＳＦ_res は現在のフレームのＬＳＦ残差を、
PredFactorは予測因子を表す。
前記誤り条件は、直前のパケットの受信または非受信、現在のパケットの受信または非受信、および次のパケットの受信または非受信に関連する、請求項１に記載の復号器モジュール。
パケット内に含まれる主要符号データを処理すると同時に同パケット内の冗長符号データも復号するルック−アヘッド手段
をさらに備える請求項１〜４のいずれか一項に記載の復号器モジュール。
次のフレーム内のエネルギーを予測するためおよびフレーム間のエネルギー転移をなめらかにするために、ルック−アヘッド処理手段の結果を用いるための手段をさらに含む、請求項５に記載の復号器モジュール。
直前のフレーム内で判明している最後のパルス位置を同定し、次いで該判明している最後のパルス位置からピッチラグ値にして１つ分以上前進した位置に現在のフレーム内のパルス位置を決定することにより、現在のフレーム内のピッチパルス位置を決定するための手段
をさらに備え、前記決定された現在のフレーム内のピッチパルス位置は位相の不連続を低減するために使用される、請求項１〜６のいずれか一項に記載の復号器モジュール。
前記ピッチパルス位置を決定する手段は、さらに、ピッチパルス位置値を符号化側から受信し、受信した値を決定したピッチパルス位置と比較し、次いで現在のフレーム全体に検出した位相不一致を平坦化するように構成されている、請求項７に記載の復号器モジュール。
主要符号データおよび冗長符号データを含むパケットに形成された音声データの復号化方法であって：
復号化側でパケットを受信する段階と、
主要合成モデルを用いて受信したパケットの主要符号データを主要復号化する段階と、
冗長合成モデルを用いて受信したパケットの主要符号データを冗長復号化する段階と、
パケットそれぞれについて、復号器側で経験した受信状況の誤り条件に応じて、パケットの復号化に使用する複数の復号化方法から１つを選択する段階と
を含み、
うち１つの方法においては、冗長合成モデルにより得られた結果は主要合成モデル内の状態を更新するために使用され、および/または主要合成モデルにより得られた結果は冗長合成モデル内の状態を更新するために使用される方法。
前記状態は
適応コードブック状態、
ＬＰＣフィルタ状態、
エラー隠蔽履歴状態、および
定量化予測状態
の少なくとも１つに関連する、請求項９に記載の方法。
前記状態は、主要合成モデル内のＬＳＦ予測器状態に関連し、次の式により更新される、請求項９に記載の方法。
ＬＳＦ_pres,res= (ＬＳＦ_red-ＬＳＦ_mean-ＬＳＦ_res/predFactor
ここでＬＳＦ_pres,res は直前のフレームのＬＳＦ残差を、
ＬＳＦ_red は冗長データから供給された現在のフレームのＬＳＦを、
ＬＳＦ_mean は現在のフレームのＬＳＦ中間値を、
ＬＳＦ_res は現在のフレームのＬＳＦ残差を、そして
PredFactorは予測因子を表す。
前記誤り条件は、直前のパケットの受信または非受信、現在のパケットの受信または非受信、および次のパケットの受信または非受信に関連する、請求項９に記載の方法。
パケット内に含まれる主要符号データを処理すると同時に同パケット内に含まれる冗長符号データも復号するルック−アヘッド処理を行う段階
をさらに含む請求項９〜１２のいずれか一項に記載の方法。
次のフレーム内のエネルギーを予測するため、およびフレーム間のエネルギー転移をなめらかにするために、ルック−アヘッド処理の結果を使用する段階を含む、請求項１３に記載の方法。
主要符号化または冗長符号化は、直前のフレーム内で判明している最後のパルス位置を同定し、次いで該判明している最後のパルス位置からピッチラグ値にして１つ分以上前進した位置に現在のフレーム内のパルス位置を決定することにより、現在のフレーム内のピッチパルス位置を決定する段階を含み、決定されたピッチパルス位置は位相の不連続を低減するために使用される、請求項９〜１４のいずれか一項に記載の方法。
ピッチパルス位置を決定する段階は、ピッチパルス位置値を符号化側から受信する段階と、受信した値を決定したピッチパルス位置と比較する段階と、次いで検出した位相不一致を現在のフレーム全体に平坦化する段階をさらに含む、請求項１５に記載の方法。