JP4222951B2

JP4222951B2 - 紛失フレームを取扱うための音声通信システムおよび方法

Info

Publication number: JP4222951B2
Application number: JP2004010951A
Authority: JP
Inventors: ベンヤッシン，アディル; シュロモット，エアル; ス，ホワン−ユ
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 2000-07-14
Filing date: 2004-01-19
Publication date: 2009-02-12
Anticipated expiration: 2021-07-09
Also published as: AU2001266278A1; KR20030040358A; CN1212606C; EP1301891B1; ATE317571T1; CN1267891C; ATE427546T1; CN1722231A; DE60117144T2; WO2002007061A3; CN1441950A; KR20040005970A; DE60138226D1; JP2004206132A; EP1577881A2; EP1363273B1; ES2325151T3; JP2004504637A; EP1301891A2; DE60117144D1

Description

［引用による援用］
以下の米国特許出願を、ここに引用によりその全体を援用し、本出願の一部とする。

米国特許出願番号第０９／１５６，６５０号、「開ループ利得と閉ループ利得とを組合せる利得正規化を用いた音声エンコーダ（Speech Encoder Using Gain Normalization That Combines Open And Closed Loop Gains）」、コネクサント（Conexant）事件番号９８ＲＳＳ３９９、１９９８年９月１８日出願。

米国仮特許出願番号第６０／１５５，３２１号、「４キロビット／秒音声符号化（4 kbits/s Speech Coding）」、コネクサント事件番号９９ＲＳＳ４８５、１９９９年９月２２日出願。

米国特許出願番号第０９／５７４，３９６号、「新しい音声利得量子化方策（A New Speech Gain Quantization Strategy）」、コネクサント事件番号９９ＲＳＳ３１２、２０００年５月１９日出願。

［発明の背景］
この発明の分野は一般に、音声通信システムにおける音声のエンコードおよびデコードに関し、より特定的には、間違ったまたは紛失したフレームを取扱うための方法および装置に関する。

基本的な音声音をモデル化するには、音声信号は時間を経てサンプリングされ、デジタル処理されるべき離散波形としてフレームに記憶される。しかし、音声用通信帯域幅の効率のよい使用を増加させるため、音声は、特に音声が制限された帯域幅制約の下で送信されるものである場合、送信される前に符号化される。音声符号化のさまざまな局面に対して、多数のアルゴリズムが提案されてきた。たとえば、合成による分析の符号化技法が音声信号に対して行なわれる場合がある。音声を符号化する際、音声符号化アルゴリズムは、より狭い帯域幅しか必要としないやり方で音声信号の特性を表わそうとする。たとえば、音声符号化アルゴリズムは音声信号における冗長を除去しようとする。第１のステップは短期の相関を除去することである。音声符号化手法の１つの種類は、線形予測符号化（ＬＰＣ）である。ＬＰＣ技法を用いる際、任意の特定の時間での音声信号値は、前の値の線形関数としてモデル化される。ＬＰＣ技法を用いることによって、短期の相関は減少可能であり、或る予測パラメータを推定し応用して信号を表わすことによって効率よい音声信号表示が決定され得る。音声信号における短期の相関のエンベロープであるＬＰＣスペクトルは、たとえば、ＬＳＦ（線スペクトル周波数）によって表わされてもよい。音声信号における短期の相関の除去後、ＬＰＣ残留信号が残る。この残留信号は、モデル化される必要がある周期性情報を含む。音声における冗長を除去する第２のステップは、周期性情報をモデル化することである。周期性情報はピッチ予測を用いることによってモデル化されてもよい。音声の或る部分は周期性を有するが、他の部分は周期性を持たない。たとえば、音“aah（アー）”は周期性情報を持つものの、音“shhh（シーッ）”は周期性情報を持たない。

ＬＰＣ手法を応用する際、従来のソースエンコーダは、通信チャネルを介して従来のソースデコーダへ通信するため、音声信号に動作して、符号化されるべきモデリングおよびパラメータ情報を抽出する。モデリングおよびパラメータ情報をより少量の情報へ符号化
する１つの方法は、量子化を用いることである。パラメータの量子化は、表またはコードブックにおける最も近いエントリを選択してパラメータを表わすことを伴う。このため、たとえば０．１２５のパラメータは、コードブックが０、０．１、０．２、０．３などを含む場合、０．１によって表わされてもよい。量子化は、スカラ量子化とベクトル量子化とを含む。スカラ量子化では、上述のように、パラメータに最も近い近似値である表またはコードブック中のエントリを選択する。これに対し、ベクトル量子化は、２つまたはそれ以上のパラメータを組合せ、組合されたパラメータに最も近い表またはコードブック中のエントリを選択する。たとえば、ベクトル量子化は、パラメータ間の差に最も近いコードブック中のエントリを選択するかもしれない。２つのパラメータを一度にベクトル量子化するために用いられるコードブックはしばしば、２次元コードブックと呼ばれる。ｎ次元コードブックはｎ個のパラメータを一度に量子化する。

量子化されたパラメータは、エンコーダからデコーダへ送信されるデータのパケットへパッケージされてもよい。言い換えれば、一旦符号化されると、入力音声信号を表わすパラメータはトランシーバへ送信される。このため、たとえば、ＬＳＦは量子化されてもよく、コードブックへのインデックスはビットに変換されてエンコーダからデコーダへ送信されてもよい。実施例に依存して、各パケットは、音声信号のフレームの一部、音声のフレーム、または音声のフレームを超えるものを表わしてもよい。トランシーバでは、デコーダが符号化された情報を受信する。デコーダは音声信号をエンコードするやり方を知っているように構成されているため、デコーダは符号化された情報をデコードし、人間の耳に元の音声のように聞こえる再生のために信号を復元する。しかし、データの少なくとも１つのパケットが送信中に紛失し、デコーダがエンコーダによって送られた情報のすべてを受信するとは限らない、ということが避けられない場合がある。たとえば、音声がある携帯電話から別の携帯電話へ送信されているとき、受信が不良、またはノイズがある場合には、データは紛失されるかもしれない。したがって、符号化されたモデリングおよびパラメータ情報をデコーダへ送信することは、デコーダがデータの紛失パケットについて訂正または調整する方法を必要とする。先行技術は紛失パケット内の情報は何だったかを推測しようとする外挿などによってデータの紛失パケットについて調整する或る方法を記載しているものの、これらの方法は制限されており、改良された方法が必要とされている。

ＬＳＦ情報の他に、デコーダに送信された他のパラメータがなくなる場合がある。たとえばＣＥＬＰ（符号励振線形予測）音声符号化では、同じく量子化されてデコーダへ送信される２種類の利得がある。第１の種類の利得はピッチ利得Ｇ_Pで、適応コードブック利得（adaptive codebook gain）としても公知である。適応コードブック利得は、ここも含め、添字“ｐ”の代わりに添字“ａ”を添えて言及されることがある。第２の種類の利得は固定コードブック利得（fixed codebook gain）Ｇ_Cである。音声符号化アルゴリズムは、適応コードブック利得と固定コードブック利得とを含む量子化されたパラメータを有する。他のパラメータは、たとえば、発生された音声の周期性を表わすピッチラグを含んでいてもよい。音声エンコーダが音声信号を分類すると、音声信号に関する分類情報もデコーダへ送信されてもよい。音声を分類し異なるモードで動作する改良された音声エンコーダ／デコーダについては、前に引用により援用された、米国特許出願番号第０９／５７４，３９６号、「新しい音声利得量子化方策」、コネクサント事件番号９９ＲＳＳ３１２、２０００年５月１９日出願を参照されたい。

これらおよび他のパラメータ情報は不完全な送信媒体を通ってデコーダへ送られるため、これらのパラメータのいくつかは紛失され、またはデコーダによって決して受信されない。音声の１フレーム当り１パケットの情報を送信する音声通信システムにとっては、紛失パケットは、情報の紛失フレームをもたらす。紛失された情報を復元または推定するた
め、先行技術のシステムは、紛失されたパラメータに依存して、異なる技法を試みてきた。いくつかの技法は単に、実際にデコーダによって受信された前のフレームからのパラメータを用いている。これらの先行技術の技法は欠点、誤り、および問題を有する。このため、元の音声信号にできるだけ近い音声信号を再現するように、紛失情報について訂正または調節する、改良された方法に対する要求がある。

或る先行技術の音声通信システムは、帯域幅を節約するため、固定コードブック励振をエンコーダからデコーダへ送信しない。その代わり、これらのシステムは、初期固定シードを用いてランダム励振値を生成し、次に、システムが無音またはバックグラウンドノイズを含むフレームに遭遇するたびにそのシードを更新する、局所的なガウス時系列発生器を有する。このため、シードはノイズフレームごとに変わる。エンコーダとデコーダとが同じシーケンスで同じシードを用いる同じガウス時系列発生器を有するため、それらはノイズフレームに対して同じランダム励振値を生成する。しかし、ノイズフレームが紛失され、デコーダによって受信されない場合、エンコーダとデコーダとは同じノイズフレームに対して異なるシードを用い、それによりそれらの同時性を失う。このため、固定コードブック励振値をデコーダへ送信しないものの、送信中にフレームが紛失された場合にエンコーダとデコーダ間の同時性を維持する音声通信システムに対する要求がある。

［発明の概要］
この発明のさまざまな別個の局面は、エンコーダからデコーダへの送信中に紛失された情報を取扱う改良されたやり方を有する音声通信システムおよび方法に見出すことができる。特に、改良された音声通信システムは、データの紛失パケット内で紛失された情報についてより正確な推定値を生成可能である。たとえば、改良された音声通信システムは、ＬＳＦ、ピッチラグ（または適応コードブック励振）、固定コードブック励振、および／または利得情報などの紛失された情報をより正確に取扱うことができる。固定コードブック励振値をデコーダへ送信しない音声通信システムの一実施例では、改良されたエンコーダ／デコーダは、前のノイズフレームが送信中に紛失された場合でも、所与のノイズフレームに対して同じランダム励振値を生成可能である。

この発明の第１の別個の局面は、ＬＳＦ間の最小間隔を増加された値に設定し、次に、後続するフレームについての値を制御された適応性のあるやり方で減少させることによって、紛失されたＬＳＦ情報を取扱う音声通信システムである。

この発明の第２の別個の局面は、複数の前の受信フレームのピッチラグから外挿することによって紛失されたピッチラグを推定する音声通信システムである。

この発明の第３の別個の局面は、次の受信フレームのピッチラグを受信し、前の受信フレームのピッチラグと次の受信フレームのピッチラグとの間に適合する曲線を用いて、紛失フレームに対するピッチラグの推定を微調整し、適応コードブックバッファを後続するフレームによる使用の前に調整または訂正する、音声通信システムである。

この発明の第４の別個の局面は、非周期性様の音声の紛失利得パラメータを推定するのとは異なるように、周期性様の音声の紛失利得パラメータを推定する音声通信システムである。

この発明の第５の別個の局面は、紛失された固定コードブック利得パラメータを推定するのとは異なるように、紛失された適応コードブック利得パラメータを推定する音声通信システムである。

この発明の第６の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータに基づいて、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。

この発明の第７の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータと、総励振エネルギに対する適応コードブック励振エネルギの比とに基づいて、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。

この発明の第８の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータ、総励振エネルギに対する適応コードブック励振エネルギの比、前に受信されたフレームのスペクトル傾斜、および／または前に受信されたフレームのエネルギに基づいて、非周期様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。

この発明の第９の別個の局面は、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定する音声通信システムである。

この発明の第１０の別個の局面は、非周期性様の音声の紛失フレームの全サブフレームに対して、紛失された固定コードブック利得パラメータをゼロに設定する音声通信システムである。

この発明の第１１の別個の局面は、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、非周期性様の音声の紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定する音声通信システムである。

この発明の第１２の別個の局面は、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定し、次に、そのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された固定コードブック利得パラメータを設定する音声通信システムである。

この発明の第１３の別個の局面は、受信フレームの後で紛失されることになる周期性様の音声の第１のフレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定する音声通信システムである。

この発明の第１４の別個の局面は、受信フレームの後で紛失されることになる周期性様の音声の第１のフレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定し、次に、そのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された適応コードブック利得パラメータを設定する音声通信システムである。

この発明の第１５の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超える場合、周期性様の音声の紛失フレームの紛失された固定コードブック利得パラメータをゼロに設定する音声通信システムである。

この発明の第１６の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超えない場合、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、周期性様の音声の紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定する音声通信システムである。

この発明の第１７の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超える場合、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定し、次にそのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された固定コードブック利得パラメータを設定する音声通信システムである。

この発明の第１８の別個の局面は、所与のフレームに対する固定コードブック励振を、そのフレーム内の情報によってその値が求められるシードを用いることによってランダムに生成する音声通信システムである。

この発明の第１９の別個の局面は、紛失フレーム内の紛失パラメータを推定し音声を合成した後で、合成された音声のエネルギを前に受信されたフレームのエネルギへマッチングさせる音声通信デコーダである。

この発明の第２０の別個の局面は、個々のまたはある組合せでの上述の別個の局面のいずれかである。

この発明のさらなる別個の局面は、個々のまたはある組合せでの上述の別個の局面のいずれかを実践する、音声信号をエンコードおよび／またはデコードする方法にも見出すことができる。

この発明の他の局面、利点、および新規の特徴は、以下の好ましい実施例の詳細な説明を添付図面とともに検討することから明らかであろう。

［好ましい実施例の詳細な説明］
まず、音声通信システム全体についての一般的な説明を記載し、次にこの発明の実施例について詳細に説明する。

図１は、通信システムでの音声エンコーダおよびデコーダの一般的な使用例を示す、音声通信システムの概略的なブロック図である。音声通信システム１００は、通信チャネル１０３にわたって音声を送信および再現する。通信チャネル１０３は、たとえばワイヤ、ファイバ、または光リンクを含み得るが、典型的に、少なくとも部分的に無線周波リンクを含み、これは、携帯電話で見ることができる共有帯域幅リソースを必要とする多数の同時音声交換にしばしば対応していなければならない。

通信チャネル１０３には記憶装置が結合されて、たとえば留守番録音装置機能や音声メールを行なうなど、後に再現または再生するために音声情報を一時的に記憶する。同様に通信チャネル１０３は、たとえば後に再生するために音声を記録および記憶するだけの、通信システム１００の単一装置実施例での記憶装置と交換することもできる。

具体的には、マイクロホン１１１が音声信号を実時間で生成する。マイクロホン１１１は音声信号をＡ／Ｄ（アナログからデジタルへの）変換器１１５に渡す。Ａ／Ｄ変換器１１５はアナログ音声信号をデジタル形式に変換し、次にデジタル化された音声信号を音声エンコーダ１１７に渡す。

音声エンコーダ１１７は、複数のエンコードモードのうち選択された１つを用いて、デジタル化された音声をエンコードする。複数のエンコードモードの各々は、結果として得
られる再現された音声の品質の最適化を試みる特定の技術を用いる。複数のモードのうちいずれかでの動作中、音声エンコーダ１１７は一連のモデリング情報およびパラメータ情報（たとえば「音声パラメータ」）を生成し、音声パラメータを任意のチャネルエンコーダ１１９に渡す。

任意のチャネルエンコーダ１１９はチャネルデコーダ１３１と協働して、通信チャネル１３０経由で音声パラメータを送る。チャネルデコーダ１３１は音声パラメータを音声デコーダ１３３に送る。音声エンコーダ１１７のモードに相当するモードでの動作中に、音声デコーダ１３３は音声パラメータから元の音声を可能な限り正確に再現しようと試みる。音声デコーダ１３３は再現された音声をＤ／Ａ（デジタルからアナログへの）変換器１３５に渡し、再現された音声をスピーカ１３７から聞くことができる。

図２は、図１の通信装置の一例を示す機能ブロック図である。通信装置１５１は、音声を同時に取込みおよび再現するための音声エンコーダおよびデコーダの両方を含む。典型的に単一のハウジング内にある通信装置１５１はたとえば、セル方式電話、携帯電話、計算システム、またはその他の通信装置を含み得る。これに代えて、エンコードされた音声情報を記憶するためのメモリ要素が設けられる場合、通信装置１５１は、留守番録音装置、記録装置、音声メールシステム、またはその他の通信メモリ装置を含み得る。

マイクロホン１５５およびＡ／Ｄ変換器１５７は、デジタル音声信号をエンコードシステム１５９に渡す。エンコードシステム１５９は音声エンコードを行ない、結果として生じた音声パラメータ情報を通信チャネルに渡す。渡された音声パラメータ情報は、遠隔場所にある別の通信装置（図示せず）に向けられ得る。

音声パラメータ情報が受信されると、デコードシステム１６５は音声デコードを行なう。デコードシステムは音声パラメータ情報をＤ／Ａ変換器１６７に渡し、スピーカ１６９からアナログ音声出力を流すことができる。最終的な結果として、可能な限り元の取込まれた音声に類似の音が再現される。

エンコードシステム１５９は、音声エンコードを行なう音声処理回路１８５と、任意のチャネルエンコードを行なう任意のチャネル処理回路１８７との両方を含む。同様にデコードシステム１６５は、音声デコードを行なう音声処理回路１８９と、チャネルデコードを行なう任意のチャネル処理回路１９１とを含む。

音声処理回路１８５と任意のチャネル処理回路１８７とを別個に例示しているが、これらを部分的または全体的に組合せて単一のユニットとすることもできる。たとえば音声処理回路１８５およびチャネル処理回路１８７は、単一のＤＳＰ（デジタル信号プロセッサ）および／またはその他の処理回路を共有してもよい。同様に音声処理回路１８９と任意のチャネル処理回路１９１とは、完全に別個であっても、またはこれらを部分的もしくは全体的に組合せてもよい。さらに、全体的または部分的な組合せを、音声処理回路１８５および１８９に適用、チャネル処理回路１８７および１９１に適用、処理回路１８５、１８７、１８９および１９１に適用、またはその他適宜に適用することが可能である。さらに、デコーダおよび／またはエンコーダの動作の様相を制御する回路の各々またはすべては制御ロジックと呼ばれることがあり、たとえばマイクロプロセッサ、マイクロコントローラ、ＣＰＵ（中央演算処理装置）、ＡＬＵ（算術論理演算装置）、コプロセッサ、ＡＳＩＣ（特定用途向け集積回路）、またはその他あらゆる種類の回路および／またはソフトウェアで実現され得る。

エンコードシステム１５９およびデコードシステム１６５はともにメモリ１６１を用いる。音声処理回路１８５は、ソースエンコード処理中に音声メモリ１７７の固定コードブ
ック１８１および適応コードブック１８３を用いる。同様に音声処理回路１８９は、ソースデコード処理中に固定コードブック１８１および適応コードブック１８３を用いる。

例示の音声メモリ１７７は音声処理回路１８５および１８９により共用されるが、処理回路１８５および１８９の各々に対し１つ以上の別個の音声メモリを割り当てることもできる。メモリ１６１はさらに、処理回路１８５、１８７、１８９および１９１により用いられてソースエンコード処理およびデコード処理に必要なさまざまな機能を行なうためのソフトウェアを含む。

音声符号化の改良の実施例について詳細に論じる前に、ここで音声エンコードアルゴリズム全体の概略を述べる。この明細書中で参照される改良された音声エンコードアルゴリズムは、たとえばＣＥＬＰモデルに基づくｅＸ−ＣＥＬＰ（拡張ＣＥＬＰ）アルゴリズムであり得る。ｅＸ−ＣＥＬＰアルゴリズムの詳細は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡され、ここで引用により援用される米国特許出願、すなわち１９９９年９月２２日に出願のコネクサント事件番号９９ＲＳＳ４８５、「４キロビット／秒音声符号化」と題された米国仮特許出願番号第６０／１５５，３２１号で論じられている。

低いビットレート（たとえば１秒当り４キロビット）で通話品質を達成するために、改良された音声エンコードアルゴリズムは伝統的なＣＥＬＰアルゴリズムの厳密な波形マッチングの基準からいくらか離れて、入力信号の知覚的に重要な特徴を取得しようと試みる。これを行なうために、改良された音声エンコードアルゴリズムは、ノイズ様の内容の程度、スパイク様の内容の程度、有声の内容の程度、無声の内容の程度、振幅スペクトルの展開、エネルギコンターの展開、周期性の展開など、いくつかの特徴に従って入力信号を分析し、この情報を用いてエンコードおよび量子化処理中の重み付けを制御する。ここにおける原理は、知覚的に重要な特徴を正確に表現し、あまり重要でない特徴については比較的大きなエラーも許容することである。結果として、改良された音声エンコードアルゴリズムは、波形マッチングの代わりに知覚的マッチングに着目する。知覚的マッチングに着目した結果として満足できる音声の再現が得られるが、このことは、秒速４キロビットでは波形マッチングが入力信号中の情報すべてを忠実に取込むのに十分正確ではないという前提による。これに従い、改良された音声エンコーダは或る優先順位付けを行なって、改良された結果を達成する。

特定の一実施例では、改良された音声エンコーダは２０ミリ秒のフレームサイズ、または１秒当り１６０サンプルを用い、各フレームは２つまたは３つのサブフレームに分割される。サブフレームの数はサブフレーム処理のモードに依存する。この特定の実施例では、２つのモードすなわちモード０およびモード１のうち１つを、各音声フレームにつき選択できる。サブフレームを処理するやり方はモードに依存することが重要である。この特定の実施例では、モード０はフレーム当り２つのサブフレームを用い、ここで各サブフレームのサイズは１０ミリ秒の期間であり、または８０個のサンプルを含む。同様にこの実施例では、モード１はフレーム当り３つのサブフレームを用い、ここで第１および第２のサブフレームは６．６２５ミリ秒の持続時間であり、または５３個のサンプルを含み、第３のサブフレームは６．７５ミリ秒の持続時間であり、または５４個のサンプルを含む。両方のモードで１５ミリ秒の先取りを用いることができる。モード０およびモード１の両方につき、第１０のオーダの線形予測（ＬＰ）モデルを用いて信号のスペクトルエンベロープを表わすことができる。たとえば遅延された決定、切換多段式予測ベクトル量子化方式（switched multi-stage predictive vector quantization scheme）を用いることにより、ＬＰモデルを線スペクトル周波数（ＬＳＦ）領域で符号化できる。

モード０はＣＥＬＰアルゴリズムなどの伝統的な音声エンコードアルゴリズムを動作さ
せる。しかしモード０がすべての音声フレームに用いられるわけではない。モード０は、後により詳細に論じるように「周期性様」の音声以外の音声すべてのフレームを取扱うよう選択される。便宜上、「周期性様」の音声を周期性の音声と呼び、その他の音声すべては「非周期性」の音声である。このような「非周期性」の音声は、ピッチ相関およびピッチラグなどの典型的なパラメータが急速に変化する遷移フレームと、信号が大半はノイズ様の信号であるフレームとを含む。モード０は各フレームを２つのサブフレームに分割する。モード０はピッチラグをサブフレームにつき一回ずつ符号化し、さらに二次元ベクトル量子化器を有し、これにより、サブフレームにつき一回ずつ、ピッチ利得（すなわち適応コードブック利得）および固定コードブック利得を一緒に符号化する。この実施例で固定コードブックは、２つのパルスサブコードブックおよび１つのガウスサブコードブックを含む。これら２つのパルスサブコードブックは２つおよび３つのパルスをそれぞれ有する。

モード１は伝統的なＣＥＬＰアルゴリズムとは異なる。モード１は周期性の音声を含むフレームを扱い、これは典型的に高い周期性を有し、しばしば平滑化されたピッチ区域で表わされる。この特定の実施例では、モード１はフレーム当り３つのサブフレームを用いる。ピッチラグは、ピッチ前処理の一部としてのサブフレーム処理より先にフレームにつき一回ずつ符号化され、このラグから、内挿されたピッチ区域が導き出される。サブフレームの３つのピッチ利得は極めて安定した挙動を示し、閉じたループのサブフレーム処理より先に平均２乗エラー基準に基づき前ベクトル量子化を用いて一緒に量子化される。量子化される３つの参照ピッチ利得は重み付けられた音声から導き出され、フレームに基づくピッチ前処理の副産物である。予め量子化されたピッチ利得を用いて、伝統的なＣＥＬＰサブフレーム処理が行なわれるが、ただし３つの固定コードブック利得は量子化されないままである。これら３つの固定コードブック利得はサブフレーム処理後に一緒に量子化されるが、これはエネルギの移動平均予測を用いる遅延された決定手法に基づく。３つのサブフレームはこの後、完全に量子化されたパラメータと合成される。

フレーム内に含まれる音声の分類に基づき各音声フレームにつき処理モードを選択する態様と、周期性の音声を処理する革新的なやり方とにより、音声の知覚的な品質が著しく犠牲になることなく、著しく少ないビットで利得量子化が可能となる。音声を処理するこの態様の詳細を以下に述べる。

図３〜７は、図１および図２に例示の音声エンコーダの一実施例により用いられる多段式エンコード手法を例示する機能ブロック図である。特定的には、図３は多段式エンコード手法の第１のステージを含む音声プリプロセッサ１９３を例示する機能ブロック図である。図４は第２のステージを例示する機能ブロック図である。図５および図６は第３のステージのモード０を示す機能ブロック図である。図７は第３のステージのモード１を示す機能ブロック図である。音声エンコーダはエンコーダ処理回路を含み、典型的にソフトウェア命令の下で動作して以下の機能を行なう。

入力音声が読込まれてフレームへバッファリングされる。入力音声のフレーム１９２は図３の音声プリプロセッサ１９３に向かい、無音エンハンサ１９５に与えられ、無音エンハンサ１９５は、音声フレームが純粋な無音であるかどうか、すなわち「無音ノイズ」のみがあるのかどうかを判定する。音声エンハンサ１９５は、現在のフレームが純粋な「無音ノイズ」であるかどうかをフレームベースで適応的に検出する。信号１９２が「無音ノイズ」であれば、音声エンハンサ１９５は信号を信号１９２の０レベルにする。逆に信号１９２が「無音ノイズ」でなければ、音声エンハンサ１９５は信号１９２に変更を加えない。音声エンハンサ１９５は極めて低いレベルのノイズのためにクリーンな音声の無音部分をクリーンにし、こうしてクリーンな音声の知覚的な品質を向上させる。音声向上機能の効果は、入力音声がＡ法則源に由来する場合、すなわち入力がこの音声符号化アルゴリ
ズムでの処理の直前にＡ法則エンコードおよびデコードを通った場合に、特に認め得るものとなる。Ａ法則は０付近のサンプル値（たとえば−１、０、＋１）を−８または＋８へ増幅するため、Ａ法則での増幅は、不可聴の無音ノイズを、明確に聞き取ることができるノイズへ変化させ得る。音声エンハンサ１９５による処理の後、音声信号は高域通過フィルタ１９７に与えられる。

高域通過フィルタ１９７は或る遮断周波数を下回る周波数を除去し、遮断周波数よりも高い周波数がノイズ減衰器１９９へ通過することを許す。この特定の実施例で高域通過フィルタ１９７は、ＩＴＵ−ＴのＧ．７２９音声符号化規格の入力高域通過フィルタと同一である。すなわちこれは、遮断周波数が１４０ヘルツ（Ｈｚ）である第２のオーダのポール０フィルタである。当然のことながら、高域通過フィルタ１９７はこのようなフィルタでなくてもよく、適当なものであれば当業者に公知のどの種類のフィルタで構成してもよい。

ノイズ減衰器１９９はノイズサプレッションアルゴリズムを実行する。この特定の実施例でノイズ減衰器１９９は、音声エンコードアルゴリズムによるパラメータの推定を向上させるために、最大５デシベル（ｄＢ）の環境ノイズの弱いノイズ減衰を行なう。無音を向上、高域通過フィルタ１９７を構築、およびノイズを減衰する特定の方法は、当業者に公知の数多くの技術のうちどれを用いてもよい。音声プリプロセッサ１９３の出力として、前処理された音声２００が得られる。

当然のことながら、無音エンハンサ１９５、高域通過フィルタ１９７およびノイズ減衰器１９９は、当業者に公知で特定の用途に適当な他のどの装置と取替えてもよく、またはそのような態様で変形可能である。

図４を参照して、音声信号の一般的なフレームベースの処理の機能ブロック図が示される。換言すると、図４はフレーム単位での音声信号の処理を例示する。このフレーム処理は、モード（たとえばモード０または１）を問わず、モード依存の処理２５０が行なわれる前に行なわれる。前処理された音声２００は知覚的重み付けフィルタ２５２により受取られ、これは谷間の区域を強調し、かつ前処理された音声信号２００のピーク区域を強調せずにおくように動作する。知覚的重み付けフィルタ２５２は、当業者に公知で特定の用途に適当な他のどの装置と取替えてもよく、またはそのような態様で変形可能である。

ＬＰＣアナライザ２６０は前処理された音声信号２００を受取り、音声信号２００の短期のスペクトルエンベロープを推定する。ＬＰＣアナライザ２６０は、音声信号２００を規定する特性からＬＰＣ係数を抽出する。一実施例では、第１０のオーダのＬＰＣ分析３つが各フレームにつき行なわれる。これら分析は、フレームの真中３分の１、最後３分の１、および先取りの中心に置かれる。先取りについてのＬＰＣ分析は、次のフレームで、フレームの最初３分の１の中心に置かれるＬＰＣ分析として再利用される。こうして各フレームにつき４組のＬＰＣパラメータが生成される。ＬＰＣアナライザ２６０はさらに、たとえば線スペクトル周波数（ＬＳＦ）領域へのＬＰＣ係数の量子化を行なうことができる。ＬＰＣ係数の量子化はスカラまたはベクトル量子化であり、当該技術で公知のどのやり方で、どの適当な領域内で行なってもよい。

分類器２７０は、たとえばフレームの絶対最大値、反射係数、予測エラー、ＬＰＣアナライザ２６０からのＬＳＦベクトル、第１０のオーダの自己相関、最近のピッチラグ、および最近のピッチ利得を調べることにって、前処理された音声２００の特性についての情報を入手する。これらのパラメータは当業者に公知であるため、ここではこれ以上説明しない。分類器２７０はこの情報を用いてエンコーダのその他の要素、たとえば信号対雑音比、ピッチ推定、分類、スペクトル平滑化、エネルギ平滑化、および利得正規化などを制
御する。これらの様相もまた当業者には公知であるため、ここではこれ以上説明しない。分類アルゴリズムの簡単な概要を次に述べる。

分類器２７０は、ピッチプリプロセッサ２５４の助けとともに、フレームの支配的な特徴に従って各フレームを６つのクラスのうち１つに分類する。これらクラスは（１）無音／バックグラウンドノイズ、（２）ノイズ／無声様の音声、（３）無声、（４）遷移（開始を含む）、（５）非定常の有声、および（６）定常の有声、である。分類器２７０は、入力信号を周期性の信号および非周期性の信号に分類するのにどのような手法を用いてもよい。たとえば分類器２７０は、前処理された音声信号、フレームの後半の相関およびピッチラグ、ならびにその他の情報を入力パラメータとすることができる。

音声が周期性と考えられるかどうかを判定するにはさまざまな基準を用いることができる。たとえば、音声が定常で有声の信号であれば、音声は周期性と考えられ得る。人によっては、定常な有声の音声、および非定常な有声の音声が周期性の音声に含まれると考えるかもしれないが、この明細書では周期性の音声は定常な有声の音声を含む。さらに周期性の音声は、平滑化され定常な音声であり得る。音声信号がフレーム内で或る量を超えて変化しなければ、有声の音声は「定常」と考えられる。このような音声信号は、はっきりと定められたエネルギコンターを有する可能性がより高い。音声の適応コードブック利得Ｇ_Pがしきい値を上回れば、この音声信号は「平滑」である。たとえばしきい値が０．７であれば、サブフレーム内の音声信号は、その適応コードブック利得Ｇ_Pが０．７を上回れば平滑と考えられる。非周期性の音声または有声でない音声は、無声の音声（たとえば“shhh（シーッ）”音などの摩擦音）、遷移（たとえば開始、終了）、バックグラウンドノイズおよび無音を含む。

より具体的には、例示的な実施例において音声エンコーダはまず以下のパラメータを導き出す。
スペクトル傾斜（フレーム当り４回の第１の反射係数の推定）

ここでＬ＝８０は反射係数が算出される窓であり、ｓ_k（ｎ）は

により与えられる第ｋのセグメントであり、ここでｗ_h（ｎ）は８０サンプルのハミング窓であり、ｓ（０）、ｓ（１）、…ｓ（１５９）は前処理された音声信号の現在のフレームである。
絶対最大値（絶対信号最大値の追跡、フレーム当り８回の推定）

ここでｎ_s（ｋ）およびｎ_e（ｋ）はそれぞれ、フレームの時間ｋ・１６０／８サンプルにおける第ｋの最大値を探すための始まりおよび終わりの点である。一般にセグメントの長さは、ピッチ周期およびセグメントオーバーラップの１．５倍である。こうして振幅エンベロープの平滑化されたコンターを得ることができる。

スペクトル傾斜、絶対最大値およびピッチ相関パラメータは、分類のための基礎を形成する。しかしながら、分類決定の前に追加的なパラメータ処理および分析が行なわれる。まずパラメータ処理は、３つのパラメータに重み付けを適用する。重み付けは、バックグラウンドノイズからの寄与を減じることにより、或る意味でパラメータ内のバックグラウンドノイズ成分を取除く。これにより、あらゆるバックグラウンドノイズから「独立」で、従ってより一様なパラメータ空間が得られ、こうしてバックグラウンドノイズに対する分類の強固さが向上する。

ノイズのピッチ周期エネルギのラン中間、ノイズのスペクトル傾斜、ノイズの絶対最大値、およびノイズのピッチ相関は、以下の式４〜７に従ってフレーム当り８回更新される。式４〜７で規定される以下のパラメータはフレーム当り８回推定／サンプリングされ、これによりパラメータ空間の細かい時間分解が得られる。
ノイズのピッチ周期エネルギのラン中間

ここでＥ_N,p（ｋ）は、フレームの時間ｋ・１６０／８サンプルにおけるピッチ周期の正規化されたエネルギである。ピッチ周期は典型的に２０個のサンプル（１６０サンプル／８）を超えるため、エネルギが算出されるセグメントはオーバーラップし得る。
ノイズのスペクトル傾斜のラン中間

ノイズの絶対最大値のラン中間

ノイズのピッチ相関のラン中間

ここでＲ_Pは、フレームの後半の入力ピッチ相関である。適応定数α₁は適応的であるが、典型的な値はα₁＝０．９９である。
バックグラウンドノイズ対信号比は以下の式により算出される。

パラメータのノイズ減衰は３０ｄＢに制限、すなわち以下のようにされる。

ノイズのないパラメータ組（重み付けられたパラメータ）は、以下の式１０〜１２に従ってノイズ成分を取除くことにより得られる。
重み付けられたスペクトル傾斜の推定

重み付けられた絶対最大値の推定

重み付けられたピッチ相関の推定

重み付けられた傾斜および重み付けられた最大値の展開は、第１のオーダの近似の勾配としてそれぞれ以下の式１３および式１４に従って算出される。

フレームの８個のサンプル点について式４から式１４のパラメータが一旦更新されると、フレームに基づく以下のパラメータが式４〜１４のパラメータから算出される。
重み付けられた最大ピッチ相関

重み付けられた平均ピッチ相関

重み付けられた平均ピッチ相関のラン中間

ここでｍはフレーム番号であり、α₂＝０．７５は適応定数である。
ピッチラグの正規化された標準偏差

ここでＬ_p（ｍ）は入力ピッチラグであり、μ_Lp（ｍ）は、以下の式により与えられる過去の３つのフレームにわたるピッチラグの中間である。

重み付けられた最小スペクトル傾斜

重み付けられた最小スペクトル傾斜のラン中間

重み付けられた平均スペクトル傾斜

重み付けられた傾斜の最小勾配

重み付けられたスペクトル傾斜の累積勾配

重み付けられた最大値の最大勾配

重み付けられた最大値の累積勾配

式２３、式２５および式２６で与えられたパラメータは、フレームが開始を含む可能性があるかどうかをマークするのに用いられ、式１６〜１８、式２０〜２２で与えられたパラメータは、フレームで有声の音声が支配的である可能性があるかどうかをマークするのに用いられる。初期マーク、過去マークおよびその他の情報に基づき、フレームは６つのクラスのうち１つに分類される。

分類器２７０が前処理された音声２００を分類するやり方についてのより詳細な説明は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡され、ここで引用により援用される米国特許出願、すなわち１９９９年９月２２日に出願のコネクサント事件番号９９ＲＳＳ４８５、「４キロビット／秒音声符号化」と題された米国仮特許出願番号第６０／１５５，３２１号に記載されている。

ＬＳＦ量子化器２６７はＬＰＣアナライザ２６０からＬＰＣ係数を受取り、ＬＰＣ係数を量子化する。ＬＳＦ量子化はスカラまたはベクトル量子化を含むどの公知の量子化方法であってもよく、この量子化の目的は、係数をより少数のビットで表現することである。この特定の実施例では、ＬＳＦ量子化器２６７は第１０のオーダのＬＰＣモデルを量子化する。さらにＬＳＦ量子化器２６７はＬＳＦを平滑化することで、ＬＰＣ合成フィルタのスペクトルエンベロープでの望ましくない変動を減少させ得る。ＬＳＦ量子化器２６７は量子化された係数Ａ_q（ｚ）２６８を音声エンコーダのサブフレーム処理部分２５０に送る。音声エンコーダのサブフレーム処理部分はモードに依存する。ＬＳＦが好ましいが、量子化器２６７はＬＳＦ領域以外の領域へＬＰＣ係数を量子化することもできる。

ピッチ前処理が選択される場合、重み付けられた音声信号２５６はピッチプリプロセッサ２５４に送られる。ピッチプリプロセッサ２５４は開いたループのピッチ推定器２７２と協働して、重み付けられた音声２５６に変更を加え、こうしてそのピッチ情報をより正確に量子化することができる。たとえばピッチプリプロセッサ２５４は、ピッチ利得を量子化する音声エンコーダの能力を向上させるために、ピッチサイクルに対し公知の圧縮または解凍技術を用いることができる。換言するとピッチプリプロセッサ２５４は、重み付けられた音声信号２５６に変更を加え推定ピッチトラックをより良くマッチングさせ、こうしてより正確に符号化モデルに適合し、一方で知覚的に区別がつかない再現された音声をもたらす。エンコーダ処理回路がピッチ前処理モードを選択すると、ピッチプリプロセッサ２５４は重み付けられた音声信号２５６のピッチ前処理を行なう。ピッチプリプロセッサ２５４は、重み付けられた音声信号２５６を歪めることにより、デコーダ処理回路により生成されるであろう内挿されるピッチ値をマッチングさせる。ピッチ前処理が適用される場合、歪められた音声信号は、変更を加えられ重み付けられた音声信号２５８と呼ばれる。ピッチ前処理モードが選択されない場合、重み付けられた音声信号２５６はピッチ前処理なしにピッチプリプロセッサ２５４を通過する（便宜上、これも「変更を加えられ重み付けられた音声信号」２５８と呼ぶ）。ピッチプリプロセッサ２５４は波形内挿器を
含み得るが、これの機能および実現例は当業者に公知である。波形内挿器は、公知の順方向・逆方向波形内挿技術を用いて或る不規則な遷移セグメントに変更を加え、こうして音声信号の規則性を高め不規則性を抑えることができる。重み付けられた信号２５６についてのピッチ利得およびピッチ相関はピッチプリプロセッサ２５４により推定される。開いたループのピッチ推定器２７２は、重み付けられた音声２５６からピッチ特性についての情報を抽出する。ピッチ情報はピッチラグおよびピッチ利得情報を含む。

ピッチプリプロセッサ２５４はさらに、開いたループのピッチ推定器２７２を通じ分類器２７０と対話して、分類器２７０による音声信号の分類をより細かくする。ピッチプリプロセッサ２５４は音声情報について追加の情報を入手するため、分類器２７０でこの追加の情報を用いて音声信号の分類を微調整することができる。ピッチプリプロセッサ２５４はピッチ前処理を行なった後に、ピッチトラック情報２８４および量子化されていないピッチ利得２８６を、音声エンコーダのモード依存サブフレーム処理部分２５４に出力する。

一旦分類器２７０が、前処理された音声２００を複数の可能なクラスのうち１つに分類すると、前処理された音声信号２００の分類番号が、モード選択器２７４およびモード依存サブフレームプロセッサ２５０へ制御情報２８０として送られる。モード選択器２７４は分類番号を用いて動作モードを選択する。この特定の実施例では、分類器２７０は前処理された音声信号２００を６つの可能なクラスのうち１つへ分類する。前処理された音声信号２００が定常で有声の音声（たとえば「周期性」の音声と呼ばれる）であれば、モード選択器２７４はモード２８２をモード１に設定する。そうでなければ、モード選択器２７４はモード２８２をモード０に設定する。モード信号２８２は、音声エンコーダのモード依存サブフレーム処理部分２５０に送られる。モード情報２８２は、デコーダへ送信されるビットストリームに追加される。

「周期性」および「非周期性」と音声を名づけることは、この特定の実施例においていくらか注意して解釈されるべきである。たとえばモード１を用いてエンコードされたフレームは、フレーム当り７つのビットのみから導き出されたピッチトラック２８４に基づく、フレーム全体にわたる高ピッチ相関および高ピッチ利得を維持するフレームである。従ってモード１の代わりにモード０が選択されることは、７つのビットのみによるピッチトラック２８４の不正確な表現に由来している可能性があり、必ずしも周期性がないことに由来するわけではない。従ってモード０を用いてエンコードされた信号は、ピッチトラックについてのフレーム当り７つのビットのみによって良く表現されてはいないとしても、周期性を含む可能性はある。従ってモード０は、ピッチトラックをより良く表現するために、フレーム当り７ビットの２倍、すなわちフレーム当り合計１４ビットでピッチトラックをエンコードする。

図３〜４の機能ブロックの各々、およびこの明細書中の他の図は、別個の構造である必要はなく、所望に応じて１つ以上のさらなる機能ブロックと組合せることもできる。

音声エンコーダのモード依存サブフレーム処理部分２５０は、モード０およびモード１の２つのモードで動作する。図５〜６はモード０サブフレーム処理の機能ブロック図を示し、図７は音声エンコーダの第３のステージのモード１サブフレーム処理の機能ブロック図を示す。図８は、改良された音声エンコーダに相当する音声デコーダのブロック図を示す。音声デコーダはビットストリームのアルゴリズムパラメータへの逆マッピングを行ない、これにモード依存の合成が続く。これらの数およびモードのより詳細な説明は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡された米国特許出願、すなわち２０００年５月１９日に出願のコネクサント事件番号９９ＲＳＳ３１２、「新しい音声利得量子化方策」と題された米国特許出願番号第０９／５７４，３９６号に記
載されており、その出願全体はここで引用により援用される。

音声信号を表現する量子化されたパラメータはパケット化され、データパケットとしてエンコーダからデコーダへ送信される。次に記載する実施例では、音声信号はフレーム単位で分析され、各フレームは少なくとも１つのサブフレームを有し、各データパケットは１フレームについての情報を含み得る。従ってこの例では、各フレームについてのパラメータ情報は情報パケットとして送信される。換言すると、各フレームにつき１つのパケットがある。当然のことながら他の変形例が可能であり、実施例に依存して各パケットは、フレームの一部、音声フレームよりも多くのもの、または複数のフレームを表わし得る。

ＬＳＦ
ＬＳＦ（線スペクトル周波数）は、ＬＰＣスペクトル（すなわち音声スペクトルの短期のエンベロープ）の表現である。ＬＳＦは、音声スペクトルがサンプリングされる特定の周波数として考えられ得る。たとえばシステムが第１０のオーダのＬＰＣを用いる場合、フレームにつき１０個のＬＳＦがあることになる。連続するＬＳＦ間に最小限の間隔をあけ、これらが準不安定なフィルタをもたらさないようにする必要がある。たとえば、ｆ_iが第ｉのＬＳＦでありかつ１００Ｈｚと等しければ、第（ｉ＋１）のＬＳＦすなわちｆ_I+1は少なくともｆ_i＋最小間隔である必要がある。たとえば、ｆ_i＝１００Ｈｚであり、かつ最小間隔が６０Ｈｚであれば、ｆ_I+1は少なくとも１６０Ｈｚでなければならず、１６０Ｈｚを上回ればどの周波数であってもよい。最小間隔はフレームごとに変化しない固定数であり、さらにエンコーダおよびデコーダの両方にとって既知であり、これによりこの両方は協働できる。

エンコーダがＬＳＦを符号化するのに、（予測的でない符号化でなく）低ビットレートで音声通信を達成するのに必要な予測的な符号化を用いると想定する。換言すると、エンコーダは現在のフレームのＬＳＦを予測するのに前フレームの量子化されたＬＳＦを用いる。エンコーダがＬＰＣスペクトルから導き出す現在のフレームの真のＬＳＦと、予測ＬＳＦとの間のエラーは、量子化されてデコーダに送信される。デコーダは、エンコーダと同じやり方で現在のフレームの予測ＬＳＦを求める。次にデコーダは、エンコーダにより送信されたエラーを知ることで現在のフレームの真のＬＳＦを算出できる。しかし、もしＬＳＦ情報を含むフレームが紛失した場合どうなるであろうか。図９を参照して、エンコーダがフレーム０〜３を送信し、デコーダがフレーム０、２および３のみを受信すると想定されたい。フレーム１は紛失または「消去」されたフレームである。現在のフレームが紛失フレーム１であれば、デコーダは真のＬＳＦを算出するのに必要なエラー情報を有さない。結果として先行技術のシステムは真のＬＳＦを算出せず、その代わりにＬＳＦを、前フレームのＬＳＦ、または或る数の前フレームの平均ＬＳＦに設定する。この手法の問題は、現在のフレームのＬＳＦが（真のＬＳＦと比較して）あまりに不正確であり、後続フレーム（すなわち図９の例のフレーム２および３）が自身のＬＳＦを求めるためにフレーム１の不正確なＬＳＦを用いるおそれがあることである。従ってフレームの紛失によって生じたＬＳＦ外挿エラーは、後続フレームのＬＳＦの正確さを損なってしまう。

この発明の実施例では、改良された音声デコーダは、紛失フレームに続く良好なフレームの数を計数するカウンタを含む。図１０は、各フレームに関連づけられた最小限のＬＳＦ間隔を例示する。良好なフレーム０がデコーダにより受信され、フレーム１が紛失したと想定されたい。先行技術の手法では、ＬＳＦ間の最小間隔は変化しない固定数（図１０の６０Ｈｚ）であった。対照的に、改良された音声デコーダがフレームの紛失に気づくと、デコーダはこのフレームの最小間隔を増加させることで、準不安定なフィルタをもたらすことを避ける。この「制御された適応ＬＳＦ間隔」の増加量は、どの間隔増加がその特定の場合に最善であるかに依存する。たとえば改良された音声デコーダは、信号のエネルギ（または信号の電力）が時間の経過につれてどのように展開したか、および信号の周波
数内容（スペクトル）が時間の経過につれてどのように展開したかを考慮し、さらにカウンタを考慮することにより、紛失フレームの最小間隔をどの値に設定すべきかを求めることができる。当業者であれば、簡単な実験を行なってどの最小間隔値が使用のために十分であるかを求めることができるであろう。音声信号および／またはそのパラメータを分析して適当なＬＳＦを導き出す１つの利点は、結果として得られるＬＳＦがこのフレームの真の（しかし紛失した）ＬＳＦに対してより近くなるであろうことである。

適応コードブック励振（ピッチラグ）
適応コードブック励振および固定コードブック励振からなる総励振ｅ_Tは以下の式で記述される。

ここでｇ_pおよびｇ_cは、それぞれ量子化された適応コードブック利得および固定コードブック利得であり、ｅ_xpおよびｅ_xcは適応コードブック励振および固定コードブック励振である。バッファ（適応コードブックバッファとも呼ばれる）は、先行フレームからのｅ_Tおよびその成分を保持する。現在のフレームのピッチラグパラメータに基づき、音声通信システムはバッファからｅ_Tを選択し、これを現在のフレームについてのｅ_xpとして用いる。ｇ_p、ｇ_cおよびｅ_xcについての値は現在のフレームから入手される。次に、ｅ_xp、ｇ_p、ｇ_cおよびｅ_xcを式に入れて現在のフレームについてｅ_Tを算出する。現在のフレームについて算出されたｅ_Tおよびその成分はバッファに記憶される。このプロセスを繰返し、次にバッファリングされたｅ_Tを次フレームについてのｅ_xpとして用いる。このように、このエンコード手法のフィードバック的性格（これはデコーダによって繰返される）が明らかである。式中の情報は量子化されるため、エンコーダおよびデコーダは同期される。バッファは適応コードブックの一種である（ただし、利得励振に用いられる適応コードブックとは異なる）ことに注目されたい。

図１１は、先行技術の音声システムにより伝送される、４つのフレーム１〜４についてのピッチラグ情報を例示する。先行技術のエンコーダは現在のフレームについてのピッチラグおよびデルタ値を伝送し、ここでデルタ値は、現在のフレームのピッチラグと前フレームのピッチラグとの差である。ＥＶＲＣ（拡張可変レートコーダ）規格はデータピッチラグの使用を規定している。従って、たとえばフレーム１に関する情報パケットは、ピッチラグＬ１およびデルタ（Ｌ１−Ｌ０）を含むことになり、ここでＬ０は先行するフレーム０のピッチラグであり、フレーム２に関する情報パケットは、ピッチラグＬ２およびデルタ（Ｌ２−Ｌ１）を含むことになり、フレーム３に関する情報パケットはピッチラグＬ３およびデルタ（Ｌ３−Ｌ２）を含むことになり、などとなる。なお、隣接するフレームのピッチラグが等しく、このためデルタ値が０であることもある。フレーム２が紛失してデコーダで受信されなければ、フレーム２の時に利用可能なピッチラグについての情報はピッチラグＬ１のみであり、それは前フレーム１が紛失していないことによる。ピッチラグＬ２およびデルタ（Ｌ２−Ｌ１）情報の紛失は２つの問題を生じさせていた。第１の問題は、紛失フレーム２について正確なピッチラグＬ２をどのように推定するかである。第２の問題は、ピッチラグＬ２を推定する際のエラーが後続フレームにエラーを引き起こすことをどのように防ぐかである。或る先行技術のシステムはどちらの問題にも対処していない。

第１の問題を解決する試みとして、或る先行技術のシステムは良好な前フレーム１からのピッチラグＬ１を紛失フレーム２についての推定ピッチラグＬ２′として用いるが、推
定ピッチラグＬ２′と真のピッチラグＬ２との差はどれもエラーとなるであろう。

第２の問題は、推定ピッチラグＬ２′でのエラーが後続フレームにエラーを引き起こすことをどのように防ぐかである。既に論じたように、フレームｎのピッチラグは適応コードブックバッファを更新するのに用いられ、これが今度は後続フレームにより用いられることを想起されたい。推定ピッチラグＬ２′と真のピッチラグＬ２との間のエラーは、適応コードブックバッファでエラーを引き起こし、これが今度は後に受信されるフレームでエラーを引き起こすことになる。換言すると、推定ピッチラグＬ２′でのエラーの結果、エンコーダの観点からの適応コードブックバッファと、デコーダの観点からの適応コードブックバッファとの間に同時性が失われるおそれがある。さらなる例として、先行技術のデコーダは、現在の紛失フレーム２の処理中に、ピッチラグＬ１（これは恐らく真のピッチラグＬ２とは異なる）を推定ピッチラグＬ２′として用いて、フレーム２についてのｅ_xpを取戻すことになる。従って、間違ったピッチラグの使用によってフレーム２で誤ったｅ_xpが選択され、このエラーは後続フレーム全体にわたって伝搬する。この先行技術の問題を解決するために、フレーム３がデコーダにより受信されると、デコーダはここではピッチラグＬ３およびデルタ（Ｌ３−Ｌ２）を有し、こうして真のピッチラグＬ２が何であるはずであったかを逆算できる。真のピッチラグＬ２は、単にピッチラグＬ３からデルタ（Ｌ３−Ｌ２）を引いたものである。先行技術のデコーダはこのように、フレーム３により用いられる適応コードブックバッファを訂正できるかもしれない。紛失フレーム２は推定ピッチラグＬ２′で既に処理されているため、紛失フレーム２を訂正するのはもはや手遅れである。

図１２は、ピッチラグ情報の紛失による両方の問題に対処する改良された音声通信システムの実施例の動作を示すための、フレームの仮定的な事例を示す。フレーム２が紛失し、フレーム０、１、３および４が受信されると想定されたい。デコーダが紛失フレーム２を処理する間、改良されたデコーダは前フレーム１からのピッチラグＬ１を用いることができる。これに代えてまたは好ましくは、改良されたデコーダは、前フレームのピッチラグに基づき外挿を行なって推定ピッチラグＬ２′を求めることができ、この結果ピッチラグＬ１よりも正確な推定が可能となる。このように、たとえばデコーダは推定ピッチラグＬ２′を外挿するためにピッチラグＬ０およびＬ１を用いることができる。外挿方法はどの外挿方法であってもよく、たとえば、紛失ピッチラグＬ２を推定するために、過去から平滑化されたピッチコンターを仮定する曲線の当てはめの方法、過去のピッチラグの平均を用いる方法、またはその他どの外挿方法であってもよい。この手法により、デルタ値を送信する必要がないため、エンコーダからデコーダへ送信するビットの数が減少する。

第２の問題を解決するために、改良されたデコーダがフレーム３を受信すると、デコーダは正しいピッチラグＬ３を有する。しかし上述のように、フレーム３によって用いられる適応コードブックバッファは、ピッチラグＬ２′を推定する際の外挿エラーのために正しくないおそれがある。改良されたデコーダは、デルタピッチラグ情報を送信せずに、フレーム２のピッチラグＬ２′を推定する際のエラーがフレーム２後のフレームに影響を与えることを阻止しようと試みる。改良されたデコーダは、一旦ピッチラグＬ３を入手すると、曲線の当てはめの方法などの内挿方法を用いてピッチラグＬ２′の以前の推定を調整または微調整する。ピッチラグＬ１およびＬ３が知られているので、曲線の当てはめの方法はピッチラグＬ３が知られていない場合よりも正確にＬ２′を推定できる。結果として、微調整されたピッチラグＬ２″が得られ、これを用いて、フレーム３による使用のために適応コードブックバッファを調整または訂正する。より特定的に、微調整されたピッチラグＬ２″は、適応コードブックバッファにある量子化された適応コードブック励振を調整または訂正するのに用いられる。こうして、改良されたデコーダは送信すべきビットの数を減少させ、さらに、ほとんどの場合で満足できるやり方でピッチラグＬ２′を微調整する。こうして、後に受信されたフレームに対する、ピッチラグＬ２の推定でのあらゆる
エラーの影響を減少させるために、改良されたデコーダは次フレーム３のピッチラグＬ３と、前に受信されたフレーム１のピッチラグＬ１とを用い、平滑化されたピッチコンターを仮定してピッチラグＬ２についての前の推定を微調整する。紛失フレームに先行および後続する受信フレームのピッチラグに基づくこの推定手法の正確さは極めて良好であり得るが、それはピッチコンターが有声の音声については一般に平滑であるからである。

利得
エンコーダからデコーダへのフレームの送信中、フレームが紛失する結果として、適応コードブック利得ｇ_pおよび固定コードブック利得ｇ_cなどの利得パラメータも紛失する。各フレームは複数のサブフレームを含み、各サブフレームは利得情報を有する。従ってフレームの紛失の結果、フレームの各サブフレームにある利得情報も紛失する。音声通信システムは、紛失フレームの各サブフレームにつき利得情報を推定する必要がある。１つのサブフレームの利得情報は、別のサブフレームの利得情報と異なることがある。

先行技術のシステムは紛失フレームのサブフレームについての利得を推定するために、良好な前フレームの最後のサブフレームからの利得を紛失フレームの各サブフレームの利得として用いるなど、さまざまな手法をとっていた。別の変形例では、良好な前フレームの最後のサブフレームからの利得を紛失フレームの第１のサブフレームの利得として用い、この利得を漸次減衰させてからこれを紛失フレームの次サブフレームの利得として用いる。換言すると、たとえば各フレームが４つのサブフレームを有し、フレーム１が受信されフレーム２が紛失した場合、受信されたフレーム１の最後のサブフレームにある利得パラメータを、紛失フレーム２の第１のサブフレームの利得パラメータとして用い、次に利得パラメータを或る量だけ減少させて紛失フレーム２の第２のサブフレームの利得パラメータとして用い、利得パラメータを再び減少させて紛失フレーム２の第３のサブフレームの利得パラメータとして用い、利得パラメータをさらに減少させて紛失フレーム２の最後のサブフレームの利得パラメータとして用いる。さらに別の手法では、前に受信された固定数のフレームのサブフレームの利得パラメータを調べて平均利得パラメータを算出し、次にこれを紛失フレーム２の第１のサブフレームの利得パラメータとして用い、ここで利得パラメータを漸次減少させて紛失フレームの残りのサブフレームの利得パラメータとして用いることができる。さらに別の手法では、前に受信された固定数のフレームのサブフレームを調べて、中間値を紛失フレーム２の第１のサブフレームの利得パラメータとして用いることで、中間利得パラメータを導き出し、ここで利得パラメータを漸次減少させて紛失フレームの残りのサブフレームの利得パラメータとして用いることができる。注目すべきことに、先行技術の手法は適応コードブック利得と固定コードブック利得とに対し異なった回復方法を行なわず、両方の種類の利得に対し同じ回復方法を用いていた。

改良された音声通信システムはさらに、フレームが紛失したために紛失した利得パラメータを扱うことができる。音声通信システムが周期性様の音声と非周期性様の音声とを差別化すれば、システムは音声の各種類ごとに異なって紛失利得パラメータを扱うことができる。さらに、改良されたシステムは紛失適応コードブック利得を、紛失固定コードブック利得とは異なって扱う。まず非周期性様の音声の場合を検討する。推定適応コードブック利得ｇ_pを求めるために、改良されたデコーダは前に受信された適応的な数のフレームのサブフレームの平均ｇ_pを計算する。デコーダにより推定された現在のフレーム（すなわち紛失フレーム）のピッチラグを用いて、前に受信された調べるべきフレームの数を求める。一般にピッチラグが大きいほど、平均ｇ_pを算出するのに用いるべき前に受信されたフレームの数は大きくなる。こうして、改良されたデコーダはピッチ同期平均手法を用いて、非周期性様の音声についての適応コードブック利得ｇ_pを推定する。次に、改良されたデコーダは以下の式に基づいてベータβを算出し、これはｇ_pの予測がどれだけ良好であるかを示す。

βは０から１まで変化し、総励振エネルギに対する適応コードブック励振エネルギの効果を百分率で表わす。βが大きいほど、適応コードブック励振エネルギの効果は大きくなる。改良されたデコーダは非周期性様の音声と周期性様の音声とを異なって扱うことが好ましいが、これは必須ではない。

図１６は、非周期性様の音声についてのデコーダの処理のフローチャートを例示する。ステップ１０００は、現在のフレームがフレーム（すなわち「良好な」フレーム）を受信した後に失われた第１のフレームであるかどうかを判定する。現在のフレームが良好なフレーム後の第１の紛失フレームであれば、ステップ１００２は、デコーダにより処理されている現在のサブフレームがフレームの第１のサブフレームであるかどうかを判定する。現在のサブフレームが第１のサブフレームであれば、ステップ１００４は或る数の前サブフレームについての平均ｇ_pを計算し、ここでサブフレームの数は現在のサブフレームのピッチラグに依存する。例示的な実施例では、ピッチラグが４０以下であれば、平均ｇ_pは２つの前サブフレームに基づく。ピッチラグが４０よりも大きくかつ８０以下であれば、平均ｇ_pは４つの前サブフレームに基づく。ピッチラグが８０よりも大きくかつ１２０以下であれば、平均ｇ_pは６つの前サブフレームに基づく。ピッチラグが１２０よりも大きければ、平均ｇ_pは８つの前サブフレームに基づく。当然のことながらこれらの値は任意であり、サブフレームの長さに依存して他のどの値に設定してもよい。ステップ１００６は、最大値βが或るしきい値を超えるかどうかについて判定する。最大値βが或るしきい値を超えれば、ステップ１００８は、紛失フレームのサブフレームすべてについて固定コードブック利得ｇ_cをゼロに設定し、紛失フレームのサブフレームすべてについてｇ_pを、上で求められた平均ｇ_pの代わりに、０．９５などの任意に大きい数に設定する。この任意に大きい数は良好な発声の信号を示す。紛失フレームの現在のサブフレームのｇ_pが設定される任意に大きい数はいくつかの要因に基づき得るが、これには或る数の前フレームの最大値β、前に受信されたフレームのスペクトル傾斜、および前に受信されたフレームのエネルギが含まれるが、これらに限定はされない。

逆に、最大値βが或るしきい値を超えない（すなわち前に受信されたフレームが音声の開始を含む）場合、ステップ１０１０は紛失フレームの現在のサブフレームのｇ_pを（ｉ）上で求めた平均ｇ_p、および（ii）任意に選択された大きさの数（たとえば０．９５）、の最小値に設定する。これに代えて、紛失フレームの現在のサブフレームのｇ_pを、前に受信されたフレームのスペクトル傾斜、前に受信されたフレームのエネルギ、および上で求めた平均ｇ_pと任意に選択された大きさの数（たとえば０．９５）との最小値に基づき、設定することもできる。最大値βが或るしきい値を超えない場合、固定コードブック利得ｇ_cは、前サブフレームでの利得スケーリング（gain scaled）固定コードブック励振のエネルギ、および現在のサブフレームでの固定コードブック励振のエネルギに基づく。具体的には、前サブフレームでの利得スケーリング固定コードブック励振のエネルギを、現在のサブフレームでの固定コードブック励振のエネルギで割り、これの結果を、その平方根を求めて減衰分数により乗じ、以下の式に示すｇ_cに設定する。

これに代えてデコーダは、前に受信されたフレームのエネルギの、現在の紛失フレームのエネルギに対する比に基づいて、紛失フレームの現在のサブフレームについてのｇ_cを導くことができる。

ステップ１００２に戻ると、現在のサブフレームが第１のサブフレームでなければ、ステップ１０２０は、紛失フレームの現在のサブフレームのｇ_pを、前サブフレームのｇ_pから減衰または減少された値に設定する。残りのサブフレームの各々のｇ_pは、前サブフレームのｇ_pからさらに減衰された値に設定される。現在のサブフレームのｇ_cは、ステップ１０１０および式２９と同じやり方で算出される。

ステップ１０００に戻ると、現在のフレームが良好なフレーム後の第１の紛失フレームでなければ、ステップ１０２２は、ステップ１０１０および式２９と同じやり方で現在のサブフレームのｇ_cを算出する。ステップ１０２２はさらに、紛失フレームの現在のサブフレームのｇ_pを、前サブフレームのｇ_pから減衰および減少された値に設定する。デコーダがｇ_pとｇ_cとを異なって推定するため、デコーダはこれらを先行技術のシステムよりも正確に推定できる。

次に、図１７に例示するフローチャートに従って周期性様の音声の場合を検討する。デコーダは、周期性様の音声および非周期性様の音声についてのｇ_pおよびｇ_cを推定するのに異なった手法を適用できるため、利得パラメータの推定は先行技術の手法よりも正確となるであろう。ステップ１０３０は、現在のフレームがフレーム（すなわち「良好な」フレーム）を受信した後に紛失した第１のフレームであるかどうかを判定する。現在のフレームが良好なフレーム後の第１の紛失フレームであれば、ステップ１０３２はｇ_cを、現在のフレームのサブフレームすべてにつきゼロに設定し、ｇ_pを、現在のフレームのサブフレームすべてについて０．９５などの任意に大きい数に設定する。現在のフレームが良好なフレーム後の第１の紛失フレームでなければ（たとえば第２の紛失フレーム、第３の紛失フレームなど）、ステップ１０３４はｇ_cを、現在のフレームのサブフレームすべてにつきゼロに設定し、ｇ_pを、前サブフレームのｇ_pから減衰された値に設定する。

図１３は、改良された音声デコーダの動作を例示するためのフレームの事例を示す。フレーム１、３および４が良好（すなわち受信された）フレームであり、フレーム２、５〜８が紛失フレームであると想定されたい。現在の紛失フレームが良好なフレーム後の第１の紛失フレームであれば、デコーダはｇ_pを紛失フレームのサブフレームすべてについて任意に大きい数（たとえば０．９５）に設定する。図１３を参照すると、これは紛失フレーム２および５に当てはまる。第１の紛失フレーム５のｇ_pは漸次減衰され、他の紛失フレーム６〜８のｇ_Pを設定する。こうして、たとえばｇ_pが紛失フレーム５で０．９５に設定されると、ｇ_pは紛失フレーム６については０．９に、紛失フレーム７については０．８５に、紛失フレーム８については０．８に設定され得る。ｇ_cについては、デコーダは前に受信されたフレームから平均ｇ_pを計算し、この平均ｇ_pが或るしきい値を超えれば、ｇ_cは紛失フレームのサブフレームすべてにつきゼロに設定される。平均ｇ_pが或るしきい値を超えなければ、デコーダは上述の非周期性様の信号についての同じ設定手法を用いてｇ_cを設定する。

デコーダが紛失フレーム中にある紛失パラメータ（たとえばＬＳＦ、ピッチラグ、利得、分類など）を推定して結果の音声を合成した後、デコーダは外挿技術によって、紛失フ
レームの合成された音声のエネルギを、前に受信されたフレームのエネルギとマッチングさせることができる。これによって、フレームが紛失しても元の音声を再現する正確さがさらに向上する。

固定コードブック励振を生成するためのシード
帯域幅を節約するために、音声エンコーダは、バックグラウンドノイズまたは無音の期間中にはデコーダに固定コードブック励振を送信しなくてもよい。その代わり、エンコーダとデコーダとはともにガウス時系列発生器を用いて、ローカルに励振値をランダムに生成できる。エンコーダとデコーダとはともに同じオーダでの同じランダムな励振値を生成するよう構成される。結果として、エンコーダが所与のノイズフレームにつき生成した同じランダムな励振値を、デコーダがローカルに生成できるため、励振値をエンコーダからデコーダへ送信する必要はない。ランダムな励振値を生成するために、ガウス時系列発生器は初期シードを用いて第１のランダムな励振値を生成し、次に発生器はシードを新たな値に更新する。次に発生器は更新されたシードを用いて次のランダムな励振値を生成し、シードをさらに別の値に更新する。図１４は、音声エンコーダ内のガウス時系列発生器がどのようにシードを用いてランダムな励振値を生成し、次にどのようにこのシードを更新して次のランダムな励振値を生成するかを例示するための、フレームの仮定的な事例を示す。フレーム０および４が音声信号を含み、フレーム２、３および５が無音またはバックグラウンドノイズを含むと想定されたい。第１のノイズフレーム（すなわちフレーム２）が見つかると、エンコーダは初期シード（「シード１」と呼ぶ）を用いて、このフレームについての固定コードブック励振として用いるためのランダムな励振値を生成する。このフレームの各サンプルにつき、シードを変化させて新たな固定コードブック励振を生成する。こうして、フレームが１６０回サンプリングされた場合、シードは１６０回変わることになるだろう。従って次のノイズフレーム（ノイズフレーム３）に遭遇するまでに、エンコーダは第２および異なったシード（すなわちシード２）を用いて、このフレームについてのランダムな励振値を生成する。技術的には、シードは第１のフレームの各サンプルで変化するため、第２のフレームの第１のサンプルについてのシードは「第２の」シードではないが、便宜上第２のフレームの第１のサンプルについてのシードをここではシード２と呼ぶ。ノイズフレーム４については、エンコーダは第３のシード（第１および第２のシードとは異なる）を用いる。ノイズフレーム６についてのランダムな励振値を生成するために、ガウス時系列発生器は、音声通信システムの実現例に依存してシード１からやり直しても、またはシード４で進行してもよい。シードを同じやり方で更新するようにエンコーダおよびデコーダを構成することにより、エンコーダおよびデコーダは同じシードを生成でき、こうして同じオーダで同じランダムな励振値を生成できる。しかし先行技術の音声通信システムでは、フレームの紛失によりエンコーダとデコーダとのこの同時性が破壊されてしまう。

図１５は、図１４に示した仮定的な事例をデコーダの観点から例示する。ノイズフレーム２が紛失し、フレーム１および３がデコーダにより受信されると想定されたい。ノイズフレーム２が紛失しているため、デコーダはこれが前フレーム１（すなわち音声フレーム）と同じ種類であると仮定する。紛失ノイズフレーム２について誤った仮定をしてしまったため、デコーダは、ノイズフレーム３が実際には第２に遭遇したノイズフレームであるにもかかわらず、これを第１のノイズフレームと考える。シードは遭遇したノイズフレームすべての各サンプルにつき更新されるため、デコーダは、シード２を用いるべきであるにもかかわらず、間違ってシード１を用いてノイズフレーム３のランダム励振値を生成する。こうして、フレームの紛失の結果としてエンコーダとデコーダとの同時性が失われる。フレーム２はノイズフレームであるため、エンコーダがシード２を用いながらデコーダがシード１を用いることは重大事ではないが、それは結果が元のノイズと異なるノイズであるからである。同じことがフレーム３にも当てはまる。しかしながら、後に受信されたフレームが音声を含んでいれば、シード値のエラーはこれに対して大きな影響を与えるこ
とになる。たとえば音声フレーム４に着目する。シード２に基づくローカルに生成されたガウス励振を連続的に用い、フレーム３の適応コードブックバッファを更新する。フレーム４が処理されると、適応コードブック励振は、フレーム４のピッチラグなどの情報に基づいてフレーム３の適応コードブックバッファから抽出される。エンコーダがフレーム３の適応コードブックバッファを更新するためにシード３を用い、デコーダがフレーム３の適応コードブックバッファを更新するためにシード２（間違ったシード）を用いているため、場合によってはフレーム３の適応コードブックバッファを更新する際の差が、フレーム４内で品質上の問題を引き起こすおそれがある。

この発明に従って構築される改良された音声通信システムは、初期固定シードを用いて、システムがノイズフレームに遭遇するたびにこのシードを更新することはない。その代わり、改良されたエンコーダおよびデコーダは、このフレーム内のパラメータから所与のフレームについてのシードを導き出す。たとえば現在のフレーム内のスペクトル情報、エネルギおよび／または利得情報を用いて、このフレームについてのシードを生成することができる。たとえば、スペクトルを表わすビット（たとえば５つのビットｂ１、ｂ２、ｂ３、ｂ４、ｂ５）およびエネルギを表わすビット（たとえば３つのビットｃ１、ｃ２、ｃ３）を用いて、ストリングｂ１、ｂ２、ｂ３、ｂ４、ｂ５、ｃ１、ｃ２、ｃ３をもたらすことができ、この値がシードである。数で例を示せば、スペクトルが０１１０１、エネルギが０１１で表されると想定すると、シードは０１１０１０１１で表わされる。当然のことながら、フレーム内の情報からシードを導き出す他の代替的な方法が可能であり、この発明の範囲内に含まれる。従って、ノイズフレーム２が紛失する図１５の例では、デコーダはエンコーダにより導き出される同じシードであるノイズフレーム３についてのシードを導き出すことができる。従って、フレームの紛失によってエンコーダとデコーダとの同時性が破壊されることはない。

この発明の実施例および実現例を示し説明したが、さらに多くの実施例および実現例がこの発明の範囲内にあることは明らかである。従ってこの発明は、特許請求の範囲およびその均等物に限定されることを除き、限定されるべきではない。

ソースエンコーダとソースデコーダとを有する音声通信システムの機能ブロック図である。図１の音声通信システムのより詳細な機能ブロック図である。図１の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第１のステージ、音声プリプロセッサの機能ブロック図である。図１の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第２のステージを示す機能ブロック図である。図１の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第３のステージを示す機能ブロック図である。非周期性の音声を処理するため（モード０）、図１の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第４のステージを示す機能ブロック図である。周期性の音声を処理するため（モード１）、図１の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第４のステージを示す機能ブロック図である。この発明に従って構築された音声エンコーダからの符号化された情報を処理するための音声デコーダの一実施例のブロック図である。受信フレームと紛失フレームの仮定的な例を示す図である。受信フレームと紛失フレーム、加えて、先行技術のシステムおよびこの発明に従って構築された音声通信システムにおいて各フレームに割当てられたＬＳＦ間の最小間隔の仮定的な例を示す図である。先行技術の音声通信システムが各フレームに対してピッチラグおよびデルタピッチラグ情報をいかに割当て、用いるかを図示する仮定的な例を示す図である。この発明に従って構築された音声通信システムが各フレームに対してピッチラグおよびデルタピッチラグ情報をいかに割当て、用いるかを図示する仮定的な例を示す図である。紛失フレームがある場合に、この発明に従って構築された音声デコーダが、各フレームに対して適応利得パラメータ情報をいかに割当てるかを図示する仮定的な例を示す図である。先行技術のエンコーダがいかにシードを用いて、無音またはバックグラウンドノイズを含む各フレームに対してランダム励振値を生成するかを図示する仮定的な例を示す図である。紛失フレームがある場合に、先行技術のデコーダがいかにシードを用いて、無音またはバックグラウンドノイズを含む各フレームに対してランダム励振値を生成し、エンコーダとの同時性を失うかを図示する仮定的な例を示す図である。この発明に従って非周期性様の音声を処理する例を示すフローチャートである。この発明に従って周期性様の音声を処理する例を示すフローチャートである。

Claims

音声通信システムであって、
デコーダと、音声のフレームを処理し、音声の各フレームのピッチラグパラメータを決定するエンコーダと、エンコーダに結合され、音声の各フレームのピッチラグパラメータを送信する送信機とを備え、
前記デコーダは、
フレームごとに送信機からピッチラグパラメータを受信する受信機と、
受信機に結合され、前記ピッチラグパラメータに部分的に基づいて音声信号を再合成するための制御ロジックと、
フレームが受信機によって受信されなかったかどうかを検出する紛失フレーム検出器と、
紛失フレーム検出器が紛失フレームを検出すると、複数の前に受信されたフレームのピッチラグパラメータを用いて、当該紛失フレームのピッチラグパラメータを推定するフレーム回復ロジックと、
紛失フレームに続く前記第１のフレームに対する総励振を含む適応コードブックバッファとを含み、総励振は、量子化された適応コードブック励振コンポーネントを含み、
前記フレーム回復ロジックは、紛失フレームに続く前記第１のフレームの前記ピッチラグパラメータを用いて、前記紛失フレームに対して予めセットされたピッチラグパラメータを調整し、
バッファリングされた総励振は、紛失フレームに続く前記第１のフレームのための適応コードブック励振として抽出されるとともに、前記フレーム回復ロジックは、紛失フレームに続く前記第１のフレームのピッチラグパラメータを用いて、前記量子化された適応コードブック励振コンポーネントを調整する、音声通信システム。
前記フレーム回復ロジックは、紛失フレームに続いて受信されたフレームのピッチラグパラメータを用いて、紛失フレームのピッチラグパラメータを調整する、請求項１に記載の音声通信システム。
前記紛失フレーム検出器および／または前記フレーム回復ロジックは、前記制御ロジッ
クの一部である、請求項１に記載の音声通信システム。
前記フレーム回復ロジックは、紛失フレームに続いて受信されたフレームのピッチラグパラメータから、当該紛失フレームのピッチラグパラメータを推定する、請求項２に記載の音声通信システム。
前記フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、前記制御ロジックは、紛失フレームから音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項１に記載の音声通信システム。
前記フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、前記制御ロジックは、紛失フレームから音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項２に記載の音声通信システム。
前記フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、前記制御ロジックは、紛失フレームから音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項３に記載の音声通信システム。
通信システムにおいて音声を符号化またはデコードする方法であって、各フレームが複数のサブフレームを含むフレームごとに音声信号を提供するステップと、前記音声信号に基づいて、各フレームのパラメータを決定するステップと、パラメータをフレームごとに送信するステップとからなる符号化ステップを含む方法であって、
前記符号化ステップは、
前記パラメータをフレームごとに受信するステップと、
前記パラメータを含むフレームが紛失されているかどうかを検出するステップと、
当該検出においてフレームが紛失されたことが検出されると、複数の前に受信されたフレームのピッチラグパラメータを用いることで、当該紛失フレームのピッチラグパラメータを推定するように、紛失フレームの紛失パラメータを処理するステップと、
紛失フレームに続く第１のフレームに対する総励振を含む適応コードブックバッファを用意するステップとを含み、総励振は、量子化された適応コードブック励振コンポーネントを含み、
紛失フレームに続く前記第１のフレームの前記ピッチラグパラメータを用いて、前記紛失フレームに対して予めセットされたピッチラグパラメータを調整するステップと、
紛失フレームに続く前記第１のフレームのための適応コードブック励振として、バッファリングされた総励振を抽出するステップと、
紛失フレームに続く前記第１のフレームのピッチラグパラメータを用いて、前記量子化された適応コードブック励振コンポーネントを調整するするステップと、
前記ピッチラグパラメータを用いて音声信号を再現するステップとを含む、方法。
前記処理するステップは、紛失フレームの紛失されたピッチラグパラメータを、紛失フレームに続いて受信されたフレームのピッチラグパラメータに基づいて調整する、請求項７に記載の方法。
前記処理するステップが紛失フレームの紛失パラメータを設定した後に、紛失フレームから音声を再合成するステップと、
合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせるステップとをさらに含む、請求項７に記載の方法。