JP2004501391A

JP2004501391A - 可変レート音声符号器におけるフレーム消去補償方法

Info

Publication number: JP2004501391A
Application number: JP2001579292A
Authority: JP
Inventors: マンジュナス、シャラス; フアン、ペンジュン; チョイ、エディー−ルン・ティク
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-04-24
Filing date: 2001-04-18
Publication date: 2004-01-15
Anticipated expiration: 2021-04-18
Also published as: EP1850326A3; JP4870313B2; US6584438B1; BR0110252A; EP2099028B1; ATE368278T1; KR20020093940A; EP1276832A2; EP1276832B1; ES2288950T3; HK1055174A1; KR100805983B1; DE60129544D1; TW519615B; DE60129544T2; AU2001257102A1; DE60144259D1; ES2360176T3; ATE502379T1; WO2001082289A3

Abstract

可変レート音声符号器におけるフレーム消去補償方法は、第１の符号器によって、現在のフレームに対するピッチ遅延値と、前記現在のフレームに対するピッチ遅延値と以前のフレームに対するピッチ遅延値間の相違に等しい第１のデルタピッチ遅延値とを量子化することを含む。第２の予測符号器は、（以前のフレームに対するピッチ遅延値と当該フレームに先立つフレームに対するピッチ遅延値間の相違に等しい）以前のフレームに対する第２のデルタピッチ遅延値のみを量子化する。以前のフレームに先立つフレームがフレーム消去として処理されるならば、消去フレームに対するピッチ遅延値は、次に、第２のデルタピッチ遅延値を以前のフレームに対するピッチ遅延値から減算することによって取得される。加えて、符号器ピッチメモリの変化によって引き起こされる不連続を平滑化するために波形補間方法が使用される。

Description

【０００１】
発明の背景
１．発明の分野
本発明は、概して音声処理の分野に関し、特に、可変レート音声符号器におけるフレーム消去を補償するための方法及び装置に関する。
【０００２】
２．背景
デジタル技術による音声送信は、特に、長距離及びデジタル無線電話の分野において広範に使用されるようになった。このことは、その一方で、再構成された音声の受信品質を維持しながら、チャネルを介して送信可能な最低量の情報を決定することに対する関心を作り出した。音声が単純にサンプリング及びデジタル化によって送信されるのならば、秒あたり約６４Ｋビット（ｋｂｐｓ）のデータレートが、通常のアナログ電話の音声品質を達成するのに要求される。しかしながら、音声解析の使用、その後の適切な符号化、送信、受信器での再合成によって、データレートを大きく減らすことが達成される。
【０００３】
音声を圧縮するための装置は遠隔通信の多くの分野において使用されている。その一例はワイヤレス通信である。ワイヤレス通信の分野は、コードレス電話、ページャ、ワイヤレスローカルループ、セルラ及びＰＣＳ電話システムなどのワイヤレス電話、移動体インターネットプロトコル（ＩＰ）電話、そして、衛星通信システムである。特に重要な応用は、移動体加入者のためのワイヤレス電話である。
【０００４】
例えば、周波数分割多元接続（ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）を含むワイヤレス通信システムのために、種々の空中（ｏｖｅｒ−ｔｈｅ−ａｉｒ）インタフェースが開発されてきた。このことに関連して、例えば、最新移動体電話サービス（ＡＭＰＳ）、移動体通信（ＧＳＭ）のためのグローバルシステム、中間標準９５（ＩＳ−９５）を含む種々の国内及び国際標準が確立された。ＩＳ−９５標準及びその派生であるＩＳ−９５Ａ、ＡＮＳＩＪ−ＳＴＤ−００８、ＩＳ−９５Ｂ、及び提案された第３世代標準ＩＳ−９５Ｃ及びＩＳ−２０００など（ここではＩＳ−９５と総称する）は、セルラまたはＰＣＳ電話通信システムのためのＣＤＭＡ空中インタフェースの使用を特定するために、遠隔通信工業協会（ＴＩＡ）及び他の良く知られた標準団体によって普及された。実質的にＩＳ−９５標準の使用に従って構成された例示的なワイヤレス通信システムは、米国特許第５１０３４５９号及び第４９０１３０７号（これらは本発明の譲受人に譲渡され、言及によりその全体がここに組み込まれている）に記載されている。
【０００５】
人間の音声生成のモデルに関連するパラメータを抽出することによって音声を圧縮するための技術を使用する装置は、音声符号器と呼ばれる。音声符号器は、到来する音声信号を時間ブロックまたは解析フレームに分割する。音声符号器は概して符号器と復号器とを具備する。符号器はある種の関連パラメータを抽出するために到来する音声フレームを解析し、次に当該パラメータを二進表示すなわち、一組のビット列または二進データパケットに量子化する。データパケットは、通信チャネルを介して受信機及び復号器へと送信される。復号器はデータパケットを処理し、それらに逆量子化を行ってパラメータを生成し、逆量子化されたパラメータを使用して音声フレームを再合成する。
【０００６】
音声符号器の機能は、音声に内在するすべての自然冗長性を除去することによって、デジタル化された音声信号を低ビットレートの信号に圧縮することである。デジタル圧縮は、入力音声フレームを一組のパラメータで表示し、一組のビットで当該パラメータを表示するために量子化を使用することによって達成される。入力音声フレームがビット数Ｎｉを有し、音声符号器によって生成されたデータパケットがビット数Ｎｏを有するならば、音声符号器によって達成される圧縮率は、Ｃｒ＝Ｎｉ／Ｎｏである。目標の圧縮率を達成しながら復号された音声の高い音声品質を維持することが課題となる。音声符号器のパフォーマンスは、（１）音声モデルまたは上記した解析及び合成処理の組み合わせがどのぐらい良く実行されるか、及び（２）パラメータ量子化処理がフレームあたりＮｏの目標ビットレートでどのぐらい良く実行されるか、に依存する。すなわち、音声モデルの最終目標は、音声信号の本質または目標音声品質を各フレームごとに少ない組のパラメータで把握することである。
【０００７】
音声符号器の設計において最も重要なことは、音声信号を記述するのに（ベクトルを含む）良好な組のパラメータを探索することである。良好な組のパラメータは、知覚的に正確な音声信号を再構成するのに低いシステム帯域を要求する。ピッチ、信号電力、スペクトラムエンベロープ（またはフォルマント）、振幅スペクトラム、そして位相スペクトラムは音声符号化パラメータの一例である。
【０００８】
音声符号器は、時間領域符号器として実現され、一度に音声の小さなセグメント（概して５ミリ秒（ｍｓ）のサブフレーム）を符号化するために高い時間解像度処理を使用することによって時間領域音声波形を捕捉することを行う。各サブフレームに対して、コードブック空間からの高精度な代表は、当業界で知られた種々の探索アルゴリズムによって見出される。その一方で、音声符号器は周波数領域符号器として実現され、一組のパラメータ（解析）で入力音声フレームの短期的な音声スペクトラムを捕捉することを行い、スペクトラムパラメータから音声波形を再生成するために対応する合成処理を使用する。パラメータ量子化器は、Ａ．Ｇｅｒｓｈｏ＆Ｒ．Ｍ．Ｇｒａｙ、ベクトル量子化及び信号圧縮（１９９２）に記載された既知の量子化技術に従って、符号ベクトルの蓄積された代表でそれらを表示することによってパラメータを保存する。
【０００９】
良く知られた時間領域の音声符号器は、Ｌ．Ｂ．Ｒａｂｉｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ，音声信号のデジタル処理、３９６−４５３（１９７８）に記載された符号励起線形予測（ＣＥＬＰ）符号器であり、言及によりここにその全体が組み込まれている。ＣＥＬＰ符号器において、音声信号における、短期相関、すなわち、冗長度は、短期フォルマントフィルタの係数を見つける、線形予測（ＬＰ）解析によって除去される。短期予測フィルタを到来する音声フレームに適用するとＬＰ残差信号を生成する。これはさらにモデル化されて長期予測フィルタパラメータ及び次の確率コードブックで量子化される。すなわち、ＣＥＬＰ符号化は、時間領域音声波形を符号化する作業を、ＬＰ短期フィルタ係数を符号化する作業とＬＰ残差を符号化する作業の別個の作業に分離する。時間領域符号化は固定レート（すなわち、各フレームに対して同じ数のビットＮ_０を使用して）で実行されるかあるいは、（異なるビットレートが異なるタイプのフレーム内容に対して使用される）可変レートで実行される。可変レート符号器は、コーデックパラメータを目標品質を獲得するのに十分なレベルにまで符号化するのに要するビット量のみを使用する。例示的な可変レートＣＥＬＰ符号器は、米国特許第５４１４７９６号に記載されている。この米国特許は本発明の譲受人に譲渡され言及によりその全体がここに組み込まれている。
【００１０】
ＣＥＬＰ符号器などの時間領域符号器は概して、時間領域音声波形の精度を維持するためにフレームあたり大きな数のビットＮ_０に依存している。そのような符号器は概して、フレームあたりのビット数Ｎ_０が比較的大きい（例えば８ｋｂｐｓまたはそれ以上）ならば、優れた音声品質を提供する。しかしながら、低いビットレート（４ｋｂｐｓ及びそれ以下）において、時間領域符号器は、利用可能なビット数の制限のために高い品質と強固なパフォーマンスを維持することが困難になる。低いビットレートでは、制限されたコードブック空間により、高レートの商業上の応用において順調に展開された従来の時間領域符号器の波形マッチング機能を落としてしまうことになる。すなわち、今までの改善にもかかわらず、低ビットレートで動作する多くのＣＥＬＰ符号化システムは、概して雑音として特徴付けられる知覚的に大きな歪みを受けてしまう。
【００１１】
中間から低ビットレート（すなわち、２．４から４ｋｂｐｓの範囲及びそれ以下）で動作する高品質の音声符号器を開発することに対する研究上の興味の盛り上がりと強い商業上のニーズが存在する。応用範囲は、ワイヤレス電話、衛星通信、インターネット電話、種々のマルチメディア及び音声ストリーミング、音声メール、及びその他の音声ストレージシステムを含む。高い能力に対するニーズと、パケット損失状況の下での強固なパフォーマンスに対する要求とが駆動力となる。種々の最近の音声符号化標準化への努力は、低レート音声符号化アルゴリズムの研究と開発を推進する他の直接的な駆動力である。低レート音声符号器は、利用可能なアプリケーション帯域あたりより多くのチャネルすなわちユーザを生成し、適切なチャネル符号化の付加的レイヤと結合した低レート音声符号器は、符号化仕様の全ビット予算に適合するとともに、チャネルエラー状態の下で強固なパフォーマンスを提供する。
【００１２】
低ビットレートで効率よく音声を符号化する１つの効果的な技術は、マルチモード符号化である。典型的なマルチモード符号化技術は、米国特許出願第０９／２１７３４１号（名称：可変レート音声符号化、出願日：１９９８年１２月２１日）に記載されている。この出願は本発明の譲受人に譲渡され、言及によりその全体がここに組み込まれている。従来のマルチモード符号器は、異なるタイプの入力音声フレームに対して異なるモード、すなわち符号化／復号化アルゴリズムを適用する。各モードすなわち符号化／復号化プロセスは、例えば有声発話、無声発話、（例えば有声と無声の間の）遷移発話、そして、背景ノイズ（沈黙または非音声）などのある種の音声セグメントを最適に表わすように最も効率の良い方法でカスタマイズされる。外部的なオープンループモードの決定機構は、入力音声フレームを検査して、当該フレームにどのモードを適用するかについての決定を行う。オープンループモード決定は概して、入力フレームから多数のパラメータを抽出し、ある一時的及びスペクトラム特性についてパラメータを評価し、この評価の後にモード決定を基礎とすることによって実行される。
【００１３】
約２．４ｋｂｐｓのレートで動作する符号化システムは概して、パラメータの特質を備える。すなわち、そのような符号化システムは、ピッチ周期及び音声信号のスペクトラムエンベロープ（フォルマント）を表わすパラメータを送信することによって動作する。これらのいわゆるパラメータ符号器の一例はＬＰボコーダシステムである。
【００１４】
ＬＰボコーダは、ピッチ周期あたりの単一パルスで発話された音声信号をモデル化する。この基本的な技術は、他のことがらに加えて、スペクトラムエンベロープについての送信情報を含むように増強される。ＬＰボコーダは概して妥当なパフォーマンスを提供するが、それらは概して騒音として特徴付けられる知覚的に大きなひずみを引き起こす。
【００１５】
近年、符号器は、波形符号器とパラメータ符号器とのハイブリッド（混成）として出現した。これらのいわゆるハイブリッド符号器の一例は、原型（ｐｒｏｔｏｔｙｐｅ）波形補間（ＰＷＩ）音声符号化システムである。ＰＷＩ符号化システムは、原型ピッチ周期（ＰＰＰ）音声符号器として知られる。ＰＷＩ符号化システムは、有声発話を符号化するための効率の良い方法を提供する。ＰＷＩの基本概念は、固定間隔で代表的なピッチ周期（原型波形）を抽出してその記述を送信し、原型波形間に補間することによって音声信号を再構成することである。ＰＷＩ方法は、ＬＰ残差信号に関してまたは音声信号に関して動作する。例示的なＰＷＩまたはＰＰＰ音声符号器は、米国特許出願第０９／２１７４９４号（名称：周期的音声符号化、出願日：１９９８年１２月２１日）に記載されている。この発明は本発明の譲受人に譲渡されており、言及によりその全体がここに組み込まれている。他のＰＷＩまたはＰＰＰ音声符号器は、米国特許第５８８４２５３号及びＷ．ＢａｓｔｉａａｎＫｌｅｉｊｉｎ＆ＷｏｌｆｇａｎｇＧｒａｎｚｏｗ音声符号化における波形補間のための方法、１デジタル信号処理２１５−２３０（１９９１）に記載されている。
【００１６】
最近の音声符号器においては、所定のピッチ原型のパラメータ、すなわち所定のフレームのパラメータはそれぞれ個々に量子化されて符号器によって送信される。さらに、各パラメータに対して異なる値が転送される。異なる値は、現在のフレームまたは原型に対するパラメータ値と、以前のフレームまたは原型に対するパラメータ値との間の相違を表わす。しかしながら、パラメータ値及び異なる値を量子化することはビット（そして帯域）の使用が必要になる。低ビットレート音声符号器においては、満足のいく音声品質を維持するのに十分な最小限の数のビットを送信することが望ましい。このため、従来の低ビットレート音声符号器では、絶対的なパラメータ値のみが量子化されて送信される。情報値を制限することなしに送信されるビットの数を減少させることが望ましい。したがって、以前のフレームに対するパラメータ値と現在のフレームに対するパラメータ値の重みつき加算値間の相違を量子化する量子化方法が関連出願（名称：有声発話を予測的に量子化するための方法及び装置）に記載されている。この発明は本発明の譲受人に譲渡され、言及によりここにその全体が組み込まれている。
【００１７】
音声符号器は、悪いチャネル条件によってフレーム消去（ｅｒａｓｕｒｅ）すなわちパケット損失（ｌｏｓｓ）を受ける。従来の音声符号器において使用される１つの解決策は、フレーム消去が受信されたときに復号器に単に以前のフレームを反復させることであった。フレーム消去の直後に動的にフレームを調整する適応型コードブックの使用の中に改善点が見出された。さらなる改善として強化された可変レート符号器（ＥＶＲＣ）が遠隔通信工業協会中間標準ＥＩＡ／ＴＩＡＩＳ−１２７において標準化された。ＥＶＲＣ符号器は、受信されなかったフレームを符号器メモリ内で変更するために、正しく受信された低予測で符号化されたフレームに依存し、それゆえ、正しく受信されたフレームの品質を改善する。
【００１８】
しかしながら、ＥＶＲＣ符号器に付随する問題点は、フレーム消去と次の調整された良好なフレームの到着との間の不連続性である。例えば、フレーム消去が発生しなかったならば、ピッチパルスは、相対位置と比較して近すぎる位置あるいは遠すぎる位置に配置されているだろう。そのような不連続は可聴クリック音を引き起こすであろう。
【００１９】
概して、（上の段落で述べたような）低予測の音声符号器は、フレーム消去条件の下でより良いパフォーマンスを提示する。しかしながら、上記したように、そのような音声符号器は相対的に高いビットレートが必要である。これとは逆に、高い予測の音声符号器は、（特に有声発話などの高度に周期的な音声に対して）良好な品質の合成音声を達成することが可能であるが、フレーム消去条件の下では悪いパフォーマンスを提示する。両方のタイプの音声符号器の品質を合成することが望ましい。さらに、フレーム消去と次に変更された良好フレーム間の不連続を平滑化する方法を提供することは有益なことである。すなわち、フレーム消去があった場合における予測符号器のパフォーマンスを改善するとともに、フレーム消去と次の良好フレーム間の不連続を平滑化するフレーム消去補償方法に対するニーズがある。
【００２０】
発明の要約
本発明は、フレーム消去時の予測符号器のパフォーマンスを改善し、フレーム消去と次の良好フレーム間の不連続を平滑化するフレーム消去補償方法に関している。したがって、本発明の一側面において、音声符号器におけるフレーム消去を補償する方法が提供される。本方法は好ましくは、消去したフレームが宣言された後に処理された現在のフレームに対するピッチ値とデルタ値とを量子化し、前記デルタ値は、現在のフレームに対するピッチ遅延値と当該現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、フレーム消去の後でかつ、現在のフレームよりも少なくとも１つ前のフレームに対するデルタ値を量子化し、前記デルタ値は、少なくとも１つのフレームに対するピッチ遅延値と、前記少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記消去したフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算することを具備する。
【００２１】
本発明の他の側面において、フレーム消去を補償するように構成された音声符号器が提供される。本音声符号器は好ましくは、消去したフレームが宣言された後に処理された現在のフレームに対するピッチ値とデルタ値とを量子化する手段と、前記デルタ値は、現在のフレームに対するピッチ遅延値と当該現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、フレーム消去の後でかつ、現在のフレームよりも少なくとも１つ前のフレームに対するデルタ値を量子化する手段と、前記デルタ値は、少なくとも１つのフレームに対するピッチ遅延値と、前記少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記消去したフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算する手段とを具備する。
【００２２】
本発明の他の側面において、フレーム消去を補償するように構成された加入者ユニットが提供される。加入者ユニットは好ましくは、消去したフレームが宣言された後に処理された現在のフレームに対するピッチ遅延値とデルタ値とを量子化するように構成される第１の音声符号器と、前記デルタ値は、現在のフレームに対するピッチ遅延値と当該現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、フレーム消去の後でかつ、現在のフレームよりも少なくとも１つ前のフレームに対するデルタ値を量子化する第２の音声符号器と、前記デルタ値は、少なくとも１つのフレームに対するピッチ遅延値と、前記少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記消去したフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算する制御プロセッサとを具備する。
【００２３】
本発明の他の側面において、フレーム消去を補償するように構成されたインフラストラクチャ要素が提供される。インフラストラクチャ要素は好ましくは、プロセッサ、当該プロセッサに結合され、消去されたフレームが宣言された後に処理された現在のフレームに対するピッチ値及びデルタ値を量子化するために前記プロセッサによって実行可能な一組の命令を含む記憶媒体とを具備する。前記デルタ値は前記現在のフレームに対するピッチ遅延値と、前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記フレーム消去の後でかつ、前記現在のフレームに少なくとも１つ前のフレームに対するデルタ値を量子化し、前記デルタ値は、少なくとも１つのフレームに対するピッチ遅延値と少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算して当該消去したフレームに対するピッチ遅延値を生成する。
【００２４】
好ましい実施形態の詳細な説明
ここに記載された例示的実施形態は、ＣＤＭＡ空中（ｏｖｅｒ−ｔｈｅ−ａｉｒ）インタフェースを使用するように構成されたワイヤレス電話通信システムに属する。しかしながら、本発明の特徴を具現化する有声音声を予測符号化するための方法及び装置は、当業者に知られた広範囲の技術を使用する種々の任意の通信システムに属することを当業者によって理解されるであろう。
【００２５】
図１に示すように、ＣＤＭＡワイヤレス電話システムは概して、複数の移動体加入者ユニット１０、複数の基地局１２、基地局コントローラ（ＢＳＣ）１４、移動体交換局（ＭＳＣ）１６を含む。ＭＳＣ１６は、従来の公衆交換電話網（ＰＳＴＮ）１８と接続されるように構成される。ＭＳＣ１６はさらに、ＢＳＣ１４と接続するように構成される。ＢＳＣ１４はバックホールラインを介して基地局１２に結合される。バックホールラインは、例えば、Ｅ１／Ｔ１，ＡＴＭ，ＩＰ，ＰＰＰ，フレームリレイ，ＨＤＳＬ，ＡＤＳＬ，またはｘＤＳＬを含む任意の既知のインタフェースを支持するように構成される。システム内には２つ以上のＢＳＣ１４が存在するであろうことが理解される。各基地局１２は好ましくは少なくとも１つのセクタ（図示せぬ）を具備し、各セクタは全方向アンテナまたは基地局１２から放射線方向に離れる特定の方向を向いたアンテナを具備する。一方、各セクタはダイバーシチ受信のために２つのアンテナを具備する。各基地局１２は好ましくは複数の周波数割り当てを支持するように設計される。セクタの交差と周波数割り当てはＣＤＭＡチャネルと呼ばれる。基地局１２は、基地局送信器サブシステム（ＢＴＳ）１２として知られる。一方、“基地局”は、ＢＳＣ１４及び１つ以上のＢＴＳ１２を総称するのに業界において使用される。ＢＴＳ１２は“セルサイト”１２とも呼ばれる。一方、所定のＢＴＳ１２の個々のセクタはセルサイトと呼ばれる。移動体加入者ユニット１０は概してセルラまたはＰＣＳ電話１０である。システムは好ましくは、ＩＳ−９５標準に従った使用のために構成される。
【００２６】
セルラ電話システムの一般的動作の間に、基地局１２は、移動体ユニット１０の組からリバースリンク信号の組を受信する。移動体リンク１０は電話呼または他の通信を行なっている。所定の基地局１２によって受信された各リバースリンク信号は当該基地局１２内で処理される。結果的に得られたデータは、ＢＳＣ１４に転送される。ＢＳＣ１４は、呼資源割り当て及び基地局１２間のソフトハンドオフの統合を含む、移動体管理機能を提供する。ＢＳＣ１４はさらに、受信したデータを、ＰＳＴＮ１８に接続するための付加的な経路制御サービスを提供するＭＳＣ１６に転送する。同様にして、ＰＳＴＮ１８は、ＭＳＣ１６に接続し、ＭＳＣ１６は、フォワードリンク信号の組を移動体ユニット１０の組に送信するべく基地局１２を制御するＢＳＣ１４に接続する。当業者ならば、加入者ユニット１０は他の実施形態において固定されたユニットであることを理解するであろう。
【００２７】
図２において、第１の符号器１００は、デジタル化された音声サンプルｓ（ｎ）を受信して、送信媒体１０２すなわち通信チャネル１０２に関して第１の復号器１０４への送信のためにサンプルｓ（ｎ）を符号化する。復号器１０４は、符号化された音声サンプルを復号して出力音声信号Ｓ_{ＳＹＮＴＨ} （ｎ）を合成する。反対方向における送信のために、第２の符号器１０６は、通信チャネル１０８を介して送信されるデジタル化された音声サンプルｓ（ｎ）を符号化する。音声復号器１１０は、符号化された音声サンプルを復号し、合成された出力音声信号Ｓ_{ＳＹＮＴＨ} （ｎ）を生成する。
【００２８】
音声サンプルｓ（ｎ）は、例えば、パルス符号変調（ＰＣＭ）、圧伸されたμ−ｌａｗ、またはＡ−ｌａｗを含む、当業界でよく知られた種々の方法に従ってデジタル化され量子化された音声信号を表わす。当業界で知られているように、音声サンプルｓ（ｎ）は、入力データのフレームに構成される。各フレームは、所定の数のデジタル音声サンプルｓ（ｎ）を具備する。例示的な実施形態において、８ｋＨｚのサンプリングレートが使用される。各２０ｍｓフレームは１６０サンプルを具備する。以下の実施形態において、データ送信のレートは、好ましくは、フルレートから（１／２レート、１／４レートあるいは１／８レートへと）フレームごとに変化させる。低いビットレートは比較的少ない音声情報を含むフレームに選択的に使用されるので、データ送信レートを変化させることは望ましい。当業者により理解されるように、他のサンプリングレート及び／またはフレームサイズが使用される。以下の実施形態において示すように、音声符号化（すなわち記号化）モードは、音声情報またはフレームのエネルギに応答して、フレームごとに変化される。
【００２９】
第１の符号器１００及び第２の復号器１１０はともに、第１の音声符号器（符号器／復号器）、または音声コーデックを具備する。音声符号器は、例えば、図１に関連して記載された、加入者ユニット、ＢＴＳまたはＢＳＣを含む、音声信号送信のための任意の通信装置において使用される。同様にして、第２の符号器１０６及び第１の復号器１０４はともに、第２の音声符号器を具備する。音声符号器は、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、離散ゲートロジック、ファームウェアあるいは任意の従来のプログラマブルソフトウェアモジュール及びマイクロプロセッサによって実現されることを当業者は理解するであろう。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、あるいは業界で知られた任意の形態の記憶媒体内に存在する。さらに、任意の従来のプロセッサ、コントローラ、あるいは状態マシーンはマイクロプロセッサの代わりになるであろう。音声符号化に特に設計された例示的なＡＳＩＣは、米国特許第５７２７１２３号（この特許は本発明の譲受人に譲渡され、言及によりここにその全体が組み込まれている）及び米国特許出願第０８／１９７４１７号（名称：ボコーダＡＳＩＣ、出願日：１９９４年２月１６日、本発明の譲受人に譲渡されており、言及によりここにその全体が組み込まれている）に記載されている。
【００３０】
図３において、音声符号器において使用される符号器２００は、モード決定モジュール２０２、ピッチ推定モジュール２０４、ＬＰ解析モジュール２０６、ＬＰ解析フィルタ２０８、ＬＰ量子化モジュール２１０、そして残差量子化モジュール２１２を含む。入力音声フレームｓ（ｎ）は、モード決定モジュール２０２、ピッチ推定モジュール２０４、ＬＰ解析モジュール２０６、そしてＬＰ解析フィルタ２０８に供給される。モード決定モジュール２０２は、各入力音声フレームｓ（ｎ）の周期、エネルギ、信号対雑音比（ＳＮＲ）あるいは零交差レート、その他の特徴に基づいて、モードインデックスＩ_Ｍ及びモードＭを生成する。周期に従って音声フレームを区別する種々の方法は、米国特許第５９１１１２８号（この特許は本発明の譲受人に譲渡され、ここに言及によりその全体が組み込まれている）に記載されている。そのような方法は、遠隔通信工業協会ＴＩＡ／ＥＩＡ
ＩＳ−１２７及びＴＩＡ／ＥＩＡ　ＩＳ−７３３内に組み込まれている。例示的なモード決定方法は、上記した米国特許出願第０９／２１７３４１号に記載されている。
【００３１】
ピッチ推定モジュール２０４は、各入力音声フレームｓ（ｎ）に基いて、ピッチインデックスＩ_ｐ及び遅延値Ｐ_ｏを生成する。ＬＰ解析モジュール２０６は、ＬＰパラメータａを生成するために、各入力音声フレームｓ（ｎ）に関して線形予測解析を実行する。ＬＰパラメータａは、ＬＰ量子化モジュール２１０に供給される。ＬＰ量子化モジュール２１０はさらに、モードＭを受信し、それによってモードに依存する方法で量子化プロセスを実行する。ＬＰ量子化モジュール２１０は、ＬＰインデックスＩ_ＬＰ及び量子化ＬＰパラメータ
【数１】

を生成する。ＬＰ解析フィルタ２０８は、入力音声フレームｓ（ｎ）に加えて量子化ＬＰパラメータａ^∧を受信する。ＬＰ解析フィルタ２０８は、量子化された線形予測パラメータａ^∧に基いて、入力音声フレームｓ（ｎ）及び再構成された音声間の誤差を表わすＬＰ残差信号Ｒ［ｎ］を生成する。ＬＰ残差Ｒ［ｎ］、モードＭ、そして、量子化されたＬＰパラメータａ^∧は残差量子化モジュール２１２に供給される。残差量子化モジュール２１２は、これらの値に基いて、残差インデックスＩ_Ｒ及び量子化された残差信号Ｒ^∧［ｎ］を生成する。
【００３２】
図４において、音声符号器において使用される復号器３００は、ＬＰパラメータ復号モジュール３０２、残差復号モジュール３０４、モード復号モジュール３０６、そしてＬＰ解析フィルタ３０８を含む。モード復号モジュール３０６は、モードインデックスＩ_Ｍを受信して復号し、それらからモードＭを生成する。ＬＰパラメータ復号モジュール３０２は、モードＭ及びＬＰインデックスＩ_ＬＰを受信する。ＬＰパラメータ復号モジュール３０２は、受信した値を復号して、量子化されたＬＰパラメータａ^∧を生成する。残差復号モジュール３０４は、残差Ｉ_Ｒ、ピッチインデックスＩ_Ｐ、そしてモードインデックスＩ_Ｍを受信する。残差復号モジュール３０４は、受信した値を復号して量子化された残差信号Ｒ^∧［ｎ］を生成する。量子化された残差信号Ｒ^∧［ｎ］及び量子化されたＬＰパラメータａ^∧は、それらから復号された出力音声信号ｓ^∧［ｎ］を合成するＬＰ合成フィルタ３０８に供給される。
【００３３】
図３の符号器２００及び図４の復号器３００の種々のモジュールの動作及び実装は当業界で知られており、前述の米国特許第５４１４７９６号及びＬ．Ｂ．Ｒａｂｉｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ，音声信号のデジタル処理、３９６−４５３（１９７８）に記載されている。
【００３４】
一実施形態において、マルチモード音声符号器４００は、通信チャネルまたは送信媒体４０４を介してマルチモード音声復号器４０２に連絡する。通信チャネル４０４は好ましくはＩＳ−９５標準に従って構成されたＲＦインタフェースである。符号器４００が関連する復号器（図示せず）を備えていることは当業者に理解されるであろう。符号器４００及びその関連する復号器はともに第１の音声符号器を構成する。復号器４０２が関連する符号器（図示せず）を備えていることは当業者に理解されるであろう。復号器４０２及びその関連する符号器はともに第２の音声符号器を構成する。第１及び第２の音声符号器は好ましくは、第１及び第２のＤＳＰの一部として実現され、例えば、ＰＣＳまたはセルラ電話システム内の加入者ユニット及び基地局内または、衛星システム内の加入者ユニット及びゲートウェイ内に含まれる。
【００３５】
符号器４００は、パラメータ計算器４０６、モード識別モジュール４０８、複数の符号化モード４１０そして、パケットフォーマットモジュール４１２を含む。符号化モード４１０の数はｎとして示されているが、当業者ならば適切な数の符号化モード４１０が使用されることを理解するであろう。説明を簡単にするために、３個のみの符号化モード４１０が示されている。点線は他の符号化モード４１０の存在を示している。復号器４０２はパケット分離器及びパケット損失検出器モジュール４１４、複数の復号モード４１６、消去復号器４１８、ポストフィルタまたは音声合成器４２０を含む。復号モジュール４１６の数は、ｎとして示されるが、当業者ならば適切な数の復号化モジュール４１６が使用されることを理解するであろう。説明を簡単にするために、３個のみの復号モジュール４１６が示されている。点線は他の復号モード４１６の存在を示している。
【００３６】
音声信号ｓ（ｎ）はパラメータ計算器４０６に供給される。音声信号はフレームと呼ばれるサンプルブロックに分割される。値ｎはフレーム番号を示している。他の実施形態において、線形予測（ＬＰ）残差誤差信号は音声信号の代わりに使用される。ＬＰ残差は、例えばＣＥＬＰ符号器などの音声符号器によって使用される。ＬＰ残差の計算は好ましくは、音声信号をインバースＬＰフィルタ（図示せず）に供給することによって実行される。インバースＬＰフィルタの伝達関数Ａ（ｚ）は、次の式に従って計算する。
【００３７】
Ａ（ｚ）＝１−ａ_１ｚ^−１−ａ_２ｚ^−２−…−ａ_ｐｚ^−ｐ
ここで、係数ａ_ｌは既知の方法に従って選択された予め定められた値を有するフィルタタップである。これは前記した米国特許第５４１４７９６号及び米国特許出願第０９／２１７４９４号に記載されている。数ｐは、インバースＬＰフィルタが予測目的のために以前のサンプルの数を示す。特定された実施形態において、ｐは１０に設定される。
【００３８】
パラメータ計算器４０６は、現在のフレームに基いて種々のパラメータを抽出する。一実施形態において、これらのパラメータは次の少なくとも１つを含む：線形予測符号化（ＬＰＣ）フィルタ係数、線形スペクトラム対（ＬＳＰ）係数、正規化された自己相関関数（ＮＡＣＦ）、オープンループ遅延、零交差レート、帯域エネルギー、そしてフォルマント残差信号の計算は、上記の米国特許第５４１４７９６号に詳細に記載されている。ＮＡＣＦ及び零交差レートの計算は、上記した米国特許第５９１１１２８号に詳細に記載されている。
【００３９】
パラメータ計算器４０６は、モード識別モジュール４０８に結合される。パラメータ計算器４０６は、当該パラメータをモード識別モジュール４０８を供給する。モード識別モジュール４０８は、現在のフレームに対して最も適切な符号化モード４１０を選択するために、フレームごとに符号化モード４１０間を動的に切り換わるように結合される。モード識別モジュール４０８は、当該パラメータを所定のしきい値及び／又は上限（ｃｅｉｌｉｎｇ）値と比較することによって現在のフレームに対する特定の符号化モード４１０を選択する。フレームのエネルギ内容に基いて、モード識別モジュール４０８は当該フレームを、非音声、または不作動音声（例えば、沈黙、背景雑音、またはワード間の一時停止）、または音声として識別する。フレームの周期性に基いて、モード識別モジュール４０８は、音声フレームを特別のタイプの音声，例えば有声、無声または遷移発話として区別する。
【００４０】
有声音声は比較的高い度合いの周期性を示す。有声音声の一部が図６のグラフに示される。図に示すように、ピッチ周期は、フレームの内容を解析して再構成するのに有利に使用される音声フレームの成分である。無声音声は概して協和音を具備する。遷移音声フレームは概して、有声音声と無声音声間の遷移である。有声音声でも無声音声でもないと分類されたフレームは遷移音声として分類される。当業者ならば、任意の適切な分類方法が使用可能であることを理解するであろう。
【００４１】
異なるタイプの音声を符号化するのに異なる符号化モード４１０が使用可能なので、音声フレームを分類することは有意義であり、これによって、通信チャネル４０４などの共有チャネルにおける帯域をより効率的に使用することになる。例えば、有声音声は周期的、すなわち高い確率で予測できるので、有声音声を符号化するのに高い予測度の符号化モード４１０が使用可能である。分類モジュール４０８などの分類モジュールは、上記した米国特許出願第０９／２１７３４１号及び米国特許出願第０９／２５９１５１号（名称：閉ループマルチモード混合領域線形予測（ＭＤＬＰ）音声符号器、出願日：１９９９年２月２６日、本発明の譲受人に譲渡されており、その全体がここに参照として組み込まれている）に詳細に記載されている。
【００４２】
モード分類モジュール４０８は、フレームの分類に基いて現在のフレームに対する符号化モード４１０を選択する。種々の符号化モードが並列に結合される。１つ以上の符号化モード４１０が任意のときに動作可能である。しかしながら、好ましくは１つのみの符号化モード４１０が所定の時間に動作可能であり、現在のフレームの分類に従って選択される。
【００４３】
異なる符号化モード４１０は好ましくは、異なる符号化ビットレート、異なる符号化方法、あるいは符号化ビットレートと符号化方法の異なる組み合わせに従って動作する。使用される種々の符号化レートは、フルレート、ハーフレート、１／４レート、及び／または１／８レートである。使用される種々の符号化方法は、ＣＥＬＰ符号化、原型ピッチ周期（ＰＰＰ）符号化（または波形補間（ＷＩ）符号化、及び／または雑音励起線形予測（ＮＥＬＰ）符号化である。すなわち、例えば、特定の符号化モード４１０は、フレーレートＣＥＬＰであり、他の符号化モード４１０は１／２レートＣＥＬＰであり、他の符号化モード４１０は１／４レートＰＰＰであり、他の符号化モード４１０はＮＥＬＰである。
【００４４】
ＣＥＬＰ符号化モード４１０に従って、線形予測声道モデルがＬＰ残差信号の量子化バージョンにより励起される。全体の以前のフレームに対する量子化パラメータが現在のフレームを再構成するのに使用される。すなわち、ＣＥＬＰ符号化モード４１０は、音声の比較的正確な再生を提供するが、符号化ビットレートが相対的に高くなる。ＣＥＬＰ符号化モード４１０は好ましくは、遷移音声としえ分類されたフレームを符号化するのに使用される。例示的な可変レートＣＥＬＰ音声符号器は、上記した米国特許出願第５４１４７９６号に詳細に記載されている。
【００４５】
ＮＥＬＰ符号化モード４１０に従って、ろ波された疑似ランダムノイズ信号が音声フレームをモデル化するのに使用される。ＮＥＬＰ符号化モデル４１０は低ビットレートを達成する相対的に簡単な技術である。ＮＥＬＰ符号化モード４１２は、無声音声として分類されたフレームを符号化するのに使用される。例示的なＮＥＬＰ符号化モードは、上記した米国特許出願第０９／２１７４９４号に詳細に記載されている。
【００４６】
ＰＰＰ符号化モード４１０に従って、各フレーム内のピッチ周期のサブセットのみが符号化される。音声信号の残りの周期は、これらの原型周期間に補間することによって再構成される。ＰＰＰ符号化の時間領域実装において、現在の原型周期を近似するために以前の原型周期をどのように変形するのかを記述する第１組のパラメータが計算される。１つ以上の符号ベクトルが選択され、加算されて現在の原型周期と変形された以前の原型周期間の相違を近似する。第２組のパラメータはこれらの選択された符号ベクトルを記述する。ＰＰＰ符号化の周波数領域実装において、原型の振幅及び位相スペクトラムを記述するために一組のパラメータが計算される。これは、絶対的知覚または予測的に行われる。原型（または全体フレームの）振幅及び位相スペクトラムを予測的に量子化する方法は、上記したこれとともに出願された関連出願（名称：有声音声を予測的に量子化する方法及び装置）に記載されている。ＰＰＰ符号化のいずれかの実装に従って、復号器は、第１及び第２の組のパラメータに基いて、現在の原型を再構成することによって、出力音声信号を合成する。音声信号は次に、現在の再構成された原型周期と以前の再構成された原型周期間の領域に渡って補間される。すなわち、原型は、復号器で音声信号またはＬＰ残差信号を再構成するためにフレーム内に同様に配置された以前のフレームからの原型で線形補間される現在のフレームの一部である（すなわち、過去の原型周期が現在の原型周期の予測器として使用される）。例示的なＰＰＰ音声符号器は上記した米国特許出願弟０９／２１７４９４号に詳細に記載されている。
【００４７】
全体の音声フレームではなく原型周期を符号化することは、要求された符号化ビットレートを低減する。有声音声として分類されたフレームは好ましくは、ＰＰＰ符号化モード４１０によって符号化される。図６に示すように、有声音声は、ＰＰＰ符号化モード４１０による利点が利用される遅い時間変化の周期的成分を含む。有声音声の周期性を活用することによって、ＰＰＰ符号化モード４１０は、ＣＥＬＰ符号化モード４１０ではなくより低いビットレートを達成することができる。
【００４８】
選択された符号化モード４１０は、パケットフォーマットモジュール４１２に結合される。選択された符号化モード４１０は、現在のフレームを符号化し、量子化して量子化されたフレームパラメータをパケットフォーマットモジュール４１２に供給する。パケットフォーマットモジュール４１２は好ましくは、量子化された情報をパケットに組み立てて通信チャネル４０４を介して送信される。一実施形態において、パケットフォーマットモジュール４１２は、誤差訂正符号化を提供するように構成され、当該パケットをＩＳ−９５標準に従ってフォーマットする。パケットは送信器（図示せず）に供給され、アナログ形式に変換され、変調され、通信チャネル４０４を介して受信器（図示せず）に送信される。受信器はパケットを受信して復調し、デジタル化し、当該パケットを復調器４０２に供給する。
【００４９】
復号器４０２において、パケット分離器及びパケット損失検出器モジュール４１４は受信器からのパケットを受信する。パケット分離器及びパケット損失検出器モジュール４１４は、パケットごとに復号モード４１６間のスイッチに動的に結合されている。復号化モジュール４１６の数は、符号化モード４１０の数と同じであり、当業者ならば認識するように、同じ符号化ビットレート及び符号化方法を使用するように構成された、各同じ番号の符号化モード４１６に関連している。
【００５０】
パケット分離器及びパケット損失検出器モジュール４１４がパケットを検出したならば、当該パケットは分離されて関連する復号化モード４１６に供給される。
【００５１】
パケット分離器及びパケット損失検出器モジュール４１４がパケットを検出しなかったならば、パケット損失が宣言され、消去検出器４１８は好ましくは、以下に詳細に述べるように、フレーム消去処理を実行する。
【００５２】
復号化モード４１６と消去復号器４１８の並列アレイはポストフィルタ４２０に結合される。関連する復号化モード４１６は復号化すなわち逆量子化を行い、パケットはポストフィルタ４２０に情報を提供する。ポストフィルタ４２０は音声フレームを再構成すなわち合成し、合成された音声フレームｓ^∧（ｎ）を出力する。例示的な復号モード及びポストフィルタは上記した米国特許第５４１４７９６号及び米国特許出願第０９／２１７４９４号に記載されている。
【００５３】
一実施形態において、量子化されたパラメータそれ自身は送信されない。その代わりに、復号器４０２において種々のルックアップテーブル（ＬＵＴ）（図示せず）におけるアドレスを特定するコードブックインデックスが送信される。復号器４０２は、コードブックインデックスを受信して、適切なパラメータ値を求めるために種々のコードブックＬＵＴを探索する。従って、例えば、ピッチ遅延、適応型コードブック利得、ＬＳＰなどのパラメータに対するコードブックインデックスが送信され、３つの関連するコードブックＬＵＴが復号器４０２によって探索される。
【００５４】
ＣＥＬＰ符号化モジュール４１０に従って、ピッチ遅延、振幅、位相、そしてＬＳＰパラメータが送信される。復号器４０２でＬＰ残差信号が合成されることになっているので、ＬＳＰコードブックインデックスが送信される。さらに、現在のフレームに対するピッチ遅延値と以前のフレームに対するピッチ遅延値との相違が送信される。
【００５５】
音声信号が復号器で合成される従来のＰＰＰ符号化モードに従って、ピッチ遅延、振幅、そして位相パラメータのみが送信される。従来のＰＰＰ音声符号化技術によって使用される低ビットレートは、絶対ピッチ遅延情報及び相対ピッチ遅延相違値の両方の送信を可能にしない。
【００５６】
一実施形態において、有声音声フレームなどの高度に周期的なフレームは、現在のフレームに対するピッチ遅延値と送信すべき以前のフレームに対するピッチ遅延値間の相違を量子化する低ビットレートＰＰＰ符号化モード４１０で送信され、送信のための現在のフレームに対するピッチ遅延値を量子化しない。有声フレームは元来高度に周期的であるので、絶対ピッチ遅延値とは逆に相違値を送信することにより、低符号化ビットレートの達成を可能にする。一実施形態において、この量子化は、以前のフレームに対するパラメータ値の重み付き加算値が計算されるように一般化される。この場合、重みの加算値は１であり、重み付き加算値が現在のフレームに対するパラメータ値から減算される。相違は次に量子化される。この技術は、共に出願された上記の関連出願（名称：有声音声を予測的に量子化する方法及び装置）に詳細に記載されている。
【００５７】
有声音声の量子化
一実施形態に従って、可変レート符号化システムは、プロセッサすなわちモード分類器によって制御される、異なる符号器すなわち異なる符号化モードをもつ制御プロセッサによって決定される、異なるタイプの音声を符号化する。符号器は、以前のフレームＬ_−１に対するピッチ遅延値と、現在のフレームＬに対するピッチ遅延値とによって特定されるピッチ輪郭に従って、現在フレーム残差信号（あるいは音声信号）を変更する。復号器に対する制御プロセッサは、現在のフレームに対する量子化された残差または音声のためのピッチメモリから、適応型コードブック寄与（ｃｏｎｔｒｉｂｕｔｉｏｎ）｛Ｐ（ｎ）｝を再構成するために、同じピッチ輪郭に従う。
【００５８】
以前のピッチ遅延値Ｌ_−１が失われたならば、復号器は、正しいピッチ輪郭を再構成することができない。これは、適応型コードブック寄与｛Ｐ（ｎ）｝にひずみを引き起こす。その代わりに、合成された音声は、パケットが現在のフレームに対して失われなくとも大きな低下を被ることになる。それを救済するために、従来の符号器は、ＬとＬ及びＬ_−１間の相違の両方を符号化する方法を使用している。この相違、すなわちデルタピッチ値は、Δによって記述される。この場合、Δ＝Ｌ−Ｌ_−１はＬ_−１が以前のフレームにおいて失われた場合に当該Ｌ_−１を回復する機能をもつ。
【００５９】
ここに記載された実施形態は、可変レート符号化システムにおける最良の利点を利用するのに使用される。特に、Ｃで記述された第１の符号器（すなわち符号化モード）は、上記したように、現在のフレームピッチ遅延値Ｌ及びデルタピッチ遅延値Δを符号化する。Ｑによって記述された、第２の符号器（すなわち符号化モード）は、デルタピッチ遅延値Δを符号化するが、必ずしもピッチ遅延値Ｌを符号化しない。これは、第２の符号器Ｑが、他のパラメータを符号化するためにまたはビットをすべて節約するために（すなわち、低ビットレート符号器として機能するために）、付加的なビットを使用することを可能にする。第１の符号器Ｃは好ましくは、例えば、フルレートＣＥＬＬ符号器などの相対的に非周期的な音声を符号化するのに使用される符号器である。第２の符号器Ｑは好ましくは、１／４レートＰＰＰ符号器などの高度に周期的な音声（例えば有声音声）を符号化するのに使用される符号器である。
【００６０】
図７の例に示されるように、以前のフレーム、フレームｎ−１のパケットが失われたならば、ピッチメモリ寄与｛Ｐ_−２（ｎ）｝は、前のフレーム、フレームｎ−２、に先立って受信したフレームを復号した後に、符号器メモリ（図示せず）内に記憶される。フレームｎ−２、Ｌ_ｎ−２に対するピッチ遅延値はさらに符号器メモリ内に記憶される。現在のフレーム、フレームｎ、が符号器Ｃによって符号化されるならば、フレームｎはＣフレームと呼ばれる。符号器Ｃは、式Ｌ_−１＝Ｌ−Δを使用して、デルタピッチ値Δから以前のピッチ遅延値Ｌ_−１を回復することができる。すなわち、正しいピッチ輪郭が値Ｌ_−１及びＬ_−２によって再構成される。フレームｎ−１に対する適応型コードブック寄与は、正しいピッチ輪郭が与えられたならば、修復可能であり、続いて、フレームｎに対する適応型コードブック寄与を生成するのに使用される。当業者ならば、そのような方法はＥＶＲＣ符号器などの従来の符号器において使用されることを理解する。
【００６１】
一実施形態に従って、上記した２つのタイプの符号器（符号器Ｃ及び符号器Ｑ）を使用する、可変レート音声符号化システムにおけるフレーム消去パフォーマンスは、以下に記載するように強化される。図８の例において示されるように、可変レート符号化システムは、符号器Ｃ及び符号器Ｑの両方を使用するように設計される。現在のフレーム、フレームｎ、はＣフレームであり、そのパケットは失われない。以前のフレーム、フレームｎ−１は、Ｑフレームである。Ｑフレームに先立つフレームに対するパケット（すなわち、フレームｎ−２に対するパケット）は失われた。
【００６２】
フレームｎ−２に対するフレーム消去処理において、ピッチメモリ寄与｛Ｐ_−３（ｎ）｝は、復号化フレームｎ−３、Ｌ_−３に対するピッチ遅延値はさらに、符号器メモリに記憶される。フレームｎ−１、Ｌ_−１に対するピッチ遅延値は、式Ｌ_−１＝Ｌ−Δに従ってＣフレームパケットにおいて、デルタピッチ遅延値Δ（Ｌ−Ｌ_−１に等しい）を使用して回復可能である。フレームｎ−１はＱフレームであり、それ自身の関連する符号化デルタピッチ遅延値Δ−１はＬ_−１−Ｌ_−２に等しい。すなわち、消去フレーム、フレームｎ−２、Ｌ_−２に対するピッチ遅延値は、式Ｌ_−２＝Ｌ_−１−Δ_−１に従って回復可能である。フレームｎ−２及びフレームｎ−１に対するピッチ遅延値が正しいならば、これらのフレームに対するピッチ輪郭は好ましくは再構成可能であり、適応型コードブック寄与は同様に修復可能である。すなわち、Ｃフレームは、その量子化されたＬＰ残差信号（または音声信号）に対する適応型コードブック寄与を計算するのに要するピッチメモリを改善することができる。この方法は、当業者によって容易に認識されるように、消去フレーム及びＣフレーム間に複数のＱフレームが存在することを可能にする。
【００６３】
図９に図示して示すように、フレームが消去されるとき、消去復号器（例えば図５の要素４１８）は、フレームの正確な情報なしに、量子化されたＬＰ残差（または音声信号）を再構成する。消去されたフレームのピッチ輪郭及びピッチメモリが、現在のフレームの量子化されたＬＰ残差（または音声信号）を再構成するための上記の方法に従って再記憶されていたならば、最終的に得られる量子化されたＬＰ残差（または音声信号）は、改竄されたピッチメモリが使用されていた場合には異なるものとなるであろう。符号器ピッチメモリにおけるそのような変化は、フレームを横切る量子化された残差（または音声信号）に不連続を引き起こす。すなわち、遷移音、すなわちクリック音がＥＶＲＣ符号器などの従来の音声符号器において聞かれる。
【００６４】
一実施形態に従って、ピッチ周期原型は、修復に先立って改竄されたピッチメモリから抽出される。現在のフレームに対するＬＰ残差（または音声信号）もまた、通常の逆量子化処理に従って抽出される。現在のフレームに対する量子化されたＬＰ残差（または音声信号）は次に、波形補間（ＷＩ）方法に従って再構成される。特定の実施形態において、ＷＩ方法は、上記したＰＰＰ符号化モードに従って動作する。この方法は好ましくは、上記した不連続を平滑化して、音声符号器のフレーム消去パフォーマンスをさらに強度にする機能をもつ。そのようなＷＩ方法は、（例えば、上記した技術を含む（但し、それらに限定されない）修復を達成するのに使用される技術とは無関係に、消去処理によりピッチメモリが修復されるときにはいつでも使用される。
【００６５】
図１０のグラフは、可聴クリックを生成する、従来の技術に従って調整されたＬＰ残差信号と、上記したＷＩ平滑化方法に従って連続的に平滑化されたＬＰ残差信号との間の見かけ上の相違を示す。図１１のグラフは、ＰＰＰまたはＷＩ符号化技術の原理を示す。
【００６６】
すなわち、可変レート音声符号器における新規で改善されたフレーム消去補償方法が記述された。当業者ならば、上記の記載を通して言及されたデータ、指令、命令、情報、信号、ビット、符号、そしてチップは好ましくは、電圧、電流、電磁波、磁界または磁気粒子、光フィールドまたは光粒子、または前記したものの任意の組み合わせによって表わされることを理解するであろう。さらに当業者ならば、ここに開示された実施形態に関連して記述された、種々の例示的な論理ブロック、モジュール、回路、そしてアルゴリズムステップが電子的ハードウェア、コンピュータソフトウェア、またはそれらの組み合わせとして実現されることを理解するであろう。種々の例示的な要素、ブロック、モジュール、回路そしてステップが概してそれらがもつ機能の観点から記述された。機能がハードウェアとして実現されるかソフトウェアとして実現されるかは、特定の応用そして全体システムに課される設計上の拘束に依存する。熟練した技術者ならば、これらの環境の下で、ハードウェアとソフトウェアとを交換できることを認識するとともに、各特定の応用に対していかに最良の形で実行したらよいかを認識するであろう。一例として、ここで開示された実施形態に関連する、種々の例示的論理ブロック、モジュール、回路、そしてアルゴリズムステップは、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、例えばレジスタ及びＦＩＦＯなどのディスクリートハードウェア要素、一連のファームウェア指令を実行するプロセッサ、任意の従来のプログラマブルソフトウェアモジュール及びプロセッサ、あるいはここで記述された機能を実行するように設計されたそれらの任意の組み合わせ、によって実現または実行される。プロセッサは好ましくは、マイクロプロセッサであるが、その代わりに、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態マシーンであってもよい。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、あるいは業界で知られた任意の形態の記憶媒体に格納可能である。図１２に示すように、例示的プロセッサ５００は好ましくは、記憶媒体５０２から情報を読み出すために、そして記憶媒体５０２に対して情報を書き込むために、記憶媒体５０２に結合される。その一方で、記憶媒体５０２は、プロセッサ５００に一体化される。プロセッサ５００および記憶媒体５０２は、（図示せぬ）ＡＳＩＣに格納される。ＡＳＩＣは（図示せぬ）電話機内に配置される。その一方で、プロセッサ５００及び記憶媒体５０２は電話機内に格納される。プロセッサ５００は、ＤＳＰ及びマイクロプロセッサの組み合わせとして、または、ＤＳＰコアなどに関連する２つのマイクロプロセッサとして実現される。
【００６７】
本発明の好ましい実施形態が示され記述された。しかしながら、当業者ならば、本発明の精神すなわち権利範囲から逸脱することなしに、ここに開示された実施形態に対する種々の変形例が可能であることを認識するであろう。したがって、本発明は、以下の請求の範囲に従う以外に限定されるものではない。
【図面の簡単な説明】
【図１】
ワイヤレス電話システムのブロック図である。
【図２】
音声符号器により各端部で終端された通信チャネルのブロック図である。
【図３】
音声符号器のブロック図である。
【図４】
音声符号器のブロック図である。
【図５】
符号器／送信器及び復号器／受信機部分を含む音声符号器のブロック図である。
【図６】
有声音声のセグメント（一部）に対する信号振幅対時間のグラフである。
【図７】
図５の音声符号器の復号器／受信器において使用可能な第１のフレーム消去処理方法を示す図である。
【図８】
可変レート音声符号器に適合する第２のフレーム消去処理方法を示す図である。
【図９】
破壊されたフレーム及び良好なフレーム間の推移を平滑化するのに使用可能なフレーム消去処理方法を例示するために、種々の線形予測（ＬＰ）残差波形に対する信号振幅対時間を示す図である。
【図１０】
図９において示されたフレーム消去処理方法の利点を示すために種々のＬＰ残差波形に対する信号振幅対時間を示す図である。
【図１１】
ピッチ周期原型または波形補間符号化方法を示すために種々の波形に対する信号振幅対時間を示す図である。
【図１２】
記憶媒体に結合されたプロセッサのブロック図である。
【符号の説明】
１０　複数の移動体加入者ユニット
１２　複数の基地局
１４　基地局コントローラ（ＢＳＣ）
１６　移動体交換局（ＭＳＣ）
１８　従来の公衆交換電話網（ＰＳＴＮ）

Claims

音声符号器におけるフレーム消去を補償するための方法であって、
ピッチ遅延値と、消去されたフレームが宣言された後に処理された現在のフレームに対するデルタ値とを量子化し、前記デルタ値は前記現在のフレームに対するピッチ遅延値と前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記現在のフレームに先立つとともに前記フレーム消去の後に、少なくとも１つのフレームに対するデルタ値を量子化し、前記デルタ値は、少なくとも１つのフレームに対するピッチ遅延値と前記少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記消去されたフレームに対するピッチ遅延値を生成するために、現在のフレームに対するピッチ遅延値から各デルタ値を減算することを具備する方法。
再構成されたフレームを生成するために消去されたフレームを再構成することをさらに具備する請求項１に記載の方法。
前記現在のフレーム及び前記再構成されたフレーム間に存在する不連続を平滑化するために波形補間を実行することをさらに具備する請求項２に記載の方法。
前記第１の量子化は、相対的に非予測的な符号化モードに従って実行されることを特徴とする請求項１記載の方法。
前記第２の量子化は、相対的に予測的な符号化モードに従って実行される請求項１記載の方法。
フレーム消去を補償するように構成された音声符号器であって、
消去されたフレームが宣言された後に処理された現在のフレームに対するデルタ値とピッチ遅延値とを量子化するための手段と、前記デルタ値は、前記現在のフレームに対するピッチ遅延値と前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
現在のフレームに先立つとともに前記フレーム消去の後に少なくとも１つのフレームに対するデルタ値を量子化するための手段と、前記デルタ値は少なくとも１つのフレームと少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記消去されたフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算するための手段と、
を具備する音声符号器。
再構成されたフレームを生成するために前記消去されたフレームを再構成するための手段をさらに具備する請求項６記載の音声符号器。
前記現在のフレームと前記再構成されたフレーム間に存在する不連続を平滑化するために波形補間を実行するための手段をさらに具備する請求項７記載の音声符号器。
量子化するための前記第１の手段は、相対的に非予測的な符号化モードに従って量子化するための手段を具備する請求項６記載の音声符号器。
量子化するための前記第２の手段は、相対的に予測的な符号化モードに従って量子化するための手段を具備する請求項６記載の音声符号器。
フレーム消去を補償するように構成された加入者ユニットであって、
消去されたフレームが宣言された後に処理された現在のフレームに対するデルタ値とピッチ遅延値とを量子化するように構成された第１の音声符号器と、前記デルタ値は、前記現在のフレームに対するピッチ遅延値と、前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
現在のフレームに先立つとともに前記フレーム消去の後に、少なくとも１つのフレームに対するデルタ値を量子化するように構成された第２の音声符号器と、前記デルタ値は、前記少なくとも１つのフレームに対するピッチ遅延値と少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記第１及び第２の音声符号器に結合され、前記消去されたフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算するように構成された制御プロセッサと、
を具備する加入者ユニット。
前記制御プロセッサはさらに、再構成されたフレームを生成するために、前記消去されたフレームを再構成するように構成される請求項１１記載の加入者ユニット。
前記制御プロセッサはさらに、現在のフレームと前記再構成されたフレーム間に存在する不連続を平滑化するために波形補間を実行するように構成されている請求項１３に記載の加入者ユニット。
前記第１の音声符号器は、相対的に非予測的な符号化モードに従って量子化するように構成されている請求項１１記載の加入者ユニット。
前記第２の音声符号器は、相対的に予測的な符号化モードに従って量子化するように構成されている請求項１５記載の加入者ユニット。
フレーム消去を補償するように構成されたインフラストラクチャ要素であって、
プロセッサと、
このプロセッサに結合され、前記プロセッサによって実行可能な一組の命令を含む記憶媒体と、
を具備し、
前記命令は、消去されたフレームが宣言された後に処理された現在のフレームに対するピッチ遅延値とデルタ値を量子化するものであって、前記デルタ値は、現在のフレームに対するピッチ遅延値と、前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記現在のフレームに先立ちかつ前記フレーム消去の後における少なくとも１つのフレームに対するデルタ値を量子化するものであって、前記デルタ値は、少なくとも１つのフレームに対するピッチ遅延値と、前記少なくとも１つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記現在のフレームに対する前記ピッチ遅延値から各デルタ値を減算して、前記消去されたフレームに対するピッチ遅延値を生成するインフラストラクチャ要素。
前記一組の命令はさらに、再構成されたフレームを生成するために前記消去されたフレームを再構成するために前記プロセッサによって実行可能である請求項１６記載のインフラストラクチャ要素。
前記一組の命令はさらに、前記現在のフレームと前記再構成されたフレーム間に存在する不連続を平滑化するために、波形補間を実行するために前記プロセッサによって実行可能である請求項１７記載のインフラストラクチャ要素。
前記一組の命令はさらに、相対的に非予測的な符号化モードに従って前記現在のフレームに対する前記ピッチ遅延値と前記デルタ値を量子化するために、前記プロセッサによって実行可能である請求項１６記載のインフラストラクチャ要素。
前記一組の命令はさらに、相対的に予測的な符号化モードに従って前記現在のフレームに先立ちかつ前記フレーム消去の後の少なくとも１つのフレームに対するデルタ値を量子化するために、前記プロセッサによって実行可能である請求項１６記載のインフラストラクチャ要素。