JP2005534950A

JP2005534950A - 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置

Info

Publication number: JP2005534950A
Application number: JP2004509923A
Authority: JP
Inventors: ミラン・ジェリネク; フィリップ・ゴールネイ
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2002-05-31
Filing date: 2003-05-30
Publication date: 2005-11-17
Anticipated expiration: 2023-05-30
Also published as: RU2004138286A; BR122017019860B1; WO2003102921A1; AU2003233724B2; KR101032119B1; BR0311523A; NZ536238A; JP4658596B2; MXPA04011751A; MY141649A; RU2325707C2; PT1509903T; ZA200409643B; CA2483791C; EP1509903A1; ES2625895T3; US7693710B2; CA2483791A1; CN100338648C; CN1659625A

Abstract

本発明は、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善し、音響信号の消去されなかったフレームが受信された後の復号器の回復を加速する方法及び装置に関連する。隠蔽／回復パラメータが符号器において決定された場合、これは復号器に送信され、復号器では消失フレームの隠蔽及び復号器の回復が隠蔽／回復パラメータに応答して実行される。隠蔽／回復パラメータは、信号分類パラメータ、エネルギー情報パラメータ、位相情報パラメータの中から選択され、この決定は符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、頭子音のいずれかのクラスに分類する過程を含む。また分類は、少なくとも正規化された相関値、スペクトルの傾き、信号対雑音比、ピッチ安定性計数値、相対的なフレームエネルギー、ゼロ交差計数値の一部に基づいて決定される。

Description

本発明は、特に、音声（発話）信号に限らない音響信号を、この音響信号の伝送及び／または合成を考慮して、デジタル処理で符号化するための技術に関するものである。更に明確には、本発明は、もし、例えば無線（ワイヤレス）システムにおけるチャネルエラー、またはパケットネットワークアプリケーション上の音声における失われたパケットを原因とする消去されたフレームが発生しても良好な性能を維持するための音響信号の強力な符号化及び復号化に関するものである。

主観的品質とビットレートとの間の良好なトレードオフ（trade-off）を伴う、効率的なディジタル狭帯域及び広帯域の音声符号化技術に対する要求は、遠隔会議、マルチメディア、及び無線通信のような様々な応用分野において増加している。最近まで、200〜3400[Hz]の範囲に抑制された電話の帯域幅は、主に音声符号化アプリケーションに使われていた。しかしながら、広帯域音声アプリケーションは、従来の電話の帯域幅と比較して、通信における増進された明瞭度及び自然性を提供する。50〜7000[Hz]の範囲の帯域幅は、直接対面して意志疎通を行うような印象を与える良好な品質を実現するのに十分であることが発見された。一般的な音声信号に対して、この帯域幅は許容範囲の主観的品質を与えるが、しかし、まだ、それぞれ20〜16000[Hz]、及び20〜20000[Hz]の範囲で動作するＦＭラジオ、またはＣＤの品質よりは低い。

音声符号器（エンコーダ）は、音声信号を、通信チャネル上で伝送されるか、または記憶媒体に記憶されるデジタルビットストリームに変換する。音声信号は、デジタル化、すなわち通常１サンプル当たり１６ビットで標本化されると共に量子化される。音声符号器は、良好な主観的音声品質を維持する一方、これらの少ないビット数のデジタルサンプルを表す役割を備えている。音声復号器（デコーダ）、または音声合成装置（シンセサイザ）は、伝送された、または記憶されたビットストリームに対して操作を行い、音響信号まで戻すようにそれを変換する。

符号励振型線形予測（Code-Excited Linear Prediction：CELP）符号化は、主観的品質とビットレートとの間で良好な妥協点を達成するための、最適な利用可能技術の内の１つである。この符号化技術は、無線アプリケーション及び有線アプリケーションの両方における、いくつかの音声符号化標準（規格）の基礎である。ＣＥＬＰ（セルプ）符号化において、標本化された音声信号は、“L”サンプルの、通常フレームと呼ばれる連続するブロックで処理され、一般的に“L”は10〜30[ms]に対応する所定の数である。線形予測（ＬＰ）フィルタは、全てのフレームで計算されると共に伝送される。ＬＰフィルタの計算は、一般的に先読み部分として、次のフレームからの5〜15[ms]の音声セグメントを必要とする。“L”サンプルのフレームは、サブフレームと呼ばれる更に小さなブロックに分割される。一般にサブフレームの数は、4〜10[ms]となるサブフレームが３個または４個である。各サブフレームにおいて、励振信号は、通常、過去の励振及び新規な（innovative）固定のコードブック励振の２つの成分から取得される。過去の励振から形成された成分は、多くの場合、適応コードブック、またはピッチ励振と言われる。励振信号の特性を示すパラメータは、符号化されると共に、復元された励振信号がＬＰフィルタの入力として使用される復号器に伝送される。
米国特許第5,444,816号明細書米国特許第5,699,482号明細書米国特許第5,754,976号明細書米国特許第5,701,392号明細書国際公開第00/25305号パンフレット ITU-T Recommendation G. 722.2" Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB) ", Geneva, 2002 3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE Jour. on Selected Areas in Communications, vol. 6, no. 2, pp. 314-323 3GPP TS 26.192，"AMR Wideband Speech Codec: Comfort Noise Aspects," 3GPP Technical Specification

低ビットレート音声符号化の主なアプリケーションは、無線移動通信システム、及びパケットネットワーク上の音声であるので、フレーム消失の場合には、音声コーデックの堅牢性（ロバスト性）の増加が著しく重要なものとなる。無線のセルラーシステムにおいて、受信信号のエネルギーは、高いビット誤り率となる頻繁に発生する深刻な減衰（fade）を示すと共に、これはセル境界で更に顕著となる。この場合、チャネル復号器は、受信されたフレームにおいてエラーを訂正することができないと共に、その結果、チャネル復号器の後で通常使用されるエラー検出器は、フレームが消去されたことを示すことになる。パケットネットワークアプリケーション上の音声において、音声信号は、通常各パケットに20[ms]のフレームが配置されてパケット化される。パケット交換通信において、もしパケットの数が非常に多くなる、またはそのパケットが長時間の遅延の後受信機に届く場合、パケットの欠落がルータにおいて発生し得ると共に、もしその遅延が受信機側のジッタ用バッファの長さを超える場合、それは失われたものとして示されるべきである。これらのシステムにおいて、コーデックは、一般的に3〜5[％]のフレーム消失率となる傾向がある。更に、遺物的な狭帯域音声信号を利用する旧来のＰＳＴＮ（public switched telephone network：加入者電話網）と競うことを可能にするために、広帯域音声符号化の使用はこれらのシステムにとって重要な利点である。

ＣＥＬＰにおける適応コードブック、またはピッチ予測器は、低ビットレートにおいて高い音声品質を維持する際に重要な役割を果たす。しかしながら、適応コードブックの内容は過去のフレームからの信号に基づいているので、コーデックの状態がフレームの損失に影響されやすくなる。フレームが消去されるかまたは失われた場合、復号器における適応コードブックの内容は、符号器におけるその内容と異なる状態になる。このように、失われたフレームが隠蔽され、結果として良好なフレームが受信される後では、適応コードブックの寄与が変化しているので、受信された良好なフレームにおいて合成された信号は対象とする合成信号と異なる。失われたフレームの影響は、消失が発生したフレームにおける音声セグメントの性質により決まる。もし消失が、信号の同じ状態を保つセグメントにおいて発生する場合、その場合には効率的なフレーム消失の隠蔽が実行され得ると共に、結果として生じる良好なフレームに対する影響は最小限にされ得る。一方、その消失が音声の頭子音（speech onset）、または音声の遷移（transition）において発生する場合、消失の影響はいくつかのフレームを通して伝搬し得る。例えば、もし有声（voiced）のセグメントの始まりが欠ける場合、その場合には、最初のピッチ期間は、適応コードブックの内容から見つけられないことになる。これは、結果として生じる良好なフレームにおいて、ピッチ予測器に対する深刻な影響を有し、合成信号が符号器において対象とされたものに収束するまでに長い時間がかかることになる。

本発明は、符号器において、隠蔽／回復パラメータを決定する過程と、符号器において決定された隠蔽／回復パラメータを復号器に伝送する過程と、復号器において、受信された隠蔽／回復パラメータに応答して、消失フレームの隠蔽及び復号器の回復を処理する過程とを有し、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための方法に関するものである。

本発明は、同様に、復号器において信号符号化パラメータから隠蔽／回復パラメータを決定する過程と、復号器において、決定された隠蔽／回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理する過程とを有し、信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための方法に関するものである。

本発明によれば、符号器において、隠蔽／回復パラメータを決定する手段と、符号器において決定された隠蔽／回復パラメータを復号器に伝送する手段と、復号器において、受信された隠蔽／回復パラメータに応答して、消失フレームの隠蔽及び復号器の回復を処理する手段とを有し、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための装置もまた提供される。

本発明によれば、更に、復号器において信号符号化パラメータから隠蔽／回復パラメータを決定するための手段と、復号器において、決定された隠蔽／回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理するための手段とを有し、信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための装置が提供される。

本発明は、同様に、音響信号の符号化及び復号化のためのシステムと、符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための上記の定義された装置を使用する音響信号復号器とに関するものである。

前述及び他の目的、本発明の利点及び特徴は、添付図面を参照して一例としてのみ与えられた、それらの実施例の非制限的な以下の記載を読むことで更に明白になる。

本発明の実施例が音声信号に関する以下の記載において説明されることになるが、本発明の概念が、特に他のタイプの音響信号に限らず、他のタイプの信号に等しく適用されることが留意されるべきである。

図１は、本発明に照らした音声の符号化及び復号化の使用法を表している音声通信システム１００を説明する。図１の音声通信システム１００は、通信チャネル１０１の全域で音声信号の伝送をサポートする。それは例えば有線接続、光接続、またはファイバ接続を有するかもしれないが、通信チャネル１０１は、一般的に、無線周波数接続を少なくとも一部に有している。無線周波数接続は、多くの場合、セルラー電話システムにおいて見られるような、共有された帯域幅資源を必要とする多重の同時音声通信をサポートする。それは図示されないが、通信チャネル１０１は、システム１００の単一装置の実施例において、後の再生のために符号化された音声信号を記録すると共に記憶する記憶装置と交換されても良い。

図１の音声通信システム１００において、マイクロホン１０２は、アナログ音声信号１０３をデジタル音声信号１０５に変換するためのアナログ−デジタル（A/D）変換器１０４に供給される、アナログ音声信号１０３を生成する。音声符号器１０６は、バイナリ形式に符号化されると共にチャネル符号器１０８に供給される信号符号化パラメータ１０７のセットを生成するために、デジタル音声信号１０５を符号化する。任意のチャネル符号器１０８は、信号符号化パラメータ１０７を通信チャネル１０１上で伝送する前に、信号符号化パラメータ１０７のバイナリ表示に冗長性を加える。

受信機において、チャネル復号器１０９は、伝送中に発生したチャネルエラーを検出して訂正するために、受信されたビットストリーム１１１内の前記の冗長な情報を利用する。音声復号器１１０は、チャネル復号器１０９から受信したビットストリーム１１２を、信号符号化パラメータのセットに変換すると共に、回復した信号符号化パラメータからディジタル合成された音声信号１１３を生成する。音声復号器１１０で復元された、ディジタル合成された音声信号１１３は、デジタル−アナログ（D/A）変換器１１５によりアナログ形式１１４に変換されると共に、ラウドスピーカーユニット１１６を通して再生される。

本明細書で開示された効率的なフレーム消失の隠蔽方法の実施例は、コーデックに基づく狭帯域線形予測または広帯域線形予測のどちらででも使用され得る。本実施例は、国際電気通信連合（ITU）により勧告“G. 722.2”として標準化されると共に、“ＡＭＲ−ＷＢコーデック（Adaptive Multi-Rate Wideband codec：適応マルチレート広帯域コーデック）”，[ITU-T Recommendation G. 722.2" Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB) ", Geneva, 2002]として知られている広帯域音声コーデックに関して開示されている。このコーデックは、第三世代無線システムにおける広帯域電話通信のための第三世代パートナーシッププロジェクト（third generation partnership project：3GPP）により同様に選択された[3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification]。“ＡＭＲ−ＷＢ”は、6.6〜23.85[kbit/s]の範囲で９ビットレートで動作することができる。本発明を説明するために、12.65[kbit/s]のビットレートが使用される。

ここで、効率的なフレーム消失の隠蔽方法の実施例が、他のタイプのコーデックに適用され得るということが理解されるべきである。

以下のセクションにおいて、ＡＭＲ−ＷＢの符号器及び復号器の概要は最初に示されることになる。その場合には、コーデックの堅牢性を改善するための新しいアプローチの実施例が開示されることになる。

「ＡＭＲ−ＷＢ符号器の概要」
標本化された音声信号は、２０１から２１１まで番号をつけられた１１個のモジュールに分解される図２の符号化装置２００によりブロック毎に符号化される。

入力音声信号２１２は、従ってブロック毎、すなわち上述のフレームと呼ばれた“L”サンプルのブロック毎に処理される。

図２を参照すると、標本化された入力音声信号２１２は、ダウンサンプラモジュール２０１において、ダウンサンプルされる。信号は、当業者に良く知られている技術を使用して、16[kHz]から12.8[kHz]にダウンサンプルされる。より小さな周波数帯域幅が符号化されるので、ダウンサンプリングは、符号化効率を増加させる。フレームにおけるサンプルの数が減少するので、これは、同様にアルゴリズム的複雑さを減少させる。ダウンサンプリングの後で、20[ms]で320サンプルのフレームは、256サンプルのフレーム（４／５のダウンサンプル比)まで減少する。

入力フレームは、それから任意の前処理モジュール２０２に供給される。前処理モジュール２０２は、50[Hz]のカットオフ周波数を有するハイパス（高域通過）フィルタから構成されても良い。ハイパスフィルタ２０２は、50[Hz]未満の不必要な音声成分を取り除く。

ダウンサンプル及び前処理された信号は、“sp (n), n=O,1,2, ..., L-1”により表示され、ここで、“L”はフレームの長さ（12.8[kHz]のサンプリング周波数において256）である。プリエンファシス（preemphasis：前強調）フィルタ２０３の実施例において、信号“sp(n)”は、次式の伝達関数を有するフィルタを用いてプリエンファシス（preemphasized：前強調）処理される。

ここで、“μ”は０及び１の間(標準値が“μ=0.7”である)の値を有するプリエンファシス係数（preemphasis factor）である。プリエンファシスフィルタ２０３の機能は、入力音声信号の高い周波数の含有量を増加させることである。それは、同様に入力音声信号のダイナミックレンジを減少させ、入力音声信号のダイナミックレンジを固定小数点演算の実行に対して更に適当にする。プリエンファシスは、同様に、改善された音質に貢献する、量子化誤差の適切で全体的な知覚による重み付けを達成する際、重要な役割を果たす。これは、以下の文書中で更に詳細に説明されることになる。

プリエンファシスフィルタ２０３の出力は、“s(n)”と表示される。この信号は、モジュール２０４においてＬＰ分析を行うために使用される。ＬＰ分析は、当業者に良く知られている技術である。この実施例では、自己相関アプローチが使用される。自己相関アプローチにおいて、信号“s(n)”は、最初に一般的に長さ30〜40[ms]程度を有するハミング窓（Hamming window）を用いて窓関数処理（windowed）される。自己相関は、窓関数処理された信号から計算されると共に、レビンソン−ダービン再帰（Levinson-Durbin recursion）がＬＰフィルタ係数“a_i”を計算するために使用され、ここで“i=1,...p”であると共に、“p”は一般的にＬＰフィルタの次数で、広帯域符号化においては１６である。パラメータ“a_i”は、次式の関係により与えられるＬＰフィルタの伝達関数“A(z)”の係数である。

ＬＰ分析は、同様にＬＰフィルタ係数の量子化、及び補間も実行するモジュール２０４において実行される。ＬＰフィルタ係数は、最初に、量子化及び補間目的で、更に適当な別の同等の領域に変換される。ラインスペクトル（line spectral）のペア（LSP）、及びイミッタンススペクトル（immittance spectral）のペア（ISP）の領域は、量子化、及び補間が効率的に実行され得る２つの領域である。１６次のＬＰフィルタの係数“a_i”は、分割、または多段階量子化、またはそれの結合を使用して、３０〜５０ビットの桁数に量子化され得る。補間の目的は、全てのフレームに１回サブフレームを伝送する一方、サブフレーム毎にＬＰフィルタ係数を更新することを可能にし、ビットレートを増加せずに符号器の性能を改善することである。ＬＰフィルタ係数の量子化、及び補間は、一方では当業者に良く知られていると考えられており、従って、本仕様書ではこれ以上説明されない。

以下の段落は、サブフレーム毎に実行される符号化動作の残りを説明することになる。この実施例において、入力フレームは、5[ms]の４つのサブフレーム（12.8[kHz]のサンプリング周波数において６４サンプル）に分割される。以下の記載において、フィルタ“A(z)”は、サブフレームの量子化されない補間ＬＰフィルタを意味し、そして、フィルタ“A＾(z)＝A(z)のハット（以下、本翻訳文では、「ハット記号“＾”」が文字の右横に書かれた場合、文字の上部に「ハット記号」があるものとする。）”は、サブフレームの量子化された補間ＬＰフィルタを意味する。フィルタ“A＾(z)”は、通信チャネルを介した伝送のために、サブフレーム毎にマルチプレクサ（ＭＵＸ）２１３へ提供される。

分析×合成符号器（analysis-by-synthesis encoders）において、最適ピッチ及び新規パラメータ（innovation parameters）は、入力音声信号２１２と知覚的に重み付けされた領域において合成された音声信号との間で平均二乗誤差を最小限にすることにより検索される。重み付けされた信号“s_W(n)”は、プリエンファシスフィルタ２０３からの信号“s(n)”に応答して、知覚重み付けフィルタ２０５において計算される。広帯域信号に適している固定した基準を有する知覚重み付けフィルタ２０５が使用される。知覚重み付けフィルタ２０５のための伝達関数の例は次式の関係により示される。

ピッチ分析を簡単化するために、開ループピッチ遅れ（open-loop pitch lag）“T_OL”は、開ループピッチ検索モジュール２０６において、最初に重み付けされた音声信号“s_W(n)”から推定される。その場合に、閉ループピッチ検索モジュール２０７において、サブフレームに対して実行される閉ループピッチ分析は、ＬＴＰパラメータ“T（ピッチ遅れ（pitch lag））”，及びＬＴＰパラメータ“b（ピッチ利得（pitch gain））”の検索の複雑さを著しく軽減する開ループピッチ遅れ“T_OL”の前後に制限される。開ループピッチ分析は、通常、当業者に良く知られている手法を使用して、モジュール２０６において10[ms]（２つのサブフレーム）毎に１度実行される。

ＬＴＰ（Long Term Prediction：長期予測）分析のためのターゲットベクトル（target vector）“x”は、最初に計算される。これは、通常、重み付けされた合成フィルタ“W(z)/A＾(z)”のゼロ入力応答（zero-input response）“s₀”を、重み付けされた音声信号“s_W(n)”から減算することにより実行される。このゼロ入力応答“s₀”は、ＬＰ分析、量子化及び補間モジュール２０４からの量子化された補間ＬＰフィルタ“A＾(z)”と、ＬＰフィルタ“A(z)”、ＬＰフィルタ“A＾(z)”、及び励振ベクトル（excitation vector）“u”に応答するメモリ更新モジュール２１１に記憶される重み付けされた合成フィルタ“W(z)/A＾(z)”の初期状態とに応答して、ゼロ入力応答計算器２０８により計算される。この動作は、当業者に良く知られており、従ってこれ以上説明されることはない。

Ｎ次の重み付けされた合成フィルタ“W(z)/A＾(z)”のインパルス応答ベクトル“h”は、モジュール２０４からのＬＰフィルタ“A(z)”、及びＬＰフィルタ“A＾(z)”の係数を使用するインパルス応答生成器２０９において計算される。更に、この動作は、当業者に良く知られており、従ってこれ以上本仕様書で説明されることはない。

閉ループピッチ（または、ピッチコードブック）パラメータ“b”，“T”，及び“j”は、入力としてターゲットベクトル“x”、インパルス応答ベクトル“h”、及び開ループピッチ遅れ“T_OL”を使用する閉ループピッチ検索モジュール２０７において計算される。

ピッチ検索は、例えば、次式で示される、ターゲットベクトル“x”と過去の励振の増減フィルタ処理された（scaled filtered）バージョンとの間の平均二乗重み付けピッチ予測誤差（mean squared weighted pitch prediction error）を最小限にする最も良いピッチ遅れ“T”及びピッチ利得“b”を見つけることから構成される。

更に明確には、本実施例において、ピッチ（ピッチコードブック）検索は、３つのステージから構成される。

第１のステージにおいて、開ループピッチ遅れ“T_OL”は、重み付けされた音声信号“s_W(n)”に応答して開ループピッチ検索モジュール２０６において推定される。上述のように、この開ループピッチ分析は、通常、当業者に良く知られている手法を使用して、10[ms]（２つのサブフレーム）に１度実行される。

第２のステージにおいて、検索基準“C”は、捜索手順を著しく簡単化する、推定された開ループピッチ遅れ“T_OL”（通常は５）の前後の整数ピッチ遅れ（integer pitch lags）を得るために、閉ループピッチ検索モジュール２０７において検索される。単純な手順が、ピッチ遅れ毎の畳み込みを計算する必要なしに、フィルタ処理されたコードベクトル“y_T”（このベクトルは、以下の記載において定義される）を更新するために使用される。検索基準“C”の一例は、次式により与えられる。

ここで、“t”はベクトルの転置を表す。

一度、最高の整数ピッチ遅れが第２のステージで発見されれば、検索（モジュール２０７）の第３の段階は、検索基準“C”により、その最高の整数ピッチ遅れの前後の部分をテストする。例えば、ＡＭＲ−ＷＢ標準は、“１／４”及び“１／２”のサブサンプル分解能を使用する。

広帯域信号において、調波構造（harmonic structure）は、音声セグメントに応じて、ある周波数までのみ存在する。このように、広帯域音声信号の有声のセグメントにおけるピッチ寄与（pitch contribution）の効率的な表示を達成するために、広帯域スペクトル上での周期性の量を変えるのには柔軟性が必要とされる。これは、複数の周波数成形フィルタ(例えば、ローパス（低域通過）フィルタ、またはバンドパス（帯域通過）フィルタ)を通してピッチコードベクトル（pitch codevector）を処理することにより達成される。そして、重み付けされた平均二乗誤差“e^(j) ”を最小限にする周波数成形フィルタが選択される。選択された周波数成形フィルタは、指数“j”で識別される。

ピッチコードブックの指数“T”は、符号化されると共に、通信チャネルを介した伝送のために、マルチプレクサ２１３に伝送される。ピッチ利得“b”は、量子化されると共に、マルチプレクサ２１３に伝送される。特別なビットは、指数“j”を符号化するために使用されると共に、この特別なビットは、マルチプレクサ２１３にもまた供給される。

一度、ピッチ、またはＬＴＰ（Long Term Prediction：長期予測）パラメータ“b”，“T”，及び“j”が決定されれば、次のステップは、図２の新規励振検索モジュール（innovative excitation search module）２１０により、最適な新規励振（innovative excitation）を検索することである。最初に、ターゲットベクトル“x”は、次式のようにＬＴＰの寄与を減算することにより更新される。

ここで、“b”はピッチ利得であり、“y_T”は、フィルタ処理されたピッチコードブックベクトル（選択された周波数成形フィルタ（指数“y”）フィルタによりフィルタ処理されると共に、インパルス応答“h”と畳み込み演算された、遅延“T”における過去の励振）である。

ＣＥＬＰにおける新規励振検索手順（innovative excitation search procedure）は、例えば次式に示すように、新規コードブック（innovation codebook）において、ターゲットベクトル”x'”とコードベクトル“c_k”の増減フィルタ処理されたバージョンとの間の平均二乗誤差“E”を最小限にする最適な励振コードベクトル“c_k”と利得“g”とを発見するように実行される。

ここで、“H”は、インパルス応答ベクトル“h”から導かれた、更に低次の（lower）畳み込み三角行列（triangular convolution matrix）である。発見された最適なコードブック“c_k”に対応する新規コードブックの指数“k”、及び利得“g”は、通信チャンネルを介した伝送のために、マルチプレクサ２１３に供給される。

使用される新規コードブックが、１９９５年８月２２日に“Adoul”等に交付された米国特許第5,444,816号による、合成音声品質を改善するために特別なスペクトルの成分を拡張する適応前置フィルタ“F(z)”が後に続く代数のコードブックから構成される、動的なコードブックであることに留意すべきである。この実施例において、新規コードブック検索（innovative codebook search）は、米国の特許番号である、１９９５年８月２２日に公表された第5,444,816号（“Adoul”他）、１９９７年１２月１７日に“Adoul”等に交付された第5,699,482号、１９９８年５月１９日に“Adoul”等に交付された第5,754,976号、及び１９９７年１２月２３日付の第5,701,392号に記載された代数のコードブックにより、モジュール２１０において実行される。

「ＡＭＲ−ＷＢ復号器の概要」
図３の音声復号器３００は、デジタル入力信号３２２（デマルチプレクサ（ＤＥＭＵＸ）３１７への入力ビットストリーム）と、標本化音声出力信号３２３（加算器３２１の出力信号）との間で実行される様々なステップを説明する。

デマルチプレクサ３１７は、デジタル入力チャネルから受信されたバイナリ情報（入力ビットストリーム３２２）から、合成モデルパラメータを抽出する。受信されたそれぞれのバイナリフレームから抽出されたパラメータは、
・短期予測（short-term prediction：ＳＴＰ）パラメータと呼ばれ、フレーム毎に１回生成される量子化された補間ＬＰフィルタ係数“A＾(z)”；
・長期予測(long-term prediction：ＬＴＰ)パラメータ“T”，“b”，及び“j”（各サブフレームに対する)；
・新規コードブックの指数“k”及び利得“g”（各サブフレームに対する)；
である。

本音声信号は、以下に説明されることになるこれらのパラメータに基づいて合成される。

新規コードブック３１８は、増幅器３２４を通して復号化利得係数“g”により増減される新規コードベクトル（innovation codevector）“c_k”を生成するために、指数“k”に応答する。本実施例において、上述の米国特許番号第5,444,816号、第5,699,482号、第5,754,976号、及び第5,701,392号に記載された新規コードブックは、新規コードベクトル（innovative codevector）“c_k”を生成するために使用される。

増幅器３２４の出力端子における、生成された、増減されたコードベクトルは、周波数依存のピッチ拡張器３０５を通して処理される。

励振信号“u”の周期性を拡張することは、有声のセグメントの品質を改善する。周期性の拡張は、その周波数応答が低い方の周波数より高い方の周波数を更に強調する新規フィルタ（innovation filter）“F(z)”（ピッチ拡張器３０５）を通して、新規（固定の）コードブックからの新規コードベクトル“c_k”をフィルタ処理することにより達成される。新規フィルタ“F(z)”の係数は、励振信号“u”における周期性の量と関係している。

新規フィルタ“F(z)”の係数を得るための効率的な具体的方法は、全部の励振信号“u”において、それらをピッチの寄与の量と関係づけることである。これは、サブフレームの周期性に応じた周波数応答となり、高い方の周波数が、更に高いピッチ利得のために更に強く強調される（全体のスロープを更に強くする）。励振信号“u”がより周期的であるとき、高い方の周波数より低い方の周波数で励振信号“u”の周期性を更に拡張する新規フィルタ３０５は、低い方の周波数で新規コードベクトル“c_k”のエネルギーを低下させる効果を有する。新規フィルタ３０５に対して提案された形式は、次式のようになる。

ここで、“α”は励振信号“u”の周期性のレベルから得られた周期性の係数である。周期性の係数αは、有声化（voicing）係数生成器３０４において計算される。最初に、有声化係数“r_v”は、次式により有声化係数生成器３０４において計算される。

ここで、“E_V”は増減されたピッチコードベクトル“bv_T”のエネルギーであると共に、“E_C”は増減された新規コードベクトル“gc_k”のエネルギーである。それは、

と、

である。
“r_v”の値が“−１”と”１”との間にある点に留意すること（“１”が単に有声の信号に対応すると共に、“−１”が単に無声（unvoiced）の信号に対応する)。

上述の増減されたピッチコードベクトル“bv_T”は、ピッチコードベクトルを生成するために、ピッチコードブック３０１へピッチ遅延“T”を供給することにより生成される。ピッチコードベクトルは、その場合、フィルタ処理されたピッチコードベクトル“v_T”を生成するために、遮断周波数がデマルチプレクサ３１７からの指数“j”に関して選択されるローパスフィルタ３０２を通して処理される。その場合、フィルタ処理されたピッチコードベクトル“v_T”は、その後、増減されたピッチコードベクトル“bv_T”を生成するために、増幅器３２６によるピッチ利得“b”により増幅される。

本実施例において、係数αは、その場合、有声化係数生成器３０４において、次式により計算される。

それは、単に無声の信号に対しては“０”の値に対応すると共に、単に有声の信号に対しては“０．２５”の値に対応する。

拡張された信号“c_f”は、従って新規フィルタ３０５(F(z))を通して、増減された新規コードベクトル“gc_k”をフィルタ処理することにより計算される。

拡張された励振信号“u'”は、加算器３２０により次式のように計算される。

この処理が符号器２００において実行されないことに留意すべきである。このように、符号器２００と復号器３００との間の同期を保持するためにメモリ３０３に記憶される拡張なしで、励振信号“u”の過去の値を使用するピッチコードブック３０１の内容を更新することは不可欠である。従って、励振信号“u”は、ピッチコードブック３０１のメモリ３０３を更新するために使用されると共に、拡張された励振信号“u'”は、ＬＰ合成フィルタ３０６の入力において使用される。

合成された信号“s'”は、形式“1/A＾(z)”を有するＬＰ合成フィルタ３０６を通して、拡張された励振信号“u'”をフィルタ処理することにより計算され、ここで、“A＾(z)”は現在のサブフレームにおける量子化された補間ＬＰフィルタである。図３に示すように、デマルチプレクサ３１７からの線３２５上の量子化された補間ＬＰフィルタ係数“A＾(z)”は、従ってＬＰ合成フィルタ３０６のパラメータを調整するために、ＬＰ合成フィルタ３０６に供給される。ディエンファシスフィルタ３０７は、図２のプリエンファシスフィルタ２０３の逆である。ディエンファシスフィルタ３０７の伝達関数は、次式により与えられる。

ここで、“μ”は、“０”と“１”との間に配置された値（標準的な値は、“μ=0.7”である）を有するプリエンファシス係数である。より高次のフィルタが同様に使用されることもあり得る。

ベクトル“s'”は、50[Hz]未満の不必要な周波数を取り除くと共に更に“s_h”を取得するようにハイパスフィルタ３０８を通して処理されるベクトル“s_d”を取得するために、ディエンファシスフィルタ“D(z)”３０７を通してフィルタ処理される。

オーバサンプラ３０９は、図２のダウンサンプラ２０１の逆の過程を処理する。この実施例において、オーバサンプリングは、当業者に良く知られている手法を使用して、サンプリングレート12.8[kHz]を元のサンプリングレート16[kHz]に変換する。オーバサンプルされた合成信号は“S＾＝Sのハット”と表示される。信号“S＾”は、合成された広帯域の中間信号ともまた呼ばれる。

オーバサンプルされた合成信号“S＾”は、符号器２００におけるダウンサンプリング処理（図２のモジュール２０１）の間に失われた高い方の周波数成分を含んでいない。これは、低域通過の知覚作用を合成された音声信号に与える。元の信号の最大限の帯域を回復するために、高域周波数生成手順がモジュール３１０において実行されると共に、有声化係数生成器３０４（図３）から入力を必要とする。

高域周波数生成モジュール３１０から結果として生じるバンドパスフィルタ処理されたノイズシーケンス“z”は、出力端子３２３上の最終の復元された音声出力信号“s_out”を取得するために、加算器３２１により、オーバサンプルされた合成音声信号“S＾”に加算される。高域周波数再生処理の例は、２０００年５月４日に国際公開第00/25305号の番号で公表された国際ＰＣＴ特許出願において説明されている。

12.65[kbit/s]におけるＡＭＲ−ＷＢコーデックのビット割当が表１に与えられている。

「強力なフレーム消失の隠蔽」
デジタル音声通信システムにおいて、特に、無線環境、及びパケット交換ネットワークにおいて動作しているとき、フレームの消失が合成された音声品質に対して重大な影響を与える。無線のセルラーシステムにおいて、受信信号のエネルギーは、高いビット誤り率となる、頻繁に発生する深刻な減衰（fade）を示すと共に、これはセル境界で更に顕著となる。この場合、チャネル復号器は、受信されたフレームにおいてエラーを訂正することができないと共に、その結果、チャネル復号器の後で通常使用されるエラー検出器は、フレームが消去されたことを示すことになる。インターネットプロトコル上の音声（Voice over Internet Protocol：VoIP）のような、パケットネットワークアプリケーション上の音声において、音声信号は、通常各パケットに20[ms]のフレームが配置されてパケット化される。パケット交換通信において、もしパケットの数が非常に多くなる、またはそのパケットが長時間の遅延の後受信機に到着する場合、パケットの欠落はルータで発生し得ると共に、もしその遅延が受信機側のジッタ用バッファの長さを超える場合、それは失われたものとして示されるべきである。これらのシステムにおいて、コーデックは、一般的に3〜5[％]のフレーム消失率となる傾向がある。

フレーム消失（frame erasure：FER）処理の問題は、基本的に２つの面を有する。第１に、消去されたフレーム指示子が到着するとき、前のフレームで送信された情報を使用すると共に、欠けているフレームにおける信号の発生を推定することにより、欠けているフレームは生成されなければならない。推定の成功は、隠蔽方法ばかりではなく、その消失が発生する音声信号における場所により決まる。第２に、通常の操作が回復するとき、すなわち消去されたフレームのブロック（１つ以上）の後で最初の良好なフレームが到着するとき、スムーズな移行が保障されなければならない。これは、本当の合成として重要でない仕事（タスク）ではないと共に、推定された合成は異なって発展し得る。最初の良好なフレームが到着するとき、復号器は、従って符号器から非同期化される。主な理由は、低いビットレートの符号器がピッチ予測を信頼すると共に、消去されたフレーム期間中に、ピッチ予測器のメモリは、もはや符号器のものと同じではなくなるからである。多くの連続したフレームが消去されるとき、その問題は拡大される。隠蔽に関して、正常な処理の回復の難しさは、その消失が発生した音声信号のタイプにより決まる。

フレーム消失の悪影響は、隠蔽及び正常な処理の回復(更なる回復)を消失が発生する音声信号のタイプへ適合させることにより、著しく低減され得る。この目的のために、各音声フレームを分類することが必要である。この分類は、符号器で実行されると共に伝送され得る。一方、それは復号器で推定され得る。

最適な隠蔽及び回復のために、注意深く制御されなければならない音声信号の重大な特性がいくつかある。これらの重大な特性は、信号エネルギーまたは振幅、周期性の量、スペクトル包絡線、及びピッチ期間である。有声の音声の回復の場合には、更なる改善は、位相制御により達成され得る。ビットレートのわずかな増加で、更に良い制御のために、いくらかの補足のパラメータが量子化されると共に伝送され得る。もし追加の帯域幅が利用可能ではない場合、それらのパラメータは復号器において推定され得る。制御されたこれらのパラメータを用いて、特に符号器における復号化された信号の実際の信号への収束性を改善すると共に、正常な処理が回復するとき、符号器と復号器との間での食い違いの影響を軽減することにより、フレーム消失の隠蔽及び回復は、著しく改善され得る。

本発明の実施例では、消去されたフレームの後に続くフレームにおいて、復号器の性能及び収束性を改善することになる、効率的なフレーム消失の隠蔽のための方法、及びパラメータを抽出すると共に伝送するための方法が開示される。これらのパラメータは、以下のフレーム分類、エネルギー、有声化情報、及び位相情報の中の２つ以上を有している。更に、もし特別なビットの伝送が可能ではない場合、そのようなパラメータを復号器において抽出するための方法が開示される。最後に、消去されたフレームの後に続く良好なフレームにおいて復号器の収束性を改善するための方法もまた開示される。

本実施例によるフレーム消失の隠蔽技術は、上述のＡＭＲ−ＷＢコーデックに適用された。このコーデックは、以下の記載におけるＦＥＲの隠蔽方法の実現のための構成例としての役割を果たすことになる。上述のように、コーデックへの入力音声信号２１２は、16[kHz]のサンプリング周波数を有するが、しかし、それは、更なる処理の前に12.8[kHz]のサンプリング周波数へダウンサンプルされる。本実施例において、ＦＥＲ処理は、ダウンサンプルされた信号に対して実行される。

図４は、ＡＭＲ−ＷＢ符号器４００の簡略化したブロック図を示す。この簡略化したブロック図において、ダウンサンプラ２０１、ハイパスフィルタ２０２、及びプリエンファシスフィルタ２０３は、前処理モジュール４０１に分類される。同様に、閉ループ検索モジュール２０７、ゼロ入力応答計算器２０８、インパルス応答計算器２０９、新規励振検索モジュール（innovative excitation search module）２１０、及びメモリ更新モジュール２１１は、閉ループピッチ及び新規コードブック検索モジュール４０２に分類される。この分類は、本発明の実施例に関する新しいモジュールの説明を簡単化するために実行される。

図５は、本発明の実施例に関するモジュールが加えられる図４のブロック図の拡張である。これらの加えられたモジュール５００〜５０７において、ＦＥＲの隠蔽、及び消去されたフレーム後の復号器の収束と回復を改善することを目的として、追加のパラメータが計算され、量子化され、そして伝送される。本実施例において、これらのパラメータは、信号分類、エネルギー、及び位相情報（フレームにおける最初の声門音パルスの推定される位置）を有している。

次のセクションにおいて、これらの追加のパラメータの計算及び量子化は、図５を参照して詳細に示されると共に、更に明白になる。これらのパラメータの中で、信号分類は、更に詳細に扱われることになる。次のセクションにおいて、収束性を改善するためにこれらの追加のパラメータを使用する、効率的なＦＥＲの隠蔽が説明されることになる。

「ＦＥＲの隠蔽及び回復のための信号分類」
消去されたフレームが存在する場合に、信号復元のために音声の分類を使用するという基礎的なアイデアは、準定常音声セグメントに対してと急激に特性を変える音声セグメントに対してとでは理想的な隠蔽方法が異なるという事実から構成される。同じ状態を保たない音声セグメントにおける消去されたフレームの最も良い処理が、音声符号化パラメータの環境雑音特性への急速な収束として簡単にまとめられ得る一方、準定常信号の場合は、音声符号化パラメータは、弱められる前のいくらかの隣接する消去されたフレーム期間では、劇的には変動しないと共にほとんど変わらない状態に保たれ得る。同様に、フレームの消去されたブロックの後に続いて起こる信号回復のための最適な方法は、音声信号の分類により異なる。

音声信号は、有声状態、無声状態、及び休止中としておおよそ分類され得る。有声の音声は、目立つ量の周期的成分を含むと共に、更に以下の種類、有声の頭子音（voiced onsets）、有声のセグメント（voiced segments）、有声の遷移（voiced transitions）、及び有声のオフセット（voiced offsets）において分類され得る。有声の頭子音は、休止または声に出さないセグメント後の有声の音声セグメントの始まりとして定義される。有声のセグメントの間、音声信号パラメータ(スペクトル包絡線，ピッチ期間，周期的及び非周期的な成分の比率，エネルギー)は、フレームからフレームへゆっくりと変化する。有声の遷移は、母音の間の遷移のような、有声の音声の急速な変化により特徴づけられる。有声のオフセットは、有声のセグメントの終りにおけるエネルギー及び有声化の緩やかな減少により特徴づけられる。

信号の無声部分は、周期的成分が欠けていることにより特徴づけられると共に、更に、エネルギー及びスペクトルが急激に変化する不安定フレームと、これらの特性が比較的安定した状態を維持する安定フレームとに分類され得る。残っているフレームは無音として分類される。無音フレームは、有効な音声がない全てのフレーム、すなわち、もしバックグラウンドノイズ（背景雑音）が存在する場合、ノイズだけのフレームもまた具備している。

上述のクラス（classes：階級）の全てが個別の処理を必要とするとは限らない。従って、誤りの隠蔽技術の目的のために、いくらかの信号分類は一まとめにされる。

「符号器における分類」
ビットストリームに分類情報を含むための利用可能な帯域幅があるとき、その分類は、符号器において実行され得る。これにはいくらかの利点がある。最も重要なことは、多くの場合、音声符号器に先読み部分があることである。先読み部分は、次のフレームにおける信号の発生を推定することを可能にすると共に、従って、その分類は将来の信号の動きを考慮に入れることにより実行され得る。一般的に、先読み部分が長い程、その分類はより良好なものとなり得る。フレーム消失の隠蔽に必要な信号処理の大部分が、いずれにせよ音声符号化のために必要とされるので、更なる利点は複雑さの減少である。最後に、同様に合成された信号の代りに元の信号を使って作業をすることの利点もある。

フレーム分類は、隠蔽及び回復方法を念頭においた検討により実行される。すなわち、あらゆるフレームは、次のフレームが欠けている場合には隠蔽が最適であり得るか、または前のフレームが失われた場合には回復が最適であり得るように分類される。ＦＥＲ処理のために使用されるいくらかのクラスは、復号器において、曖昧性なしに推測され得るので、伝送される必要がない。本実施例においては、５個の明確なクラスが使用されると共に、以下のように定義される。

・無声クラス（UNVOICED class）は、全ての無声のフレーム、及び有効な音声なしの全てのフレームを具備する。もし、その終わりが無声となる傾向がある場合、有声のオフセットフレームは同様に無声クラスとして分類され得ると共に、それが失われる場合、無声のフレームのために策定された（designed）隠蔽は、次のフレームのために使用され得る。

・無声遷移クラス（UNVOICED TRANSITION class）は、その終わりにおいて有声の頭子音が見込まれる無声のフレームを具備する。その頭子音は、しかしながら、有声のフレームのために策定された隠蔽を十分に使用するには、まだあまりにも短いか、またはよく確立されていない。無声遷移クラスは、無声クラスまたは、無声遷移クラスとして分類されたフレームのみの後に続くことができる。

・有声遷移クラス（VOICED TRANSITION class）は、他と比較して弱い有声の特性を備える有声のフレームを具備する。それらは、一般的に、急激に特性（母音の間の遷移）が変化する有声のフレームか、またはフレーム全体に続いている有声のオフセットである。有声遷移クラスは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続くことができる。

・有声クラス（VOICED class）は、安定した特性を備える有声のフレームを具備する。このクラスは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続くことができる。

・頭子音クラス（ONSET class）は、無声クラス、または無声遷移クラスとして分類されたフレームの後に続く、安定した特性を備える全ての有声のフレームを具備する。頭子音クラスとして分類されたフレームは、頭子音が、既に失われた有声のフレームのために策定された隠蔽の使用に対して十分に形成されている、有声の頭子音のフレームに対応する。頭子音クラスの後に続くフレーム消失に使用される隠蔽技術は、有声クラスの後に続く場合と同じである。違いは回復方法にある。もし、頭子音クラスのフレームが失われる（すなわち、有声クラスの良好なフレームは、消失の後で到着するが、しかし消失の前の最後の良好なフレームは無声クラスであった）場合、特別な技術が、失われた頭子音を人工的に復元するために使用され得る。このシナリオは図６において示される。人工的な頭子音の復元技術は、以下の記載において更に詳細に説明されることになる。一方、もし頭子音クラスの良好なフレームが消失フレームの後で到着すると共に、その消失フレームの前の最後の良好なフレームが無声クラスであった場合、頭子音が失われなかった（失われたフレーム中になかった）ので、この特別な処理は必要とされない。

分類の状態遷移図は図７において概説される。もし、利用可能な帯域幅が十分である場合、その分類は、符号器において実行されると共に、２ビットを用いて伝送される。図７から分かるように、それらが明らかに復号器において区別され得るので、無声遷移クラス及び有声遷移クラスは、一まとめにされ得る（無声遷移クラスが無声クラス、または無声遷移クラスのフレームのみの後に続くことができ、有声遷移クラスが頭子音クラス、有声クラス、または有声遷移クラスのフレームのみの後に続くことができる)。以下のパラメータ、正規化された相関値“r_X”、スペクトルの傾斜測定値“e_t”、信号対雑音比“snr”、ピッチ安定性計数値“pc”、現在のフレームの終りにおける信号の相対的なフレームエネルギー“E_S”、及びゼロ交差計数値“zc”は、分類のために使用される。以下の詳細な分析から分かるように、これらのパラメータの計算は、次のフレームにおける音声信号の動きも同様に考慮するために、できる限り利用可能な先読み部分を使用する。

正規化された相関値“r_X”は、図５の開ループピッチ検索モジュール２０６の一部として計算される。このモジュール２０６は、通常、10[ms]毎に（フレーム当たり２回)、開ループピッチの推定値を出力する。ここで、それは正規化された相関の評価値を出力するためにもまた使用される。これらの正規化された相関値は、現在の重み付けされた音声信号“s_W(n)”と、開ループピッチ遅延だけ過去の重み付けされた音声信号とについて計算される。複雑さを減少させるために、重み付けされた音声信号“s_W(n)”は、開ループピッチ分析の前に、係数２により6400[Hz]のサンプリング周波数までダウンサンプルされる[3GPP TS 26.190,"AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification]。平均相関値“r_X”は、次式で定義される。

ここで、“r_X(1)”、“r_X(2)”は、それぞれ現在のフレームの後半の正規化された相関値、及び先読み部分の正規化された相関値である。この実施例では、5[ms]の先読み部分を使用するＡＭＲ−ＷＢ標準とは異なり、13[ms]の先読み部分が使用される。正規化された相関値“r_X(k)”は、次式のように計算される。

ここで、

相関値“r_X(k)”は、重み付けされた音声信号“s_W(n)”を使用して計算される。瞬時値（instants）“t_K”は、現在のフレームの始まりと関連があると共に、6.4[kHz] （10[ms]及び20[ms]）のサンプリングレートまたは周波数において、それぞれ６４及び１２８サンプルに等しい。数値“P_K=T_OL”は、選択された開ループピッチ推定値である。自己相関計算値の長さ“L_K”は、ピッチ期間に依存している。“L_K”の値は、（6.4[kHz]のサンプリングレートに対して）以下のように簡単にまとめられる。

“P_K≦31サンプル”に対しては“L_K＝40サンプル”である。
“P_K≦61サンプル”に対しては“L_K＝62サンプル”である。
“P_K＞61サンプル”に対しては“L_K＝115サンプル”である。

相関関係があるベクトルの長さが、強力な開ループピッチ検出のために役立つ少なくとも１ピッチ期間を含むということを、これらの長さは保証する。長いピッチ期間（“p₁”＞61サンプル）に対して、r_X(1)、及びr_X(2)は同一であり、すなわち、先読み部分における分析がもはや必要ではなくなるくらい相関関係があるベクトルが十分に長いので、１つの相関値だけが計算される。

スペクトルの傾斜値パラメータ“e_t”は、エネルギーの周波数分布に関する情報を含んでいる。本実施例において、スペクトルの傾斜値は、低域周波数に集中したエネルギーと、高域周波数に集中したエネルギーとの間の比率として推定される。しかしながら、それは、２個の音声信号の第１自己相関係数の間の比率のような、異なる方法でもまた推定され得る。

離散フーリエ変換は、図５のスペクトル解析及びスペクトルエネルギー推定モジュール５００において、スペクトル解析を実行するために使用される。周波数分析、及び傾斜値計算は、フレーム当たり２回実行される。２５６ポイントの高速フーリエ変換（FFT）は、５０パーセントのオーバラップ処理（overlap）により使用される。先読み部分全てが利用されるように分析窓は配置される。本実施例において、第１の窓の始まりは、現在のフレームの始まりの２４サンプル後に配置される。第２の窓は、更に１２８サンプル後に配置される。周波数分析のために、入力信号に重み付けするための異なる窓が使用され得る。ハミング窓の平方根（それはサイン窓に相当する）が本実施例においては使用された。この窓は、特にオーバラップ処理を加える方法にとても適している。従って、この特別なスペクトル解析は、スペクトルの減算及びオーバラップ処理を加える分析／合成に基づく、任意の雑音抑圧アルゴリズムにおいて使用され得る。

知覚の臨界帯域に続く高い周波数及び低い周波数におけるエネルギーは、図５のモジュール５００において計算される。本実施例において、各臨界帯域は、以下の数まで考慮される[J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise
Criteria," IEEE Jour. on Selected Areas in Communications, vol. 6, no. 2,
pp. 314-323]。

臨界帯域＝｛ 100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350.0 }[Hz]である。

高い方の周波数におけるエネルギーは、モジュール５００において、次式により最後の２つの臨界帯域のエネルギーの平均値として計算される。

ここで、臨界帯域エネルギー“e(i)”は、臨界帯域の中のビン（bin：周波数ブロック）のエネルギーの和として計算され、ビンの数により平均化される。

低い方の周波数におけるエネルギーは、最初の１０個の臨界帯域におけるエネルギーの平均値として計算される。中間の臨界帯域は、低い周波数において高いエネルギー密度を有するフレーム（一般的に有声クラス）と、高い周波数において高いエネルギー密度を有するフレーム(一般に無声クラス)との間の識別を改善するために、計算から除外された。両者の間では、エネルギー含有量がクラスのうちのどれに対しても特有ではないと共に、判定の混乱を増加させることもあり得る。

モジュール５００において、低い周波数におけるエネルギーは、長いピッチ期間と短いピッチ期間との間では異なって計算される。有声の女性の音声セグメントに対しては、スペクトルの調波構造（harmonic structure）が、有声−無声識別を増加させるために活用され得る。従って、短いピッチ期間の間、“E_l￣＝E_lのバー（以下、本翻訳文では、「上バー記号“￣”」が文字の右横に書かれた場合、文字の上部に「上バー記号」があるものとする。）”は、ビンに関して計算されると共に、音声の調波（speech harmonics）に十分に近い周波数ビン（frequency bins）のみが加算において考慮され、すなわち次式のようになる。

ここで、“e_b(i)”は、（直流（DC）成分が考慮されない）最初の２５個の周波数ビンにおけるビンエネルギー（bin energies）である。これらの２５個のビンが最初の１０個の臨界帯域に対応する点に留意すること。上述の加算式において、最も近い調波に対してある周波数しきい値より更に近いビンに関係した項のみがゼロではない。計数値“cnt”は、それらのゼロでない項の数に等しい。加算結果に含まれるビンに対するしきい値は50[Hz]に固定されており、すなわち、最も近い調波に対して50[Hz]より近いビンのみが考慮される。従って、もし低い周波数においてその構造が調波である場合、高いエネルギーの項のみ加算結果に含まれることになる。一方、その構造が調波ではない場合、項の選択は無作為になると共に、その加算結果は更に小さいものになることになる。このように、低い周波数において高いエネルギー含有量を伴う規則正しい無声音が検出され得る。周波数分解能が十分ではないので、この処理は更に長いピッチ期間に対しては実行され得ない。ピッチのしきい値は、100[Hz]に対応する１２８サンプルである。それは、１２８サンプルより更に長いピッチ期間に対して、及び推測的な無声音（すなわち、“r_X￣+r_e”<0.6）に対しても、低い周波数のエネルギー推定が臨界帯域毎に実行されると共に、次式のように計算されることを意味する。

ノイズ推定及び正規化相関値修正モジュール５０１において計算される数値“r_e”は、以下の理由により、バックグラウンドノイズが存在する場合に、正規化された相関値に加算された補正値である。バックグラウンドノイズが存在する場合には、正規化された相関値の平均値は減少する。しかしながら、信号分類のために、この減少は有声−無声の判定に影響を及ぼすべきではない。この減少量“r_e”とデシベル（dB）で表された全バックグラウンドノイズエネルギーとの間の依存関係は、近似的に指数の関係となると共に、次式の関係を用いて表され得るということが分かっている。

ここで、“N_dB”は次式を表す。

ここで、“n(i)”は、“e(i)”と同一の方法で正規化された各臨界帯域を推定するノイズエネルギーであると共に、“g_dB”は、ノイズ低減ルーチンを可能にさせる、デシベル（dB）で表された最大の雑音抑圧レベルである。数値“r_e”は負の数にはならない。良好なノイズ除去アルゴリズムが使用されると共に“g_dB”が十分に高いとき、“r_e”は実質的にゼロに等しいことに留意するべきである。ノイズ除去が無効にされるとき、またはバックグラウンドノイズのレベルが最大許容除去量より著しく高い場合にのみ、それは有意義である。“r_e”の影響は、この項を定数と乗算することにより調整され得る。

最後に、その結果生じる、低い方の周波数エネルギー及び高い方の周波数エネルギーは、上記で計算された値“E_h￣”、及び値“E_l￣”から、推定されたノイズエネルギーを減算することにより取得される。それは次式となる。

ここで、“N_h”、及び“N_l”は、それぞれが（３）式及び（５）式と類似する式を用いて計算された、最後の２個の臨界帯域及び最初の１０個の臨界帯域における平均化されたノイズエネルギーであり、“f_C”は、バックグラウンドノイズレベルを変えることにより、これらの大きさが一定値に近づいたままとなるように調整された補正係数である。この実施例において、“f_C”の値は“3”に固定された。

スペクトルの傾斜値“e_t”は、次式を使用して、スペクトル傾斜値推定モジュール５０３において計算される。

そして、それはフレーム毎に実行される２回の周波数分析について、次式のようにデシベル（dB）領域において平均化される。

信号対雑音比（SNR）測定は、一般的な波形整合符号器に関して、有声音の間はＳＮＲがはるかに高いという事実を活用する。“snr”パラメータ推定は、符号器サブフレームループ（encoder subframe loop）の終りに実行されなければならないと共に、次式を使用して、ＳＮＲ計算モジュール５０４において計算される。

ここで、“E_SW”は、知覚の重み付けフィルタ２０５からの、現在のフレームの重み付けされた音声信号“s_W(n)”のエネルギーであり、“E_e”は、知覚の重み付けフィルタ２０５からの、この重み付けされた音声信号と現在のフレームの重み付けされた合成信号との間のエラーのエネルギーである。

ピッチ安定性計数値“pc”は、ピッチ期間の変化量を決定する。それは、次式のように開ループピッチ推定値に応答して、信号分類モジュール５０５内部において計算される。

数値“P₀, P₁, P₂”は、それぞれ現在のフレームの前半、現在のフレームの後半、及び先読み部分から開ループピッチ検索モジュール２０６により計算された、開ループピッチ推定値に対応する。

相対的なフレームエネルギー“E_S”は、デシベル（dB）領域における現在のフレームエネルギーとその長期間の平均値との間の差異として、モジュール５００により次式のように計算される。

ここで、フレームエネルギー“E_f￣”は、各フレーム毎に実行された両方のスペクトル解析について平均化された臨界帯域エネルギーの加算結果として取得される。

長期間にわたり平均化されたエネルギーは、有効な音声のフレーム上で次式の関係を使用して更新される。

最後のパラメータは、ゼロ交差計算モジュール５０８により音声信号の１つのフレーム上で計算されたゼロ交差パラメータ“zc”である。そのフレームは、現在のフレームの中程で開始すると共に、先読み部分の２個のサブフレームを使用する。この実施例において、ゼロ交差計数値“zc”は、信号の間隔の間に信号の正負の符号が正から負に変わる回数をカウントする。

分類を更に強固なものにするために、分類パラメータは、メリット関数“f_m”の形成と共に検討される。その目的のために、分類パラメータは、無声の信号に対する標準的な各パラメータの値が“０”に移行すると共に、有声の信号に対する標準的な各パラメータの値が“１”に移行するように、最初に“０”と“１”との間において増減される。一次関数がそれらの間で使用される。ここで、その増減されたバージョンが次式を使用して取得されると共に、“０”と“１”との間に制限される、パラメータ“px”について検討することにする。

関数の係数“k_P”及び関数の係数“c_P”は、ＦＥＲが存在する場合に使用される隠蔽及び回復技術による信号ひずみを最小とするように、各パラメータに関して実験的に見つけられた。この実施例において使用される値は表２に集約される。

メリット関数は、次式のように定義された。

ここで、上付き文字“S”はパラメータの増減されたバージョンであることを示す。

その分類は、その場合にはメリット関数“f_m”と、表３に集約される基準を用いて実行される。

信号源制御可変ビットレート（source-controlled variable bit rate）符号器（VBR符号器）の場合には、信号分類は符号化動作に固有である。そのコーデックは、さまざまなビットレートで動作すると共に、各音声フレームの符号化に使用されるビットレートを音声フレームの性質に基づいて決定するために、レート選択モジュールが使用される（例えば、有声のフレーム、無声のフレーム、一時的なフレーム、バックグラウンドノイズのフレームは、それぞれ特別な符号化アルゴリズムにより符号化される）。符号化モード及びこのような音声クラスに関する情報は、既にビットストリームに含まれた部分であり、ＦＥＲ処理のために明示的に伝送する必要がない。このクラス情報は、その場合には上述の分類の決定を上書きするために使用され得る。

ＡＭＲ−ＷＢコーデックに対する応用例において、信号源制御レート選択（source-controlled rate selection）のみが音声アクティビティ検出（voice activity detection：ＶＡＤ）を表している。このＶＡＤフラグは、有効な音声に対しては“１”、無音に対しては“０”に等しい。もしその値が“０”である（すなわち、そのフレームは、直接無声クラスとして分類される）場合、それは、それ以上分類が必要ではないことを直接示すので、このパラメータは分類にとって有効である。このパラメータは、音声アクティビティ検出（ＶＡＤ）モジュール４０２の出力である。異なるＶＡＤアルゴリズムが文献に存在すると共に、あらゆるアルゴリズムが本発明の目的のために使用され得る。例えば、標準“G. 722.2”の一部であるＶＡＤアルゴリズムが使用され得る[ITU-T Recommendation G. 722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)",Geneva, 2002]。ここで、ＶＡＤアルゴリズムは、（臨界帯域当たりの信号対雑音比に基づく、）モジュール５００のスペクトル解析の出力に基づいている。分類目的のために使用されるＶＡＤは、余韻（hangover）に関して符号化する目的のために使用されるものと異なる。有効な音声を備えない（無声またはノイズのみ）セグメントに対して無音区間疑似背景雑音発生機能（comfort noise generation：ＣＮＧ）を使用する音声符号器において、余韻は多くの場合、音声が噴出した後に加えられる（ＡＭＲ−ＷＢ標準におけるＣＮＧには、一例として[3GPP TS 26.192，"AMR Wideband Speech Codec: Comfort Noise Aspects," 3GPP Technical Specification]がある。）。余韻の間、音声符号器は使用され続けると共に、余韻期間が終了した後でのみ、そのシステムはＣＮＧに切り替わる。ＦＥＲ隠蔽に関する分類のために、この高い保護は必要とされない。従って、分類のためのＶＡＤフラグは、余韻期間の間も同様に“０”に等しい。

この実施例において、その分類は、上述のパラメータ、すなわち、正規化された相関値（もしくは、有声化情報）“r_X”、スペクトルの傾斜値“e_t”、“snr”、ピッチ安定性計数値“pc”、相対的なフレームエネルギー“E_S”、ゼロ交差計数値“zc”、及び、ＶＡＤフラグに基づいてモジュール５０５において実行される。

「復号器における分類」
もし、アプリケーションがクラス情報の伝送を許可しない（特別なビットが伝送されることができない）場合、分類はやはりデコーダで実行され得る。既に述べたように、ここでの主要な問題点は、一般的に音声復号器には利用可能な先読み機能がないということである。同様に、多くの場合、復号器の複雑さを制限された状態に保持する必要がある。

単純な分類が、合成された信号の有声化を推定することにより実行され得る。もしＣＥＬＰタイプの復号器の場合を考慮する場合、有声化推定値“r_V”は、（１）式を使用して計算され得る。それは、次式となる。

ここで、“E_V”は増減されたピッチコードベクトル“bv_T”のエネルギーであると共に、“E_C”は増減された新規コードベクトル“gc_k”のエネルギーである。理論的に、純粋な有声信号に対しては“r_V=1”であると共に、純粋な無声信号に対しては“r_V=-1”である。実際の分類は、４個のサブフレーム毎に平均化された“r_V”の値により実行される。その結果生じる係数“f_rv”（４個のサブフレーム毎の“r_V”の値の平均値）は、以下の表４に示すように使用される。

符号器における分類と同様に、復号器において、分類を支援するために、ＬＰフィルタまたはピッチ安定性のパラメータとして他のパラメータが使用され得る。

信号源制御可変ビットレート符号器の場合には、符号化モードに関する情報は、既にビットストリームの一部分である。従って、例えば純粋な無声の符号化モードが使用される場合、フレームは、無声クラスとして自動的に分類され得る。同様に、もし純粋な有声の符号化モードが使用される場合、フレームは、有声クラスとして分類される。

「ＦＥＲ処理に関する音声パラメータ」
ＦＥＲが発生するときに、面倒な副作用を回避するために注意深く制御されなければならない重大なパラメータがいくつかある。もし少しの特別なビットが伝送され得る場合、その場合には、これらのパラメータは符号器で推定され、量子化され、そして伝送され得る。そうでない場合には、それらのうちいくつかは復号器において推定され得る。これらのパラメータは、信号分類、エネルギー情報、位相情報、及び有声化情報を具備している。最も重要なことは、音声エネルギーの正確な制御である。更にＦＥＲ隠蔽及び回復を改善するために、位相及び音声の周期性が、同様に制御され得る。

フレームの消去されたブロックの後で通常動作が回復するとき、主としてエネルギー制御の重要性が現れる。大部分の音声符号器が予測を使用するので、正しいエネルギーは、復号器において完全には推定され得ない。有声の音声セグメントにおいて、誤ったエネルギーは、この誤ったエネルギーが増加するとき特に面倒である、いくらかの連続したフレームにおいて持続し得る。

もしエネルギー制御が、長期の予測(ピッチ予測)のために、有声の音声にとって最も重要であるとしても、それは、無声の音声にとっても同様に重要である。その理由は、ＣＥＬＰタイプの符号器において多くの場合使用される新規利得量子化器（innovation gain quantizer）の予測にある。無声のセグメントの間の誤ったエネルギーは、面倒な高い周波数の変動を引き起こし得る。

主として利用可能な帯域幅に応じて、位相制御はさまざまな方法で実行され得る。この実施例においては、声門音パルスの位置に関する概略の情報を検索することにより、単純な位相制御が失われた有声の頭子音の間に達成される。

従って、前のセクションにおいて論じられた信号分類情報は別として、送信するべき最も重要な情報は、信号エネルギーとフレームにおける最初の声門音パルスの位置（位相情報）とに関する情報である。もし十分な帯域幅が利用可能である場合には、同様に有声化情報もまた送信され得る。

「エネルギー情報」
エネルギー情報は、推定され得ると共に、ＬＰフィルタ未処理領域または音声信号領域で送信され得る。情報をＬＰフィルタ未処理領域で送信することには、ＬＰ合成フィルタの影響を考慮しないという欠点がある。これは、いくつかの失われた有声のフレームの後における有声の回復の場合（ＦＥＲが有声の音声セグメントの間に発生するとき）に、特に慎重を要する傾向がある。ＦＥＲが有声のフレームの後で到着するとき、最後の良好なフレームの励振は、一般的にある減衰方法による隠蔽の間に使用される。新しいＬＰ合成フィルタ係数が消失の後の最初の良好なフレームにより到着するとき、励振エネルギーとＬＰ合成フィルタの利得との間に食い違いがある傾向がある。新しい合成フィルタは、消去されたフレームの最後に合成されたエネルギー、更には元信号エネルギーと非常に異なるエネルギーを有する合成信号を生成する傾向がある。この理由のために、そのエネルギーは、信号領域において計算されると共に、量子化される。

エネルギー“E_q”は、エネルギー推定及び量子化モジュール５０６において計算されると共に量子化される。エネルギーを伝えるのには６ビットで十分であるということが分かっている。しかしながら、十分なビットが利用可能でなければ、ビットの数は、重大な影響を与えずに減少され得る。この好ましい実施例において、６ビット一定の量子化器は、“-15[dB]から83[dB]”の範囲において“1.58[dB]”のステップで使用される。量子化インデックスは、次式の整数部分により与えられる。

ここで、“E”は、有声クラスまたは頭子音クラスとして分類されたフレームに関する信号エネルギーの最大値、または他のフレームに関するサンプル当たりの平均エネルギーである。有声クラスまたは頭子音クラスのフレームに関して、信号エネルギーの最大値は、フレームの終わりにおいて、ピッチに同期して次式のように計算される。

ここで、“L”はフレームの長さであると共に、信号“s(i)”は、音声信号(または、もし雑音抑圧器が使用されるならば、ノイズ除去された音声信号）を表す。この実施例において、“s(i)”は、12.8[kHz］にダウンサンプルされると共に前処理された後の入力信号を表す。もし、ピッチ遅延が６３サンプルより大きい場合、“t_E”は、最後のサブフレームの丸められた閉ループピッチ遅れ（closed-loop pitch lag）に等しい。もし、ピッチ遅延が６４サンプルより短い場合、“t_E”は、最後のサブフレームの丸められた閉ループピッチ遅れの２倍にセットされる。

他のクラスに関して、“E”は、現在のフレームの後半のサンプル当たりの平均エネルギーであり、すなわち“t_E”は、“L/2”にセットされると共に、“E”は次式のように計算される。

「位相制御情報」
前のセクションにおいて示された同様の理由のために、有声の音声の失われたセグメントの後で回復している間、位相制御は特に重要である。消去されたフレームのブロックの後で、復号器メモリは、符号器メモリと非同期化された状態になる。復号器を再同期化するために、いくらかの位相情報が利用可能な帯域幅に応じて送られ得る。記載された実施例において、フレームにおける最初の声門音パルスの概略の位置が送信される。後で示されるように、この情報は、その場合には失われた有声の頭子音の回復のために使用される。

“T₀”は最初のサブフレームに対する丸められた閉ループピッチ遅れとする。最初の声門音パルス検索及び量子化モジュール５０７は、最大振幅を有するサンプルを捜すことにより、フレームの最初の“T₀”サンプルの間に、最初の声門音パルス“τ”の位置を検索する。最初の声門音パルスの位置が、ローパスフィルタ処理された残りの信号上で測定されるとき、最も良い結果が得られる。

最初の声門音パルスの位置は、以下の方法において６ビットを用いて符号化される。最初の声門音パルスの位置を符号化するために使用される精度は、最初のサブフレーム“T₀”に関する閉ループピッチの値に依存する。この値は符号器及び復号器により知られているので、これは可能であると共に、１つまたはいくらかのフレーム損失後のエラーの伝搬に影響を受けにくい。“T₀”が６４未満であるとき、フレームの始まりに関連する最初の声門音パルスの位置は、１つのサンプルの精度により直接符号化される。“６４＝T₀＜１２８”のとき、フレームの始まりに関連する最初の声門音パルスの位置は、単純な整数分割を使用すること、すなわち“τ/2”により２つのサンプルの精度により符号化される。“T₀＝１２８”のとき、フレームの始まりに関連する最初の声門音パルスの位置は、更にτを２個に分割することにより、４つのサンプルの精度により符号化される。復号器では逆の手続きが実行される。もし“T₀＜６４”の場合、受信される量子化された位置は、そのまま使用される。もし“６４＝T₀＜１２８”の場合、受信される量子化された位置は、２を乗算されると共に１つ増加される。もし“T₀＝１２８”の場合、受信される量子化された位置は、４を乗算されると共に２つ増加される（２つ増加することが、一様に分散された量子化誤差となる。）。

最初の声門音パルスの形が符号化される本発明の別の実施例によれば、最初の声門音パルスの位置は、残りの信号とあり得るパルス波形、正負の符号(正または負)、及び位置との間の相関分析により決定される。パルス波形は、符号器と復号器との両方で知られているパルス波形のコードブックから取得され得ると共に、この方法は当業者によりベクトル量子化として知られている。最初の声門音パルスの波形、正負の符号、及び振幅は、その場合には符号化されると共に、復号器に伝送される。

「周期性情報」
十分な帯域幅がある場合、周期性の情報、または有声化情報は、計算されると共に伝送され、そしてフレーム消失の隠蔽を改善するために復号器において使用され得る。有声化情報は、正規化された相関値に基づいて推定される。それは、４ビットにより完全に正確に符号化され得るが、しかしながら、必要ならば３ビット、または２ビットでさえ十分である。有声化情報は、一般的にはいくらかの周期的な成分を伴うフレームに対してのみ必要であるが、高度に有声化されたフレームのために更に良い有声化分解能が必要とされる。正規化された相関値は、（２）式において与えられると共に、それは有声化情報への指示子として使用される。それは、最初の声門音パルス検索及び量子化モジュール５０７において量子化される。この実施例においては、区分線形量子化器（piece-wise linear quantizer）が、次式のように有声化情報を符号化するために使用された。

更に、“i”の整数部は、符号化されると共に伝送される。相関値“r_X(2)”は、（１）式と同じ意味を有している。（１８）式において、有声化情報は、“0.65”と“0.89”との間において“0.03”ステップで線形に量子化される。（１９）式において、有声化情報は、“0.92”と“0.98”との間において“0.01”ステップで線形に量子化される。

もし、更に大きな量子化範囲が必要とされる場合、次式の線形量子化が使用され得る。

この方程式は、“0.4〜1”の範囲において“0.04”ステップで有声化情報を量子化する。相関値“r_X￣＝r_Xのバー”は、（２ａ）式で定義される。

その場合には、（１８）式、及び（１９）式または（２０）式は、“r_X(2)”または“r_X￣”を計算するために復号器において使用される。この量子化された、正規化された相関値を“r_q”と呼ぶことにする。有声化情報を伝送することができない場合、有声化情報は、それを“0”から“1”の範囲にマッピング（mapping）することにより、（２ａ）式の有声化係数を使用して推定され得る。

「消去されたフレームの処理」
この実施例におけるＦＥＲ隠蔽技術は、ＡＣＥＬＰタイプの符号器上で例示される。それらは、しかしながら、ＬＰ合成フィルタを通して励振信号をフィルタ処理することにより合成信号が生成される、あらゆる音声コーデックに容易に適用され得る。隠蔽方法は、バックグラウンドノイズの推定されたパラメータへの、信号エネルギー及びスペクトル包絡線の収束として集約され得る。信号の周期性はゼロに収束している。収束のスピードは、最後の良好な受信フレームクラスのパラメータ、及び連続して消去されたフレームの数に依存していると共に、減衰係数αにより制御される。係数αは、無声クラスのフレームに対するＬＰフィルタの安定性に更に依存している。一般的に、もし最後の良好な受信フレームが安定したセグメントにある場合、その収束は遅く、もしそのフレームが遷移セグメントにある場合、その収束は早い。“α”の値は表５に集約される。

安定係数“θ”は、隣接するＬＰフィルタの間の距離測定に基づいて計算される。ここで、係数θは、より大きなθの値がより安定した信号に対応し、ＩＳＦ（Immittance Spectral Frequencies：イミッタンススペクトル周波数）距離測定に関連づけられると共に、それは“0≦θ≦1”に拘束される。これは、孤立したフレーム消失が安定した無声のセグメントの中で発生するとき、エネルギー及びスペクトル包絡線の変動が減少することになる。

信号クラスは、消去されたフレームの処理の間は変わらないままであり、すなわちそのクラスは最後の良好な受信フレームと同じ状態を維持する。

「励振の周期的な部分の組立」
正しく受信された無声クラスのフレームの後に続く消去されたフレームの隠蔽に対して、励振信号の周期的な部分は生成されない。正しく受信された無声クラス以外のフレームの後に続く消去されたフレームの隠蔽に対して、励振信号の周期的な部分は、前のフレームの最後のピッチ期間を繰り返すことにより組み立てられる。もし、それが良好なフレームの後で最初に消去されたフレームの場合、このピッチパルス（pitch pulse）は最初にローパスフィルタ処理される。使用されるフィルタは、フィルタ係数が“0.18”，“0.64”，及び“0.18”に等しい、単純な３タップ線形位相ＦＩＲフィルタである。もし、有声化情報が利用可能である場合、そのフィルタは、有声化情報に依存して動的にカットオフ周波数が選択され得る。

最後のピッチパルスを選択するために使用されると共に、従って隠蔽の間に使用されるピッチ期間“T_C”は、ピッチの倍数（multiples）またはピッチの約数（submultiples）が回避または減少され得るように定義される。次式の論理は、ピッチ期間“T_C”を決定する際に使用される。

ここで、“T₃”は最後の良好な受信フレームの４番目のサブフレームの丸められたピッチ期間であると共に、“T_S”は統一のとれたピッチ推定による最後の良好に安定した有声のフレームの４番目のサブフレームの丸められたピッチ期間である。安定した有声のフレームは、ここでは、有声タイプ（有声遷移クラス、有声クラス、頭子音クラス）のフレームにより先行される有声クラスのフレームとして定義される。ピッチの統一性は、この実施において、閉ループピッチ推定値が適度に近いか、すなわち最後のサブフレームのピッチと前のフレームの最後のサブフレームのピッチとの間の比率、及び２番目のサブフレームのピッチと前のフレームの最後のサブフレームのピッチとの間の比率が、それぞれ“(0.7, 1.4)”の区間中にあるどうかを調査することにより証明される。

ピッチ期間“T_C”のこの決定は、最後の良好なフレームの終わりにおけるピッチ、及び最後の安定したフレームのピッチが相互に近い場合、最後の良好なフレームのピッチが使用されることを意味する。もしそうでなければ、このピッチは信頼できないと考えられると共に、有声の頭子音における誤ったピッチ推定値の影響を回避するために、最後の安定したフレームのピッチが代りに使用される。この論理は、しかしながら、過去における最後の安定したセグメントがさほど遠くない場合に限り意味をなす。従って、計数値“T_cnt”は、最後の安定したセグメントの影響の範囲を制限する値として定義される。もし“T_cnt”が“３０”より大きいか、または“３０”に等しい場合、すなわち最後の“T_S”の更新以降少なくとも３０フレームある場合、最後の良好なフレームのピッチが系統的に使用される。安定したセグメントが検出され、かつ“T_S”が更新されるたびに、“T_cnt”は“０”にリセットされる。期間“T_C”は、その場合には、全ての消去されたブロックに対する隠蔽の間、一定に維持される。

前のフレームの励振の最後のパルスが周期的部分の組立のために使用されるので、その利得は、隠蔽されたフレームの始まりにおいて、だいたい修正されると共に“１”に設定され得る。その利得は、その場合には、フレームの終わりの、または終わりにおける値に到達するように、サンプル毎にフレームの全体にわたって直線的に減衰される。

有声のセグメントのエネルギー発生を考慮に入れるために、有声クラス及び頭子音クラスのフレームの後に続く消失に関してそれらは修正されるということを除いて、“α”の値は表５に相当する。この発生は、最後の良好なフレームにおける各サブフレームのピッチ励振利得値（pitch excitation gain values）を使用することにより、いくらか拡大することが推定され得る。一般的に、もしこれらの利得が“１”を超えている場合、信号エネルギーは増加しており、もしそれらが“１”未満である場合、そのエネルギーは減少している。αは、従って次式のように計算された補正係数“f_b”を乗算される。

ここで、“b(0)”，“b(1)”，“b(2)”，及び“b(3)”は、最後の正しく受信されたフレームの４つのサブフレームのピッチ利得である。“f_b”の値は、励振の周期的な部分を増減するために使用される前に、“0.98”と“0.85”との間にクリップ（clip）される。このようにして、強いエネルギーの増加及び減少が回避される。

正しく受信された無声クラス以外のフレームの後に続く消去されたフレームに関して、励振バッファは、励振のこの周期的な部分のみにより更新される。この更新は、次のフレームにおいてピッチコードブック励振を組み立てるために使用されることになる。

「励振のランダム（不規則）な部分の組立」
励振信号の新規(非周期的な)部分は、ランダムに生成される。それは、ランダムノイズとして、またはランダムに生成されたベクトルインデックスを有するＣＥＬＰの新規コードブックを使用することにより、生成され得る。本実施例においては、およそ一定の配分を有する単純なランダム信号発生器が使用された。新規利得（innovation gain）を調整する前に、ランダムに生成された新規部分は、ここではサンプル当たりの単位的なエネルギーに固定されたいくらかの基準値に増減される。

消去されたブロックの始まりにおいて、新規利得“g_S”は、最後の良好なフレームの各サブフレームの新規励振利得（innovation excitation gains）を使用することにより、次式のように初期化される。

ここで、“g(0)”、“g(1)”、“g(2)”、及び“g(3)”は、最後の正しく受信されたフレームにおける４個のサブフレームの固定のコードブック利得、または新規利得である。励振のランダム部分の減衰方法は、ある程度ピッチ励振の減衰とは異なる。その理由は、ランダム励振が無音区間疑似背景雑音発生機能の励振エネルギーへ収束している一方、ピッチ励振（従って、励振の周期性）が“０”に収束していることである。新規利得の減衰は、次式のように実行される。

ここで、“g_S ¹”（以下、本翻訳文では、下付き文字“ｓ”の右横に上付き文字“１”が書かれた場合、下付き文字“ｓ”の上部に上付き文字“１”があるものとする。）は、次のフレームの始まりにおける新規利得であり、“g_S ⁰”（以下、本翻訳文では、下付き文字“ｓ”の右横に上付き文字“０”が書かれた場合、下付き文字“ｓ”の上部に上付き文字“０”があるものとする。）は、現在のフレームの始まりにおける新規利得である。また“g_n”は、無音区間疑似背景雑音発生の間に使用される励振利得（innovative gain）であり、“α”は表５のように定義される。同様に、周期的な励振の減衰に対して、その利得は、“g_S ⁰”で始まり次のフレームの始まりにおいて達成される“g_S ¹”の値へ進むように、サンプル毎にこのようにフレームの全体にわたって直線的に減衰される。

最終的に、もし最後の良好な（正しく受信された、または消去されなかった）受信フレームが無声クラスと異なる場合、新規励振（innovation excitation）は、係数“-0.0125”,“-0.109”,“0.7813”,“-0.109”,“-0.0125”を備える線形位相ＦＩＲハイパス（高域通過）フィルタを通してフィルタ処理される。有声のセグメントの間の雑音成分の量を減少するために、これらのフィルタ係数は、（１）式において定義されたような有声化係数“r_V”で表された(0.75-0.25r_V)に等しい適応係数を乗算される。励振のランダムな部分は、その場合には、全部の励振信号を形成するために、適応性のある励振に加算される。

もし、最後の良好なフレームが無声クラスである場合、新規励振のみが使用されると共に、それは更に係数“0.8”により減衰される。この場合、励振の周期的な部分が利用可能ではないので、過去の励振バッファは新規励振により更新される。

「スペクトル包絡線の隠蔽、合成、及び更新」
復号化された音声を合成するためには、ＬＰフィルタパラメータが取得されなければならない。スペクトル包絡線は、環境雑音の推定された包絡線へ徐々に動かされる。ここでは、次式のようなＬＰパラメータのＩＳＦ表示が用いられる。

（２５）式において、“I¹(j)”は、現在のフレームのＪ番目のＩＳＦの値であり、“I⁰(j)”は、前のフレームのＪ番目のＩＳＦの値であり、“Iⁿ(j)”は、推定された無音区間疑似背景雑音の包絡線のＪ番目のＩＳＦの値であり、更に“p”はＬＰフィルタの係数である。

合成された音声は、ＬＰ合成フィルタを通して励振信号をフィルタ処理することにより取得される。フィルタ係数は、ＩＳＦ表示から計算されると共に、正常な符号化処理中のように、各サブフレーム毎に（フレーム当たり４回）補間が実行される。

新規利得量子化器、及びＩＳＦ量子化器の双方が予測を使用するので、通常動作が再開された後でそれらのメモリが更新されることはない。この影響を減少させるために、量子化器のメモリ（quantizers’memories）は、各消去されたフレームの終わりで推定されると共に更新される。

「消失の後の通常動作の回復」
フレームの消去されたブロック後の回復の問題は、基本的に全ての現代の音声符号器に事実上使用される強力な予測が原因である。特に、ＣＥＬＰタイプの音声符号器は、現在のフレームの励振を符号化するために過去の励振信号を使用しているという事実（長期またはピッチの予測）により、有声の音声に対するそれらの高い信号対雑音比を達成する。同様に、大部分の量子化器（ＬＰの量子化器、利得の量子化器）も予測を利用する。

「人工の頭子音の組立」
ＣＥＬＰ符号器における長期予測の使用に関連した最も複雑な状況は、有声の頭子音が失われる時である。失われた頭子音は、有声の音声の頭子音が、消去されたブロックの間のどこかで発生したことを意味する。この場合、最後の良好な受信フレームは無声であり、従って周期的励振は励振バッファの中には見つけられない。消去されたブロック後の最初の良好なフレームは、しかしながら有声であり、符号器における励振バッファは、非常に周期的であると共に、適応性のある励振は、この周期的な過去の励振を使用して符号化された。励振のこの周期的な部分が復号器において完全に欠けているので、この損失から回復するのにはいくらかのフレームを要し得る。

頭子音クラスのフレームが失われる（すなわち、有声クラスの良好なフレームは消失の後で到着するが、しかし図６において示されたように、消失の前の最後の良好なフレームが無声クラスであった）場合、失われた頭子音を人工的に復元すると共に、有声合成のきっかけを与えるために特別な技術が使用される。失われた頭子音の後の最初の良好なフレームの始まりにおいて、励振の周期的な部分は、ピッチ期間により分離されたパルスのローパスフィルタ処理された周期的な列として人工的に組み立てられる。本実施例において、ローパスフィルタは、インパルス応答h_low=｛-0.0125、0.109、0.7813、0.109、-0.0125｝を有する単純な線形位相ＦＩＲフィルタである。しかしながら、そのフィルタは、もし有声化情報が利用可能であるならば、有声化情報に対応してカットオフ周波数が動的に選択されることもあり得る。励振の新規部分は、標準のＣＥＬＰの復号化処理を用いて組み立てられる。元の信号との同時性がいずれにせよ失われたので、新規コードブックの入力もまたランダムに選択されることもあり得る（または、新規部分自体はランダムに生成されることもあり得る。）。

実際には、少なくとも１つの完全なピッチ期間がこの方法により構成されると共に、その方法が現在のサブフレームの終りまで続けられるように、人工の頭子音の長さは制限される。その後で、正規のＡＣＥＬＰ処理が再開される。検討されたピッチ期間は、人工の頭子音の復元が使用される全てのサブフレームの、復号化されたピッチ期間の丸められた平均値である。ローパスフィルタ処理されたインパルス列は、ローパスフィルタのインパルス応答を適応性のある（予めゼロに初期化される）励振バッファに配置することにより実現する。第１のインパルス応答は、フレームの始まりについての（ビットストリーム内で伝送される）量子化された位置の中心に来るように配置され、残りのインパルスは、人工の頭子音の復元により影響を受けた最後のサブフレームの終りまで、平均化されたピッチの距離で配置されることになる。もし、利用可能な帯域幅が最初の声門音パルスの位置を伝送するのに十分ではない場合、第１のインパルス応答は、現在のフレームの始まりの後のピッチ期間の半分あたりに配置され得る。

一例として、６４サンプルの長さのサブフレームについて、第１及び第２のサブフレームにおけるピッチ期間が“p(0)=70.75”及び“p(1)=71”であるとする。これは６４のサブフレームサイズより大きいので、その場合には、人工の頭子音は、最初の２つのサブフレーム期間中に組み立てられると共に、ピッチ期間は、最も近い整数にまるめられた２つのサブフレームのピッチの平均値、すなわち“71”に等しくなることになる。最後の２つのサブフレームは、通常のＣＥＬＰの復号器により処理されることになる。

人工の頭子音の励振の周期的な部分のエネルギーは、その場合には、量子化されると共に伝送された、（１６（式）及び（１７）式として定義された）ＦＥＲの隠蔽についてのエネルギーに対応する利得により増減されると共に、ＬＰ合成フィルタの利得により分割される。ＬＰ合成フィルタ利得は、次式のように計算される。

ここで、h(i)はＬＰ合成フィルタのインパルス応答である。最終的に、人工の頭子音の利得は、周期的な部分に“0.96”を乗算することにより減少される。代りに、もし、同様に有声化情報も伝送するための利用可能な帯域幅があった場合、この値は有声化に対応することもあり得る。代りに、この発明の本質から方向を変えずに、人工の頭子音は、復号器サブフレームループ（decoder subframe loop）に入力される前に、過去の励振バッファにおいて同様に組み立てられ得る。これは人工の頭子音の周期的な部分を組み立てるための特別な処理を回避するという利点を有すると共に、正規のＣＥＬＰ復号化がその代りに使用されることもあり得る。

人工の頭子音の組立の場合に、出力音声合成のためのＬＰフィルタは補間されない。その代りに、受信されたＬＰパラメータは、全フレームの合成に対して使用される。

「エネルギー制御」
フレームの消去されたブロック後の回復における最も重要な処理は、合成された音声信号のエネルギーを適切に制御することである。合成エネルギーの制御は、現代の音声符号器において通常使用される強力な予測のために必要とされる。エネルギー制御は、消去されたフレームのブロックが有声のセグメントの間に発生するときが最も重要である。フレームの消失が有声のフレームの後で到着するとき、最後の良好なフレームの励振は、一般的にある減衰方法による隠蔽の間に使用される。新しいＬＰフィルタが消失の後の最初の良好なフレームにより到着するとき、励振エネルギーと新しいＬＰ合成フィルタの利得との間に食い違いがある傾向がある。新しい合成フィルタは、最後に合成された消去されたフレームのエネルギー、更には元の信号エネルギーとも非常に異なるエネルギーを有する合成信号を生成する傾向がある。

消去されたフレーム後の最初の良好なフレーム期間のエネルギー制御は、以下のようにに集約され得る。合成された信号は、最初の良好なフレームの始まりと最後に消去されたフレームの終わりとにおいて、そのエネルギーが合成された音声信号のエネルギーと類似すると共に、大きすぎるエネルギーの増加を防止しながら、フレームの終わりに向けて伝送されたエネルギーに収束するように増減される。

エネルギー制御は、合成された音声信号の領域において実行される。もし、そのエネルギーが音声領域において制御されるとしても、次のフレームのための長期の予測メモリとして役立つように、励振信号は増減されなければならない。その合成は、その場合には、遷移を円滑にするためにやり直される。“g₀”は、現在のフレームにおける最初のサンプルを増減するために使用される利得を示すものとし、“g₁”は、フレームの最後において使用される利得を示すものとする。励振信号は、その場合には次式のように増減される。

ここで、“u_s(i)”は増減された励振であり、“u(i)”は増減される前の励振であり、“L”はフレームの長さであると共に、“g_AGC(i)”は“g_AGC(-1)=g₀”に初期化され、“g₀”から始まって“g₁”へ指数的に収束する利得であり、“f_AGC”は、この実施例では“0.98”の値に設定される減衰係数である。

この値は、一方では前の（消去された）フレームからスムーズに移行し、もう一方では現在のフレームの最後のピッチ期間をできる限り正しい（伝送された）値に増減するように、双方の妥協点として実験的に求められた。伝送されたエネルギー値は、フレームの終わりにおいて、ピッチに同調して推定されるので、これは重要である。利得“g_O”及び利得“g₁”は、次式のように定義される。

ここで、“E_-1”は前の（消去された）フレームの終わりにおいて計算されたエネルギーであり、“E₀”は現在の（回復された）フレームの始まりにおけるエネルギーであり、“E₁”は現在のフレームの終わりにおけるエネルギーであると共に、“E_q”は量子化された、符号器において（１６）式及び（１７）式から計算され現在のフレームの終わりにおいて伝送されたエネルギー情報である。それらが合成された音声信号“s'”上で計算されることを除いて、“E_-1”及び“E₁”は同様に計算される。“E_-1”は、隠蔽ピッチ期間（concealment pitch period）“T_C”を使用することによりピッチに同調して計算されると共に、“E₁”は、最後のサブフレームの丸められたピッチ“T₃”を使用する。“E₀”は、最初のサブフレームの丸められたピッチの値“T₀”を使用することにより同様に計算され、有声クラス及び頭子音クラスのフレームについて、（１６）式及び（１７）式は次式のように修正される。

“t_E”は、ピッチが６４サンプルより短いならば、丸められたピッチの遅れ、またはその長さの２倍に等しい。他のフレームについて、“t_E”はフレームの長さの半分に等しく、エネルギーは次式のように定義される。

強いエネルギーを防止するために、利得“g₀”及び利得“g₁”は、更に最大の許容値に制限される。この値は、本実施例では“1.2”に設定された。

フレーム消失の隠蔽及び復号器の回復を処理することは、フレーム消失の後に続いて受信された最初の消去されなかったフレームのＬＰフィルタの利得が前記フレーム消失の間に消去された最後のフレームのＬＰフィルタの利得より高い時、受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、以下の関係を使用して、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得へ調整することを有する。

もし、“E_q”が伝送されない場合、“E_q”は“E₁”に設定される。しかしながら、もしその消失が有声の音声セグメントの間に起こる（すなわち、消失の前の最後の良好なフレーム、及び消失の後の最初の良好なフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類される）ならば、前述のように、励振信号エネルギーとＬＰフィルタ利得との間の可能性のある食い違いのために、更なる事前対策が講じられなければならない。フレーム消失の後に続いて受信された最初の消去されなかったフレームのＬＰフィルタの利得が、そのフレーム消失の間に消去された最後のフレームのＬＰフィルタの利得より高いとき、特に危険な状況が発生する。その特別な場合において、受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーは、次式の関係を使用して、受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整される。

ここで、“E_LP0”は消失の前の最後の良好なフレームにおけるＬＰフィルタのインパルス応答のエネルギーであると共に、“E_LP1”は消失の後の最初の良好なフレームにおけるＬＰフィルタのエネルギーである。本実施例では、フレームにおける最後のサブフレームのＬＰフィルタが使用される。最終的に、この場合（“E_q”の情報が伝送されない有声セグメントの消失の場合）、“E_q”の値は“E_-1”の値に制限される。

以下の例外では、音声信号中の遷移に関連づけられた全てが更に“g₀”の計算を上書きする。人工の頭子音が現在のフレームに使用されるならば、頭子音のエネルギーを徐々に増加させるために、“g₀”は“0.5g₁”に設定される。

頭子音クラスとして分類された、消失の後の最初の良好なフレームの場合は、利得“g₀”が利得“g₁”より高くなることが防止される。この事前対策は、（まだ少なくとも部分的には恐らく無声である)フレームの始まりにおける上向きの利得調整が、フレームの終わりにおいて有声の頭子音を増幅することを防止するために講じられる。

最終的に、有声から無声への遷移の間（すなわち、最後の良好なフレームが有声遷移クラス、有声クラス、または頭子音クラスとして分類され、かつ現在のフレームが無声クラスとして分類される）、または、無効な音声期間から有効な音声期間への遷移の間（最後の良好な受信フレームが疑似背景雑音として符号化され、かつ現在のフレームが有効な音声として符号化される）、“g₀”は“g₁”に設定される。

有声のセグメントの消失の場合には、消失の後の最初の良好なフレームの後に続くフレームにおいてもまた、誤ったエネルギーの問題が発生し得る。上述のように、最初の良好なフレームのエネルギーが調整されたとしても、これは起こり得る。この問題を弱めるために、エネルギー制御は有声のセグメントの終りまで続けられ得る。

本発明は、上述の説明において、その実施例に関連して説明されたが、本実施例は、当然のことながら、対象とする発明の範囲及び精神からはずれることなく、付加されたクレームの範囲内で修正され得る。

本発明による音声符号化復号化装置の適用例を説明する音声通信システムのブロック図である。広帯域符号化装置（ＡＭＲ−ＷＢ符号器）の一例のブロック図である。広帯域復号化装置（ＡＭＲ−ＷＢ復号器）の一例のブロック図である。単一の前処理モジュールに集められたダウンサンプラモジュールと、ハイパスフィルタモジュールと、プリエンファシスフィルタモジュール、及び単一の閉ループピッチ及び新規コードブック検索モジュールに集められた閉ループピッチ検索モジュールと、ゼロ入力応答計算器モジュールと、インパルス応答生成器モジュールと、新規励振検索モジュールと、メモリ更新モジュールとを備える、図２のＡＭＲ−ＷＢ符号器を簡略化したブロック図である。本発明の実施例に関するモジュールが加えられた、図４のブロック図を拡張した図である。人為的な頭子音が組み立てられるときの状況を説明する図である。消失の隠蔽のためのフレーム分類の状態遷移の実施例を示す図である。

符号の説明

１００音声通信システム
１０１通信チャネル
１０２マイクロホン
１０３アナログ音声信号
１０４アナログ−デジタル（A/D）変換器
１０５デジタル音声信号
１０６音声符号器
１０７信号符号化パラメータ
１０８チャネル符号器
１０９チャネル復号器
１１０音声復号器
１１１受信されたビットストリーム
１１２チャネル復号器１０９から受信したビットストリーム
１１３ディジタル合成された音声信号
１１４アナログ形式信号
１１５デジタル−アナログ（D/A）変換器
１１６ラウドスピーカーユニット
２００符号化装置
２０１ダウンサンプラ
２０２ハイパスフィルタ
２０３プリエンファシスフィルタ
２０４ＬＰ分析、量子化及び補間モジュール
２０５知覚重み付けフィルタ
２０６開ループピッチ検索モジュール
２０７閉ループピッチ検索モジュール
２０８ゼロ入力応答計算器
２０９インパルス応答生成器
２１０新規励振検索モジュール
２１１メモリ更新モジュール
２１２入力音声信号
２１３マルチプレクサ（ＭＵＸ）
３００音声復号器
３０１ピッチコードブック
３０２ローパスフィルタ
３０３メモリ
３０４有声化係数生成器
３０５ピッチ拡張器（新規フィルタ）
３０６ＬＰ合成フィルタ
３０７ディエンファシスフィルタ
３０８ハイパスフィルタ
３０９オーバサンプラ
３１０高域周波数生成モジュール
３１７デマルチプレクサ（ＤＥＭＵＸ）
３１８新規コードブック
３２１加算器
３２２デジタル入力信号
３２３標本化音声出力信号
３２４増幅器
３２５量子化された補間ＬＰフィルタ係数
４００ＡＭＲ−ＷＢ符号器
４０１前処理モジュール
４０２閉ループピッチ及び新規コードブック検索モジュール
５００スペクトル解析及びスペクトルエネルギー推定モジュール
５０１ノイズ推定及び正規化相関値修正モジュール
５０３スペクトル傾斜値推定モジュール
５０４ＳＮＲ計算モジュール
５０５信号分類モジュール
５０６エネルギー推定及び量子化モジュール
５０７最初の声門音パルス検索及び量子化モジュール
５０８ゼロ交差計算モジュール

Claims

符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための方法であって、
符号器において隠蔽／回復パラメータを決定する過程と、
符号器において決定された隠蔽／回復パラメータを復号器に伝送する過程と、
復号器において、受信された隠蔽／回復パラメータに応答して、消失フレームの隠蔽及び復号器の回復を処理する過程と
を有することを特徴とする方法。
符号器において、前記隠蔽／回復パラメータを復号器に伝送する前に、隠蔽／回復パラメータを量子化する過程を更に有する
ことを特徴とする請求項１に記載の方法。
符号器において、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループの中から選択された隠蔽／回復パラメータを決定する過程を有する
ことを特徴とする請求項１に記載の方法。
位相情報パラメータの決定が、符号化された音響信号の全てのフレームにおいて最初の声門音パルスの位置を検索する過程を有する
ことを特徴とする請求項３に記載の方法。
位相情報パラメータの決定が、
符号器において、最初の声門音パルスの形状、正負の符号、及び振幅を符号化する過程と、
符号化された形状、正負の符号、及び振幅を符号器から復号器へ伝送する過程と
を更に有する
ことを特徴とする請求項４に記載の方法。
最初の声門音パルスの位置を検索する過程が、
最初の声門音パルスをピッチ期間内部の最大振幅のサンプルとして測定する過程と、
ピッチ期間内部の最大振幅のサンプルの位置を量子化する過程と
を有することを特徴とする請求項４に記載の方法。
音響信号が音声信号であると共に、
符号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有する
ことを特徴とする請求項１に記載の方法。
連続するフレームを分類する過程が、無声のフレームである全てのフレーム、有効な音声がない全てのフレーム、及び無声となる傾向がある終わりを有する全ての有声のオフセットフレームを無声クラスと分類する過程を有する
ことを特徴とする請求項７に記載の方法。
連続するフレームを分類する過程が、有声のフレームとして処理するには短すぎるかまたは確立されていない有声の頭子音の可能性がある終わりを有する全ての無声のフレームを無声遷移クラスとして分類する過程を有する
ことを特徴とする請求項７に記載の方法。
連続するフレームを分類する過程が、急激に特性が変化する有声のフレーム及びフレーム全体に続いている有声のオフセットを含む、他と比較して弱い有声の特性を備える全ての有声のフレームを有声遷移クラスとして分類する過程を有し、
有声遷移クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
ことを特徴とする請求項７に記載の方法。
連続するフレームを分類する過程が、安定した特性を備える全ての有声のフレームを有声クラスとして分類する過程を有し、
有声クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
ことを特徴とする請求項７に記載の方法。
連続するフレームを分類する過程が、無声クラス、または無声遷移クラスとして分類されたフレームの後に続く、安定した特性を備える全ての有声のフレームを頭子音クラスとして分類する過程を有する
ことを特徴とする請求項７に記載の方法。
少なくとも次の、正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの一部に基づいて、符号化された音響信号の連続するフレームの分類を決定する過程を有する
ことを特徴とする請求項７に記載の方法。
連続するフレームの分類を決定する過程が、
正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータに基づいてメリットの数値を計算する過程と、
分類を決定するためにメリットの数値をしきい値と比較する過程と
を有することを特徴とする請求項１３に記載の方法。
音声信号の現在の重み付けされたバージョンと前記音声信号の過去の重み付けされたバージョンとに基づいて、正規化された相関値パラメータを計算する過程を有する
ことを特徴とする請求項１３に記載の方法。
スペクトルの傾斜値パラメータを、低域周波数に集中したエネルギーと高域周波数に集中したエネルギーとの間の比率として推定する過程を有する
ことを特徴とする請求項１３に記載の方法。
信号対雑音比パラメータを、現在のフレームの音声信号の重み付けされたバージョンのエネルギーと、現在のフレームの音声信号の重み付けされたバージョンと前記現在のフレームの合成された音声信号の重み付けされたバージョンとの間のエラーのエネルギーとの間における比率として推定する過程を有する
ことを特徴とする請求項１３に記載の方法。
現在のフレームの前半、現在のフレームの後半、及び先読み部分に対する開ループピッチ推定値に応答して、ピッチ安定性パラメータを計算する過程を有する
ことを特徴とする請求項１３に記載の方法。
相対的なフレームエネルギーパラメータを、現在のフレームのエネルギーと、有効な音声のフレームにおけるエネルギーの長期間の平均値との間の差異として計算する過程を有する
ことを特徴とする請求項１３に記載の方法。
ゼロ交差パラメータを、音声信号の正負の符号が第１の極性から第２の極性に変わる回数として決定する過程を有する
ことを特徴とする請求項１３に記載の方法。
次のフレームにおける音声信号の動きを考慮にいれるために、利用可能な先読み部分を使用して、少なくとも正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの内の１つを計算する過程を有する
ことを特徴とする請求項１３に記載の方法。
音声アクティビティ検出フラグに基づいて、同様に符号化された音響信号の連続するフレームの分類を決定する過程を更に有する
ことを特徴とする請求項１３に記載の方法。
音響信号が音声信号であると共に、
符号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
隠蔽／回復パラメータを決定する過程が、
有声クラスまたは頭子音クラスとして分類されたフレームに対する信号エネルギーの最大値に関してエネルギー情報パラメータを計算する過程と、
他のフレームに対するサンプル毎の信号エネルギーの平均値に関してエネルギー情報パラメータを計算する過程とを有する
ことを特徴とする請求項３に記載の方法。
符号器において隠蔽／回復パラメータを決定する過程が、有声化情報パラメータを計算する過程を有する
ことを特徴とする請求項１に記載の方法。
音響信号が音声信号であると共に、
符号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを分類する過程を有し、
前記方法が、
正規化された相関値パラメータに基づいて符号化された音響信号の連続するフレームを分類する過程と、
有声化情報パラメータを計算する過程とを有し、
前記有声化情報パラメータを計算する過程が、正規化された相関値パラメータに基づいて有声化情報パラメータを推定する過程を有する
ことを特徴とする請求項２４に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、
フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、ＬＰフィルタの励振信号の非周期的な部分を生成する過程と、
フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりＬＰフィルタの励振信号の周期的な部分を生成する過程と
を有することを特徴とする請求項１に記載の方法。
ＬＰフィルタの励振信号の周期的な部分を組み立てる過程が、前のフレームの繰り返された最後のピッチ期間をローパスフィルタを通してフィルタ処理する過程を有する
ことを特徴とする請求項２６に記載の方法。
隠蔽／回復パラメータを決定する過程が有声化情報パラメータを計算する過程を有し、
ローパスフィルタがカットオフ周波数を有し、
励振信号の周期的な部分を組み立てる過程が有声化情報パラメータに関してカットオフ周波数を動的に調整する過程を有する
ことを特徴とする請求項２７に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程を有する
ことを特徴とする請求項１に記載の方法。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、ランダム雑音を生成する過程を有する
ことを特徴とする請求項２９に記載の方法。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、新規コードブックのベクトルインデックスをランダムに生成する過程を有する
ことを特徴とする請求項２９に記載の方法。
音響信号が音声信号であると共に、
隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、
・もし最後に正しく受信されたフレームが無声クラスと異なる場合、励振信号の新規部分をハイパスフィルタを通してフィルタ処理する過程と、
・もし最後に正しく受信されたフレームが無声クラスである場合、励振信号の新規部分のみを使用する過程と
を更に有することを特徴とする請求項２９に記載の方法。
音響信号が音声信号であると共に、
符号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元する過程を有する
ことを特徴とする請求項１に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、通常の復号化処理により励振信号の新規部分を組み立てる過程を更に有する
ことを特徴とする請求項３３に記載の方法。
励振信号の新規部分を組み立てる過程が、新規コードブックの入力をランダムに選択する過程を有する
ことを特徴とする請求項３４に記載の方法。
失われた頭子音を人工的に復元する過程が、少なくとも１つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限する過程を有する
ことを特徴とする請求項３３に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のＣＥＬＰ処理を再開する過程を更に有する
ことを特徴とする請求項３６に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、復号器により生成された、合成された音響信号のエネルギーを制御する過程を有し、
合成された音響信号のエネルギーを制御する過程が、
フレーム消失の後に続いて受信された最初の消去されなかったフレームの始まりにおける前記合成された音響信号のエネルギーを、前記フレーム消失の間に消去された最後のフレームの終わりにおける前記合成信号のエネルギーと類似させるために、合成された音響信号を増減する過程と、
最初の消去されなかったフレームにおける合成された音響信号のエネルギーを、エネルギーの増加を制限しながら、前記受信された最初の消去されなかったフレームの終わりに向けて、受信されたエネルギー情報パラメータに対応するエネルギーに収束させる過程と
を有する
ことを特徴とする請求項３に記載の方法。
エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのＬＰフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのＬＰフィルタの利得より高いとき、受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整する過程を有する
ことを特徴とする請求項３に記載の方法。
受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整する過程が、次の“数１”の関係を使用する過程を有し、

ここで、“E₁”は現在のフレームの終わりにおけるエネルギーであり、“E_LPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーであり、“E_LP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーである
ことを特徴とする請求項３９に記載の方法。
音響信号が音声信号であると共に、
符号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後で受信された最初の消去されなかったフレームが頭子音クラスに分類されるとき、合成された音響信号を増減するために使用される利得を所定値に制限する過程を有する
ことを特徴とする請求項３８に記載の方法。
音響信号が音声信号であると共に、
符号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
前記方法が、
・有声のフレームから無声のフレームへの遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが有声遷移クラス、有声クラス、または頭子音クラスとして分類されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが無声クラスとして分類された場合、及び
・無効な音声期間から有効な音声期間への遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが疑似背景雑音として符号化されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが有効な音声として符号化されるとき、
フレーム消失の後で受信された最初の消去されなかったフレームの始まりにおいて合成された音響信号を増減するために使用される利得を、前記受信された最初の消去されなかったフレームの終わりで使用される利得に等しくさせる過程を有する
ことを特徴とする請求項３８に記載の方法。
信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための方法であって、
復号器において信号符号化パラメータから隠蔽／回復パラメータを決定する過程と、
復号器において、決定された隠蔽／回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理する過程と
を有することを特徴とする方法。
次の、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループから選択された隠蔽／回復パラメータを、復号器において決定する過程を有する
ことを特徴とする請求項４３に記載の方法。
音響信号が音声信号であると共に、
復号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有する
ことを特徴とする請求項４３に記載の方法。
復号器において隠蔽／回復パラメータを決定する過程が、有声化情報パラメータを計算する過程を有する
ことを特徴とする請求項４３に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、
フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、ＬＰフィルタの励振信号の非周期的な部分を生成する過程と、
フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりＬＰフィルタの励振信号の周期的な部分を生成する過程と
を有することを特徴とする請求項４３に記載の方法。
励振信号の周期的な部分を組み立てる過程が、前のフレームの繰り返された最後のピッチ期間をローパスフィルタを通してフィルタ処理する過程を有する
ことを特徴とする請求項４７に記載の方法。
復号器において隠蔽／回復パラメータを決定する過程が有声化情報パラメータを計算する過程を有し、
ローパスフィルタがカットオフ周波数を有し、
ＬＰフィルタの励振信号の周期的な部分を組み立てる過程が有声化情報パラメータに関してカットオフ周波数を動的に調整する過程を有する
ことを特徴とする請求項４８に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程を有する
ことを特徴とする請求項４３に記載の方法。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、ランダム雑音を生成する過程を有する
ことを特徴とする請求項５０に記載の方法。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、新規コードブックのベクトルインデックスをランダムに生成する過程を有する
ことを特徴とする請求項５０に記載の方法。
音響信号が音声信号であると共に、
復号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成する過程が、
・もし最後に受信された消去されなかったフレームが無声クラスと異なる場合、ＬＰフィルタの励振信号の新規部分をハイパスフィルタを通してフィルタ処理する過程と、
・もし最後に受信された消去されなかったフレームが無声クラスである場合、ＬＰフィルタの励振信号の新規部分のみを使用する過程と
を更に有することを特徴とする請求項５０に記載の方法。
音響信号が音声信号であると共に、
復号器における隠蔽／回復パラメータの決定が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類する過程を有し、
フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元する過程を有する
ことを特徴とする請求項５０に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、通常の復号化処理によりＬＰフィルタの励振信号の新規部分を組み立てる過程を更に有する
ことを特徴とする請求項５４に記載の方法。
ＬＰフィルタの励振信号の新規部分を組み立てる過程が、新規コードブックの入力をランダムに選択する過程を有する
ことを特徴とする請求項５５に記載の方法。
失われた頭子音を人工的に復元する過程が、少なくとも１つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限する過程を有する
ことを特徴とする請求項５４に記載の方法。
フレーム消失の隠蔽及び復号器の回復を処理する過程が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のＣＥＬＰ処理を再開する過程を更に有する
ことを特徴とする請求項５７に記載の方法。
エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
フレーム消失の隠蔽及び復号器の回復を処理する過程が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのＬＰフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのＬＰフィルタの利得より高いとき、次の“数２”の関係を使用して、受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整する過程を有し、

ここで、“E₁”は現在のフレームの終わりにおけるエネルギーであり、“E_LPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーであり、“E_LP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーである
ことを特徴とする請求項４４に記載の方法。
符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための装置であって、
符号器において隠蔽／回復パラメータを決定するための手段と、
符号器において決定された隠蔽／回復パラメータを復号器に伝送するための手段と、
復号器において、受信された隠蔽／回復パラメータに応答して、消失フレームの隠蔽及び復号器の回復を処理するための手段と
を有することを特徴とする装置。
符号器において、前記隠蔽／回復パラメータを復号器に伝送する前に、隠蔽／回復パラメータを量子化するための手段を更に有する
ことを特徴とする請求項６０に記載の装置。
符号器において、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループの中から選択された隠蔽／回復パラメータを決定するための手段を有する
ことを特徴とする請求項６０に記載の装置。
位相情報パラメータを決定するための手段が、符号化された音響信号の全てのフレームにおいて最初の声門音パルスの位置を検索するための手段を有する
ことを特徴とする請求項６２に記載の装置。
位相情報パラメータを決定するための手段が、
符号器において、最初の声門音パルスの形状、正負の符号、及び振幅を符号化するための手段と、
符号化された形状、正負の符号、及び振幅を符号器から復号器へ伝送するための手段と
を更に有する
ことを特徴とする請求項６３に記載の装置。
最初の声門音パルスの位置を検索するための手段が、
最初の声門音パルスをピッチ期間内部の最大振幅のサンプルとして測定するための手段と、
ピッチ期間内部の最大振幅のサンプルの位置を量子化するための手段と
を有することを特徴とする請求項６３に記載の装置。
音響信号が音声信号であると共に、
符号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有する
ことを特徴とする請求項６０に記載の装置。
連続するフレームを分類するための手段が、無声のフレームである全てのフレーム、有効な音声がない全てのフレーム、及び無声となる傾向がある終わりを有する全ての有声のオフセットフレームを無声クラスと分類するための手段を有する
ことを特徴とする請求項６６に記載の装置。
連続するフレームを分類するための手段が、有声のフレームとして処理するには短すぎるかまたは確立されていない有声の頭子音の可能性がある終わりを有する全ての無声のフレームを無声遷移クラスとして分類するための手段を有する
ことを特徴とする請求項６６に記載の装置。
連続するフレームを分類するための手段が、急激に特性が変化する有声のフレーム及びフレーム全体に続いている有声のオフセットを含む、他と比較して弱い有声の特性を備える全ての有声のフレームを有声遷移クラスとして分類するための手段を有し、
有声遷移クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
ことを特徴とする請求項６６に記載の装置。
連続するフレームを分類するための手段が、安定した特性を備える全ての有声のフレームを有声クラスとして分類するための手段を有し、
有声クラスとして分類されたフレームは、有声遷移クラス、有声クラス、または頭子音クラスとして分類されたフレームのみの後に続く
ことを特徴とする請求項６６に記載の装置。
連続するフレームを分類するための手段が、無声クラス、または無声遷移クラスとして分類されたフレームの後に続く、安定した特性を備える全ての有声のフレームを頭子音クラスとして分類するための手段を有する
ことを特徴とする請求項６６に記載の装置。
少なくとも次の、正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの一部に基づいて、符号化された音響信号の連続するフレームの分類を決定するための手段を有する
ことを特徴とする請求項６６に記載の装置。
連続するフレームの分類を決定するための手段が、
正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータに基づいてメリットの数値を計算するための手段と、
分類を決定するためにメリットの数値をしきい値と比較するための手段と
を有することを特徴とする請求項７２に記載の装置。
音声信号の現在の重み付けされたバージョンと前記音声信号の過去の重み付けされたバージョンとに基づいて、正規化された相関値パラメータを計算するための手段を有する
ことを特徴とする請求項７２に記載の装置。
スペクトルの傾斜値パラメータを、低域周波数に集中したエネルギーと高域周波数に集中したエネルギーとの間の比率として推定するための手段を有する
ことを特徴とする請求項７２に記載の装置。
信号対雑音比パラメータを、現在のフレームの音声信号の重み付けされたバージョンのエネルギーと、現在のフレームの音声信号の重み付けされたバージョンと前記現在のフレームの合成された音声信号の重み付けされたバージョンとの間のエラーのエネルギーとの間における比率として推定するための手段を有する
ことを特徴とする請求項７２に記載の装置。
現在のフレームの前半、現在のフレームの後半、及び先読み部分に対する開ループピッチ推定値に応答して、ピッチ安定性パラメータを計算するための手段を有する
ことを特徴とする請求項７２に記載の装置。
相対的なフレームエネルギーパラメータを、現在のフレームのエネルギーと、有効な音声のフレームにおけるエネルギーの長期間の平均値との間の差異として計算するための手段を有する
ことを特徴とする請求項７２に記載の装置。
ゼロ交差パラメータを、音声信号の正負の符号が第１の極性から第２の極性に変わる回数として決定するための手段を有する
ことを特徴とする請求項７２に記載の装置。
次のフレームにおける音声信号の動きを考慮にいれるために、利用可能な先読み部分を使用して、正規化された相関値パラメータ、スペクトルの傾斜値パラメータ、信号対雑音比パラメータ、ピッチ安定性パラメータ、相対的なフレームエネルギーパラメータ、及びゼロ交差パラメータの内の１つを計算するための手段を有する
ことを特徴とする請求項７２に記載の装置。
音声アクティビティ検出フラグに基づいて、同様に符号化された音響信号の連続するフレームの分類を決定するための手段を更に有する
ことを特徴とする請求項７２に記載の装置。
音響信号が音声信号であると共に、
符号器において隠蔽／回復パラメータを決定する過程が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
隠蔽／回復パラメータを決定するための手段が、
有声クラスまたは頭子音クラスとして分類されたフレームに対する信号エネルギーの最大値に関してエネルギー情報パラメータを計算するための手段と、
他のフレームに対するサンプル毎の信号エネルギーの平均値に関してエネルギー情報パラメータを計算するための手段とを有する
ことを特徴とする請求項６２に記載の装置。
符号器において隠蔽／回復パラメータを決定する過程が、有声化情報パラメータを計算するための手段を有する
ことを特徴とする請求項６０に記載の装置。
音響信号が音声信号であると共に、
符号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを分類するための手段を有し、
前記装置が、
正規化された相関値パラメータに基づいて符号化された音響信号の連続するフレームを分類するための手段と、
有声化情報パラメータを計算するための手段とを有し、
前記有声化情報パラメータを計算するための手段が、正規化された相関値パラメータに基づいて有声化情報パラメータを推定するための手段を有する
ことを特徴とする請求項８３に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、
フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、ＬＰフィルタの励振信号の非周期的な部分を生成するための手段と、
フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりＬＰフィルタの励振信号の周期的な部分を生成するための手段と
を有することを特徴とする請求項６０に記載の装置。
ＬＰフィルタの励振信号の周期的な部分を組み立てるための手段が、前のフレームの繰り返された最後のピッチ期間をフィルタ処理するためのローパスフィルタを有する
ことを特徴とする請求項８５に記載の装置。
隠蔽／回復パラメータを決定するための手段が有声化情報パラメータを計算するための手段を有し、
ローパスフィルタがカットオフ周波数を有し、
励振信号の周期的な部分を組み立てるための手段が有声化情報パラメータに関してカットオフ周波数を動的に調整するための手段を有する
ことを特徴とする請求項８６に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段を有する
ことを特徴とする請求項６０に記載の装置。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、ランダム雑音を生成するための手段を有する
ことを特徴とする請求項８８に記載の装置。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、新規コードブックのベクトルインデックスをランダムに生成するための手段を有する
ことを特徴とする請求項８８に記載の装置。
音響信号が音声信号であると共に、
隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、
・もし最後に正しく受信されたフレームが無声クラスと異なる場合、励振信号の新規部分をフィルタ処理するためのハイパスフィルタと、
・もし最後に正しく受信されたフレームが無声クラスである場合、励振信号の新規部分のみを使用するための手段と
を更に有することを特徴とする請求項８８に記載の装置。
音響信号が音声信号であると共に、
符号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元するための手段を有する
ことを特徴とする請求項６０に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、通常の復号化処理により励振信号の新規部分を組み立てるための手段を更に有する
ことを特徴とする請求項９２に記載の装置。
励振信号の新規部分を組み立てるための手段が、新規コードブックの入力をランダムに選択するための手段を有する
ことを特徴とする請求項９３に記載の装置。
失われた頭子音を人工的に復元するための手段が、少なくとも１つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限するための手段を有する
ことを特徴とする請求項９２に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のＣＥＬＰ処理を再開するための手段を更に有する
ことを特徴とする請求項９５に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、復号器により生成された、合成された音響信号のエネルギーを制御するための手段を有し、
合成された音響信号のエネルギーを制御するための手段が、
フレーム消失の後に続いて受信された最初の消去されなかったフレームの始まりにおける前記合成された音響信号のエネルギーを、前記フレーム消失の間に消去された最後のフレームの終わりにおける前記合成信号のエネルギーと類似させるために、合成された音響信号を増減するための手段と、
最初の消去されなかったフレームにおける合成された音響信号のエネルギーを、エネルギーの増加を制限しながら、前記受信された最初の消去されなかったフレームの終わりに向けて、受信されたエネルギー情報パラメータに対応するエネルギーに収束させるための手段とを有する
ことを特徴とする請求項６２に記載の装置。
エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのＬＰフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのＬＰフィルタの利得より高いとき、受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整するための手段を有する
ことを特徴とする請求項６２に記載の装置。
受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整するための手段が、次の“数３”の関係を使用するための手段を有し、

ここで、“E₁”は現在のフレームの終わりにおけるエネルギーであり、“E_LPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーであり、“E_LP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーである
ことを特徴とする請求項９８に記載の装置。
音響信号が音声信号であると共に、
符号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後で受信された最初の消去されなかったフレームが頭子音クラスに分類されるとき、合成された音響信号を増減するために使用される利得を所定値に制限するための手段を有する
ことを特徴とする請求項９７に記載の装置。
音響信号が音声信号であると共に、
符号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
前記装置が、
・有声のフレームから無声のフレームへの遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが有声遷移クラス、有声クラス、または頭子音クラスとして分類されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが無声クラスとして分類された場合、及び
・無効な音声期間から有効な音声期間への遷移の間に、フレーム消失の前に受信された最後の消去されなかったフレームが疑似背景雑音として符号化されると共に、フレーム消失の後で受信された最初の消去されなかったフレームが有効な音声として符号化されるとき、
フレーム消失の後で受信された最初の消去されなかったフレームの始まりにおいて合成された音響信号を増減するために使用される利得を、前記受信された最初の消去されなかったフレームの終わりで使用される利得に等しくさせるための手段を有する
ことを特徴とする請求項９７に記載の装置。
信号符号化パラメータの形式に基づいて符号化された音響信号の符号器から復号器までの伝送中に消去されたフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するための装置であって、
復号器において信号符号化パラメータから隠蔽／回復パラメータを決定するための手段と、
復号器において、決定された隠蔽／回復パラメータに応答して、消去されたフレームの隠蔽及び復号器の回復を処理するための手段と
を有することを特徴とする装置。
次の、信号分類パラメータ、エネルギー情報パラメータ、及び位相情報パラメータから構成されるグループから選択された隠蔽／回復パラメータを、復号器において決定するための手段を有する
ことを特徴とする請求項１０２に記載の装置。
音響信号が音声信号であると共に、
復号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有する
ことを特徴とする請求項１０２に記載の装置。
復号器において隠蔽／回復パラメータを決定するための手段が、有声化情報パラメータを計算するための手段を有する
ことを特徴とする請求項１０２に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、
フレーム消失の後で消去されなかった無声のフレームの受信の後に続いて、ＬＰフィルタの励振信号の非周期的な部分を生成するための手段と、
フレーム消失の後で消去されなかった無声以外のフレームの受信の後に続いて、前のフレームの最後のピッチ期間を繰り返すことによりＬＰフィルタの励振信号の周期的な部分を生成するための手段と
を有することを特徴とする請求項１０２に記載の装置。
励振信号の周期的な部分を組み立てるための手段が、前のフレームの繰り返された最後のピッチ期間をフィルタ処理するためのローパスフィルタを有する
ことを特徴とする請求項１０６に記載の装置。
復号器において隠蔽／回復パラメータを決定するための手段が有声化情報パラメータを計算するための手段を有し、
ローパスフィルタがカットオフ周波数を有し、
ＬＰフィルタの励振信号の周期的な部分を組み立てるための手段が有声化情報パラメータに関してカットオフ周波数を動的に調整するための手段を有する
ことを特徴とする請求項１０７に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段を有する
ことを特徴とする請求項１０２に記載の装置。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、ランダム雑音を生成するための手段を有する
ことを特徴とする請求項１０９に記載の装置。
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、新規コードブックのベクトルインデックスをランダムに生成するための手段を有する
ことを特徴とする請求項１０９に記載の装置。
音響信号が音声信号であると共に、
復号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
ＬＰフィルタの励振信号の非周期的な新規部分をランダムに生成するための手段が、
・もし最後に受信された消去されなかったフレームが無声クラスと異なる場合、ＬＰフィルタの励振信号の新規部分をフィルタ処理するためのハイパスフィルタと、
・もし最後に受信された消去されなかったフレームが無声クラスである場合、ＬＰフィルタの励振信号の新規部分のみを使用するための手段と
を更に有することを特徴とする請求項１０９に記載の装置。
音響信号が音声信号であると共に、
復号器において隠蔽／回復パラメータを決定するための手段が、符号化された音響信号の連続するフレームを、無声、無声遷移、有声遷移、有声、または頭子音のいずれかのクラスに分類するための手段を有し、
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続く有声のフレーム及びフレーム消失の前の無声のフレームの存在により示される頭子音のフレームが失われたときに、励振信号の周期的な部分をピッチ期間により分割されたパルスのローパスフィルタ処理された周期的な列として組み立てることにより、失われた頭子音を人工的に復元するための手段を有する
ことを特徴とする請求項１０９に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、通常の復号化処理によりＬＰフィルタの励振信号の新規部分を組み立てるための手段を更に有する
ことを特徴とする請求項１１３に記載の装置。
ＬＰフィルタの励振信号の新規部分を組み立てるための手段が、新規コードブックの入力をランダムに選択するための手段を有する
ことを特徴とする請求項１１４に記載の装置。
失われた頭子音を人工的に復元するための手段が、少なくとも１つの完全なピッチ期間が頭子音の人工的復元により構成され、前記復元が現在のサブフレームの終りまで続けられるように、人工的に復元された頭子音の長さを制限するための手段を有する
ことを特徴とする請求項１１３に記載の装置。
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、失われた頭子音の人工的復元の後で、ピッチ期間が人工的頭子音復元が使用された全てのサブフレームにおいて復号化されたピッチ期間の丸められた平均値である正規のＣＥＬＰ処理を再開するための手段を更に有する
ことを特徴とする請求項１１６に記載の装置。
エネルギー情報パラメータが、符号器から復号器に伝送されないと共に、
フレーム消失の隠蔽及び復号器の回復を処理するための手段が、フレーム消失の後に続いて受信された最初の消去されなかったフレームのＬＰフィルタの利得が、前記フレーム消失の間に消去された最後のフレームのＬＰフィルタの利得より高いとき、次の“数４”の関係を使用して、受信された最初の消去されなかったフレーム期間中に復号器において生成されたＬＰフィルタの励振信号のエネルギーを、前記受信された最初の消去されなかったフレームのＬＰフィルタの利得に調整するための手段を有し、

ここで、“E₁”は現在のフレームの終わりにおけるエネルギーであり、“E_LPO”はフレーム消失の前に受信された最後の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーであり、“E_LP1”はフレーム消失の後に続いて受信された最初の消去されなかったフレームに対するＬＰフィルタのインパルス応答のエネルギーである
ことを特徴とする請求項１０３に記載の装置。
音響信号を符号化及び復号化するためのシステムであって、
符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するために、
信号符号化パラメータのセットを生成するために音響信号に応答する音響信号符号器と、
復号器に信号符号化パラメータを伝送するための手段と、
信号符号化パラメータに応答して音響信号を合成するための前記復号器と、
請求項６０から請求項１０１のいずれかに記載された装置と
を有することを特徴とするシステム。
符号化された音響信号を復号化するための復号器であって、
符号器から復号器までの伝送中に消去された、符号化された音響信号のフレームにより引き起こされるフレーム消失の隠蔽を改善すると共に、符号化された音響信号の消去されなかったフレームが受信された後の復号器の回復を加速するために、
前記符号化された音響信号から信号符号化パラメータのセットを回復するために符号化された音響信号に応答する手段と、
信号符号化パラメータに応答して音響信号を合成するための手段と、
請求項１０２から請求項１１８のいずれかに記載された装置と
を有することを特徴とする復号器。