JP2016527541A

JP2016527541A - 快適ノイズの適応スペクトル形状を生成するための装置及び方法

Info

Publication number: JP2016527541A
Application number: JP2016520527A
Authority: JP
Inventors: ミヒャエルシュナーベル、; ゴーランマールコヴィッチ、; ラルフシュペルシュナイダー、; ジェレミールコント、; クリスティアンヘルムリヒ、
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2013-06-21
Filing date: 2014-06-23
Publication date: 2016-09-08
Anticipated expiration: 2034-06-23
Also published as: CA2914869A1; US20160104489A1; CA2915014A1; EP3011557B1; US11501783B2; PT3011557T; RU2016101521A; RU2675777C2; US10679632B2; ZA201600310B; US20200258530A1; US10607614B2; PT3011559T; RU2016101600A; WO2014202784A1; TWI553631B; KR20160022364A; EP3011563B1; SG11201510508QA; RU2676453C2

Abstract

符号化音声信号を復号して再構成音声信号を得るための装置が提供される。当該装置は、１つ以上のフレームを受信するための受信インターフェース（１１１０）と、係数生成部（１１２０）と、信号再構成部（１１３０）とを備える。係数生成部（１１２０）は、１つ以上のフレームのうちの現在のフレームが受信インターフェース（１１１０）によって受信されており、且つ受信インターフェース（１１１０）によって受信されている現在のフレームが破損していない場合、現在のフレームに含まれる１つ以上の第１の音声信号係数を決定するように構成され、前記１つ以上の第１の音声信号係数は、符号化音声信号の特性を示し、１つ以上のノイズ係数が、符号化音声信号の背景ノイズを示す。更に、係数生成部（１１２０）は、現在のフレームが受信インターフェース（１１１０）によって受信されていない場合、又は受信インターフェース（１１１０）によって受信されている現在のフレームが破損している場合、１つ以上の第１の音声信号係数と１つ以上のノイズ係数とに応じて１つ以上の第２の音声信号係数を生成するように構成される。音声信号再構成部（１１３０）は、現在のフレームが受信インターフェース（１１１０）によって受信されており、且つ受信インターフェース（１１１０）によって受信されている現在のフレームが破損していない場合、１つ以上の第１の音声信号係数に応じて再構成音声信号の第１の部分を再構成するように構成される。更に、音声信号再構成部（１１３０）は、現在のフレームが受信インターフェース（１１１０）によって受信されていない場合、又は受信インターフェース（１１１０）によって受信されている現在のフレームが破損している場合、１つ以上の第２の音声信号係数に応じて再構成音声信号の第２の部分を再構成するように構成される。【選択図】図１１

Description

本発明は、音声信号符号化、処理及び復号に関するものであり、特に、エラー封じ込め中に切り替え音声符号化システムについての向上した信号フェードアウトのための装置及び方法に関するものである。

以下、パケット損失封じ込め（ＰＬＣ）中の言語音声及び音声コーデック・フェードアウトに関する先行技術について説明する。先行技術についての説明では、まずＧシリーズ（Ｇ．７１８、Ｇ．７１９、Ｇ７２２、Ｇ．７２２．１、Ｇ．７２９、Ｇ．７２９．１）のＩＴＵ−Ｔコーデックについて述べ、次に３ＧＰＰコーデック（ＡＭＲ、ＡＭＲ−ＷＢ、ＡＭＲ−ＷＢ＋）及び1種類のＩＥＴＦコーデック（ＯＰＵＳ）について述べ、最後にＭＰＥＧコーデック（ＨＥ−ＡＡＣ、ＨＩＬＮ）（ＩＴＵ＝国際電気通信連合；３ＧＰＰ＝第３世代パートナーシッププロジェクト；ＡＭＲ＝適応マルチレート；ＷＢ＝広帯域；ＩＥＴＦ＝インターネット工学タスクフォース）について述べる。続いて、背景ノイズレベルのトレースに関する先行技術についての分析を行い、その後概略となる概要を述べる。

まず、Ｇ．７１８について検討する。Ｇ．７１８は、狭帯域及び広帯域の言語音声コーデックであり、ＤＴＸ／ＣＮＧ（ＤＴＸ＝デジタルシアターシステム；ＣＮＧ＝快適ノイズ生成）をサポートする。実施例は、特に低遅延符号に関するため、ここでは低遅延バージョンモードについてより詳細に説明する。

ＡＣＥＬＰ（第1層）（ＡＣＥＬＰ＝代数符号励振線形予測）に関し、ＩＴＵ−Ｔは、Ｇ．７１８［ＩＴＵ０８ａ、７．１１節］についてフェード速度を制御するための線形予測領域における適応フェードアウトを推奨している。一般的に、封じ込めは以下の原理に従う。

Ｇ．７１８によると、フレーム消去の場合、封じ込め戦略は、信号エネルギー及びスペクトル包絡線の、背景ノイズの推定パラメータへの収束として概括することができる。信号の周期性は、ゼロへ収束される。収束の速度は、最後に正しく受信したフレームのパラメータと、連続する消去されたフレームの数とに依存し、減衰定数αによって制御される。減衰因数αは、更に、「無声」フレームについてのＬＰフィルタ（ＬＰ＝線形予測）の安定度θに依存する。一般的に、収束は、最後の良好な受信フレームが安定なセグメントにある場合は遅く、フレームが遷移セグメントにある場合は速い。

減衰因数αは、［ＩＴＵ０８ａ、６．８．１．３．１及び７．１１．１．１節］に記載の信号分類から導き出される言語音声信号クラスに依存する。安定度定数θは、隣接するＩＳＦ（インミッタンススペクトル周波数）フィルタ［ＩＴＵ０８ａ、７．１．２．４．２節］間の距離測定値に基づいて計算される。

表１は、αの計算方式を示す。

表１：減衰定数αの値。値θは、隣接するＬＰフィルタ間の距離測定値から計算された安定度定数である。［ＩＴＵ０８ａ、７．１．２．４．２節］
更に、Ｇ．７１８は、スペクトル包絡線に変更を加えるためのフェード方法を提供している。一般的な考えは、適応ＩＳＦ平均ベクトルへ向けて最後のＩＳＦパラメータを収束させることである。最初に、最後の３つの既知のＩＳＦベクトルから平均ＩＳＦベクトルを算出する。次に、この平均ＩＳＦベクトルは、オフラインで学習された長期ＩＳＦベクトル（これは一定のベクトルである）によって再び平均される［ＩＴＵ０８ａ、７．１１．１．２節］。

更に、Ｇ．７１８は、長期挙動、及び従って背景ノイズとの相互作用、を制御するためのフェード方法を提供しており、ここでピッチ励振エネルギー（及び従って励振周期性）は０へ収束する一方、ランダム励振エネルギーはＣＮＧ励振エネルギーに収束する［ＩＴＵ０８ａ、７．１１．１．６節］。新規ゲイン減衰は、

として計算され、ここで、ｇ_s ^[1]は、次のフレームの開始時の新規ゲインであり、ｇ_s ^[0]は、現在のフレームの開始時の新規ゲインであり、ｇ_nは、快適ノイズ生成中に用いられる励振のゲインであり、そして減衰定数αである。

周期的励振減衰と同様、ゲインは、ｇ_s ^[0]で始まってサンプル毎にフレーム全体に亘って線形に減衰させられ、次のフレームの開始時にｇ_s ^[1]に達する。

図２は、Ｇ．７１８のデコーダ構造の概略を示す。特に、図２は、ハイパスフィルタを特徴とするＰＬＣの高レベルＧ．７１８デコーダ構造を示す。

上述のＧ．７１８の方策によって、新規ゲインｇ_sは、パケット損失の長いバーストについて快適ノイズ生成ｇ_n中に用いられるゲインに収束する。［ＩＴＵ０８ａ、６．１２．３節］に記載のように、快適ノイズゲインｇ_nは、エネルギーＥ〜の平方根として与えられる。Ｅ〜の更新の条件は詳細に記載されていない。参照実現（浮動小数点Ｃコード、ｓｔａｔ＿ｎｏｉｓｅ＿ｕｖ＿ｍｏｄ．ｃ）に従い、Ｅ〜は、以下のように導出され、

ここで、ｕｎｖｏｉｃｅｄ＿ｖａｄは、発話区間検出を保持し、ｕｎｖ＿ｃｎｔは、行における無声フレームの数を保持し、ｌｐ＿ｇａｉｎｃは、固定コードブックの低域通過ゲインを保持し、ｌｐ＿ｅｎｅｒは、低域通過ＣＮＧエネルギー推定値Ｅ〜を保持する（これは０で初期化される）。

更に、Ｇ．７１８は、最後の良好なフレームの信号が「無声」とは異なって分類された場合、無声励振の信号経路へ導入されるハイパスフィルタを提供している。図２を参照。また、［ＩＴＵ０８ａ、７．１１．１．６節］を参照。このフィルタは、低い放置特性を有し、直流での周波数応答はナイキスト周波数よりも約５ｄＢ低い。

更に、Ｇ．７１８は、結合解除されたＬＴＰフィードバックループ（ＬＴＰ＝長期予測）を提案している。通常動作中は、適応コードブックについてのフィードバックループは、全励振に基づいてサブフレーム単位で更新される（［ＩＴＵ０８ａ、７．１．２．１．４節］）。封じ込め中は、このフィードバックループは、有声励振のみに基づいてフレーム単位で更新される（［ＩＴＵ０８ａ、７．１１．１．４節、７．１１．２．４節、７．１１．１．６節、７．１１．２．６節を参照。ｄｅｃ＿ＧＶ＿ｅｘｃ＠ｄｅｃ＿ｇｅｎ＿ｖｏｉｃ．ｃ及びｓｙｎ＿ｂｆｉ＿ｐｏｓｔ＠ｓｙｎ＿ｂｆｉ＿ｐｒｅ＿ｐｏｓｔ．ｃ］）。この方策では、適応コードブックは、ランダムに選択された新規励振によって、由来を有するノイズで「汚染」されない。

Ｇ．７１８の変換符号化強化層（３−５）に関し、封じ込め中のデコーダの挙動は、高い層の復号に関して通常動作と同様であるが、但しＭＤＣＴスペクトルはゼロに設定される。特別なフェードアウト挙動は封じ込め中に適用されない。

ＣＮＧに関し、Ｇ．７１８において、ＣＮＧ合成は以下の順序で行われる。最初に、快適ノイズフレームのパラメータが復号される。次に、快適ノイズフレームが合成される。その後、ピッチバッファがリセットされる。次に、ＦＥＲ（フレームエラー回復）分類についての合成が保存される。その後、スペクトル強調解除が行われる。そして、低周波数の後フィルタリングが行われる。そして、ＣＮＧ変数が更新される。

封じ込めの場合、丁度同じことが行われるが、但しＣＮＧパラメータはビットストリームから復号されない。これは、パラメータは、フレーム損失中、更新されないが、最後の良好なＳＩＤ（無音挿入記述子）フレームからの復号パラメータが用いられることを意味する。

次に、Ｇ．７１９について検討する。Ｇ．７１９は、サイレン（Ｓｉｒｅｎ）２２に基づいており、変換ベースの全帯域音声コーデックである。ＩＴＵ−Ｔは、Ｇ．７１９について、スペクトル領域におけるフレーム繰り返しを伴うフェードアウトを推奨している［ＩＴＵ０８ｂ、８．６節］。Ｇ．７１９によると、フレーム消去封じ込めメカニズムがデコーダに組み込まれる。フレームが正しく受信された場合、復元された変換係数はバッファに記憶される。デコーダに対して、フレームが失われた又はフレームが破損したことが通知されると、最も最近受信されたフレームにおいて復元された変換係数は、０．５の定数に比例して減少され、次に、現在のフレームについての復元された変換係数として使用される。次に、デコーダは、これらを時間領域に変換し、窓化・重複・加算の演算を実行する。

以下、Ｇ．７２２について説明する。Ｇ．７２２は、５０〜７０００Ｈｚ符号化システムであって、６４ｋｂｉｔ／秒までのビットレート内でサブバンド適応差分パルスコード変調（ＳＢ−ＡＤＰＣＭ）を用いるものである。信号は、ＱＭＦ分析（ＱＭＦ＝直交ミラーフィルタ）を用いてより高いサブバンド及びより低いサブバンドに分割される。結果として得られる２つの帯域は、ＡＤＰＣＭ符号化（ＡＤＰＣＭ＝適応差分パルス符号変調）される。

Ｇ．７２２については、パケット損失封じ込めについての高複雑度のアルゴリズムが付録（Ａｐｐｅｎｄｉｘ）ＩＩＩに述べられており［ＩＴＵ０６ａ］、パケット損失封じ込めについての低複雑度のアルゴリズムが付録ＩＶに述べられている［ＩＴＵ０７］。Ｇ．７２２―付録ＩＩＩ（［ＩＴＵ０６ａ、ＩＩＩ．５節］）においては、徐々に実行されるミューティングであって、フレーム損失の２０ミリ秒後に開始し、フレーム損失の６０ミリ秒後に完了するものが提案されている。更に、Ｇ．７２２―付録ＩＶにおいては、フェードアウト技術であって、「サンプル毎に計算及び適合されるゲイン因数を各々のサンプルに」適用するものが提案されている［ＩＴＵ０７、ＩＶ．６．１．２．７節］。

Ｇ．７２２においては、ミューティングプロセスは、サブバンド領域において、ＱＭＦ合成の直前に、ＰＬＣモジュールの最後のステップとして行われる。ミューティング定数の算出は、やはりＰＬＣモジュールの一部でもある信号分類子からクラス情報を用いて実行される。区別は、ＴＲＡＮＳＩＥＮＴ、ＵＶ＿ＴＲＡＮＳＩＴＩＯＮ等のクラスの間で行われる。更に、１０ミリ秒フレームの単一の損失と、他の場合（１０ミリ秒のフレームの多数の損失及び２０ミリ秒のフレームの単一／多数の損失）との間での区別が行われる。

これを図３に示す。特に、図３は、Ｇ．７２２のフェードアウト定数がクラス情報に依存し、８０個のサンプルが１０ミリ秒に相当するシナリオを示す。

Ｇ．７２２によると、ＰＬＣモジュールは、損失フレームについての信号と、次の良好なフレームとクロスフェードさせられることになっている或る追加の信号（１０ミリ秒）とを生成する。この追加の信号についてのミューティングは、同じ規則に従う。Ｇ．７２２の高帯域封じ込めにおいては、クロスフェードは行われない。

以下、Ｇ．７２２．１について検討する。Ｇ．７２２．１は、サイレン７に基づいており、超広帯域拡張モードを有する変換ベースの広帯域音声コーデックであり、Ｇ．７２２．１Ｃと呼ばれる。Ｇ．７２２．１Ｃそれ自体は、サイレン１４に基づいている。ＩＴＵ−Ｔは、Ｇ．７２２．１について、後続のミューティングを伴うフレーム繰り返しを推奨している［ＩＴＵ０５、４．７節］。デコーダに対して、この勧告には規定されていない外部シグナリングメカニズムによって、フレームが失われた又は破損したと通知されると、先行フレームの復号されたＭＬＴ（変調済ラップド変換）係数を繰り返す。次に、これらを時間領域に変換し、先行フレーム及び次のフレームの復号された情報によって重複及び加算の演算を実行する。先行フレームもまた失われ又は損失している場合、デコーダは、全ての現在のフレームＭＬＴ係数をゼロに設定する。

次に、Ｇ．７２９について検討する。Ｇ．７２９は、音声のための音声データ圧縮アルゴリズムであって、１０ミリ秒の期間のパケットにおけるデジタル音声を圧縮するものである。公式には、符号励振線形予測言語音声符号化（ＣＳ−ＡＣＥＬＰ）を用いた８ｋｂｉｔ／秒での言語音声の符号化として記載されている［ＩＴＵ１２］。

［ＣＰＫ０８］で概略的に説明されるように、Ｇ．７２９は、ＬＰ領域におけるフェードアウトを推奨している。Ｇ．７２９規格において採用されるＰＬＣアルゴリズムは、以前に受信した言語音声情報に基づいて現在のフレームについての言語音声信号を復元する。換言すると、ＰＬＣアルゴリズムは、紛失励振を、以前に受信したフレームの等価の特性と入れ替えるが、励振エネルギーは徐々に減衰し、最終的には、適応コードブック及び固定コードブックのゲインは一定の定数によって減衰させられる。

減衰させられた固定コードブックゲインは、

によって与えられ、ここでｍは、サブフレームインデックスである。

適応コードブックゲインは、先行する適応コードブックゲインを減衰させたものに基づいている。

ナム・イン・パーク（ＮａｍｉｎＰａｒｋ）他は、Ｇ．７２９について、線形回帰による予測を用いた信号振幅制御を提案している［ＣＰＫ０８、ＰＫＪ＋１１］。これはバースト状のパケット損失に対応するものであり、線形回帰を中核技術として用いる。線形回帰は、

として線形モデルに基づいている。ここで、ｇ’_iは、新たに予測された現在の振幅であり、ａ及びｂは、一次線形関数についての係数であり、ｉは、フレームのインデックスで
ある。最適化された係数ａ^*及びｂ^*を求めるために、二乗予測エラーの合計が次式のように最小化される。

ここで、εは、二乗エラーであり、ｇ_jは、元の過去のｊ番目の振幅である。このエラーを最小化するために、ａ及びｂに関する導関数を単にゼロに設定する。最適化されたパラメータａ^*及びｂ^*を用いて各々のｇ^* _ｉの推定値は、

によって表される。

図４は、振幅予測を示し、特に、線形回帰を用いて振幅ｇ^* _iの予測を示す。

失われたパケットｉの振幅Ａ’_iを得るために、比σ_ｉ、

を、スケール定数Ｓ_iによって乗算し、即ち、

とし、ここで、スケール定数Ｓ_iは、連続する封じ込められたフレームｌ（ｉ）の数に依存し、即ち、

とする。

［ＰＫＪ＋１１］においては、僅かに異なるスケーリングが提案されている。

Ｇ．７２９によると、この後、Ａ’_iを平滑化して、フレーム境界における離散減衰を防ぐ。最後の平滑化された振幅Ａ_i（ｎ）は、先行するＰＬＣ成分から得た励振へ乗算される。

以下、Ｇ．７２９．１について検討する。Ｇ．７２９．１は、Ｇ．７２９ベースの埋め込み可変ビットレートコーダである。即ち、８〜３２ｋｂｉｔ／秒のスケーリング可能な広帯域コーダビットストリームであって、Ｇ．７２９と相互動作可能なものである［ＩＴＵ０６ｂ］。

Ｇ．７２９．１によると、Ｇ．７１８（上記を参照）と同様、適合フェードアウトであって、信号特性の安定度に依存するものが提案されている（［ＩＴＵ０６ｂ、７．６．１節］）。封じ込め中、信号は、通常、減衰定数αに基づいて減衰させられ、この減衰定数は、最後の良好な受信フレームクラスのパラメータと、連続する消去されたフレームの数とに依存する。減衰定数αは、更に、「無声」フレームについてのＬＰフィルタの安定度に依存する。一般的に、減衰は、最後の良好な受信フレームが安定なセグメントにある場合は遅く、フレームが遷移セグメントにある場合は速い。

表２は、αの計算方式を示し、ここで、

である。封じ込めプロセス中、αは、以下の封じ込めツールにおいて用いられる。

表２：減衰定数αの値。値θは、隣接するＬＰフィルタ間の距離測定値から計算された安定度定数である。［ＩＴＵ０６ｂ、７．６．１節］
Ｇ．７２９．１によると、声門パルス再同期に関し、先行フレームの励振の最後のパルスが周期部分の構成に用いられるため、そのゲインは、封じ込められたフレームの開始時においてほぼ正しく、１に設定され得る。次に、サンプル毎にフレーム全体においてゲインを線形的に減衰させ、フレームの終わりでαの値に達する。有声セグメントのエネルギー変化は、最後の良好なフレームの各サブフレームのピッチ励振ゲイン値を用いて外挿される。一般的に、これらのゲインが１よりも大きい場合、信号エネルギーは増加しており、１よりも低い場合、エネルギーは減少している。従って、αは、上述のようにβ＝（／ｇ_p）^1/2に設定される。［ＩＴＵ０６ｂ、式１６３，１６４］を参照。強いエネルギー増加及び現象を避けるために、βの値は、０．９８と０．８５の間に制限される。［ＩＴＵ０６ｂ、７．６．４節］を参照。

励振のランダムな部分の構成に関し、Ｇ．７２９．１によると、消去されたブロックの開始時に、新規ゲインｇ_sは、最後の良好なフレームの各サブフレームの新規励振ゲインを用いて初期化され、

となる。ここで、ｇ⁽⁰⁾、ｇ⁽¹⁾、ｇ⁽²⁾及びｇ⁽³⁾は、最後の正しく受信されたフレームの４つのサブフレームの固定コードブック又は新規ゲインである。新規ゲイン減衰は、

として行われ、ここで、ｇ_s ⁽¹⁾は、次のフレームの開始時の新規ゲインであり、ｇ_s ⁽⁰⁾は、現在のフレームの開始時の新規ゲインであり、αは、上述の表２に定義した通りである。従って、周期的励振減衰と同様、ゲインは、ｇ_s ⁽⁰⁾で始まってサンプル毎にフレーム全体を通して線形的に減衰させられて、次のフレームの開始時に達成されるｇ_s ⁽¹⁾の値に達する。

Ｇ．７２９．１によると、最後の良好なフレームが「無声」であれば、新規励振のみを用い、これを更に０．８の定数で減衰させる。この場合、励振の周期的な部分が利用可能ではないため、過去の励振バッファを新規励振で更新する。［ＩＴＵ０６ｂ、７．６．６節］を参照。

以下、ＡＭＲについて検討する。３ＧＰＰＡＭＲ［３ＧＰ１２ｂ］は、ＡＣＥＬＰアルゴリズムを利用した言語音声コーデックである。ＡＭＲは、８０００サンプル／秒のサンプリングレート及び４．７５〜１２．２ｋｂｉｔ／秒のビットレートで言語音声を符号化することができ、シグナリング無音記述子フレーム（ＤＴＸ／ＣＮＧ）をサポートする。

ＡＭＲにおいて、エラー封じ込め中（［３ＧＰ１２ａ］を参照）、エラー気味のフレーム（ビットエラー）と、完全に失われたフレーム（データが全くない）とを区別する。

ＡＣＥＬＰ封じ込めの場合、ＡＭＲは、チャネルの品質を推定する状態マシンを導入する。状態カウンタの値が大きいほど、チャネル品質は劣悪である。システムは、状態０から始まる。劣悪なフレームが検出されるたびに、状態カウンタを１ずつ増加させ、６に達すると飽和する。良好な言語音声フレームが検出されるたびに、状態カウンタは、ゼロにリセットされるが、但し、状態が６である場合、状態カウンタを５に設定する。状態マシンの制御フローは、以下のＣコードによって記述することができる（ＢＦＩは、劣悪フレームインジケータであり、Ｓｔａｔｅは状態変数である）。

この状態マシンに加えて、ＡＭＲにおいては、現在及び先行するフレームからの劣悪フレームフラグを調べる（ｐｒｅｖＢＦＩ）。

３つの異なる組合せが可能である。

３つの組み合わせのうちの１番目のものが、ＢＦＩ＝０、ｐｒｅｖＢＦＩ＝０、状態＝０である。即ち、受信言語音声フレーム又は先行する受信言語音声フレームにおいてエラーは検出されない。受信言語音声パラメータは、言語音声合成における通常の態様で使用される。言語音声パラメータの現在のフレームが保存される。

３つの組み合わせのうちの２番目のものが、ＢＦＩ＝０、ｐｒｅｖＢＦＩ＝１、状態＝０又は５である。即ち、受信言語音声フレームにおいてエラーは検出されないが、先行する受信言語音声フレームは劣悪である。ＬＴＰゲイン及び固定コードブックゲインは、最後の受信された良好なサブフレームについて用いられる値未満に制限され、即ち

となり、ここで、ｇ_p＝現在の復号されたＬＴＰゲイン、ｇ_p（−１）＝最後の良好なサブフレーム（ＢＦＩ＝０）について用いられるＬＴＰゲインであり、更に、

となり、ここで、ｇ_c＝現在の復号された固定コードブックゲイン、ｇ_c（−１）＝最後の良好なサブフレーム（ＢＦＩ＝０）について用いられる固定コードブックゲインである。

受信した言語音声パラメータの残りは、言語音声合成において通常の態様で使用される。言語音声パラメータの現在のフレームが保存される。

３つの組み合わせのうちの３番目のものが、ＢＦＩ＝１、ｐｒｅｖＢＦＩ＝０又は１、状態＝１…６である。即ち、受信言語音声フレームにおいてエラーが検出され、置き換え及びミューティング手順が開始される。ＬＴＰゲイン及び固定コードブックゲインは、先行するサブフレームからの減衰した値と入れ替えられ、即ち

となり、ここで、ｇ_pは、現在の復号されたＬＴＰゲインを示し、ｇ_p（−１），…，ｇ_p（−ｎ）は、最後のｎ個のサブフレームについて用いられるＬＴＰゲインを示し、ｍｅｄｉａｎ５（）は、５点の中央値演算を示し、更に、
Ｐ（ｓｔａｔｅ）＝減衰定数
であり、ここで、（Ｐ（１）＝０．９８、Ｐ（２）＝０．９８、Ｐ（３）＝０．８、Ｐ（４）＝０．３、Ｐ（５）＝０．２、Ｐ（６）＝０．２）であり、ｓｔａｔｅ＝状態数であり、

であり、ここで、ｇ_cは、現在の復号された固定コードブックゲインを示し、ｇ_c（−１），…，ｇ_c（−ｎ）は、最後のｎ個のサブフレームについて用いられる固定コードブックゲインを示し、ｍｅｄｉａｎ５（）は、５点の中央値演算を示し、Ｃ（ｓｔａｔｅ）＝減衰定数であり、ここで、（Ｃ（１）＝０．９８、Ｃ（２）＝０．９８、Ｃ（３）＝０．９８、Ｃ（４）＝０．９８、Ｃ（５）＝０．９８、Ｃ（６）＝０．７）であり、ｓｔａｔｅ＝状態数である。

ＡＭＲにおいては、ＬＴＰ遅れ値（ＬＴＰ＝長期予測）は、先行するフレームの４番目のサブフレームからの過去の値（１２．２モード）又は最後の正しく受信された値に基づく僅かに変更した値（他の全てのモード）と入れ替えられる。

ＡＭＲによると、エラーを含むフレームからの受信した固定コードブック新規パルスは、破損したデータが受信されたときに固定コードブック新規パルスが受信された状態において用いられる。データが受信されなかった場合には、ランダムな固定コードブックインデックスを用いることになる。

ＡＭＲにおけるＣＮＧに関し、［３ＧＰ１２ａ、６．４節］によると、各々の最初の失われたＳＩＤフレームは、以前に受信した有効なＳＩＤフレームからのＳＩＤ情報を用いて置き換えられ、有効なＳＩＤフレームについての手順が適用される。後続の失われたＳＩＤフレームについては、減衰技術を、徐々に出力レベルを減少させる快適ノイズに適用する。従って、最後のＳＩＤ更新が５０フレーム（＝１秒）よりも前かどうかを調べ、もしそうであれば、出力は、ミュートとなる（１フレーム当り−６／８ｄＢだけのレベル減衰［３ＧＰ１２ｄ、ｄｔｘ＿ｄｅｃ｛｝＠ｓｐ＿ｄｅｃ．ｃ］、これは１秒当たり３７．５ｄＢをもたらす）。なお、ＣＮＧに適用されるフェードアウトはＬＰ領域で実行される。

以下、ＡＭＲ−ＷＢについて検討する。適応マルチレート−ＷＢ［ＩＴＵ０３、３ＧＰ０９ｃ］は、ＡＭＲに基づく言語音声コーデックＡＣＥＬＰである（１．８節を参照）。これは、パラメータ的帯域幅拡張を用い、またＤＴＸ／ＣＮＧをサポートする。基準［３ＧＰ１２ｇ］の説明において、封じ込め例の解決策が与えられており、これは僅かな逸脱があるもののＡＭＲ［３ＧＰ１２ａ］についてのものと同じである。従って、ここでは、ＡＭＲとの相違点のみについて説明する。規格の説明については、上述の記載を参照されたい。

ＡＣＥＬＰに関し、ＡＭＲ−ＷＢにおいて、参照ソースコードに基づいてＡＣＥＬＰフェードアウトを実行する［３ＧＰ１２ｃ］が、これはピッチゲインｇ_p（ＬＴＰゲインと呼ばれる上述のＡＭＲについて）に変更を加え、コードゲインｇ_cに変更を加えることで行われる。

失われたフレームについては、最初のサブフレームについてのピッチゲインｇ_pは、０．９５と０．５との間に制限されることを除き、最後の良好なフレームにおけるものと同じである。２番目、３番目及び続くサブフレームについては、ピッチゲインｇ_pは、０．９５の定数だけ減少され、やはり制限される。

ＡＭＲ−ＷＢにおいては、封じ込められたフレームにおいて、ｇ_cが最後のｇ_cに基づくことが提案されている。

ＬＴＰ遅れを封じ込めるために、ＡＭＲ−ＷＢにおいては、フレーム損失の場合に、５つの最後の良好なＬＴＰ遅れ及びＬＴＰゲインの履歴を用いて最良の更新方法を見つける。フレームがビットエラーを伴って受信された場合、受信したＬＴＰ遅れが使用可能か否かについての予測を実行する［３ＧＰ１２ｇ］。

ＣＮＧに関し、ＡＭＲ−ＷＢにおいては、最後の正しく受信されたフレームがＳＩＤフレームであり、或るフレームが失われたものと分類された場合、最後の有効なＳＩＤフレーム情報と置き替え、有効なＳＩＤフレームについての手順を適用することになる。

後続の失われたＳＩＤフレームについては、ＡＭＲ−ＷＢにおいては、減衰技術を、出力レベルを徐々に減少させる快適ノイズに適用することが提案される。従って、最後のＳＩＤ更新が５０フレーム（＝１秒）よりも前かどうかを調べ、もしそうであれば、出力は、ミュートとなる（１フレーム当り−３／８ｄＢだけのレベル減衰［３ＧＰ１２ｆ、ｄｔｘ＿ｄｅｃ｛｝＠ｄｔｘ．ｃ］、これは１秒当たり１８．７５ｄＢをもたらす）。なお、ＣＮＧに適用されるフェードアウトは、ＬＰ領域において実行される。

次に、ＡＭＲ−ＷＢ＋について検討する。適応マルチレート−ＷＢ＋［３ＧＰ０９ａ］は、ＡＣＥＬＰ及びＴＣＸ（ＴＣＸ＝変換符号化励振）をコアコーデックとして用いる切り替えコーデックである。これは、パラメータ的な帯域幅拡張を用い、また、ＤＴＸ／ＣＮＧをサポートする。

ＡＭＲ−ＷＢ＋において、モード外挿論理を適用して、歪められたスーパーフレーム内の失われたフレームのモードを外挿する。このモード外挿は、モードインジケータの定義において冗長性が存在するという事実に基づいたものである。ＡＭＲ−ＷＢ＋によって提案された決定論理（［３ＧＰ０９ａ，図１８］によって与えられる）は、以下の通りである。

‐ベクトルモード（ｍ_-1，ｍ₀，ｍ₁，ｍ₂，ｍ₃）が規定され、ここで、ｍ_-1は、先行するスーパーフレームの最後のフレームのモードを示し、ｍ₀，ｍ₁，ｍ₂，ｍ₃は、現在のスーパーフレーム（ビットストリームから復号されたもの）におけるフレームのモードを示し、ここで、ｍ_k＝−１，０，１，２又は３（−１：失われた、０：ＡＣＥＬＰ、１：ＴＣＸ２０、２：ＴＣＸ４０、３：ＴＣＸ８０）であり、失われたフレームの数ｎｌｏｓｓは、０と４との間であり得る。

‐ｍ_-1＝３、且つフレーム０〜３のモードインジケータのうちの２つが３に等しい場合、全てのインジケータが３に設定される。それは、その場合、１つのＴＣＸ８０フレームが当該スーパーフレーム内に示されたことが確実だからである。

‐フレーム０〜３のうちのただ１つのインジケータが３（且つ失われたフレームの数ｎｌｏｓｓが３）である場合、モードは、（１，１，１，１）に設定される。それは、その場合、ＴＣＸ８０目標スペクトルの３／４が失われ、グローバルＴＣＸゲインが失われた可能性が極めて高いからである。

‐モードが（ｘ，２，−１，ｘ，ｘ）又は（ｘ，−１，２，ｘ，ｘ）を示している場合、これはＴＣＸ４０フレームを示す（ｘ，２，２，ｘ，ｘ）へと外挿される。モードが（ｘ，ｘ，ｘ，２，−１）又は（ｘ，ｘ，−１，２）を示す場合、やはりＴＣＸ４０フレームを示す（ｘ，ｘ，ｘ，２，２）へと外挿される。なお、（ｘ，［０，１］，２，２，［０，１］）は、無効な構成である。

‐その後、失われた各々のフレームについて（モード＝−１）、先行するフレームがＡＣＥＬＰであった場合にモードはＡＣＥＬＰに設定され（モード＝０）、その他全ての場合には、モードはＴＣＸ２０に設定される（モード＝１）。

ＡＣＥＬＰに関し、ＡＭＲ−ＷＢ＋によると、モード外挿の後、失われたフレームモードが結果としてｍ_k＝０となった場合、このフレームについて［３ＧＰ１２ｇ］におけるのと同じ方策を適用する（上記を参照）。

ＡＭＲ−ＷＢ＋において、失われたフレームの数及び外挿されたモードに応じて、以下のＴＣＸ関連の封じ込め方策を区別する（ＴＣＸ＝変換符号化励振）。

‐フレーム全体が失われた場合、ＡＣＥＬＰ様の封じ込めを適用する。最後の励振を繰り返し、封じ込められたＩＳＦ係数（その適応平均へ僅かにずらされたもの）を用いて時間領域信号を合成する。これに加えて、１フレーム（２０ミリ秒）当り０．７のフェードアウト定数［３ＧＰ０９ｂ、ｄｅｃ＿ｔｃｘ．ｃ］を、ＬＰＣ（線形予測符号化）合成の直前に線形予測領域で乗算する。

‐最後のモードがＴＣＸ８０であり、（部分的に失われた）スーパーフレームの外挿されたモードがＴＣＸ８０（ｎｌｏｓｓ＝［１，２］、モード＝（３，３，３，３，３））である場合、位相及び振幅外挿を利用し、最後の正しく受信されたフレームを考慮しながら、ＦＦＴ領域で封じ込めを実行する。位相情報の外挿方策は、ここでは関心の対象ではない（フェード戦略に無関係）ため、説明は行わない。更なる詳細については、［３ＧＰ０９ａ、６．５．１．２．４節］を参照。ＡＭＲ−ＷＢ＋の振幅変更に関し、ＴＣＸ封じ込めについて実行される方策は以下のステップからなる［３ＧＰ０９ａ、６．５．１．２．３節］。

‐先行するフレーム振幅スペクトルは、

のように計算される。

‐現在のフレーム振幅スペクトルは、

のように計算される。

‐先行するフレームと現在のフレームとの間の失われていないスペクトル係数のエネルギーのゲイン差は、

のように計算される。

‐紛失スペクトル係数の振幅は、

を用いて外挿される。

‐ｍ_k＝［２，３］を伴う失われたフレームの他の各々全てのケースにおいて、ＴＣＸ目標（（ビットストリームから復号されたノイズレベルを用いて）復号されたスペクトル＋ノイズ充填の逆ＦＦＴ）は、全ての利用可能な情報（グローバルＴＣＸゲインを含む）を用いて合成される。この場合、フェードアウトは適用されない。

ＡＭＲ−ＷＢ＋におけるＣＮＧに関し、ＡＭＲ−ＷＢにおけるのと同じ方策が用いられる（上記を参照）。

以下、ＯＰＵＳについて検討する。ＯＰＵＳ［ＩＥＴ１２］は、２つのコーデックからの技術を組み込む。即ち、言語音声志向のＳＩＬＫ（スカイプコーデックとして知られる）及び低待ち時間ＣＥＬＴ（ＣＥＬＴ＝条件付きエネルギーラップド変換）である。ＯＰＵＳは、高ビットレートと低ビットレートとの間で継ぎ目なく調節することが可能であり、内部的には、低ビットレートでの線形予測コーデック（ＳＩＬＫ）と高ビットレートでの変換コーデック（ＣＥＬＴ）並びに短い重複についてのハイブリッドとの間で切り替わる。

ＳＩＬＫ音声データの圧縮及び解凍に関し、ＯＰＵＳにおいては、ＳＩＬＫデコーダルーチンにおける封じ込め中に減衰させられるいくつかのパラメータが存在する。ＬＴＰゲインパラメータは、連続する失われたフレームの数に応じて、全てのＬＰＣ係数を１フレーム当り０．９９、０．９５又は０．９０で乗算することによって減衰させられ、ここで、先行するフレームの励振からの最後のピッチサイクルを用いて励振が構築される。ピッチ遅れパラメータは、連続する損失の際に極めて遅く増加する。単一の損失については、最後のフレームと比較して一定に保たれる。更に、励振ゲインパラメータは、１フレーム当り０．９９^lostcntで指数的に減衰させられるため、１番目の励振ゲインパラメータについては、励振ゲインパラメータは、０．９９であり、２番目の励振ゲインパラメータについては、励振ゲインパラメータは、０．９９２であり、以下同様となる。励振は、可変オーバーフローによってホワイトノイズを生成しているランダム数生成部を用いて生成される。更に、ＬＰＣ係数は、最後の正しく受信された係数の組に基づいて外挿・平均される。減衰した励振ベクトルの生成後、封じ込められたＬＰＣ係数をＯＰＵＳにおいて用いて時間領域出力信号を合成する。

次に、ＯＰＵＳの文脈で、ＣＥＬＴについて検討する。ＣＥＬＴは、変換ベースのコーデックである。ＣＥＬＴの封じ込めは、ピッチベースのＰＬＣ方策を特徴とし、これは、最大５つの連続して失われたフレームに適用される。フレーム６から開始して、ノイズ様の封じ込め方策を適用し、これは、背景ノイズを生成する。その特徴は、先行する背景ノイズのように聞こえるものと仮定する。

図５は、ＣＥＬＴのバースト状の損失挙動を示す。特に、図５は、ＣＥＬＴで封じ込められた言語音声セグメントのスペクトログラム（ｘ軸：時間、ｙ軸：周波数）を示す。薄いグレーのボックスは、最初の５つの連続して失われたフレームを示し、ここで、ピッチベースのＰＬＣ方策が適用される。それ以降は、ノイズ様の封じ込めを示す。なお、切り替えは、瞬間的に実行され、スムーズに遷移するものではない。

ピッチベースの封じ込めに関し、ＯＰＵＳにおいては、ピッチベースの封じ込めは、自己相関によって復号信号における周期性を求め、ピッチオフセット（ピッチ遅れ）を用いて（ＬＰＣ分析及び合成を用いて励振領域で）窓化した波形を繰り返すことからなる。窓化した波形を重ね合わせて、先行するフレーム及び次のフレームによって時間領域エイリアシング消去を保持する［ＩＥＴ１２］。追加的に、フェードアウト定数を導出し、以下のコードによって適用する。

このコードにおいては、ｅｘｃは、損失前の最大ＭＡＸ＿ＰＥＲＩＯＤ個のサンプルまでの励振信号を含む。

励振信号は、後に減衰で乗算され、それから合成されてＬＰＣ合成を介して出力される。

時間領域方策についてのフェードアルゴリズムは、以下のように概括することができる。

‐損失前の最後のピッチサイクルのピッチ同期エネルギーを求める。

‐損失前の最後から２番目のピッチサイクルのピッチ同期エネルギーを求める。

‐エネルギーが増加している場合、一定となるように制限する。減衰＝１。

‐エネルギーが減少している場合、封じ込め中に同じ減衰で継続する。

ノイズ様の封じ込めに関し、ＯＰＵＳによると、６番目及びその後連続する失われたフレームについて、ＭＤＣＴ領域におけるノイズ置き換え方策を実行して、快適背景ノイズをシミュレートする。

背景ノイズレベル及び形状のトレースに関し、ＯＰＵＳにおいては、背景ノイズ推定は、以下のように行われる。ＭＤＣＴ分析の後、ＭＤＣＴ帯域エネルギーの平方根を１周波数帯域当りで算出し、ＭＤＣＴビンのまとまりは、［ＩＥＴ１２、表５５］によるバークスケール（ｂａｒｋｓｃａｌｅ）に従う。次に、エネルギーの平方根を、

によってｌｏｇ₂領域に変換し、ここで、ｅは、オイラー数であり、ｂａｎｄＥは、ＭＤＣＴ帯域の平方根であり、ｅＭｅａｎｓは、（結果として増強された符号化ゲインをもたらす結果、ゼロ平均を得るために必要な）定数のベクトルである。

ＯＰＵＳにおいては、背景ノイズは、以下のようにデコーダ側でログオンされる［ＩＥＴ１２、ａｍｐ２Ｌｏｇ２及びｌｏｇ２Ａｍｐ＠ｑｕａｎｔ＿ｂａｎｄ．ｃ］。

トレースされた最小エネルギーは、基本的には、現在のフレームの帯域のエネルギーの平方根によって決定されるが、１フレームから次のフレームへの増加は、０．０５ｄＢによって制限される。

背景ノイズレベル及び形状の適用に関し、ＯＰＵＳによると、ノイズ様のＰＬＣが適用される場合、最後の良好なフレームにおいて導出されたｂａｃｋｇｒｏｕｎｄＬｏｇＥを用いて線形領域に変換し、即ち

とし、ここで、ｅは、オイラー数であり、ｅＭｅａｎｓは、「線形からログへ」の変換についての定数の同じベクトルである。

現在の封じ込め手順は、ランダム数生成部によって生成されたホワイトノイズをＭＤＣＴフレームに充填し、このホワイトノイズを、帯域単位でｂａｎｄＥのエネルギーに一致するようにスケーリングするものである。この後、逆ＭＤＣＴを適用し、その結果として時間領域信号が得られる。重ね合わせ加算及び強調解除（通常の復号と同様）の後、出力される。

以下、ＭＰＥＧ−４ＨＥ−ＡＡＣについて検討する（ＭＰＥＧ＝動画エキスパートグループ；ＨＥ−ＡＡＣ＝高効率高度音声符号化）。高効率高度音声符号化は、変換ベースの音声コーデック（ＡＡＣ）であって、パラメータ的な帯域幅拡張（ＳＢＲ）を補ったものからなる。

ＡＡＣ（ＡＡＣ＝高度音声符号化）に関し、ＤＡＢコンソーシアムは、ＤＡＢ＋におけるＡＡＣについて、周波数領域におけるゼロへのフェードアウトについて述べている［ＥＢＵ１０、Ａ１．２節］（ＤＡＢ＝デジタル音声ブロードキャスト）。フェードアウト挙動、例えば、減衰ランプは、固定又はユーザによって調節可能であり得る。最後のＡＵ（ＡＵ＝アクセス単位）からのスペクトル係数は、フェードアウト特性に対応する定数によって減衰させられ、そして、周波数から時間へのマッピングへと渡される。減衰ランプに応じて、封じ込めは、或る数の連続する無効ＡＵの後でミューティングに切り替わり、即ち完全なスペクトルは、０に設定されることになる。

ＤＲＭ（ＤＲＭ＝デジタル権利管理）コンソーシアムは、ＤＲＭにおけるＡＡＣについて、周波数領域におけるフェードアウトについて述べている［ＥＢＵ１２、５．３．３節］。最後の周波数から時間への変換の直前に封じ込めがスペクトルデータに対して働く。多数のフレームが破損している場合、封じ込めは、まず、最後の有効なフレームからの僅かに変更したスペクトル値に基づいてフェードアウトを実行する。更に、ＤＡＢ＋と同様、フェードアウト挙動、例えば、減衰ランプは、固定又はユーザによって調節可能であり得る。最後のフレームからのスペクトル係数は、フェードアウト特性に対応する定数によって減衰させられ、そして、周波数から時間へのマッピングに渡される。減衰ランプに応じて、封じ込めは、或る数の連続する無効フレームの後でミューティングに切り替わり、即ち、完全なスペクトルは、０に設定されることになる。

３ＧＰＰは、強化ａａｃＰｌｕｓにおけるＡＡＣについて、ＤＲＭと同様の周波数領域におけるフェードアウトを導入している［３ＧＰ１２ｅ、５．１節］。最後の周波数から時間への変換の直前に封じ込めがスペクトルデータに対して働く。多数のフレームが破損している場合、封じ込めは、まず、最後の良好なフレームからの僅かに変更したスペクトル値に基づいてフェードアウトを実行する。完全なフェードアウトは５フレームを要する。最後の良好なフレームからのスペクトル係数がコピーされ、

の定数によって減衰させられ、ここで、ｎＦａｄｅＯｕｔＦｒａｍｅは、最後の良好なフレームからのフレームカウンタである。フェードアウトの５フレームの後、封じ込めは、ミューティングに切り替わり、即ち、完全なスペクトルは、０に設定されることになる。

ラウバー及びシュペルシュナイダーは、ＡＡＣについて、エネルギー外挿に基づいて、ＭＤＣＴスペクトルのフレーム単位のフェードアウトを導入している［ＬＳ０１、４．４節］。先行するスペクトルのエネルギー形状を用いて、推定スペクトルの形状を外挿することができる。エネルギー外挿は、或る種の後封じ込めとして、封じ込め技術とは独立して実行することができる。

ＡＡＣに関し、エネルギー算出をスケール定数帯域ベースで実行して、人間の聴覚系の臨界帯域に近くなるようにする。個々のエネルギー値をフレーム毎に減少させ、音量をスムーズに下げる、例えば、信号をフェードアウトさせる。これが必要なのは、推定値が現在の信号を表す確率が時間の経過に伴って急速に減少するからである。

出力対象のスペクトルの生成については、ラウバー等はフレーム繰り返し又はノイズ置き換えを提案している［ＬＳ０１、３．２節及び３．３節］。

クヴァッケンブッシュ及びドリーゼンは、ＡＡＣについて、ゼロへの指数的なフレーム単位のフェードアウトを提案している［ＱＤ０３］。時間／周波数係数の隣接する組の繰り返しが提案され、各々の繰り返しは、指数的に増加する減衰を有するため、停止期間が長引いた場合に徐々にミュートへとフェードする。

ＭＰＥＧ−４ＨＥ＋ＡＡＣにおけるＳＢＲ（ＳＢＲ＝スペクトル帯域複写）に関し、３ＧＰＰは、強化ａａｃＰｌｕｓにおけるＳＢＲについて、復号された包絡線データをバッファし、フレーム損失の場合に、送信された包絡線データのバッファされたエネルギーを再使用し、各々全ての封じ込められたフレームについて３ｄＢの一定比によってこれらを減少させることを提案している。結果は、通常の復号プロセスに入力され、包絡線調節部は、これを用いて、ＨＦ生成部の生成したパッチ広帯域の調節に用いられるゲインを算出する。次に、ＳＢＲ復号が通常と同様に行われる。更に、デルタ符号化ノイズフロア及び正弦レベル値を消去する。先行する情報との差が利用可能でない状態が続くため、復号ノイズフロア及び正弦レベルは、ＨＦ生成信号のエネルギーと比例し続ける［３ＧＰ１２ｅ、５．２節］。

ＤＲＭコンソーシアムは、ＡＡＣとの関連でＳＢＲについて、３ＧＰＰと同じ技術について述べている［ＥＢＵ１２、５．６．３．１節］。更に、ＤＡＢコンソーシアムは、ＤＡＢ＋におけるＳＢＲについて、３ＧＰＰと同じ技術について述べている［ＥＢＵ１０、Ａ２節］。

以下、ＭＰＥＧ−４ＣＥＬＰ及びＭＰＥＧ−４ＨＶＸＣ（ＨＶＸＣ＝高調波ベクトル励振符号化）について検討する。ＤＲＭコンソーシアムは、ＣＥＬＰ及びＨＶＸＣとの関連でＳＢＲについて［ＥＢＵ１２、５．６．３．２節］、言語音声コーデックのためのＳＢＲについての最低要件の封じ込めは、破損したＳＢＲフレームが検出された時には必ず所定の組のデータ値を適用することであると述べている。これらの値は、低い相対的再生レベルでの静的な広帯域スペクトル包絡線をもたらし、より高い周波数へのロールオフを呈する。その目的は、単に、（厳密なミューティングではなく）「快適ノイズ」を挿入することによって、挙動の劣悪な、時に大きい音声バーストが聴取者の耳に届かないようにすることである。これは、実際には、現実のフェードアウトではなく、或るエネルギーレベルにジャンプして或る種の快適ノイズを挿入することである。

その後、代替案として、最後の正しく復号されたデータを再使用して、ＡＡＣ＋ＳＢＲの場合と同様に０へとレベル（Ｌ）をゆっくりとフェードさせることについて述べられる［ＥＢＵ１２、５．６．３．２節］。

次に、ＭＰＥＧ−４ＨＩＬＮについて検討する（ＨＩＬＮ＝高調波及び個々のライン＋ノイズ）。マイネ他は、パラメトリック領域においてパラメトリック的なＭＰＥＧ−４ＨＩＬＮコーデック［ＩＳＯ０９］のためのフェードアウトを導入している［ＭＥＰ０１］。連続した高調波成分の場合、破損した、異なって符号化されたパラメータの代わりとなる良好なデフォルト挙動は、周波数を一定に保ち、振幅を減衰因数（例えば−６ｄＢ）だけ減少させ、スペクトル包絡線を平均低域通過特性のそれへと収束させることである。スペクトル包絡線についての代替案として、これを変化させないことがあり得る。振幅及びスペクトル包絡線に関し、ノイズ成分は、高調波成分と同様に扱うことができる。

以下、先行技術における背景ノイズレベルのトレースについて検討する。ランガカーリ及びロイズ［ＲＬ０６］は、いくつかの方法についての良い概観を提供しており、それらの限界のいくつかについて述べている。背景ノイズレベルをトレースする方法は、例えば、最小追跡手順［ＲＬ０６］［Ｃｏｈ０３］［ＳＦＢ００］［Ｄｏｂ９５］、ＶＡＤベースのもの（ＶＡＤ＝音声活動検出）、カルマンフィルタリング［Ｇａｎ０５］［ＢＪＨ０６］、サブスペース分解［ＢＰ０６］［ＨＪＨ０８］、ソフト決定［ＳＳ９８］［ＭＰＣ８９］［ＨＥ９５］、及び最小統計である。

最小統計の方策がＵＳＡＣ−２についての範囲内で使用されるものとして選択されており（ＵＳＡＣ＝統合言語音声及び音声符号化）、その後より詳細に述べられている。

最適平滑化及び最小統計に基づくノイズパワースペクトル密度推定［Ｍａｒ０１］では、アクティブな言語音声又は背景ノイズである信号とは独立して働くことのできるノイズ推定部が導入される。他の方法とは対照的に、最小統計アルゴリズムは、言語音声区間と言語音声ポーズとの間を区別するために明示的な閾値を用いないため、従来の発話区間検出方法よりもソフト決定方法により近く関係している。ソフト決定方法と同様、言語音声区間中に推定ノイズＰＳＤ（パワースペクトル密度）を更新することもできる。

最小統計方法は、２つの所見に基づいている。即ち、言語音声とノイズとは、通常統計的に独立であること、及び、ノイズの多い言語音声信号のパワーは、頻繁にノイズのパワーレベルへと減衰することである。従って、ノイズの多い信号ＰＳＤの最小値を追跡することによって正確なノイズＰＳＤ（ＰＳＤ＝パワースペクトル密度）推定値を導出することが可能である。最小値は、平均値よりも小さい（又は他の場合では等しい）ため、最小追跡方法は、バイアス補償を必要とする。

バイアスは、平滑化信号ＰＳＤの分散の関数であるため、ＰＳＤ推定部の平滑化パラメータに依存する。最小追跡についての以前の業績では、一定平滑化パラメータ及び一定最小バイアス訂正を利用していたが、これとは対照的に、時間及び周波数依存のＰＳＤ平滑化が用いられ、これも時間及び周波数依存バイアス補償を必要とする。

最小追跡を用いることで、ノイズパワーの凡その推定値が得られる。しかしながら、いくつかの欠点がある。固定の平滑化パラメータによる平滑化によって、平滑化ＰＳＤ推定値の言語音声区間のピークが広がる。これにより、ノイズ推定値が不正確になるが、それは、最小探索のためのスライド窓が広いピークへと滑り込む恐れがあるからである。従って、１に近い平滑化パラメータを用いることはできず、その結果、ノイズ推定値は、比較的大きな分散を有することになる。更に、ノイズ推定は、より低い値へ偏る。更に、ノイズパワーを増加させる場合、最小追跡が遅れることになる。

低複雑度のＭＭＳＥベースのノイズＰＳＤ追跡［ＨＨＪ１０］では、ＤＦＴ（離散的フーリエ変換）スペクトルに対して用いられるＭＭＳＥ探索を利用した背景ノイズＰＳＤ方策が導入されている。このアルゴリズムは、以下の処理ステップからなる。

‐先行するフレームのノイズＰＳＤに基づいて最大可能性推定部が計算される。

‐最小平均平方推定部が計算される。

‐決定によって指示される方策を用いて最大可能性推定部が推定される［ＥＭ８４］。

‐言語音声及びノイズＤＦＴ係数がガウス分布したものであると仮定して逆バイアス定数が計算される。

‐推定されたノイズパワースペクトル密度が平滑化される。

アルゴリズムの完全な竦みを回避するために適用される安全策もある。

データを用いる再帰的ノイズパワー推定に基づく非定常ノイズの追跡［ＥＨ０８］では、極めて非定常的なノイズ源によって汚染された言語音声信号からのノイズスペクトル分散の推定方法が導入されている。この方法はまた、時間・周波数方向における平滑化を用いている。

ノイズパワー推定の平滑化及び推定バイアス訂正に基づく低複雑度のノイズ推定アルゴリズム［Ｙｕ０９］は、［ＥＨ０８］において導入された方策を強化するものである。主な相違点は、ノイズパワー推定のためのスペクトルゲイン関数が反復的なデータを用いた方法によって求められることである。

ノイズの多い言語音声の強調のための統計的方法［Ｍａｒ０３］においては、［Ｍａｒ０１］において与えられた最小統計方策を、ソフト決定ゲイン変更［ＭＣＡ９９］、アプライオリＳＮＲの推定［ＭＣＡ９９］、適応ゲイン制限［ＭＣ９９］及びＭＭＳＥログ・スペクトル振幅推定部［ＥＭ８５］によって組み合わせる。

フェードアウトに対する関心は、複数の言語音声及び音声コーデックにおいて特に大きい。特に、ＡＭＲ（［３ＧＰ１２Ｂ］を参照）（ＡＣＥＬＰ及びＣＮＧを含む）、ＡＭＲ−ＷＢ（［３ＧＰ０９ｃ］を参照）（ＡＣＥＬＰ及びＣＮＧを含む）、ＡＭＲ−ＷＢ＋（［３ＧＰ０９ａ］を参照）（ＡＣＥＬＰ、ＴＣＸ及びＣＮＧを含む）、Ｇ.７１８（［ＩＴＵ０８ａ］を参照）、Ｇ.７１９（［ＩＴＵ０８ｂ］を参照）、Ｇ.７２２（［ＩＴＵ０７］を参照）、Ｇ.７２２．１（［ＩＴＵ０５］を参照）、Ｇ.７２９（［ＩＴＵ１２、ＣＰＫ０８、ＰＫＪ＋１１を参照］）、ＭＰＥＧ−４ＨＥ−ＡＡＣ／高度ａａｃＰｌｕｓ（［ＥＢＵ１０、ＥＢＵ１２、３ＧＰ１２ｅ、ＬＳ０１、ＱＤ０３］を参照）（ＡＡＣ及びＳＢＲを含む）、ＭＰＥＧ−４ＨＩＬＮ（［ＩＳＯ０９, ＭＥＰ０１］を参照）及びＯＰＵＳ（［ＩＥＴ１２］を参照）（ＳＩＬＫ及びＣＥＬＴを参照）がある。

コーデックに応じて、フェードアウトは、それぞれ異なる領域で実行される。

ＬＰＣを利用するコーデックについては、フェードアウトは、線形予測領域（励振領域としても知られる）において実行される。このことは、以下のコーデックに当てはまる。即ち、ＡＣＥＬＰに基づくコーデック、例えば、ＡＭＲ、ＡＭＲ−ＷＢ、ＡＭＲ−ＷＢ＋のＡＣＥＬＰコア、Ｇ．７１８、Ｇ．７２９、Ｇ．７２９．１、ＯＰＵＳにおけるＳＩＬＫコア、時間周波数変換を用いた励振信号を更に処理するコーデック、例えば、ＡＭＲ−ＷＢ＋のＴＣＸコア、ＯＰＵＳにおけるＣＥＬＴコア、及び、線形予測領域において動作する快適ノイズ生成（ＣＮＧ）方式、例えば、ＡＭＲにおけるＣＮＧ、ＡＭＲ−ＷＢにおけるＣＮＧ，ＡＭＲ−ＷＢ＋におけるＣＮＧ、である。

時間信号を周波数領域に直接変換するコーデックについては、フェードアウトは、スペクトル／サブバンド領域において実行される。このことは、ＭＤＣＴ又は類似の変換に基づくコーデック、例えば、ＭＰＥＧ−４ＨＥ−ＡＡＣにおけるＡＡＣ，Ｇ．７１９、Ｇ．７２２（サブバンド領域）及びＧ．７２２．１に当てはまる。

パラメトリックコーデックについては、フェードアウトは、パラメトリック領域で適用される。このことは、ＭＰＥＧ−４ＨＩＬＮに当てはまる。

フェードアウト速度及びフェードアウト曲線に関し、フェードアウトは、一般的に、適切な領域における信号表現に適用される減衰定数の適用によって実現される。減衰定数のサイズは、フェードアウト速度及びフェードアウト曲線を制御する。殆どの場合、減衰定数は、フレーム単位に適用されるが、サンプル単位の適用も利用される。例えば、Ｇ７１８及びＧ．７２２を参照。

特定の信号セグメントのための減衰定数は、２つの態様、即ち絶対的及び相対的に与えられ得る。

減衰定数が絶対的に与えられる場合、参照レベルは、常に最後の受信フレームのものである。絶対的減衰定数は、通常、最後の良好なフレームの直後の信号セグメントについて１に近い値で始まり、それから速く又は遅く０へと劣化する。フェードアウト曲線は、これらの要因に直接依存する。これは、例えば、Ｇ．７２２の付録ＩＶ（特に［ＩＴＵ０７、図ＩＶ．７］を参照）に記載される封じ込めに該当し、ここでは、可能なフェードアウト曲線は、線形又は徐々に線形である。ゲイン定数ｇ（ｎ）を考慮する場合、ｇ（０）は最後の良好なフレームのゲイン定数、絶対減衰定数α_abs（ｎ）を表すものとすると、後続の失われたフレームのゲイン定数は

として導出することができる。

減衰定数が相対的に与えられる場合、参照レベルは、先行するフレームからのものである。これが有利となるのは、再帰的封じ込め手順の場合、例えば、既に減衰した信号が更に処理され、再び減衰させられる場合である。

減衰定数が再帰的に適用される場合、これは、以下であり得る。即ち、連続する失われたフレームの数とは独立の固定値、例えば、Ｇ．７１９の場合は、０．５（上記を参照）、連続する失われたフレームの数に関連した固定値、例えば［ＣＰＫ０８］におけるＧ．７２９について提案されたもの、最初の２つのフレームについて１．０、次の２つのフレームについて０．９、フレーム５，６について０．８、後続の全てのフレームについて０（上記を参照）、又は、連続する失われたフレームの数に関連した値であって信号特性に依存するもの、例えば、不安定な信号については、より速いフェードアウト、安定な信号については、より遅いフェードアウト、例えば、Ｇ．７１８（上記の節及び［ＩＴＵ０８ａ、表４４］を参照）である。

相対的なフェードアウト定数を０≦ａ_rel（ｎ）≦１、ｎが失われたフレームの数（ｎ≧１）と仮定すると、後続のフレームのゲイン定数は、

のように導出することができ、結果として、指数的フェードが得られる。

フェードアウト手順に関し、通常、減衰定数が特定されるが、いくつかの応用規格（ＤＲＭ、ＤＡＢ＋）では、減衰定数は、製造者に委ねられる。

異なる信号部分が別個にフェードさせられる場合、異なる減衰定数を適用することによって、例えば、調性を有する成分を或る速度でフェードさせ、ノイズ様の成分を別の速度でフェードさせることができる（例えばＡＭＢ、ＳＩＬＫ）。

通常、或るゲインをフレーム全体に適用する。フェードがスペクトル領域で実行される場合、これが唯一可能な態様である。しかしながら、フェードが時間領域又は線形予測領域で行われる場合、よりグラニュール状のフェードが可能である。このようなよりグラニュール状のフェードがＧ．７１８で適用されており、ここでは、個々のゲイン因数が、各々のサンプルにつき、最後のフレームのゲイン因数と現在のフレームのゲイン因数との間の線形補間によって導出される。

可変フレーム期間を伴うコーデックの場合、フレーム期間に応じて、一定の相対的な減衰定数から、異なるフェードアウト速度が生じる。これは、例えばＡＡＣの場合に該当し、ここではフレーム期間がサンプリングレートに依存する。

適用されたフェード曲線を、最後に受信された信号の一時的形状に対して適用するために、（静的）フェードアウト定数を更に調節することができる。このような更なる動的な調節は、例えばＡＭＢに適用され、ここでは先行する５つのゲイン因数の中央値が考慮される（［３ＧＰ１２ｂ］及び１．８．１節を参照）。減衰を実行する前に、中央値が最後のゲインよりも小さければ、現在のゲインを中央値に設定し、その他の場合は、最後のゲインを用いる。更に、このような更なる動的な調節は、例えばＧ７２９に適用され、ここでは、振幅は、先行するゲイン定数の線形回帰を用いて予測される（［ＣＰＫ０８、ＰＫＪ＋１１］及び１．６節を参照）。この場合、最初の封じ込められたフレームについての結果のゲイン定数は、最後の受信フレームのゲイン定数を超過する場合がある。

フェードアウトの目標レベルに関し、Ｇ．７１８及びＣＥＬＴを除き、全ての分析されたコーデック（これらのコーデックの快適ノイズ生成（ＣＮＧ）を含む）について目標レベルは、０である。

Ｇ．７１８において、ピッチ励振（調性成分を表す）のフェード及びランダム励振（ノイズ様の成分を表す）のフェードを別個に実行する。ピッチゲイン定数がゼロへフェードさせられる一方、新規ゲイン定数は、ＣＮＧ励振エネルギーにフェードさせられる。

相対的な減衰定数が与えられると仮定すると、ここから、式（２３）に基づき、以下の絶対減衰定数が得られ、

ここで、ｇ_nは、快適ノイズ生成中に用いられる励振のゲインである。この式は、ｇ_n＝０の場合、式（２３）に対応する。

Ｇ．７１８は、ＤＴＸ／ＣＮＧの場合、フェードアウトを実行しない。

ＣＥＬＴにおいては、目標レベルへのフェードがないが、調性を有する封じ込め（フェードアウトを含む）の５フレームの後、６番目の連続して失われたフレームで、レベルは、瞬間的に目標レベルに切り替えられる。このレベルは、式（１９）を用いて帯域毎に導出される。

フェードアウトの目標スペクトル形状に関し、全ての分析した純粋な変換ベースのコーデック（ＡＡＣ、Ｇ．７１９、Ｇ．７２２、Ｇ．７２２．１）及びＳＢＲは、フェードアウト中の最後の良好なフレームのスペクトル形状を単に長くするだけである。

様々な言語音声コーデックは、ＬＰＣ合成を用いてスペクトル形状を平均へフェードさせる。平均は、静的（ＡＭＲ）又は適応的（ＡＭＲ−ＷＢ、ＡＭＲ−ＷＢ＋、Ｇ．７１８）であり得るが、後者は、静的な平均及び短期的平均（最後のｎ個のＬＰ係数セットの平均を取ることで導出される）（ＬＰ＝線形予測）から導出される。

上述のコーデックＡＭＲ、ＡＭＲ−ＷＢ、ＡＭＲ−ＷＢ＋、Ｇ．７１８における全てのＣＮＧモジュールは、フェードアウト中の最後の良好なフレームのスペクトル形状を長くする。

背景ノイズレベルトレースに関し、文献から５つの異なる方策が知られている。

‐発話区間検出部ベース：ＳＮＲ／ＶＡＤに基づくが、調性が極めて困難であり、低ＳＮＲ言語音声の場合に使いにくい。

‐ソフト決定方式：ソフト決定方策は、言語音声の存在の可能性を考慮に入れる［ＳＳ９８］［ＭＰＣ８９］［ＨＥ９５］。

‐最小統計：時間に亘ってバッファ内に或る一定量の値を保持しながらＰＳＤの最小値を追跡することによって、最小ノイズを過去のサンプルから求めることを可能にする［Ｍａｒ０１］［ＨＨＪ１０］［ＥＨ０８］［Ｙｕ０９］。

‐カルマンフィルタリング：アルゴリズムは、時間に亘って観察された、ノイズ（ランダムな変動）を含む一連の測定値を用いて、単一の測定だけに基づくものよりも正確である傾向があるノイズＰＳＤの推定値を生成する。カルマンフィルタは、ノイズの多い入力データのストリームに対して再帰的に働き、システム状態の統計的に最適な推定値を生成する［Ｇａｎ０５］［ＢＪＨ０６］。

‐部分空間分解：この方策は、例えば、ＫＬＴ（カルフネン・ロエヴ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換、また主成分分析としても知られる）及び／又はＤＦＴ（離散時間フーリエ変換）を利用して、ノイズ様の信号をクリーンな言語音声信号及びノイズ部分に分解することを試みる。それから、任意の平滑化アルゴリズムを用いて固有ベクトル・固有値をトレースすることができる［ＢＰ０６］［ＨＪＨ０８］。

［３ＧＰ０９ａ］３ＧＰＰ、技術仕様グループサービス及びシステム局面（Technical Specification Group Services and System Aspects）、「拡張適応マルチレート−広帯域（ＡＭＲ−ＷＢ＋）コーデック（Extended adaptive multi-rate - wideband (AMR-WB+) codec）」、３ＧＰＰＴＳ２６．２９０、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２００９年［３ＧＰ０９ｂ］「拡張適応マルチレート−広帯域（ＡＭＲ−ＷＢ＋）コーデック；浮動小数点ＡＮＳＩ−Ｃコード（Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code）」、３ＧＰＰＴＳ２６．３０４、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２００９年［３ＧＰ０９ｃ］「言語音声コーデック言語音声処理機能；適応マルチレート−広帯域（ＡＭＲＷＢ）言語音声コーデック；トランスコード処理機能（Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions）」、３ＧＰＰＴＳ２６．１９０、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２００９年［３ＧＰ１２ａ］「適応マルチレート（ＡＭＲ）言語音声コーデック；失われたフレームのエラー封じ込め（第１１号）（Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11)）、３ＧＰＰＴＳ２６．０９１、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年９月［３ＧＰ１２ｂ］「適応マルチレート（ＡＭＲ）言語音声コーデック；トランスコード処理機能（第１１号）（Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11)）」、３ＧＰＰＴＳ２６．０９０、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年９月［３ＧＰ１２ｃ］「適応マルチレート−広帯域のためのＡＮＳＩ−Ｃコード（ＡＭＲ−ＷＢ）言語音声コーデック（ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec）」、３ＧＰＰＴＳ２６．１７３、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年９月［３ＧＰ１２ｄ］「浮動小数点適応マルチレート（ＡＭＲ）言語音声コーデックのためのＡＮＳＩ−Ｃコード（第１１号）（ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (release 11)）」、３ＧＰＰＴＳ２６．１０４、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年９月３ＧＰ１２ｅ］一般的な音声コーデック音声処理機能：高度ａａｃプラス一般音声コーデック；追加のデコーダツール（第１１号）（General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11)）」、３ＧＰＰＴＳ２６．４０２、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年９月［３ＧＰ１２ｆ］「言語音声コーデック言語音声処理機能；適応マルチレート−広帯域（ａｍｒ−ｗｂ）言語音声コーデック；ａｎｓｉ−ｃコード（Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code）」、３ＧＰＰＴＳ２６．２０４、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年［３ＧＰ１２ｇ］「言語音声コーデック言語音声処理機能；適応マルチレート−広帯域（ＡＭＲ−ＷＢ）言語音声コーデック；誤りを含む又は失われたフレームのエラー封じ込め（Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneous or lost frames）」、３ＧＰＰＴＳ２６．１９１、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２０１２年９月［ＢＪＨ０６］Ｉ．バティーナ（Batina）、Ｊ．イェンゼン（Jensen）、Ｒ．ホイスデンス（Heusdens）、「言語音声パワースペクトルダイナミクスのための自動回帰モデルを用いた言語音声強調のためのノイズパワースペクトル推定（Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics）、第３回ＩＥＥＥ国際音響・言語音声・信号処理会議集録（Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3）、（２００６年）、１０６４〜１０６７頁［ＢＰ０６］Ａ．ボロヴィッツ（Borowicz）、Ａ．ペトロフスキー（Petrovsky）、「ｋｌｔベースの言語音声強調のための最小制御ノイズ推定（Minima controlled noise estimation for klt-based speech enhancement）、ＣＤ−ＲＯＭ、２００６年、イタリア、フィレンツェ［Ｃｏｈ０３］Ｉ．コーエン（Cohen）、「不利な環境でのノイズスペクトル推定：向上した最小制御再帰的平均化（Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging）、ＩＥＥＥ言語音声・音声処理会報（IEEE Trans. Speech Audio Process）第１１巻（２００３年）、第５号、４６６〜４７５頁［ＣＰＫ０８］チョン・サン・チョ（Choong Sang Cho）、ナム・イン・パク（Nam In Park）、ホン・クック・キム（Hong Kook Kim）、「ｃｅｌｐタイプの言語音声コーダについてのバースト状のパケット損失に対してロバストなパケット損失封じ込めアルゴリズム（A packet loss concealment algorithm robust to burst packet loss for celp- type speech coders）」、韓国電子工学技術研究所技術レポート、グワン科学技術研究所、２００８年、第２３回国際回路・システム・コンピュータ・通信技術会議（Tech. report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on Circuits/Systems, Computers and Communications）（ＩＴＣ−ＣＳＣＣ２００８年）［Ｄｏｂ９５］Ｇ．ドーブリンガー（Doblinger）、「サブバンドにおけるスペクトル最小追跡による計算上効率的な言語音声強調（Computationally efficient speech enhancement by spectral minima tracking in subbands）、ユーロスピーチ集録（Proc. Eurospeech）（１９９５年）、１５１３〜１５１６頁［ＥＢＵ１０］ＥＢＵ／ＥＴＳＩＪＴＣブロードキャスト（EBU/ETSI JTC Broadcast）、「デジタル音声ブロードキャスティング（ＤＡＢ）；高度音声符号化（ＡＡＣ）音声のトランスポート（Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio）」、ＥＴＳＩＴＳ１０２５６３、欧州放送同盟（European Broadcasting Union）、２０１０年５月［ＥＢＵ１２］全世界デジタル無線（ＤＲＭ）；システム仕様（Digital radio mondiale (DRM); system specification）」、ＥＴＳＩＥＳ２０１９８０、ＥＴＳＩ、２０１２年６月［ＥＨ０８］ヤーン・Ｓ．エルケレンス（Jan S. Erkelens）、リヒャルト・ホイスデンス（Richards Heusdens）、「データを用いた再帰的ノイズパワー推定に基づく非定常ノイズの追跡（Tracking of Nonstationary Noise Based on Data-Driven Recursive Noise Power Estimation）」、音声・言語音声・言語処理、ＩＥＥＥ会報（Audio, Speech, and Language Processing, IEEE Transactions）第１６巻（２００８年）、第６号、１１１２〜１１２３頁［ＥＭ８４］Ｙ．エフライム（Ephraim）、Ｄ．マーラー（Malah）、「最小平均平方エラー短時間スペクトル振幅推定器を用いた言語音声強調（Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator）、ＩＥＥＥ音響・言語音声・信号処理会報（IEEE Trans. Acoustics, Speech and Signal Processing）第３２巻（１９８４年）、第６号、１１０９〜１１２１頁［ＥＭ８５］「最小平均平方エラーログスペクトル振幅推定器を用いた言語音声強調（Speech enhancement using a minimum mean-square error log-spectral amplitude estimator）、ＩＥＥＥ音響・言語音声・信号処理会報（IEEE Trans. Acoustics, Speech and Signal Processing）第３３巻（１９８５年）、４４３〜４４５頁［Ｇａｎ０５］Ｓ．ガノート（Gannot）、「言語音声強調：推定最大（ｅｍフレームワーク）におけるカルマンフィルタの適用（Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework)）、シュプリンガー（Springer）、２００５年［ＨＥ９５］Ｈ．Ｇ．ヒルシュ（Hirsch）、Ｃ．エーアリッヒャー（Ehrlicher）、「ロバストな言語音声認識のためのノイズ推定技術（Noise estimation techniques for robust speech recognition）」、国際ＩＥＥＥ音響・言語音声・信号処理会議集録（Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing）、１５３〜１５６頁、ＩＥＥＥ，１９９５年［ＨＨＪ１０］リヒャルト・Ｃ．ヘンドリクス（Richard C. Hendriks）、リヒャルト・ホイスデンス（Richard Heusdens）、イェスパー・イェンゼン（Jesper Jensen）、「低複雑度のＭＭＳＥベースのノイズＰＳＤ追跡（MMSE based noise PSD tracking with low complexity）」、音響言語音声及び信号処理（ＩＣＡＳＳＰ）（Acoustics Speech and Signal Processing (ICASSP)）、２０１０年ＩＥＥＥ国際会議（2010 IEEE International Conference）、２０１０年５月、４２６６〜４２６９頁［ＨＪＨ０８］リヒャルト・Ｃ．ヘンドリクス（Richard C. Hendriks）、イェスパー・イェンゼン（Jesper Jensen）、リヒャルト・ホイスデンス（Richard Heusdens）、「ｄｆｔ領域サブスペース分解を用いたノイズ追跡（Noise tracking using dft domain subspace decompositions）」、ＩＥＥＥ音声・言語音声・言語処理会報（IEEE Trans. Audio, Speech, Lang. Process.）第１６巻（２００８年）、第３号、５４１〜５５３頁［ＩＥＴ１２］ＩＥＴＦ、「Ｏｐｕｓ音声コーデックの定義（Definition of the Opus Audio Codec）」、技術レポートＲＦＣ６７１６、インターネット工学タスクフォース（Tech. Report RFC 6716, Internet Engineering Task Force）、２０１２年９月［ＩＳＯ０９］ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、「情報技術―音声視角対象の符号化―第３部：音声（Information technology − coding of audio-visual objects − part 3: Audio）」、ＩＳＯ/ＩＥＣＩＳ１４４９６−３、国際標準化機構（International Organization for Standardization）、２００９年［ＩＴＵ０３］ＩＴＵ−Ｔ、「適応マルチレート広帯域（ａｍｒ−ｗｂ）を用いた約１６ｋｂｉｔ／秒での言語音声の広帯域符号化（Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb)）、勧告（Recommendation）ＩＴＵ−ＴＧ.７２２．２、ＩＴＵ電気通信標準化セクター（Telecommunication Standardization Sector of ITU）、２００３年７月［ＩＴＵ０５］「低フレーム損失のシステムにおけるハンドフリー動作のための２４・３２ｋｂｉｔ／秒での低複雑度符号化（Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss）」、勧告（Recommendation）ＩＴＵ−ＴＧ.７２２．１、ＩＴＵ電気通信標準化セクター（Telecommunication Standardization Sector of ITU）２００５年５月［ＩＴＵ０６ａ］「Ｇ．７２２付録ＩＩＩ：Ｇ．７２２のためのパケット損失封じ込めのための高複雑度のアルゴリズム（G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722）」、ＩＴＵ−Ｔ勧告（Recommendation）、ＩＴＵ−Ｔ、２００６年１１月［ＩＴＵ０６ｂ］「Ｇ．７２９．１：Ｇ７２９ベースの埋め込み可変ビットレートコーダ：ｇ．７２９と相互動作可能な８〜３２ｋｂｉｔ／秒スケーリング可能広帯域コーダビットストリーム（G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729）」、勧告（Recommendation）ＩＴＵ−ＴＧ.７２９．１、ＩＴＵ電気通信標準化セクター（Telecommunication Standardization Sector of ITU）、２００６年５月［ＩＴＵ０７］「Ｇ．７２２付録ＩＶ：Ｇ．７２２によるパケット損失封じ込めのための低複雑度のアルゴリズム（G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722）」、ＩＴＵ−Ｔ勧告（Recommendation）、ＩＴＵ−Ｔ、２００７年８月［ＩＴＵ０８ａ］「Ｇ．７１８：８〜３２ｋｂｉｔ／秒からの言語音声及び音声のフレームエラーロバストな狭帯域及び広帯域埋め込み可変ビットレート符号化（G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s）、勧告（Recommendation）ＩＴＵ−ＴＧ.７１８、ＩＴＵ電気通信標準化セクター（Telecommunication Standardization Sector of ITU）、２００８年６月［ＩＴＵ０８ｂ］「Ｇ．７１９：高品質会話用途のための低複雑度全帯域音声符号化（G.719: Low-complexity, full-band audio coding for high-quality, conversational applications）」、勧告（Recommendation）ＩＴＵ−ＴＧ.７１９、ＩＴＵ電気通信標準化セクター（Telecommunication Standardization Sector of ITU）、２００８年６月［ＩＴＵ１２］「Ｇ．７２９：共役構造の代数的符号励振線形予測（ｃｓ−ａｃｅｌｐ）を用いた８ｋｂｉｔ／秒での言語音声の符号化（G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp)）」、勧告（Recommendation）ＩＴＵ−ＴＧ.７２９、ＩＴＵ電気通信標準化セクター（Telecommunication Standardization Sector of ITU）、２０１２年６月［ＬＳ０１］ピエール・ローベール（Pierre Lauber）、ラルフ・シュペルシュナイダー（Ralph Sperschneider）、「圧縮デジタル音声のためのエラー封じ込め（Error concealment for compressed digital audio）」、第１１１回音声工学協会会議（Audio Engineering Society Convention 111）、第５４６０号、２００１年９月［Ｍａｒ０１］ライナー・マルティン（Rainer Martin）、「最適平滑化及び最小統計に基づくノイズパワースペクトル密度推定（Noise power spectral density estimation based on optimal smoothing and minimum statistics）」、ＩＥＥＥ言語音声・音声処理会報（IEEE Transactions on Speech and Audio Processing）第９巻（２００１年）、第５号、５０４〜５１２頁［Ｍａｒ０３］「ノイズの多い言語音声の強調のための統計的方法（Statistical methods for the enhancement of noisy speech）」、国際音響エコー・ノイズ制御ワークショップ（International Workshop on Acoustic Echo and Noise Control）（ＩＷＡＥＮＣ２００３）、ブラウンシュヴァイク工科大学（Technical University of Braunschweig）、２００３年９月［ＭＣ９９］Ｒ．マルティン（Martin）、Ｒ．コックス（Cox）、「低ビットレート言語音声符号化のための新規の言語音声強調技術（New speech enhancement techniques for low bit rate speech coding）」、ＩＥＥＥ言語音声符号化ワークショップ集録（Proc. IEEE Workshop on Speech Coding）（１９９９年）、１６５〜１６７頁［ＭＣＡ９９］Ｄ．マーラー（Malah）、Ｒ．Ｖ．コックス（Cox）、Ａ．Ｊ．アッカルディ（Accardi）、「非定常ノイズ環境において言語音声強調を向上させるための言語音声の存在の不確実性の追跡（Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments）」、国際ＩＥＥＥ音響・言語音声・信号処理会議集録（Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing）（１９９９年）、７８９〜７９２頁［ＭＥＰ０１］ニコラウス・マイネ（Nikolaus Meine）、ベルント・エードラー（Bernd Edler）、ハイコ・プルンハーゲン（Heiko Purnhagen）、「ＨＩＬＮＭＰＥＧ−４パラメータ的音声符号化のためのエラー保護及び封じ込め（Error protection and concealment for HILN MPEG-4 parametric audio coding）」、第１１０回音声工学協会会議（Audio Engineering Society Convention 110）、第５３００号、２００１年５月［ＭＰＣ８９］Ｙ．マイユー（Mahieux）、Ｊ．−Ｐ．プチ（Petit）、Ａ．シャルボニエ（Charbonnier）、「連続する変換ブロック間の相関を用いた音声信号の変換符号化（Transform coding of audio signals using correlation between successive transform blocks）」、音響・言語音声・信号処理（Acoustics, Speech, and Signal Processing）、１９８９年、ＩＣＡＳＳＰ−８９、１９８９年国際会議（1989 International Conference）、１９８９年、２０２１〜２０２４頁、第３巻［ＮＭＲ＋１２］マックス・ノイエンドルフ（Max Neuendorf）、マルクス・ムルトルス（Markus Multrus）、ニコラウス・レッテルバッハ（Nikolaus Rettelbach）、ギヨーム・フックス（Guillaume Fuchs）、ジュリアン・ロビヤール（Julien Robilliard）、ジェレミー・ルコント（Jeremie Lecomte）、シュテファン・ヴィルデ（Stephan Wilde）、シュテファン・バイヤー（Stefan Bayer）、ザシャ・ディッシュ（Sascha Disch）、クリスティアン・ヘルムリッヒ（Christian Helmrich）、ロッシュ・ルフェーブル（Roch Lefebvre）、フィリップ・グルネー（Philippe Gournay）、ブルーノ・ベセッテ（Bruno Bessette）、ジミー・ラピエール（Jimmy Lapierre）、クリストファー・キェルリング（Kristopfer Kjorling）、ハイコ・プルンハーゲン（Heiko Purnhagen）、ラルス・ヴィルモエス（Lars Villemoes）、ヴェルナー・オーメン（Werner Oomen）、エリック・シャイヤース（Erik Schuijers）、ケイ・キクイリ（Kei Kikuiri）、トール・チネン（Toru Chinen）、タケシ・ノリマツ（Takeshi Norimatsu）、チョン・コク・セン（Chong Kok Seng）、ユーンミ・オー（Eunmi Oh）、ミヨン・キム（Miyoung Kim）、シュイラー・クヴァッケンブッシュ（Schuyler Quackenbush）、ベルンハルト・グリル（Berndhard Grill）、「ＭＰＥＧ統一言語音声及び音声符号化―全てのコンテンツタイプの高効率音声符号化のためのＩＳＯ／ＭＰＥＧ標準規格（MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types）、会議録（Convention Paper）、８６５４頁、ＡＥＳ、２０１２年４月、第１３２回会議、ブダペスト、ハンガリー（Presented at the 132nd Convention Budapest, Hungary）［ＰＫＪ＋１１］ナム・イン・パク（Nam In Park）、ホン・クック・キム（Hong Kook Kim）、ミン・ア・ジュン（Min A Jung）、ソン・ロ・リー（Seong Ro Lee）、ソン・ホ・チョイ（Seung Ho Choi）、「無線センサネットワークにおけるｃｅｌｐタイプの言語音声コーダのための多数のコードブック及び快適ノイズを用いたバースト状のパケット損失の封じ込め（Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks）」、センサーズ（Sensors）第１１巻（２０１１）、５３２３〜５３３６頁［ＱＤ０３］シュイラー・クヴァッケンブッシュ（Schuyler Quackenbush）、ペーター・Ｆ．ドリーセン（Peter F. Driessen）、「ＭＰＥＧ−４音声パケット通信システムにおけるエラー緩和（Error mitigation in MPEG-4 audio packet communication systems）」、第１１５回音声工学協会会議（Audio Engineering Society Convention 115）、第５９８１号、２００３年１０月［ＲＬ０６］Ｓ．ランガカーリ（Rangachari）、Ｐ．Ｃ．ロイズ（Loizou）、「高度に非定常な環境のためのノイズ推定アルゴリズム（A noise-estimation algorithm for highly non-stationary environments）」、言語音声通信（Speech Commun.）第４８巻（２００６年）、２２０〜２３１頁［ＳＦＢ００］Ｖ．シュタール（Stahl）、Ａ．フィッシャー（Fischer）、Ｒ．ビップス（Bippus）、「スペクトル減算及びウィーナフィルタリングのためのクオンタイルベースのノイズ推定（Quantile based noise estimation for spectral subtraction and wiener filtering）、国際ＩＥＥＥ音響・言語音声・信号処理会議集録（Proc. IEEE Int. Conf. Acoust., Speech and Signal Process）（２０００年）、１８７５〜１８７８頁［ＳＳ９８］Ｊ．ゾーン（Sohn）、Ｗ．ズング（Sung）、「ソフト決定ベースのノイズスペクトル適応を用いた音声活動検出器（A voice activity detector employing soft decision based noise spectrum adaptation）」、国際ＩＥＥＥ音響・言語音声・信号処理会議集録（Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no.）、３６５〜３６８頁、ＩＥＥＥ、１９９８年［Ｙｕ０９］ロンシャン・ユー（Rongshan Yu）、「ノイズパワー推定の平滑化及び推定バイアス訂正に基づく低複雑度のノイズ推定アルゴリズム（A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction）」、音響・言語音声・信号処理（Acoustics, Speech and Signal Processing）、２００９年、ＩＣＡＳＳＰ２００９、ＩＥＥＥ国際会議（IEEE International Conference）、２００９年４月、４４２１〜４４２４頁

本発明の目的は、音声符号化システムについての向上した概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１２に記載の方法、請求項１３に記載のコンピュータプログラムによって達成される。

符号化音声信号を復号して再構成音声信号を得るための装置が提供される。当該装置は、１つ以上のフレームを受信するための受信インターフェースと、係数生成部と、信号再構成部とを備える。係数生成部は、１つ以上のフレームのうちの現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、現在のフレームに含まれる１つ以上の第１の音声信号係数を決定するように構成され、前記１つ以上の第１の音声信号係数は、符号化音声信号の特性を示し、１つ以上のノイズ係数が、符号化音声信号の背景ノイズを示す。更に、係数生成部は、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、１つ以上の第１の音声信号係数と１つ以上のノイズ係数とに応じて１つ以上の第２の音声信号係数を生成するように構成される。音声信号再構成部は、現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、１つ以上の第１の音声信号係数に応じて再構成音声信号の第１の部分を再構成するように構成される。更に、音声信号再構成部は、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、１つ以上の第２の音声信号係数に応じて再構成音声信号の第２の部分を再構成するように構成される。

いくつかの実施例においては、１つ以上の第１の音声信号係数は、例えば、符号化音声信号の１つ以上の線形予測フィルタ係数であり得る。いくつかの実施例においては、１つ以上の第１の音声信号係数は、例えば、符号化音声信号の１つ以上の線形予測フィルタ係数であり得る。

実施例によると、１つ以上のノイズ係数は、例えば、符号化音声信号の背景ノイズを示す１つ以上の線形予測フィルタ係数であり得る。実施例においては、１つ以上の線形予測フィルタ係数は、例えば、背景ノイズのスペクトル形状を表し得る。

実施例においては、係数生成部は、例えば、１つ以上の第２の音声信号部分が再構成音声信号の１つ以上の線形予測フィルタ係数であるように、又は１つ以上の第１の音声信号係数が再構成音声信号の１つ以上のインミッタンススペクトル対であるように１つ以上の第２の音声信号部分を決定するように構成され得る。

実施例によると、係数生成部は、例えば、

の式を適用することによって１つ以上の第２の音声信号係数を生成するように構成することができ、ｆ_current［ｉ］は、１つ以上の第２の音声信号係数のうちの１つを示し、ｆ_last［ｉ］は、１つ以上の第１の音声信号係数のうちの１つを示し、ｐｔ_mean［ｉ］は、１つ以上のノイズ係数のうちの１つであり、αは、実数（０≦α≦１）であり、ｉは、イ
ンデックスである。或る実施例では、０＜α＜１である。

或る実施例によると、ｆ_last［ｉ］は、符号化音声信号の線形予測フィルタ係数を示し、ｆ_current［ｉ］は、再構成音声信号の線形予測フィルタ係数を示す。

実施例においては、ｐｔ_mean［ｉ］は、例えば、符号化音声信号の背景ノイズを示し得る。

実施例においては、係数生成部は、例えば、１つ以上のフレームのうちの現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、符号化音声信号のノイズスペクトルを決定することによって１つ以上のノイズ係数を決定するように構成され得る。

実施例によると、係数生成部は、例えば、信号スペクトルに対して最小統計方策を用いて背景ノイズスペクトルを決定し、かつ、背景ノイズスペクトルから背景ノイズ形状を表すＬＰＣ係数を算出することによって、背景ノイズを表すＬＰＣ係数を決定するように構成され得る。

更に、符号化音声信号を復号して再構成音声信号を得るための方法が提供される。当該方法は、
‐１つ以上のフレームを受信するステップと、
‐１つ以上のフレームのうちの現在のフレームが受信されており、且つ受信されている現在のフレームが破損していない場合、現在のフレームに含まれる１つ以上の第１の音声信号係数を決定するステップと、を備え、前記１つ以上の第１の音声信号係数は、符号化音声信号の特性を示し、１つ以上のノイズ係数が、符号化音声信号の背景ノイズを示し、当該方法は、更に、
‐現在のフレームが受信されていない場合、又は受信されている現在のフレームが破損している場合、１つ以上の第１の音声信号係数と１つ以上のノイズ係数とに応じて１つ以上の第２の音声信号係数を生成するステップと、
‐現在のフレームが受信されており、且つ受信されている現在のフレームが破損していない場合、１つ以上の第１の音声信号係数に応じて再構成音声信号の第１の部分を再構成するステップと、
‐現在のフレームが受信されていない場合、又は受信されている現在のフレームが破損している場合、１つ以上の第２の音声信号係数に応じて再構成音声信号の第２の部分を再構成するステップと、を備える。

更に、コンピュータ又は信号プロセッサにおいて実行された時に上述の方法を実現するためのコンピュータプログラムが提供される。

フェードアウト中に快適ノイズのスペクトル形状をトレースして適用するための共通の手段を有することにはいくつかの利点がある。スペクトル形状をトレースして適用することが両方のコアコーデックについて同様に行われることで、簡単な共通の方策が可能となる。ＣＥＬＴにおいては、スペクトル領域におけるエネルギーの帯域単位のトレースと、スペクトル領域におけるスペクトル形状の帯域単位の形成とが教示されているのみであり、これは、ＣＥＬＰコアにおいては不可能である。

これとは対照的に、先行技術では、バースト状の損失中に導入される快適ノイズのスペクトル形状は、完全に静的か、或いは、部分的に静的且つスペクトル形状の短期平均に対して部分的に適応的であり（Ｇ．７１８［ＩＴＵ０８ａ］で実現される）、通常、パケット損失前の信号における背景ノイズに一致しない。この快適ノイズ特性の不一致は、不快なものとなる場合がある。先行技術によると、オフラインで学習させた（静的）背景ノイズ形状を用いることができ、これは、特定の信号については心地よい音であり得るが、他の信号についてはそれほど心地よいものではない場合があり、例えば、自動車のノイズは、オフィスのノイズとは全く異なって聞こえる。

更に、先行技術においては、以前に受信したフレームのスペクトル形状の短期平均に対する適応が用いられることがあり、これにより以前に受信した信号に近い信号特性を得ることができるが、これは、必ずしも背景ノイズ特性に近いものではない。先行技術では、スペクトル領域において帯域単位でスペクトル形状をトレースすること（ＣＥＬＴ［ＩＥＴ１２］で実現される）は、ＭＤＣＴ領域ベースのコア（ＴＣＸ）だけでなくＡＣＥＬＰベースのコアをも用いる切り替えコーデックには適用可能ではない。従って、上述の実施例は、先行技術よりも有利である。

更に、音声信号を復号するための装置が提供される。

当該装置は、受信インターフェースを備える。受信インターフェースは、複数のフレームを受信するように構成され、受信インターフェースは、複数のフレームのうちの第１のフレームを受信するように構成され、第１のフレームは、音声信号の第１の音声信号部分を含み、前記第１の音声信号部分は、第１の領域において表現され、受信インターフェースは、複数のフレームのうちの第２のフレームを受信するように構成され、第２のフレームは、音声信号の第２の音声信号部分を含む。

更に、当該装置は、第２の音声信号部分、又は第２の音声信号部分から導出された値若しくは信号を、第２の領域からトレース領域に変換することによって第２の信号部分情報を得るための変換部を備え、第２の領域は、第１の領域とは異なり、トレース領域は、第２の領域とは異なり、トレース領域は、第１の領域と等しい又は異なる。

更に、当該装置は、ノイズレベルトレース部を備え、ノイズレベルトレース部は、トレース領域において表現される第１の信号部分情報を受信するように構成され、第１の信号部分情報は、第１の音声信号部分に依存する。ノイズレベルトレース部は、トレース領域において表現される第２の信号部分を受信するように構成され、ノイズレベルトレース部は、トレース領域において表現される第１の信号部分情報と、トレース領域において表現される第２の信号部分情報とに応じてノイズレベル情報を決定するように構成される。

更に、当該装置は、複数のフレームのうちの第３のフレームが受信インターフェースによって受信されていないが破損している場合、ノイズレベル情報に応じて音声信号の第３の音声信号部分を再構成するための再構成部を備える。

音声信号は、例えば、言語音声信号、音楽信号、又は、言語音声及び音楽等を含む信号であり得る。

第１の信号部分情報が第１の音声信号部分に依存するという記載は、第１の信号部分情報が第１の音声信号部分であるか、又は、第１の信号部分情報が、第１の音声信号部分に応じて入手／生成されているか、若しくは或る他の態様で第１の音声信号部分に依存することを意味する。例えば、第１の音声信号部分は、第１の信号部分情報を得るために１つの領域から別の領域に変換されている場合がある。

同様に、第２の信号部分情報が第２の音声信号部分に依存するという記載は、第２の信号部分情報が第２の音声信号部分であるか、又は、第２の信号部分情報が、第２の音声信号部分に応じて入手／生成されているか、若しくは或る他の態様で第２の音声信号部分に依存することを意味する。例えば、第２の音声信号部分は、第２の信号部分情報を得るために１つの領域から別の領域に変換されている場合がある。

実施例においては、第１の音声信号部分は、例えば、第１の領域として時間領域において表現され得る。更に、変換部は、例えば、第２の音声信号部分、又は第２の音声信号部分から導出された値を、第２の領域である励振領域から、トレース領域である時間領域へ変換するように構成され得る。更に、ノイズレベルトレース部は、例えば、トレース領域としての時間領域において表現される第１の信号部分情報を受信するように構成され得る。更に、ノイズレベルトレース部は、例えば、トレース領域としての時間領域において表現される第２の信号部分を受信するように構成され得る。

実施例によると、第１の音声信号部分は、例えば、第１の領域としての励振領域において表現され得る。更に、変換部は、例えば、第２の音声信号部分、又は第２の音声信号部分から導出された値を、第２の領域である時間領域から、トレース領域である励振領域に変換するように構成され得る。更に、ノイズレベルトレース部は、例えば、トレース領域としての励振領域において表現される第１の信号部分情報を受信するように構成され得る。更に、ノイズレベルトレース部は、例えば、トレース領域としての励振領域において表現される第２の信号部分を受信するように構成され得る。

実施例においては、第１の音声信号部分は、例えば、第１の領域としての励振領域において表現することができ、ノイズレベルトレース部は、例えば、第１の信号部分情報を受信するように構成することができ、第１の信号部分情報は、トレース領域であるＦＦＴ領域において表現され、前記第１の信号部分情報は、励振領域において表現される第１の音声信号部分に依存し、変換部は、例えば、第２の音声信号部分、又は第２の音声信号部分から導出された値を、第２の領域である時間領域から、トレース領域であるＦＦＴ領域に変換するように構成することができ、ノイズレベルトレース部は、例えば、ＦＦＴ領域において表現される第２の音声信号部分を受信するように構成され得る。

実施例においては、当該装置は、例えば、更に、第１の音声信号部分に応じて第１の集約値を決定するための第１の集約部を備え得る。更に、当該装置は、例えば、更に、第２の音声信号部分に応じて、第２の音声信号部分から導出された値としての第２の集約値を決定するための第２の集約部を備え得る。更に、ノイズレベルトレース部は、例えば、トレース領域において表現される第１の信号部分情報として第１の集約値を受信するように構成することができ、ノイズレベルトレース部は、例えば、トレース領域において表現される第２の信号部分情報として第２の集約値を受信するように構成することができ、ノイズレベルトレース部は、例えば、トレース領域において表現される第１の集約値と、トレース領域において表現される第２の集約値とに応じて、ノイズレベル情報を決定するように構成され得る。

実施例によると、第１の集約部は、例えば、第１の集約値が、第１の音声信号部分、又は第１の音声信号部分から導出された信号の、根二乗平均を示すように、第１の集約値を決定するように構成され得る。更に、第２の集約部は、例えば、第２の集約値が、第２の音声信号部分、又は第２の音声信号部分から導出された信号の、根二乗平均を示すように、第２の集約値を決定するように構成され得る。

実施例においては、変換部は、例えば、第２の音声信号部分から導出された値にゲイン値を適用することにより、第２の音声信号部分から導出された値を、第２の領域からトレース領域に変換するように構成され得る。

実施例によると、ゲイン値は、例えば、線形予測符号化合成によって導入されたゲインを示すか、或いは、ゲイン値は、例えば、線形予測符号化合成及び強調解除によって導入されたゲインを示すことができる。

実施例においては、ノイズレベルトレース部は、例えば、最小統計方策を適用することによってノイズレベル情報を決定するように構成され得る。

実施例によると、ノイズレベルトレース部は、例えば、ノイズレベル情報として快適ノイズレベルを決定するように構成され得る。再構成部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報に応じて第３の音声信号部分を再構成するように構成され得る。

実施例においては、ノイズレベルトレース部は、例えば、ノイズレベルスペクトルから導出されたノイズレベル情報として快適ノイズレベルを決定するように構成することができ、前記ノイズレベルスペクトルは、最小統計方策を適用することによって得られる。再構成部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、複数の線形予測係数に応じて第３の音声信号部分を再構成するように構成することができる。

別の実施例によると、ノイズレベルトレース部は、例えば、ノイズレベル情報として快適ノイズレベルを示す複数の線形予測係数を決定するように構成することができ、再構成部は、例えば、複数の線形予測係数に応じて第３の音声信号部分を再構成するように構成することができる。

実施例においては、ノイズレベルトレース部は、ノイズレベル情報として快適ノイズレベルを示す複数のＦＦＴ係数を決定するように構成され、第１の再構成部は、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、前記ＦＦＴ係数から導出された快適ノイズレベルに応じて第３の音声信号部分を再構成するように構成される。

実施例においては、再構成部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報と第１の音声信号部分とに応じて第３の音声信号部分を再構成するように構成され得る。

実施例によると、再構成部は、例えば、第１の音声信号部分又は第２の音声信号部分から導出された信号を減衰させる又は増幅することによって、第３の音声信号部分を再構成するように構成され得る。

実施例においては、当該装置は、例えば、更に、遅延バッファを含む長期予測部を備えることができる。更に、長期予測部は、例えば、第１の音声信号部分又は第２の音声信号部分と、遅延バッファに記憶されている遅延バッファ入力と、長期予測ゲインとに応じて、処理済信号を生成するように構成され得る。更に、長期予測部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、長期予測ゲインをゼロへフェードさせるように構成され得る。

実施例によると、長期予測部は、例えば、長期予測ゲインをゼロへフェードさせるように構成することができ、長期予測ゲインがゼロへフェードさせられる速度は、フェードアウト定数に依存する。

実施例においては、長期予測部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、生成された処理済信号を遅延バッファに記憶させることによって遅延バッファ入力を更新するように構成され得る。

実施例によると、変換部は、例えば、第１の変換部とすることができ、再構成部は、第１の再構成部である。当該装置は、更に、第２の変換部及び第２の再構成部を備える。第２の変換部は、例えば、複数のフレームのうちの第４のフレームが受信インターフェースによって受信されていない場合、又は前記第４のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報をトレース領域から第２の領域に変換するように構成され得る。更に、前記第２の再構成部は、例えば、複数のフレームのうちの前記第４のフレームが受信インターフェースによって受信されていない場合、又は前記第４のフレームが受信インターフェースによって受信されているが破損している場合、第２の領域において表現されているノイズレベル情報に応じて音声信号の第４の音声信号部分を再構成するように構成され得る。

実施例においては、第２の再構成部は、例えば、ノイズレベル情報と第２の音声信号部分とに応じて第４の音声信号部分を再構成するように構成され得る。

実施例によると、第２の再構成部は、例えば、第１の音声信号部分又は第２の音声信号部分から導出された信号を減衰させる又は増幅することによって第４の音声信号部分を再構成するように構成され得る。

更に、音声信号を復号するための方法が提供される。

当該方法は、
‐複数のフレームのうちの第１のフレームを受信するステップを備え、前記第１のフレームは、前記音声信号の第１の音声信号部分を含み、前記第１の音声信号部分は、第１の領域において表現され、当該方法は、更に、
‐複数のフレームのうちの第２のフレームを受信するステップを備え、前記第２のフレームは、音声信号の第２の音声信号部分を含み、当該方法は、更に、
‐第２の音声信号部分、又は第２の音声信号部分から導出された値又は信号を、第２の領域からトレース領域に変換して第２の信号部分情報を得るステップを備え、第２の領域は、第１の領域とは異なり、トレース領域は、第２の領域とは異なり、トレース領域は、第１の領域と等しい又は異なり、当該方法は、更に、
‐トレース領域において表現される第１の信号部分情報と、トレース領域において表現される第２の信号部分情報とに応じてノイズレベル情報を決定するステップを備え、第１の信号部分情報は、第１の音声信号部分に依存し、当該方法は、更に、
‐複数のフレームのうちの第３のフレームが受信されていない場合、又は前記第３のフレームが受信されているが破損している場合、トレース領域において表現されるノイズレベル情報に応じて音声信号の第３の音声信号部分を再構成するステップを備える。

本発明のいくつかの実施例は、時間可変平滑化パラメータを提供し、これにより平滑化されたペリオドグラムの追跡能力と、その分散とのバランスがより良好に取られ、バイアス補償のためのアルゴリズムを開発し、ノイズ追跡全般の速度を向上させる。

本発明の実施例は、フェードアウトに関し、以下のパラメータが関心の対象であるという知見に基づく。即ち、フェードアウト領域、フェードアウト速度又はより一般的にフェードアウト曲線、フェードアウトの目標レベル、フェードアウトの目標スペクトル形状、及び／又は背景ノイズレベルトレースである。この文脈で、実施例は、先行技術が顕著な欠陥を有しているという知見に基づく。

エラー封じ込め中に切り替え音声符号化システムのための向上した信号フェードアウトのための装置及び方法が提供される。

実施例は、快適ノイズレベルへのフェードアウトを実現する。実施例によると、励振領域における共通の快適ノイズレベルトレースが実現される。バースト状のパケット損失中に目標とされる快適ノイズレベルは、使用されているコアコーダ（ＡＣＥＬＰ／ＴＣＸ）に関わらず同じであり、常に最新のものである。共通のノイズレベルトレースが必要な先行技術は知られていない。実施例は、バースト状のパケット損失の際に、快適ノイズ様の信号への切り替えコーデックのフェードを提供する。

更に、実施例は、機能（ＰＲＯＭ）及びメモリが共有され得るため、２つの独立したノイズレベルトレースモジュールを有する場合と比較して全体の複雑度が低くなることを実現する。

実施例においては、（時間領域におけるレベル導出と比較して）励振領域におけるレベル導出は、言語音声情報の一部がＬＰ係数によってカバーされるため、アクティブな言語音声中により多くの最小値をもたらす。

ＡＣＥＬＰの場合、実施例によると、レベル導出は、励振領域で行われる。ＴＣＸの場合、実施例においては、レベルは、時間領域において導出され、ＬＰＣ合成及び強調解除のゲインを訂正定数として適用することによって、励振領域におけるエネルギーレベルをモデル化する。励振領域におけるレベルをトレースする、例えば、ＦＤＮＳ前にこれを行うことは、理論的には可能であるが、ＴＣＸ励振領域とＡＣＥＬＰ励振領域との間のレベル補償は、むしろ複雑と考えられる。

先行技術で、このような異なる領域における共通の背景レベルトレースを組み込むものはない。先行技術は、切り替えコーデックシステムにおいて、例えば、励振領域における、そのような共通の快適ノイズレベルトレースを有さない。従って、先行技術では、バースト状のパケット損失中に目標とされる快適ノイズレベルは、レベルがトレースされた先行する符号化モード（ＡＣＥＬＰ／ＴＣＸ）に応じて異なり得るものであり、先行技術では、各々の符号化モードについて別個のトレースは、不必要なオーバーヘッド及び追加の計算上の複雑度を引き起こすものであり、そして、先行技術では、いずれのコアにおいても、このコアへ最近切り替わったため最新の快適ノイズレベルは利用可能でない可能性があるため、実施例は、先行技術よりも有利である。

いくつかの実施例によると、レベルトレースは、励振領域において行われるが、ＴＣＸフェードアウトは、時間領域において行われる。時間領域におけるフェードにより、エイリアシングを引き起こすＴＤＡＣの失敗が回避される。これに対する関心は、調性を有する信号成分を封じ込める際に特に大きい。更に、ＡＣＥＬＰ励振領域とＭＤＣＴスペクトル領域との間のレベル変換が回避されるため、例えば、計算リソースが節約される。励振領域と時間領域との間の切り替えのため、励振領域と時間領域との間でのレベル調節が必要となる。これを解決するために、ＬＰＣ合成及び前強調によって導入されるゲインを導出し、このゲインを訂正定数として用いて２領域間でレベルを変換する。

これとは対照的に、先行技術においては、励振領域におけるレベルトレース及び時間領域におけるＴＣＸフェードアウトは、行われない。先行技術の変換ベースのコーデックに関し、減衰定数は、励振領域（時間領域／ＡＣＥＬＰ様の封じ込め方策については［３ＧＰ０９ａ］を参照）又は周波数領域のいずれかにおいて適用される（フレーム繰り返し又はノイズ置き換えといった周波数領域方策については、［ＬＳ０１］を参照）。減衰定数を周波数領域において適用する先行技術の方策の欠点は、時間領域における重複・追加区域においてエイリアシングが生じることである。これは、異なる減衰定数が適用される隣接するフレームの場合に該当するが、それは、フェード手順によってＴＤＡＣ（時間領域エイリアス消去）が失敗するからである。これは、調性を有する信号成分の封じ込め時に特に重要である。従って、上述の実施例は、先行技術よりも有利である。

実施例は、ＬＰＣ合成ゲインに対するハイパスフィルタの影響を補償する。実施例によると、ハイパスフィルタを通過した無声の励振によって引き起こされるＬＰＣ分析及び強調における望まれないゲイン変化を補償するために、訂正因数が導出される。この訂正定数は、この望まれないゲイン変化を考慮に入れ、励振領域における目標快適ノイズレベルに変更を加えることで、時間領域において正しい目標レベルに到達するようにする。

これとは対照的に、先行技術、例えばＧ．７１８［ＩＴＵ０８ａ］では、最後の良好なフレームの信号が「無声」と分類されなかった場合、図２に示すように、無声励振の信号経路にハイパスフィルタが導入される。これにより、先行技術では、望まれない副作用が生じるが、それは、後続のＬＰＣ合成のゲインが、このハイパスフィルタによって変更される信号特性に依存するからである。背景レベルがトレースされて励振領域において適用されるため、アルゴリズムは、ＬＰＣ合成ゲインに依存し、これは、やはり励振信号の特性に依存する。換言すると、先行技術で行われるようなハイパスフィルタリングによる励振の信号特性の変更によって、ＬＰＣ合成のゲインが変更（通常は減少）されることがある。これにより、励振レベルが正しくても出力レベルが誤ったものとなる。

実施例は、先行技術のこれらの欠点を克服する。

特に、実施例は、快適ノイズの適応スペクトル形状を実現する。Ｇ．７１８とは対照的に、背景ノイズのスペクトル形状をトレースし、且つ、バースト状のパケット損失の際にこの形状を適用する（これへフェードさせる）ことによって、先行する背景ノイズのノイズ特性は一致し、快適ノイズの心地よいノイズ特性が得られる。これによって、オフライン学習により導出されたスペクトル包絡線の使用により導入され得るスペクトル形状及び／又は最後の受信フレームのスペクトル形状の耳障りな不一致が回避される。

更に、音声信号を復号するための装置が提供される。当該装置は、受信インターフェースを備え、受信インターフェースは、音声信号の第１の音声信号部分を含む第１のフレームを受信するように構成され、受信インターフェースは、音声信号の第２の音声信号部分を含む第２のフレームを受信するように構成される。

更に、当該装置は、ノイズレベルトレース部を備え、ノイズレベルトレース部は、第１の音声信号部分及び第２の音声信号部分のうちの少なくとも１つに応じて（即ち、第１の音声信号部分及び／又は第２の音声信号部分に応じて）ノイズレベル情報を決定するように構成され、ノイズレベル情報は、トレース領域において表現される。

更に、当該装置は、複数のフレームのうちの第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報に応じて音声信号の第３の音声信号部分を第１の再構成領域において再構成するための第１の再構成部を備え、第１の再構成領域は、トレース領域と異なる又は等しい。

更に、当該装置は、複数のフレームのうちの第４のフレームが受信インターフェースによって受信されていない場合、又は前記第４のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報をトレース領域から第２の再構成領域に変換するための変換部を備え、第２の再構成領域は、トレース領域とは異なり、第２の再構成領域は、第１の再構成領域とは異なる。

更に、当該装置は、複数のフレームのうちの第４のフレームが受信インターフェースによって受信されていない場合、又は前記第４のフレームが受信インターフェースによって受信されているが破損している場合、第２の再構成領域において表現されるノイズレベル情報に応じて音声信号の第４の音声信号部分を第２の再構成領域において再構成するための第２の再構成部を備える。

いくつかの実施例によると、トレース領域は、例えば、時間領域、スペクトル領域、ＦＦＴ領域、ＭＤＣＴ領域、又は励振領域であるとすることができる。第１の再構成領域は、例えば、時間領域、スペクトル領域、ＦＦＴ領域、ＭＤＣＴ領域、又は励振領域であり得る。第２の再構成領域は、例えば、時間領域、スペクトル領域、ＦＦＴ領域、ＭＤＣＴ領域、又は励振領域であり得る。

実施例においては、トレース領域は、例えば、ＦＦＴ領域とすることができ、第１の再構成領域は、例えば、時間領域とすることができ、第２の再構成領域は、例えば、励振領域とすることができる。

別の実施例においては、トレース領域は、例えば、時間領域とすることができ、第１の再構成領域は、例えば、時間領域とすることができ、第２の再構成領域は、例えば、励振領域とすることができる。

実施例によると、第１の音声信号部分は、例えば、第１の入力領域において表現することができ、第２の音声信号部分は、例えば、第２の入力領域において表現することができる。変換部は、例えば、第２の変換部であり得る。当該装置は、例えば、更に、第２の音声信号部分、又は第２の音声信号部分から導出された値又は信号を、第２の入力領域からトレース領域に変換して第２の信号部分情報を得るための第１の変換部を備えることができる。ノイズレベルトレース部は、例えば、トレース領域において表現される第１の信号部分情報を受信するように構成することができ、第１の信号部分情報は、第１の音声信号部分に依存し、ノイズレベルトレース部は、トレース領域において表現される第２の信号部分を受信するように構成され、ノイズレベルトレース部は、トレース領域において表現される第１の信号部分情報と、トレース領域において表現される第２の信号部分情報とに応じてノイズレベル情報を決定するように構成される。

実施例によると、第１の入力領域は、例えば、励振領域とすることができ、第２の入力領域は、例えば、ＭＤＣＴ領域とすることができる。

別の実施例においては、第１の入力領域は、例えば、ＭＤＣＴ領域とすることができ、第２の入力領域は、例えば、ＭＤＣＴ領域とすることができる。

実施例によると、第１の再構成部は、例えば、ノイズ様のスペクトルへの第１のフェードを行うことにより第３の音声信号部分を再構成するように構成され得る。第２の再構成部は、例えば、ノイズ様のスペクトルへの第２のフェード及び／又はＬＴＰゲインの第２のフェードを行うことによって第４の音声信号部分を再構成するように構成され得る。更に、第１の再構成部及び第２の再構成部は、例えば、ノイズ様のスペクトルへの第１のフェード及び第２のフェード、並びに／又はＬＴＰゲインの第２のフェードを、同じフェード速度で行うように構成され得る。

実施例において、当該装置は、例えば、更に、第１の音声信号部分に応じて第１の集約値を決定するための第１の集約部を備えることができる。更に、当該装置は、更に、例えば、第２の音声信号部分に応じて、第２の音声信号部分から導出された値として第２の集約値を決定するための第２の集約部を備えることができる。ノイズレベルトレース部は、例えば、トレース領域において表現される第１の信号部分情報として第１の集約値を受信するように構成することができ、ノイズレベルトレース部は、例えば、トレース領域において表現される第２の信号部分情報として第２の集約値を受信するように構成することができ、ノイズレベルトレース部は、トレース領域において表現される第１の集約値と、トレース領域において表現される第２の集約値とに応じてノイズレベル情報を決定するように構成される。

実施例によると、第１の集約部は、例えば、第１の集約値が、第１の音声信号部分、又は第１の音声信号部分から導出された信号の根二乗平均を示すように、第１の集約値を決定するように構成され得る。第２の集約部は、第２の集約値が、第２の音声信号部分、又は第２の音声信号部分から導出された信号の根二乗平均を示すように、第２の集約値を決定するように構成される。

実施例において、第１の変換部は、例えば、第２の音声信号部分から導出された値にゲイン値を適用することにより、第２の音声信号部分から導出された値を第２の入力領域からトレース領域に変換するように構成され得る。

実施例によると、ゲイン値は、例えば、線形予測符号化合成によって導入されたゲインを示すことができ、又は、ゲイン値は、線形予測符号化合成及び強調解除によって導入されたゲインを示す。

実施例においては、ノイズレベルトレース部は、例えば、最小統計方策を適用することによりノイズレベル情報を決定するように構成され得る。

実施例においては、ノイズレベルトレース部は、例えば、ノイズレベルスペクトルから導出されたノイズレベル情報として快適ノイズレベルを決定するように構成することができ、前記ノイズレベルスペクトルは、最小統計方策を適用することによって得られる。再構成部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、複数の線形予測係数に応じて第３の音声信号部分を再構成するように構成され得る。

実施例によると、第１の再構成部は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報と第１の音声信号部分とに応じて第３の音声信号部分を再構成するように構成され得る。

実施例においては、第１の再構成部は、例えば、第１の音声信号部分を減衰させる又は増幅することにより第３の音声信号部分を再構成するように構成され得る。

実施例によると、第２の再構成部は、例えば、ノイズレベル情報と第２の音声信号部分とに応じて第４の音声信号部分を再構成するように構成され得る。

実施例においては、第２の再構成部は、例えば、第２の音声信号部分を減衰させる又は増幅することにより第４の音声信号部分を再構成するように構成され得る。

実施例によると、当該装置は、例えば、更に、遅延バッファを含む長期予測部を備えることができ、長期予測部は、例えば、第１の音声信号部分又は第２の音声信号部分と、遅延バッファに記憶される遅延バッファ入力と、長期予測ゲインとに応じて、処理済信号を生成するように構成することができ、長期予測部は、複数のフレームのうちの前記第３のフレームが受信インターフェースによって受信されていない場合、又は前記第３のフレームが受信インターフェースによって受信されているが破損している場合、長期予測ゲインをゼロへフェードさせるように構成される。

実施例において、長期予測部は、例えば、長期予測ゲインをゼロへフェードさせるように構成することができ、長期予測ゲインがゼロへフェードさせられる速度は、フェードアウト定数に依存する。

更に、音声信号を復号するための方法が提供される。当該方法は、
‐音声信号の第１の音声信号部分を含む第１のフレームを受信し、音声信号の第２の音声信号部分を含む第２のフレームを受信するステップと、
‐第１の音声信号部分及び第２の音声信号部分のうちの少なくとも１つに応じてノイズレベル情報を決定するステップと、を備え、ノイズレベル情報は、トレース領域において表現され、当該方法は、更に、
‐複数のフレームのうちの第３のフレームが受信されていない場合、又は前記第３のフレームが受信されているが破損している場合、ノイズレベル情報に応じて音声信号の第３の音声信号部分を第１の再構成領域において再構成するステップを備え、第１の再構成領域は、トレース領域と異なり又は等しく、当該方法は、更に、
‐複数のフレームのうちの第４のフレームが受信されていない場合、又は前記第４のフレームが受信されているが破損している場合、ノイズレベル情報をトレース領域から第２の再構成領域に変換するステップを備え、第２の再構成領域は、トレース領域とは異なり、第２の再構成領域は、第１の再構成領域とは異なり、当該方法は、更に、
‐複数のフレームのうちの前記第４のフレームが受信されていない場合、又は前記第４のフレームが受信されているが破損している場合、第２の再構成領域において表現されるノイズレベル情報に応じて音声信号の第４の音声信号部分を第２の再構成領域において再構成するステップを備える。

更に、符号化音声信号を復号して再構成音声信号を得るための装置が提供される。当該装置は、符号化音声信号の音声信号スペクトルの複数の音声信号サンプルについての情報を含む１つ以上のフレームを受信するための受信インターフェースと、再構成音声信号を生成するための処理部とを備える。処理部は、現在のフレームが受信インターフェースによって受信されていない場合、又は現在のフレームが受信インターフェースによって受信されているが破損している場合、変更後スペクトルを目標スペクトルにフェードさせることにより再構成音声信号を生成するように構成されており、変更後スペクトルは、複数の変更後信号サンプルを含み、変更後スペクトルの変更後信号サンプルの各々について、前記変更後信号サンプルの絶対値は、音声信号スペクトルの音声信号サンプルのうちの１つについての絶対値に等しい。更に、処理部は、１つ以上のフレームのうちの現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、変更後スペクトルを目標スペクトルにフェードさせないように構成される。

実施例によると、目標スペクトルは、例えば、ノイズ様のスペクトルであり得る。

実施例においては、ノイズ様のスペクトルは、例えば、ホワイトノイズを表すことができる。

実施例によると、ノイズ様のスペクトルは、例えば、形状付けられ得る。

実施例においては、ノイズ様のスペクトルの形状は、例えば、以前に受信された信号の音声信号スペクトルに依存することができる。

実施例によると、ノイズ様のスペクトルは、例えば、音声信号スペクトルの形状に応じて形状付けられ得る。

実施例においては、処理部は、例えば、チルト定数を用いてノイズ様のスペクトルを形状付けることができる。

実施例によると、処理部は、例えば、

の式を用いることができ、ここで、Ｎは、サンプルの数を示し、ｉは、インデックスであり、０≦ｉ＜Ｎであり、ｔｉｌｔ＿ｆａｃｔｏｒ＞０であり、ｐｏｗｅｒは、パワー関数である。

ｐｏｗｅｒ（ｘ，ｙ）は、ｘ^yを示す。

ｐｏｗｅｒ（ｔｉｌｔ＿ｆａｃｔｏｒ，ｉ／Ｎ）」は、ｔｉｌｔ＿ｆａｃｔｏｒ^i/Nを示す。

もしｔｉｌｔ＿ｆａｃｔｏｒが１よりも小さければ、これは、増加するｉによる減衰を意味する。ｔｉｌｔ＿ｆａｃｔｏｒが１よりも大きければ、増加するｉによる増幅を意味する。

別の実施例によると、処理部は、例えば、

の式を用いることができ、ここで、Ｎは、サンプルの数を示し、ｉは、インデックスであり、０≦ｉ＜Ｎであり、ｔｉｌｔ＿ｆａｃｔｏｒ＞０である。

実施例によると、処理部は、例えば、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、音声信号スペクトルの音声信号サンプルのうちの１つ以上についての符号を変えることによって変更後スペクトルを生成するように構成され得る。

実施例においては、音声信号スペクトルの音声信号サンプルの各々は、例えば、想像上の数ではなく実数によって表され得る。

実施例によると、音声信号スペクトルの音声信号サンプルは、例えば、変更後離散余弦変換領域において表され得る。

別の実施例においては、音声信号スペクトルの音声信号サンプルは、例えば、変更後離散正弦変換領域において表され得る。

実施例によると、処理部は、例えば、第１の値又は第２の値をランダム又は疑似ランダムに出力するランダム符号関数を使用することによって変更後スペクトルを生成するように構成され得る。

実施例においては、処理部は、例えば、続いて減衰定数を減少させることによって変更後スペクトルを目標スペクトルにフェードさせるように構成され得る。

実施例によると、処理部は、例えば、続いて減衰定数を増加させることによって変更後スペクトルを目標スペクトルにフェードさせるように構成され得る。

実施例においては、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、処理部は、例えば、

の式を用いて再構成音声信号を生成するように構成することができ、ここで、ｉは、インデックスであり、ｘ［ｉ］は、再構成音声信号のサンプルを示し、ｃｕｍ＿ｄａｍｐｉｎｇは、減衰定数であり、ｘ＿ｏｌｄ［ｉ］は、符号化音声信号の音声信号スペクトルの音声信号サンプルのうちの１つを示し、ｒａｎｄｏｍ＿ｓｉｇｎ（）は、１又は−１を返し、ｎｏｉｓｅは、目標スペクトルを示すランダムなベクトルである。

実施例においては、前記ランダムなベクトルｎｏｉｓｅは、例えば、その平方平均が、受信インターフェースによって最後に受信されたフレームのうちの１つに含まれる符号化音声信号のスペクトルの平方平均に類似するようにスケーリングされ得る。

一般的な実施例によると、処理部は、例えば、ランダムなベクトルであって、その平方平均が、受信インターフェースによって最後に受信されたフレームのうちの１つに含まれる符号化音声信号のスペクトルの平方平均に類似するようにスケーリングされたものを用いて、再構成音声信号を生成するように構成され得る。

更に、符号化音声信号を復号して再構成音声信号を得るための方法が提供される。当該方法は、
‐符号化音声信号の音声信号スペクトルの複数の音声信号サンプルについての情報を含む１つ以上のフレームを受信するステップ、及び、
‐再構成音声信号を生成するステップ、
を備える。

再構成音声信号を生成するステップは、現在のフレームが受信されていない場合、又は現在のフレームが受信されているが破損している場合、変更後スペクトルを目標スペクトルにフェードさせることによって行われ、変更後スペクトルは、複数の変更後信号サンプルを含み、変更後スペクトルの変更後信号サンプルの各々について、前記変更後信号サンプルの絶対値は、音声信号スペクトルの音声信号サンプルのうちの１つについての絶対値に等しい。１つ以上のフレームのうちの現在のフレームが受信されており、且つ受信されている現在のフレームが破損していない場合、変更後スペクトルは、ホワイトノイズスペクトルにフェードさせられない。

実施例は、ＦＤＮＳ適用に先立つホワイトノイズへのＭＤＣＴスペクトルのフェードを実現する（ＦＤＮＳ＝周波数領域ノイズ置き換え）。

先行技術によると、ＡＣＥＬＰベースのコーデックにおいて、新規コードブックをランダムなベクトル（例えば、ノイズ）と入れ換える。実施例では、新規コードブックをランダムなベクトル（例えば、ノイズ）と入れ換えることからなるＡＣＥＬＰ方策が、ＴＣＸデコーダ構造に対して採用される。ここでは、新規コードブックの等価物は、通常、ビットストリーム内で受信されてＦＤＮＳに入力されるＭＤＣＴスペクトルである。

古典的なＭＤＣＴ封じ込め方策は、単に、このスペクトルをそのまま繰り返すか、又は或るランダム化プロセスを適用することであり、これは、基本的に最後の受信フレームのスペクトル形状を長くする［ＬＳ０１］。これには、短期的スペクトル形状が長くされるという欠点があり、そのため頻繁に繰り返される金属音が生じ、これは、背景ノイズ様ではないため快適ノイズとしては用いられ得ない。

本願において提案される方法を用いると、短期間のスペクトル形状付けは、ＦＤＮＳ及びＴＣＸＬＴＰによって実行され、長期間に亘るスペクトル形状付けは、ＦＤＮＳのみによって実行される。ＦＤＮＳによる形状付けは、短期スペクトル形状から、背景ノイズについてのトレースされた長期スペクトル形状へフェードさせられ、ＴＣＸＬＴＰは、ゼロにフェードさせられる。

ＦＤＮＳ係数を、トレースされた背景ノイズ係数にフェードさせることによって、最後の良好なスペクトル包絡線と、長期間に亘り目標とされるべきスペクトル背景包絡線との間で平滑な遷移が得られ、長いバースト状のフレーム損失中に心地よい背景ノイズを達成する。

対照的に、先行技術によると、変換ベースのコーデックについて、周波数領域におけるフレーム繰り返し又はノイズ置き換えによってノイズ様の封じ込めが行われる［ＬＳ０１］。先行技術では、ノイズ置き換えは、通常、スペクトルビンの符号スクランブルによって実行される。先行技術において、封じ込め中にＴＣＸ（周波数領域）符号スクランブルを用いる場合、最後に受信したＭＤＣＴ係数を再使用し、各々の符号をランダム化してからスペクトルを時間領域へ逆変換する。この先行技術の手順の欠点は、連続して失われたフレームについて同じスペクトルが何度も使用され、符号のランダム化及びグローバル減衰が異なるにすぎないことである。粗い時間グリッドにおける時間の経過に亘るスペクトル包絡線を見ると、包絡線は、連続するフレーム損失中にほぼ一定であることが分かるが、それは、フレーム内で帯域エネルギーが互いに対して相対的に一定に保たれ、グローバル減衰させられるのみであるからである。使用される符号化システムにおいて、先行技術によると、ＦＤＮＳを用いてスペクトル値を処理することにより元のスペクトルを復元する。これは、（ＦＤＮＳ係数、例えば、現在の背景ノイズを記述するものを用いて）ＭＤＣＴスペクトルを特定のスペクトル包絡線にフェードさせることを望む場合、結果が、ＦＤＮＳ係数にのみ依存するのではなく、符号においてスクランブルされた以前に復号されたスペクトルにも依存することを意味する。上述の実施例は、先行技術のこれらの欠点を克服する。

実施例は、符号スクランブルに用いられるスペクトルをホワイトノイズにフェードさせてからＦＤＮＳ処理に入力することが必要であるという知見に基づく。これを行わない限り、出力されたスペクトルは、ＦＤＮＳ処理に用いられる目標包絡線に一致することはない。

実施例においては、ホワイトノイズフェードについてと同様にＬＴＰゲインフェードについても同じフェード速度を用いる。

更に、符号化音声信号を復号して再構成音声信号を得るための装置が提供される。当該装置は、複数のフレームを受信するための受信インターフェース、再構成音声信号の音声信号サンプルを記憶するための遅延バッファ、遅延バッファに記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するためのサンプル選択部、及び、選択音声信号サンプルを処理して再構成音声信号の再構成音声信号サンプルを得るためのサンプル処理部を備える。サンプル選択部は、現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、現在のフレームに含まれるピッチ遅れ情報に応じて遅延バッファに記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するように構成される。更に、サンプル選択部は、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、受信インターフェースによって以前に受信されている別のフレームに含まれるピッチ遅れ情報に応じて遅延バッファに記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するように構成される。

実施例によると、サンプル処理部は、例えば、現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、現在のフレームに含まれるゲイン情報に応じて選択音声信号サンプルを再スケーリングすることによって再構成音声信号サンプルを得るように構成され得る。更に、サンプル選択部は、例えば、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、受信インターフェースによって以前に受信されている前記別のフレームに含まれるゲイン情報に応じて選択音声信号サンプルを再スケーリングすることによって再構成音声信号サンプルを得るように構成され得る。

実施例においては、サンプル処理部は、例えば、現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、選択音声信号サンプルと、現在のフレームに含まれるゲイン情報に応じた値とを乗算することによって再構成音声信号サンプルを得るように構成され得る。更に、サンプル選択部は、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、選択音声信号サンプルと、受信インターフェースによって以前に受信されている前記別のフレームに含まれるゲイン情報に応じた値とを乗算することによって再構成音声信号サンプルを得るように構成される。

実施例によると、サンプル処理部は、例えば、再構成音声信号サンプルを遅延バッファに記憶させるように構成され得る。

実施例においては、サンプル処理部は、例えば、更なるフレームが受信インターフェースによって受信される前に再構成音声信号サンプルを遅延バッファに記憶させるように構成され得る。

実施例によると、サンプル処理部は、例えば、更なるフレームが受信インターフェースによって受信された後に再構成音声信号サンプルを遅延バッファに記憶させるように構成され得る。

実施例においては、サンプル処理部は、例えば、ゲイン情報に応じて選択音声信号サンプルを再スケーリングして再スケーリング音声信号サンプルを得て、前記再スケーリング音声信号サンプルを入力音声信号サンプルと組み合わせて前記処理済音声信号サンプルを得るように構成され得る。

実施例によると、サンプル処理部は、例えば、現在のフレームが受信インターフェースによって受信されており、且つ受信インターフェースによって受信されている現在のフレームが破損していない場合、再スケーリング音声信号サンプルと入力音声信号サンプルとの組み合わせを示す処理済音声信号サンプルを遅延バッファに記憶させ、再スケーリング音声信号サンプルを遅延バッファに記憶させないように構成され得る。更に、サンプル処理部は、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、再スケーリング音声信号サンプルを遅延バッファに記憶させ、処理済音声信号サンプルを遅延バッファに記憶させないように構成される。

別の実施例によると、サンプル処理部は、例えば、現在のフレームが受信インターフェースによって受信されていない場合、又は受信インターフェースによって受信されている現在のフレームが破損している場合、処理済音声信号サンプルを遅延バッファに記憶させるように構成され得る。

実施例においては、サンプル選択部は、例えば、変更後ゲインに応じて選択音声信号サンプルを再スケーリングすることによって再構成音声信号サンプルを得るように構成することができ、変更後ゲインは、

の式によって定義され、ここで、ｇａｉｎは、変更後ゲインであり、サンプル選択部は、例えば、ｇａｉｎの算出後にｇａｉｎ＿ｐａｓｔをｇａｉｎに設定するように構成することができ、ｄａｍｐｉｎｇは、実数値である。

実施例によると、サンプル選択部は、例えば、変更後ゲインを算出するように構成され得る。

実施例においては、ｄａｍｐｉｎｇは、例えば、０≦ｄａｍｐｉｎｇ≦１によって定義され得る。

実施例によると、変更後ゲインｇａｉｎは、例えば、フレームが受信インターフェースによって最後に受信されてから少なくとも所定数のフレームが受信インターフェースによって受信されていない場合、ゼロに設定され得る。

更に、符号化音声信号を復号して再構成音声信号を得るための方法が提供される。当該方法は、
‐複数のフレームを受信するステップと、
‐復号された音声信号の音声信号サンプルを記憶するステップと、
‐遅延バッファに記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するステップと、
‐選択音声信号サンプルを処理して再構成音声信号の再構成音声信号サンプルを得るステップと、を備える。

現在のフレームが受信され、かつ、受信されている現在のフレームが破損していない場合、遅延バッファに記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するステップは、現在のフレームに含まれるピッチ遅れ情報に応じて行われる。更に、現在のフレームが受信されていない場合、又は受信されている現在のフレームが破損している場合、遅延バッファに記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するステップは、受信インターフェースによって以前に受信されている別のフレームに含まれるピッチ遅れ情報に応じて行われる。

実施例は、ＴＣＸＬＴＰ（ＴＣＸＬＴＰ＝変換符号化励振長期予測）を採用する。通常動作中、ノイズと、再構成された調性成分とを含む合成信号でＴＣＸＬＴＰメモリが更新される。

封じ込め中にＴＣＸＬＴＰを動作不能にする代わりに、その通常動作を、最後の良好なフレームにおいて受信されたパラメータによって封じ込め中に継続しても良い。これにより、信号のスペクトル形状、特に、ＬＴＰフィルタによってモデル化される調性成分が保管される。

更に、実施例においては、ＴＣＸＬＴＰフィードバックループが結合解除される。通常のＴＣＸＬＴＰ演算を単純に継続させることによって追加のノイズが導入されるが、それは、各々の更新ステップによって、ＬＴＰ励振からの更なるランダム生成ノイズが導入されるからである。従って、調性成分は、時間の経過に伴って、この追加のノイズによってますます歪められる。

これを克服するために、更新されたＴＣＸＬＴＰバッファのみを（ノイズ追加なしに）フィードバックすることにより、望まれないランダムノイズによって調性情報が汚染されないようにすることができる。

更に、実施例によると、ＴＣＸＬＴＰゲインがゼロにフェードさせられる。

これらの実施例は、ＴＣＸＬＴＰを継続させることによって、信号特性を短期的に保管することが助けられるが、長期的には欠点があるという知見に基づいている。即ち、封じ込め中に再生される信号は、損失に先立って存在していた発声・調性情報を含む。特に、クリーンな言語音声又は背景ノイズ上の言語音声の場合、音調又は調波が長期間に亘って極めてゆっくりと減衰する可能性は非常に低い。特に、ＬＴＰメモリ更新が結合解除される（調性成分のみがフィードバックされ、符号がスクランブルされた部分はフィードバックされない）場合、封じ込め中にＴＣＸＬＴＰ演算を継続することにより、発声・調性情報は、損失全体についての封じ込め信号において存在し続けることになり、全体的なフェードアウトによって快適ノイズレベルへ減衰されるのみである。更に、ＴＣＸＬＴＰがバースト状の損失中に時間の経過に伴って減衰されることなく適用される場合、バースト状のパケット損失中に快適ノイズ包絡線に達することは不可能であるが、それは、その場合、信号がＬＴＰの発声情報を常に組み込んでいるからである。

従って、ＴＣＸＬＴＰゲインは、ゼロへフェードさせられるため、ＬＴＰによって表現される調性成分は、ゼロにフェードさせられ、同時に、信号は、背景信号レベル及び形状にフェードさせられ、その結果、フェードアウトは、望まれない調性成分を組み込むことなく、所望のスペクトル背景包絡線（快適ノイズ）に達する。

実施例においては、ＬＴＰゲインフェードについて、ホワイトノイズフェードと同じフェード速度が用いられる。

これとは対照的に、先行技術では、封じ込め中にＬＴＰを用いた変換コーデックは知られていない。ＭＰＥＧ−４ＬＴＰ［ＩＳＯ０９］の場合、先行技術においては、封じ込め方策は、存在しない。ＬＴＰを利用する先行技術の別のＭＤＣＴベースのコーデックは、ＣＥＬＴであるが、このコーデックは、最初の５つのフレームについてＡＣＥＬＰ様の封じ込めを用い、後続のフレーム全てについては、ＬＴＰを利用しない背景ノイズを生成する。ＴＣＸＬＴＰを用いない先行技術の欠点は、ＬＴＰでモデル化される全ての調性成分が突然消失することである。更に、先行技術のＡＣＥＬＰベースのコーデックにおいては、ＬＴＰ演算が封じ込め中に長くされ、適応コードブックのゲインは、ゼロへとフェードさせられる。フィードバックループ動作に関し、先行技術は、２つの方策を用いる。即ち、全体励振、例えば、新規励振と適応励振との合計をフィードバックする（ＡＭＲ−ＷＢ）か、或いは、更新された適応励振、例えば、調性信号部分のみをフィードバックする（Ｇ．７１８）。上述の実施例は、先行技術の欠点を克服する。

以下、本発明の実施例について、図面を参照してより詳細に説明する。

図１Ａは、実施例による音声信号を復号するための装置を示す図である。図１Ｂは、別の実施例による音声信号を復号するための装置を示す図である。別の実施例による音声信号を復号するための装置であって、更に第１の集約部及び第２の集約部を備えるものを示す図である。図１Ｄは、更なる実施例による音声信号を復号するための装置であって、更に遅延バッファを含む長期予測部を備えるものを示す図である。Ｇ．７１８のデコーダ構造を示す図である。図３は、Ｇ．７２２のフェードアウト定数がクラス情報に依存するシナリオを示す図である。図４は、線形回帰を用いた振幅予測のための方策を示す図である。図５は、条件付きエネルギーラップド変換（ＣＥＬＴ）のバースト状の損失の挙動を示す図である。図６は、エラーのない動作モード中のデコーダにおける実施例による背景ノイズレベルトレースを示す図である。図７は、実施例によるＬＰＣ合成及び強調解除のゲイン導出を示す図である。図８は、実施例によるパケット損失中の快適ノイズレベル適用を示す図である。図９は、実施例によるＡＣＥＬＰ封じ込め中の高度広域通過ゲイン補償を示す図である。図１０は、実施例による封じ込め中のＬＴＰフィードバックループの結合解除を示す図である。図１１は、実施例による、符号化音声信号を復号して再構成音声信号を得るための装置を示す図である。図１２は、別の実施例による、符号化音声信号を復号して再構成音声信号を得るための装置を示す図である。図１３は、更なる実施例による、符号化音声信号を復号して再構成音声信号を得るための装置を示す図である。図１４は、別の実施例による、符号化音声信号を復号して再構成音声信号を得るための装置を示す図である。

図１ａは、実施例による音声信号を復号するための装置を示す。

当該装置は、受信インターフェース１１０を備える。受信インターフェースは、複数のフレームを受信するように構成され、受信インターフェース１１０は、複数のフレームのうちの第１のフレームを受信するように構成され、前記第１のフレームは、音声信号の第１の音声信号部分を含み、前記第１の音声信号部分は、第１の領域において表現される。更に、受信インターフェース１１０は、複数のフレームのうちの第２のフレームを受信するように構成され、前記第２のフレームは、音声信号の第２の音声信号部分を含む。

更に、当該装置は、第２の音声信号部分、又は第２の音声信号部分から導出された値若しくは信号を、第２の領域からトレース領域に変換することによって第２の信号部分情報を得るための変換部１２０を備え、第２の領域は、第１の領域とは異なり、トレース領域は、第２の領域とは異なり、トレース領域は、第１の領域と等しい又は異なる。

更に、当該装置は、ノイズレベルトレース部１３０を備え、ノイズレベルトレース部は、トレース領域において表現される第１の信号部分情報を受信するように構成され、第１の信号部分情報は、第１の音声信号部分に依存し、ノイズレベルトレース部は、トレース領域において表現される第２の信号部分を受信するように構成され、ノイズレベルトレース部は、トレース領域において表現される第１の信号部分情報と、トレース領域において表現される第２の信号部分情報とに応じてノイズレベル情報を決定するように構成される。

第１の音声信号部分及び／又は第２の音声信号部分に関し、例えば、第１の音声信号部分及び／又は第２の音声信号部分は、例えば、１つ以上のラウドスピーカーのための１つ以上のラウドスピーカー信号を生成するための１つ以上の処理部（図示せず）に入力されることができ、これにより、第１の音声信号部分及び／又は第２の音声信号部分に含まれる受信音情報を再生することができる。

更に、第１の音声信号部分及び第２の音声信号部分は、また、例えば、後続のフレームが受信機に到達しない場合、或いは、後続のフレームにエラーが含まれる場合、封じ込めにも用いられる。

特に、本発明は、ノイズレベルトレースが共通の領域、本願では「トレース領域」と呼ばれる、において行われるべきであるという知見に基づく。トレース領域は、例えば、励振領域であっても良く、これは、例えば、ＡＭＲ−ＷＢ及びＡＭＲ−ＷＢ＋（［３ＧＰ１２ａ］、［３ＧＰ１２ｂ］、［３ＧＰ０９ａ］、［３ＧＰ０９ｂ］、［３ＧＰ０９ｃ］を参照）に記載のＬＰＣ（ＬＰＣ＝線形予測係数）又はＩＳＰ（ＩＳＰ＝インミッタンススペクトル対）によって信号が表現される領域である。単一の領域においてノイズレベルをトレースすることには、特に、第１の領域における第１の表現と第２の領域における第２の表現との間で信号が切り替わる（例えば信号の表現がＡＣＥＬＰからＴＣＸへ、又はその逆に切り替わる）時にエイリアシング効果が回避されるという利点がある。

変換部１２０に関し、変換されるのは、第２の音声信号部分そのもの、又は第２の音声信号部分から導出された信号（例えば、第２の音声信号部分を処理して導出信号を得る）、又は第２の音声信号部分から導出された値（例えば、第２の音声信号部分を処理して導出値を得る）である。

第１の音声信号部分に関し、いくつかの実施例では、第１の音声信号部分をトレース領域へ処理及び／又は変換することができる。

しかし、他の実施例では、第１の音声信号部分は、既にトレース領域において表現されている場合もある。

いくつかの実施例では、第１の信号部分情報は、第１の音声信号部分と同一である。他の実施例では、第１の信号部分情報は、例えば、第１の音声信号部分に応じた集約値である。

以下において、まず、快適ノイズレベルへのフェードアウトをより詳細に検討する。

本願に記載のフェードアウト方策は、例えば、ｘＨＥ−ＡＡＣ［ＮＭＢ＋１２］（ｘＨ
Ｅ−ＡＡＣ＝拡張高効率ＡＡＣ）の低遅延バージョンにおいて実現することができ、これは、フレーム毎にＡＣＥＬＰ（言語音声）符号化とＭＤＣＴ（音楽・ノイズ）符号化との間で継ぎ目なく切り替わることができる。

トレース領域、例えば励振領域における共通レベルトレースに関し、パケット損失中に適切な快適ノイズレベルへの平滑なフェードアウトを適用するために、通常の復号プロセス中に、このような快適ノイズレベルを特定する必要がある。例えば、背景ノイズに類似のノイズレベルが最も快適であると想定することができる。従って、通常復号中に、背景ノイズを導出して絶えず更新することができる。

本発明は、切り替えコアコーデック（例えば、ＡＣＥＬＰ及びＴＣＸ）を有する場合、選択されたコアコーダとは独立の共通の背景ノイズレベルを考慮することが特に好適であるという知見に基づく。

図６は、エラーのない動作モード、例えば通常復号中の、デコーダにおける好ましい実施例による背景ノイズレベルトレースを示す。

トレースそのものは、例えば、最小統計方策（［Ｍａｒ０１］を参照）を用いて実行することができる。

このトレースされた背景ノイズレベルは、例えば、上述のノイズレベル情報と見なすことができる。

背景ノイズレベルトレースについては、例えば、ライナー・マルティン（ＲａｉｎｅｒＭａｒｔｉｎ）、「最適平滑化及び最小統計に基づくノイズパワースペクトル密度推定（Noise power spectral density estimation based on optimal smoothing and minimum statistics）」、ＩＥＥＥ言語音声・音声処理会報（IEEE Transactions on Speech and Audio Processing）第９巻（２００１年）、第５号、５０４〜５１２頁［Ｍａｒ０１］、の文献に呈示された最小統計ノイズ推定を用いることができる。

これに対応して、いくつかの実施例では、ノイズレベルトレース部１３０は、最小統計方策を適用する、例えば、［Ｍａｒ０１］の最小統計ノイズ推定を適用することによってノイズレベル情報を決定するように構成される。

続いて、このトレース方策についてのいくつかの考慮すべき点と詳細について説明する。

レベルトレースに関し、背景は、ノイズ様であると想定される。従って、ＬＰＣによって取り出される前景調性成分をトレースすることを回避するために、励振領域においてレベルトレースを実行することが好ましい。例えば、ＡＣＥＬＰノイズ充填も、また、励振領域における背景ノイズレベルを用いることができる。励振領域におけるトレースによって、背景ノイズレベルの単一のトレースだけで２つの目的を果たすことができ、これによって、計算上の複雑度が節約される。好ましい実施例においては、トレースは、ＡＣＥＬＰ励振領域において実行される。

図７は、実施例によるＬＰＣ合成及び強調解除のゲイン導出を示す。

レベル導出に関し、レベル導出は、例えば、時間領域又は励振領域のいずれかにおいて、或いは、その他の任意の適切な領域において行うことができる。レベル導出のための領域とレベルトレースのための領域とが異なる場合、例えば、ゲイン補償が必要となる場合がある。

好ましい実施例においては、ＡＣＥＬＰについてのレベル導出は、励振領域において実行される。従って、ゲイン補償は、必要ではない。

ＴＣＸの場合、例えば、導出レベルをＡＣＥＬＰ励振領域に対して調節するためにゲイン補償が必要となる場合がある。

好ましい実施例において、ＴＣＸについてのレベル導出は、時間領域において行われる。この方策について制御可能なゲイン補償が見出された。即ち、ＬＰＣ合成及び強調解除によって導入されたゲインを、図７に示すように導出し、導出したレベルをこのゲインで除算する。

これに代えて、ＴＣＸについてのレベル導出をＴＣＸ励振領域で実行することもできる。しかし、ＴＣＸ励振領域とＡＣＥＬＰ励振領域との間のゲイン補償は、過度に複雑であると考えられる。

従って、再び、図１ａを参照して、いくつかの実施例においては、第１の音声信号部分は、第１の領域として時間領域において表現される。変換部１２０は、第２の音声信号部分、又は第２の音声信号部分から導出された値を、第２の領域である励振領域から、トレース領域である時間領域へ変換するように構成される。このような実施例では、ノイズレベルトレース部１３０は、トレース領域としての時間領域において表現される第１の信号部分情報を受信するように構成される。更に、ノイズレベルトレース部１３０は、トレース領域としての時間領域において表現される第２の信号部分を受信するように構成される。

他の実施例においては、第１の音声信号部分は、第１の領域としての励振領域において表現される。変換部１２０は、第２の音声信号部分、又は第２の音声信号部分から導出された値を、第２の領域である時間領域から、トレース領域である励振領域に変換するように構成される。このような実施例では、ノイズレベルトレース部１３０は、トレース領域としての励振領域において表現される第１の信号部分情報を受信するように構成される。更に、ノイズレベルトレース部１３０は、トレース領域としての励振領域において表現される第２の信号部分を受信するように構成される。

実施例においては、第１の音声信号部分は、例えば、第１の領域としての励振領域において表現することができ、ノイズレベルトレース部１３０は、例えば、第１の信号部分情報を受信するように構成することができ、前記第１の信号部分情報は、トレース領域であるＦＦＴ領域において表現され、前記第１の信号部分情報は、前記励振領域において表現される第１の音声信号部分に依存し、変換部１２０は、例えば、第２の音声信号部分、又は第２の音声信号部分から導出された値を、第２の領域である時間領域から、トレース領域であるＦＦＴ領域に変換するように構成することができ、ノイズレベルトレース部１３０は、例えば、ＦＦＴ領域において表現される第２の音声信号部分を受信するように構成され得る。

図１ｂは、別の実施例による装置を示す。図１ｂにおいては、図１ａの変換部１２０は、第１の変換部１２０であり、図１ａの再構成部１４０は、第１の再構成部１４０である。当該装置は、更に、第２の変換部１２１及び第２の再構成部１４１を備える。

第２の変換部１２１は、複数のフレームのうちの第４のフレームが受信インターフェースによって受信されていない場合、又は前記第４のフレームが受信インターフェースによって受信されているが破損している場合、ノイズレベル情報をトレース領域から第２の領域に変換するように構成される。

更に、第２の再構成部１４１は、複数のフレームのうちの前記第４のフレームが受信インターフェースによって受信されていない場合、又は前記第４のフレームが受信インターフェースによって受信されているが破損している場合、第２の領域において表現されているノイズレベル情報に応じて音声信号の第４の音声信号部分を再構成するように構成される。

図１ｃは、別の実施例による音声信号を復号するための装置を示す。当該装置は、更に、第１の音声信号部分に応じて第１の集約値を決定するための第１の集約部１５０を備える。更に、図１ｃの装置は、更に、第２の音声信号部分に応じて、第２の音声信号部分から導出された値としての第２の集約値を決定するための第２の集約部１６０を備える。図１ｃの実施例では、ノイズレベルトレース部１３０は、トレース領域において表現される第１の信号部分情報として第１の集約値を受信するように構成され、ノイズレベルトレース部１３０は、トレース領域において表現される第２の信号部分情報として第２の集約値を受信するように構成される。ノイズレベルトレース部１３０は、トレース領域において表現される第１の集約値と、トレース領域において表現される第２の集約値とに応じて、ノイズレベル情報を決定するように構成される。

実施例においては、第１の集約部１５０は、第１の集約値が、第１の音声信号部分、又は第１の音声信号部分から導出された信号の、根二乗平均を示すように、第１の集約値を決定するように構成される。更に、第２の集約部１６０は、第２の集約値が、第２の音声信号部分、又は第２の音声信号部分から導出された信号の、根二乗平均を示すように、第２の集約値を決定するように構成される。

図６は、更なる実施例による音声信号を復号するための装置を示す。

図６においては、背景レベルトレース部６３０は、図１ａによるノイズレベルトレース部１３０を実現する。

更に、図６においては、ＲＭＳ部６５０（ＲＭＳ＝根二乗平均）は、第１の集約部であり、ＲＭＳ部６６０は、第２の集約部である。

いくつかの実施例によると、図１ａ、図１ｂ及び図１ｃの（第１の）変換部１２０は、第２の音声信号部分から導出された値にゲイン値（ｘ）を適用すること、例えば、第２の音声信号部分から導出された値をゲイン値（ｘ）によって除算することにより、第２の音声信号部分から導出された値を第２の領域からトレース領域に変換するように構成される。他の実施例では、ゲイン値は、例えば、乗算されても良い。

いくつかの実施例においては、ゲイン値（ｘ）は、例えば、線形予測符号化合成によって導入されたゲインを示すことができ、又は、ゲイン値（ｘ）は、例えば、線形予測符号化合成及び強調解除によって導入されたゲインを示すことができる。

図６において、ユニット６２２は、線形予測符号化合成及び強調解除によって導入されたゲインを示す値（ｘ）を提供する。次に、ユニット６２２は、第２の集約部６６０によって入力された値であって第２の音声信号部分から導出された値を、提供されたゲイン値（ｘ）で除算する（例えば、ｘによって除算する、又は１／ｘの値を乗算する）。こうして、ユニット６２１，６２２を含む図６のユニット６２０は、図１ａ、図１ｂ又は図１ｃの第１の変換部を実現する。

図６の装置は、第１の音声信号部分を有する第１のフレームを受信し、これは、有声の励振及び／又は無声の励振であり、かつ、トレース領域、図６では（ＡＣＥＬＰ）ＬＰＣ領域において表現されるものである。第１の音声信号部分をＬＰＣ合成及び強調解除部６７１に入力して処理し、時間領域の第１の音声信号部分出力を得る。更に、第１の音声信号部分をＲＭＳモジュール６５０に入力して、第１の音声信号部分の根二乗平均を示す第１の値を得る。この第１の値（第１のＲＭＳ値）は、トレース領域において表現される。トレース領域において表現される第１のＲＭＳ値は、次に、ノイズレベルトレース部６３０に入力される。

更に、図６の装置は、ＭＤＣＴスペクトルを含みＭＤＣＴ領域において表現される第２の音声信号部分を有する第２のフレームを受信する。ノイズ充填は、ノイズ充填モジュール６８１によって行われ、周波数領域ノイズ形状付けが周波数領域ノイズ形状付けモジュール６８２によって行われ、時間領域への変換が、ｉＭＤＣＴ／ＯＬＡモジュール６８３
（ＯＬＡ＝オーバーラップ・加算）によって行われ、長期予測が長期予測部６８４によって行われる。長期予測部は、例えば、遅延バッファ（図６では示さず）を含み得る。

次に、第２の音声信号部分から導出された信号をＲＭＳモジュール６６０に入力し、第２の音声信号部分から導出された信号の根二乗平均を示す第２の値を得る。この第２の値（第２のＲＭＳ値）は、時間領域において、尚、表現されている。次に、ユニット６２０は、第２のＲＭＳ値を、時間領域からトレース領域、ここでは（ＡＣＥＬＰ）ＬＰＣ領域に変換する。トレース領域において表現される第２のＲＭＳ値は、次に、ノイズレベルトレース部６３０に入力される。

実施例においては、レベルトレースは、励振領域において行われるが、ＴＣＸフェードアウトは、時間領域で行われる。

通常の復号中は、背景ノイズレベルがトレースされるのに対し、パケット損失中は、これを、例えば、適切な快適ノイズレベルの標識として用いることができ、最後の受信された信号は、これへと平滑にレベル単位でフェードさせられる。

トレースのためのレベルを導出することと、レベルのフェードアウトを適用することとは、一般的に互いに独立しており、それぞれ異なる領域で実行され得る。好ましい実施例では、レベル適用は、レベル導出と同じ領域で実行されるため、ＡＣＥＬＰの場合は、ゲイン補償が不要であるということ、及びＴＣＸの場合は、レベル導出（図６を参照）におけるような逆ゲイン補償が必要であるため、図７に示すように同じゲイン導出が用いられ得ること、という同じ利益が得られる。

以下、実施例によるＬＰＣ合成ゲインに対するハイパスフィルタの影響の補償について説明する。

図８は、この方策の概略を示す。特に、図８は、パケット損失中の快適ノイズレベル適用を示す。

図８においては、ハイパスゲインフィルタ部６４３、乗算部６４４、フェード部６４５、ハイパスフィルタ部６４６、フェード部６４７及び組み合わせ部６４８が一緒に第１の再構成部を構成している。

更に、図８において、背景レベル出力部６３１は、ノイズレベル情報を出力する。例えば、背景レベル供給部６３１は、図６の背景レベルトレース部６３０として等しく実現することができる。

更に、図８において、ＬＰＣ合成・強調解除ゲイン部６４９及び乗算部６４１は、第２の変換部６４０を構成する。

更に、図８において、フェード部６４２は、第２の再構成部を表す。

図８の実施例において、有声の励振と無声の励振とは別個にフェードさせられる。即ち、有声の励振は、ゼロへフェードさせられるが、無声の励振は、快適ノイズレベルへとフェードさせられる。更に、図８は、ハイパスフィルタを示し、これを無声の励振の信号チェーンに導入して、信号が無声と分類された時を除き全ての場合において低周波数成分を抑制する。

ハイパスフィルタの影響のモデル化に関し、ＬＰＣ合成及び強調解除後のレベルは、ハイパスフィルタを伴って一度計算され、ハイパスフィルタを伴わずに一度計算される。この後、これら２つのレベルの比を導出し、これを用いて適用背景レベルを変更する。

これを図９に示す。特に、図９は、実施例によるＡＣＥＬＰ封じ込め中の高度ハイパスゲイン補償を示す。

この計算では、現在の励振信号の代わりに簡単なインパルスを入力として用いる。これにより、複雑度が低減できるが、それは、インパルスの応答は、急速に減衰するため、ＲＭＳ導出を短い時間フレームで行うことができるからである。実際は、フレーム全体の代わりに、ただ１つのサブフレームを用いる。

実施例によると、ノイズレベルトレース部１３０は、ノイズレベル情報として快適ノイズレベルを決定するように構成される。再構成部１４０は、複数のフレームのうちの前記第３のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第３のフレームが受信インターフェース１１０によって受信されているが破損している場合、ノイズレベル情報に応じて第３の音声信号部分を再構成するように構成される。

実施例においては、ノイズレベルトレース部１３０は、ノイズレベルスペクトルから導出されたノイズレベル情報として快適ノイズレベルを決定するように構成され、前記ノイズレベルスペクトルは、最小統計方策を適用することによって得られる。再構成部１４０は、複数のフレームのうちの前記第３のフレームが受信インターフェースに１１０よって受信されていない場合、又は前記第３のフレームが受信インターフェース１１０によって受信されているが破損している場合、複数の線形予測係数に応じて第３の音声信号部分を再構成するように構成される。

実施例においては、（第１及び／又は第２の）再構成部１４０，１４１は、例えば、複数のフレームのうちの前記第３（第４）のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第３（第４）のフレームが受信インターフェース１１０によって受信されているが破損している場合、ノイズレベル情報と第１の音声信号部分とに応じて第３の音声信号部分を再構成するように構成され得る。

実施例によると、（第１及び／又は第２の）再構成部１４０，１４１は、例えば、第１の音声信号部分を減衰させる又は増幅することによって第３（又は第４）の音声信号部分を再構成するように構成され得る。

図１４は、音声信号を復号するための装置を示す。当該装置は、受信インターフェース１１０を備え、受信インターフェース１１０は、音声信号の第１の音声信号部分を含む第１のフレームを受信するように構成され、受信インターフェース１１０は、音声信号の第２の音声信号部分を含む第２のフレームを受信するように構成される。

更に、当該装置は、ノイズレベルトレース部１３０を備え、ノイズレベルトレース部１３０は、第１の音声信号部分及び第２の音声信号部分のうちの少なくとも１つに応じて（即ち、第１の音声信号部分及び／又は第２の音声信号部分に応じて）ノイズレベル情報を決定するように構成され、ノイズレベル情報は、トレース領域において表現される。

更に、当該装置は、複数のフレームのうちの第３のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第３のフレームが受信インターフェース１１０によって受信されているが破損している場合、ノイズレベル情報に応じて音声信号の第３の音声信号部分を第１の再構成領域において再構成するための第１の再構成部１４０を備え、第１の再構成領域は、トレース領域と異なる又は等しい。

更に、当該装置は、複数のフレームのうちの第４のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第４のフレームが受信インターフェース１１０によって受信されているが破損している場合、ノイズレベル情報をトレース領域から第２の再構成領域に変換するための変換部１２１を備え、第２の再構成領域は、トレース領域とは異なり、第２の再構成領域は、第１の再構成領域とは異なる。

更に、当該装置は、複数のフレームのうちの前記第４のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第４のフレームが受信インターフェース１１０によって受信されているが破損している場合、第２の再構成領域において表現されるノイズレベル情報に応じて音声信号の第４の音声信号部分を第２の再構成領域において再構成するための第２の復元部１４１を備える。

実施例によると、前記第１の音声信号部分は、例えば、第１の入力領域において表現することができ、前記第２の音声信号部分は、例えば、第２の入力領域において表現することができる。変換部は、例えば、第２の変換部であり得る。当該装置は、例えば、更に、第２の音声信号部分、又は第２の音声信号部分から導出された値又は信号を、第２の入力領域からトレース領域に変換して第２の信号部分情報を得るための第１の変換部を備えることができる。ノイズレベルトレース部は、例えば、トレース領域において表現される第１の信号部分情報を受信するように構成することができ、第１の信号部分情報は、第１の音声信号部分に依存し、ノイズレベルトレース部は、トレース領域において表現される第２の信号部分を受信するように構成され、ノイズレベルトレース部は、トレース領域において表現される第１の信号部分情報と、トレース領域において表現される第２の信号部分情報とに応じてノイズレベル情報を決定するように構成される。

例えば、信号が時間領域において表現される場合、これは、例えば、信号の時間領域サンプルによって表現することができる。或いは、例えば、信号がスペクトル領域において表現される場合、これは、例えば、信号のスペクトルのスペクトルサンプルによって表現することができる。

別の実施例では、トレース領域は、例えば、時間領域とすることができ、第１の再構成領域は、例えば、時間領域とすることができ、第２の再構成領域は、例えば、励振領域とすることができる。

いくつかの実施例においては、図１４に示す各ユニットは、例えば、図１ａ，１ｂ，１ｃ，１ｄについて説明したように構成することができる。

特定の実施例に関し、例えば、低レートモードにおいて、実施例による装置は、例えば、ＡＣＥＬＰフレームを入力として受信することができ、これらフレームは、励振領域において表現され、それから、ＬＰＣ合成を介して時間領域に変換される。更に、低レートモードにおいて、実施例による装置は、例えば、ＴＣＸフレームを入力として受信することができ、これらフレームは、ＭＤＣＴ領域において表現され、それから、逆ＭＤＣＴを介して時間領域に変換される。

次に、トレースがＦＦＴ領域において行われ、ＦＦＴ信号は、ＦＦＴ（高速フーリエ変換）を行うことによって時間領域信号から導出される。トレースは、例えば、最小統計方策を全てのスペクトル線について別個に行って快適ノイズスペクトルを得ることによって行うことができる。

次に、快適ノイズスペクトルに基づいてレベル導出を行うことによって封じ込めを行う。レベル導出は、快適ノイズスペクトルに基づいて行われる。時間領域へのレベル変換は、ＦＤＴＣＸＰＬＣについて行われる。時間領域におけるフェードが行われる。励振領域へのレベル導出がＡＣＥＬＰＰＬＣ及びＴＤＴＣＸＰＬＣ（ＡＣＥＬＰ様）について行われる。次に、励振領域におけるフェードが行われる。

これを以下のリストで要約する。
低レート
●入力
○ａｃｅｌｐ（励振領域→時間領域。ＬＰＣ合成を介する）
○ｔｃｘ（ｍｄｃｔ領域→時間領域。逆ＭＤＣＴを介する）
●トレース
○ＦＦＴを介して時間領域から導出されるｆｆｔ領域
○全てのスペクトル線について別個の最小統計→快適ノイズスペクトル
●封じ込め
○快適ノイズスペクトルに基づくレベル導出
○以下についての時間領域へのレベル変換
・ＦＤＴＣＸＰＬＣ
→時間領域におけるフェード
○以下についての励振領域へのレベル変換
・ＡＣＥＬＰＰＬＣ
・ＴＤＴＣＸＰＬＣ（ＡＣＥＬＰ様）
→励振領域におけるフェード
例えば、高レートモードにおいては、例えば、ＴＣＸフレームを入力として受信することができ、これらフレームは、ＭＤＣＴ領域において表現され、それから、逆ＭＤＣＴを介して時間領域に変換される。

次に、トレースが時間領域において行われる。トレースは、例えば、エネルギーレベルに基づいて最小統計方策を行って快適ノイズレベルを得ることによって行うことができる。

封じ込めについては、ＦＤＴＣＸＰＬＣの場合、レベルをそのまま用いることができ、時間領域におけるフェードのみを行うことができる。ＴＤＴＣＸＰＬＣ（ＡＣＥＬＰ様）については、励振領域へのレベル変換及び励振領域におけるフェードが行われる。

これを以下のリストで要約する。
高レート
●入力
○ｔｃｘ（ｍｄｃｔ領域→時間領域。逆ＭＤＣＴを介する）
●トレース
○時間領域
○エネルギーレベルに対する最小統計→快適ノイズレベル
●封じ込め
○「そのままの」レベル使用
・ＦＤＴＣＸＰＬＣ
→時間領域におけるフェード
○以下についての励振領域へのレベル変換
・ＴＤＴＣＸＰＬＣ（ＡＣＥＬＰ様）
→励振領域におけるフェード
ＦＦＴ領域及びＭＤＣＴ領域は両方ともスペクトル領域である一方、励振領域は或る種の時間領域である。

実施例によると、第１の再構成部１４０は、例えば、ノイズ様のスペクトルへの第１のフェードを行うことにより第３の音声信号部分を再構成するように構成され得る。第２の再構成部１４１は、例えば、ノイズ様のスペクトルへの第２のフェード及び／又はＬＴＰゲインの第２のフェードを行うことによって第４の音声信号部分を再構成するように構成され得る。更に、第１の再構成部１４０及び第２の再構成部１４１は、例えば、ノイズ様のスペクトルへの第１のフェード及び第２のフェード、並びに／又はＬＴＰゲインの第２のフェードを、同じフェード速度で行うように構成され得る。

次に、快適ノイズの適応スペクトル形状付けについて検討する。

バースト状のパケット損失中に快適ノイズへの適応形状付けを達成するために、第１のステップとして、背景ノイズを表す適切なＬＰＣ係数を求めることができる。これらのＬＰＣ係数は、アクティブな言語音声の期間中に導出することができ、これを行うために、最小統計方策を用いて背景ノイズスペクトルを求めて、文献から公知のＬＰＣ導出のための任意のアルゴリズムを用いて、この背景ノイズスペクトルからＬＰＣ係数を算出する。いくつかの実施例では、例えば、背景ノイズススペクトルを或る表現に直接変換することができ、この表現をＭＤＣＴ領域におけるＦＤＮＳについて直接用いることができる。

快適ノイズへのフェードは、ＩＳＦ領域において（ＬＳＦ領域でも適用可能である。ＬＳＦ＝線スペクトル周波数）、

ｐｔ_meanを、快適ノイズを記述する適切なＬＰ係数に設定することによって行うことができる。

上述の快適ノイズの適応スペクトル形状付けに関し、より一般的な実施例を図１１に示す。

図１１は、実施例による、符号化音声信号を復号して再構成音声信号を得るための装置を示す。

当該装置は、１つ以上のフレームを受信するための受信インターフェース１１１０、係数生成部１１２０、及び信号再構成部１１３０を備える。

係数生成部１１２０は、１つ以上のフレームのうちの現在のフレームが受信インターフェース１１１０によって受信されており、且つ受信インターフェース１１１０によって受信されている現在のフレームが破損していない／誤りを含まない場合、現在のフレームに含まれる１つ以上の第１の音声信号係数を決定するように構成され、前記１つ以上の第１の音声信号係数は、符号化音声信号の特性を示し、１つ以上のノイズ係数が符号化音声信号の背景ノイズを示す。更に、係数生成部１１２０は、現在のフレームが受信インターフェース１１１０によって受信されていない場合、又は受信インターフェース１１１０によって受信されている現在のフレームが破損している／誤りを含む場合、１つ以上の第１の音声信号係数と１つ以上のノイズ係数とに応じて１つ以上の第２の音声信号係数を生成するように構成される。

音声信号再構成部１１３０は、現在のフレームが受信インターフェース１１１０によって受信されており、且つ受信インターフェース１１１０によって受信されている現在のフレームが破損していない場合、１つ以上の第１の音声信号係数に応じて再構成音声信号の第１の部分を再構成するように構成される。更に、音声信号再構成部１１３０は、現在のフレームが受信インターフェース１１１０によって受信されていない場合、又は受信インターフェース１１１０によって受信されている現在のフレームが破損している場合、１つ以上の第２の音声信号係数に応じて再構成音声信号の第２の部分を再構成するように構成される。

背景ノイズの決定は、先行技術で周知であり（例えば、［Ｍａｒ０１］：ライナー・マルティン（ＲａｉｎｅｒＭａｒｔｉｎ）、「最適平滑化及び最小統計に基づくノイズパワースペクトル密度推定（Noise power spectral density estimation based on optimal smoothing and minimum statistics）」、ＩＥＥＥ言語音声・音声処理会報（IEEE Transactions on Speech and Audio Processing）第９巻（２００１年）、第５号、５０４〜５１２頁を参照）、実施例において、当該装置はこれに従って動作する。

いくつかの実施例において、１つ以上の第１の音声信号係数は、例えば、符号化音声信号の１つ以上の線形予測フィルタ係数とすることができる。いくつかの実施例では、１つ以上の第１の音声信号係数は、例えば、符号化音声信号の１つ以上の線形予測フィルタ係数とすることができる。

当該技術においては、音声信号、例えば、言語音声信号を、線形予測フィルタ係数又はインミッタンススペクトル対からどのように再構成するのかは周知であり（例えば、［３ＧＰ０９ｃ］：「言語音声コーデック言語音声処理機能。適応マルチレート−広帯域（ＡＭＲＷＢ）言語音声コーデック。トランスコード処理機能（Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions）、３ＧＰＰＴＳ２６．１９０、第３世代パートナーシッププロジェクト（3rd Generation Partnership Project）、２００９年、を参照）、実施例では、信号再構成部は、これに従って動作する。

実施例によると、１つ以上のノイズ係数は、例えば、符号化音声信号の背景ノイズを示す１つ以上の線形予測フィルタ係数とすることができる。実施例においては、１つ以上の線形予測フィルタ係数は、例えば、背景ノイズのスペクトル形状を表すことができる。

実施例においては、係数生成部１１２０は、例えば、１つ以上の第２の音声信号部分が、再構成音声信号についての１つ以上の線形予測フィルタ係数となる、又は、１つ以上の第１の音声信号係数が、再構成音声信号についての１つ以上のインミッタンススペクトル対となるように、１つ以上の第２の音声信号部分を決定するように構成され得る。

実施例によると、係数生成部１１２０は、例えば、

の式を適用することにより１つ以上の第２の音声信号係数を生成するように構成することができ、ここで、ｆ_current［ｉ］は、１つ以上の第２の音声信号係数のうちの１つを示し、ｆ_last［ｉ］は、１つ以上の第１の音声信号係数のうちの１つを示し、ｐｔ_mean［ｉ］は、１つ以上のノイズ係数のうちの１つであり、αは実数（０≦α≦１）であり、ｉは、インデックスである。

実施例によると、ｆ_last［ｉ］は、符号化音声信号の線形予測フィルタ係数を示し、ｆ_current［ｉ］は、再構成音声信号の線形予測フィルタ係数を示す。

実施例においては、ｐｔ_mean［ｉ］は、例えば、符号化音声信号の背景ノイズを示す線形予測フィルタ係数であり得る。

実施例によると、係数生成部１１２０は、例えば、少なくとも１０個の第２の音声信号係数を、１つ以上の第２の音声信号係数として生成するように構成され得る。

実施例においては、係数生成部１１２０は、例えば、１つ以上のフレームのうちの現在のフレームが受信インターフェース１１１０によって受信されており、且つ受信インターフェース１１１０によって受信されている現在のフレームが破損していない場合、符号化音声信号のノイズスペクトルを決定することにより１つ以上のノイズ係数を決定するように構成され得る。

以下、ＦＤＮＳ適用に先立つホワイトノイズへのＭＤＣＴスペクトルのフェードについて検討する。

ＭＤＣＴビンの符号をランダムに変更する（符号スクランブル）代わりに、完全なスペクトルに、ＦＤＮＳを用いて形状付けられたホワイトノイズを充填する。スペクトル特性における瞬間的な変化を回避するために、符号スクランブルとノイズ充填とのクロスフェードが適用される。クロスフェードは、以下のように実現することができる。

ここで、ｃｕｍ＿ｄａｍｐｉｎｇは、（絶対）減衰定数である。これは、フレーム毎に減少し、１から始まって０へと減少する。

ｘ＿ｏｌｄは、最後の受信フレームのスペクトルである。

ｒａｎｄｏｍ＿ｓｉｇｎは、１又は−１を返す。

ｎｏｉｓｅは、ランダムなベクトル（ホワイトノイズ）であって、その平方平均（ＲＭＳ）が最後の良好なスペクトルと類似となるようにスケーリングされるものを含む。

ｒａｎｄｏｍ＿ｓｉｇｎ（）＊ｏｌｄ＿ｘ［ｉ］の項は、位相をランダム化して高調波
の繰り返しを避けるための符号スクランブルプロセスを特徴づける。

続いて、クロスフェードの後に、エネルギーレベルの別の正規化を実行しても良く、これにより合計エネルギーが２つのベクトルの相関によって逸脱しないことを確実にする。

実施例によると、第１の再構成部１４０は、例えば、ノイズレベル情報と第１の音声信号部分とに応じて第３の音声信号部分を再構成するように構成され得る。具体的な実施例では、第１の再構成部１４０は、例えば、第１の音声信号部分を減衰させる又は増幅することによって第３の音声信号部分を再構成するように構成され得る。

いくつかの実施例では、第２の再構成部１４１は、例えば、ノイズレベル情報と第２の音声信号部分とに応じて第４の音声信号部分を再構成するように構成され得る。具体的な実施例では、第２の再構成部１４１は、例えば、第２の音声信号部分を減衰させる又は増幅することによって第４の音声信号部分を再構成するように構成され得る。

上述のＦＤＮＳ適用に先立つホワイトノイズへのＭＤＣＴスペクトルのフェードに関し、より一般的な実施例を図１２に示す。

図１２は、実施例による、符号化音声信号を復号して再構成音声信号を得るための装置を示す。

当該装置は、符号化音声信号の音声信号スペクトルの複数の音声信号サンプルについての情報を含む１つ以上のフレームを受信するための受信インターフェース１２１０と、再構成音声信号を生成するための処理部１２２０とを備える。

処理部１２２０は、現在のフレームが受信インターフェース１２１０によって受信されていない場合、又は現在のフレームが受信インターフェース１２１０によって受信されているが破損している場合、変更後スペクトルを目標スペクトルにフェードさせることにより再構成音声信号を生成するように構成されており、変更後スペクトルは、複数の変更後信号サンプルを含み、変更後スペクトルの変更後信号サンプルの各々について、前記変更後信号サンプルの絶対値は、音声信号スペクトルの音声信号サンプルのうちの１つの絶対値に等しい。

更に、処理部１２２０は、１つ以上のフレームのうちの現在のフレームが受信インターフェース１２１０によって受信されており、且つ受信インターフェース１２１０によって受信されている現在のフレームが破損していない場合、変更後スペクトルを目標スペクトルにフェードさせないように構成される。

実施例によると、目標スペクトルは、ノイズ様のスペクトルである。

実施例においては、ノイズ様のスペクトルは、ホワイトノイズを表す。

実施例によると、ノイズ様のスペクトルは、形状付けられる。

実施例においては、ノイズ様のスペクトルの形状は、以前に受信された信号の音声信号スペクトルに依存する。

実施例によると、ノイズ様のスペクトルは、音声信号スペクトルの形状に応じて形状付けられる。

実施例においては、処理部１２２０は、チルト定数を適用してノイズ様のスペクトルを形状付ける。

実施例によると、処理部１２２０は、

の式を適用し、ここで、Ｎは、サンプルの数を示し、
ｉは、インデックスであり、
０≦ｉ＜Ｎであり、ｔｉｌｔ＿ｆａｃｔｏｒ＞０であり、
ｐｏｗｅｒは、パワー関数である。

もし、ｔｉｌｔ＿ｆａｃｔｏｒが１よりも小さければ、これは、増加するｉによる減衰を意味する。ｔｉｌｔ＿ｆａｃｔｏｒが１よりも大きければ、増加するｉによる増幅を意味する。

別の実施例によると、処理部１２２０は、

の式を適用することができ、ここで、Ｎは、サンプル数を示し、
ｉは、インデックスであり、０≦ｉ＜Ｎであり、
ｔｉｌｔ＿ｆａｃｔｏｒ＞０である。

実施例によると、処理部１２２０は、現在のフレームが受信インターフェース１２１０によって受信されていない場合、又は受信インターフェース１２１０によって受信されている現在のフレームが破損している場合、音声信号スペクトルの音声信号サンプルのうちの１つ以上の符号を変えることによって変更後スペクトルを生成するように構成される。

実施例においては、音声信号スペクトルの音声信号サンプルの各々は、想像上の数ではなく、実数によって表される。

実施例によると、音声信号スペクトルの音声信号サンプルは、変更後離散余弦変換領域において表される。

別の実施例においては、音声信号スペクトルの音声信号サンプルは、変更後離散正弦変換領域において表される。

実施例によると、処理部１２２０は、第１の値又は第２の値をランダム又は疑似ランダムに出力するランダム符号関数を適用することによって変更後スペクトルを生成するように構成される。

実施例においては、処理部１２２０は、続いて減衰定数を減少させることによって変更後スペクトルを目標スペクトルにフェードさせるように構成される。

実施例によると、処理部１２２０は、続いて減衰定数を増加させることによって変更後スペクトルを目標スペクトルにフェードさせるように構成される。

実施例においては、現在のフレームが受信インターフェース１２１０によって受信されていない場合、又は受信インターフェース１２１０によって受信されている現在のフレームが破損している場合、処理部１２２０は、

の式を適用して再構成音声信号を生成するように構成され、ここで、ｉは、インデックスであり、ｘ［ｉ］は、再構成音声信号のサンプルを示し、ｃｕｍ＿ｄａｍｐｉｎｇは、減衰定数であり、ｘ＿ｏｌｄ［ｉ］は、符号化音声信号の音声信号スペクトルの音声信号サンプルのうちの１つを示し、ｒａｎｄｏｍ＿ｓｉｇｎ（）は、１又は−１を返し、ｎｏｉｓｅは、目標スペクトルを示すランダムなベクトルである。

いくつかの実施例では、ＴＣＸＬＴＰ演算が継続される。これらの実施例では、ＴＣＸＬＴＰ演算は、最後の良好なフレームから導出されたＬＴＰパラメータ（ＬＴＰ遅れ及びＬＴＰゲイン）によって封じ込め中に継続される。

ＬＴＰ演算は、以下のように要約することができる。

‐以前に導出した出力に基づいてＬＴＰ遅延バッファを供給する。

‐ＬＴＰ遅れに基づいて、ＬＴＰ寄与分として用いられるＬＴＰ遅延バッファから適切な信号部分を選択して現在の信号を形状付ける。

‐ＬＴＰゲインを用いてこのＬＴＰ寄与分を再スケーリングする。

‐この再スケーリングされたＬＴＰ寄与分をＬＴＰ入力信号に加算してＬＴＰ出力信号を生成する。

ＬＴＰ遅延バッファ更新が実行される際、時間に関してそれぞれ異なる方策について検討することができる。

フレームｎにおける最初のＬＴＰ演算として、最後のフレームｎ−１からの出力を用いる。これにより、フレームｎにおけるＬＴＰ処理中に用いられるフレームｎにおけるＬＴＰ遅延バッファが更新される。

フレームｎにおける最後のＬＴＰ演算として、現在のフレームｎからの出力を用いる。これにより、フレームｎ＋１におけるＬＴＰ処理中に用いられるフレームｎにおけるＬＴＰ遅延バッファが更新される。

以下、ＴＣＸＬＴＰフィードバックループの結合解除について検討する。

ＴＣＸＬＴＰフィードバックループを結合解除することによって、封じ込めモード時にＬＴＰデコーダの各フィードバックループ中における追加のノイズ（ＬＰＴ入力信号に適用されるノイズ置き換えの結果得られるもの）の導入が回避される。

図１０は、この結合解除を示す。特に、図１０は、封じ込め中のＬＴＰフィードバックループの結合解除を示す（ｂｆｉ＝１）。

図１０は、遅延バッファ１０２０、サンプル選択部１０３０、及びサンプル処理部１０４０（サンプル処理部１０４０は破線で示される）を示す。

ＬＴＰ遅延バッファ１０２０の更新が実行されるときに向けて、いくつかの実施例は、以下のように進行する。

‐通常動作の場合、ＬＴＰ遅延バッファ１０２０を最初のＬＴＰ演算として更新することが好ましいと考えられるが、それは、合計出力信号が、通常、永続的に記憶されるからである。この方策によって、専用のバッファを省略することができる。

‐結合解除動作の場合、ＬＴＰ遅延バッファ１０２０を最後のＬＴＰ演算として更新することが好ましいと考えられるが、それは、信号へのＬＴＰ寄与分が、通常、一時的に記憶されるだけであるからである。この方策によって、一時的なＬＴＰ寄与信号が保存される。実現例によっては、このＬＴＰ寄与バッファは、単に永続的なものとすることもできる。

任意のケース（通常動作及び封じ込め）において後者の方策が用いられると仮定すると、実施例は、例えば、以下の事項を実現することができる。

‐通常動作中は、ＬＴＰデコーダの時間領域信号出力は、そのＬＴＰ入力信号への加算後に、ＬＴＰ遅延バッファへの入力に用いられる。

‐封じ込め中、ＬＴＰデコーダの時間領域信号出力は、そのＬＴＰ入力信号への加算前に、ＬＴＰ遅延バッファへの入力に用いられる。

いくつかの実施例では、ＴＣＸＬＴＰゲインは、ゼロへフェードさせられる。このような実施例では、ＴＣＸＬＴＰゲインは、例えば、ある信号適応フェードアウト定数でゼロへフェードさせることができる。これは、例えば、繰り返し行うことができ、例えば以下の疑似コードによって行うことができる。

ここで、
ｇａｉｎは、現在のフレームにおいて適用されるＴＣＸＬＴＰデコーダゲインであり、
ｇａｉｎ＿ｐａｓｔは、先行するフレームにおいて適用されるＴＣＸＬＴＰデコーダゲインであり、
ｄａｍｐｉｎｇは、（相対的な）フェードアウト定数である。

図１ｄは、更なる実施例による装置を示し、当該装置は、更に、遅延バッファ１８０を含む長期予測部１７０を備える。長期予測部１７０は、第２の音声信号部分と、遅延バッファ１８０に記憶されている遅延バッファ入力と、長期予測ゲインとに応じて、処理済信号を生成するように構成される。更に、長期予測部は、前記複数のフレームのうちの第３のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第３のフレームが受信インターフェース１１０によって受信されているが破損している場合、長期予測ゲインをゼロへフェードさせるように構成される。

他の実施例（図示せず）においては、長期予測部は、例えば、第１の音声信号部分と、遅延バッファに記憶されている遅延バッファ入力と、長期予測ゲインとに応じて、処理済信号を生成するように構成しても良い。

図１ｄにおいては、第１の再構成部１４０は、例えば、更に、処理済信号に応じて第３の音声信号部分を生成することができる。

実施例においては、長期予測部１７０は、例えば、長期予測ゲインをゼロへフェードさせるように構成することができ、長期予測ゲインがゼロへフェードさせられる速度は、フェードアウト定数に依存する。

これに代えて、又はこれに加えて、長期予測部１７０は、例えば、複数のフレームのうちの前記第３のフレームが受信インターフェース１１０によって受信されていない場合、又は前記第３のフレームが受信インターフェース１１０によって受信されているが破損している場合、生成された処理済信号を遅延バッファ１８０に記憶させることによって遅延バッファ１８０の入力を更新するように構成され得る。

上述のＴＣＸＬＴＰの使用に関し、より一般的な実施例を図１３に示す。

図１３は、符号化音声信号を復号して再構成音声信号を得るための装置を示す。

当該装置は、複数のフレームを受信するための受信インターフェース１３１０、復号音声信号の音声信号サンプルを記憶するための遅延バッファ１３２０、遅延バッファ１３２０に記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するためのサンプル選択部１３３０、及び、選択音声信号サンプルを処理して再構成音声信号の再構成音声信号サンプルを得るためのサンプル処理部１３４０を備える。

サンプル選択部１３３０は、現在のフレームが受信インターフェース１３１０によって受信されており、且つ受信インターフェース１３１０によって受信されている現在のフレームが破損していない場合、現在のフレームに含まれるピッチ遅れ情報に応じて遅延バッファ１３２０に記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するように構成される。更に、サンプル選択部１３３０は、現在のフレームが受信インターフェース１３１０によって受信されていない場合、又は受信インターフェース１３１０によって受信されている現在のフレームが破損している場合、受信インターフェース１３１０によって以前に受信されている別のフレームに含まれるピッチ遅れ情報に応じて遅延バッファ１３２０に記憶されている音声信号サンプルから複数の選択音声信号サンプルを選択するように構成される。

実施例によると、サンプル処理部１３４０は、例えば、現在のフレームが受信インターフェース１３１０によって受信されており、且つ受信インターフェース１３１０によって受信されている現在のフレームが破損していない場合、現在のフレームに含まれるゲイン情報に応じて選択音声信号サンプルを再スケーリングすることによって再構成音声信号サンプルを得るように構成され得る。更に、サンプル選択部１３３０は、例えば、現在のフレームが受信インターフェース１３１０によって受信されていない場合、又は受信インターフェース１３１０によって受信されている現在のフレームが破損している場合、受信インターフェース１３１０によって以前に受信されている前記別のフレームに含まれるゲイン情報に応じて選択音声信号サンプルを再スケーリングすることによって再構成音声信号サンプルを得るように構成され得る。

実施例においては、サンプル処理部１３４０は、例えば、現在のフレームが受信インターフェース１３１０によって受信されており、且つ受信インターフェース１３１０によって受信されている現在のフレームが破損していない場合、選択音声信号サンプルと、現在のフレームに含まれるゲイン情報に応じた値とを乗算することによって再構成音声信号サンプルを得るように構成され得る。更に、サンプル選択部１３３０は、現在のフレームが受信インターフェース１３１０によって受信されていない場合、又は受信インターフェース１３１０によって受信されている現在のフレームが破損している場合、選択音声信号サンプルと、受信インターフェース１３１０によって以前に受信されている前記別のフレームに含まれるゲイン情報に応じた値とを乗算することによって再構成音声信号サンプルを得るように構成される。

実施例によると、サンプル処理部１３４０は、例えば、再構成音声信号サンプルを遅延バッファ１３２０に記憶させるように構成され得る。

実施例においては、サンプル処理部１３４０は、例えば、更なるフレームが受信インターフェース１３１０によって受信される前に再構成音声信号サンプルを遅延バッファ１３２０に記憶させるように構成され得る。

実施例によると、サンプル処理部１３４０は、例えば、更なるフレームが受信インターフェース１３１０によって受信された後に再構成音声信号サンプルを遅延バッファ１３２０に記憶させるように構成され得る。

実施例においては、サンプル処理部１３４０は、例えば、ゲイン情報に応じて選択音声信号サンプルを再スケーリングして再スケーリング音声信号サンプルを得て、再スケーリング音声信号サンプルを入力音声信号サンプルと組み合わせて処理済音声信号サンプルを得るように構成され得る。

実施例によると、サンプル処理部１３４０は、例えば、現在のフレームが受信インターフェース１３１０によって受信されており、且つ受信インターフェース１３１０によって受信されている現在のフレームが破損していない場合、再スケーリング音声信号サンプルと入力音声信号サンプルとの組み合わせを示す処理済音声信号サンプルを遅延バッファ１３２０に記憶させ、再スケーリング音声信号サンプルを遅延バッファ１３２０に記憶させないように構成され得る。更に、サンプル処理部１３４０は、現在のフレームが受信インターフェース１３１０によって受信されていない場合、又は受信インターフェース１３１０によって受信されている現在のフレームが破損している場合、再スケーリング音声信号サンプルを遅延バッファ１３２０に記憶させ、処理済音声信号サンプルを遅延バッファ１３２０に記憶させないように構成される。

別の実施例によると、サンプル処理部１３４０は、例えば、現在のフレームが受信インターフェース１３１０によって受信されていない場合、又は受信インターフェース１３１０によって受信されている現在のフレームが破損している場合、処理済音声信号サンプルを遅延バッファ１３２０に記憶させるように構成され得る。

実施例においては、サンプル選択部１３３０は、例えば、変更後ゲインに応じて選択音声信号サンプルを再スケーリングすることによって再構成音声信号サンプルを得るように構成することができ、変更後ゲインは、

の式によって定義され、ここで、ｇａｉｎは、変更後ゲインであり、サンプル選択部１３３０は、例えば、ｇａｉｎの算出後にｇａｉｎ＿ｐａｓｔをｇａｉｎに設定するように構成することができ、ｄａｍｐｉｎｇは実数値である。

実施例によると、サンプル選択部１３３０は、例えば、変更後ゲインを算出するように構成され得る。

実施例においては、ｄａｍｐｉｎｇは、例えば、０＜ｄａｍｐｉｎｇ＜１によって定義され得る。

実施例によると、変更後ゲインｇａｉｎは、例えば、フレームが最後に受信インターフェース１３１０によって受信されてから少なくとも所定数のフレームが受信インターフェース１３１０によって受信されていない場合、ゼロに設定され得る。

以下、フェードアウト速度について検討する。或る種のフェードアウトを適用するいくつかの封じ込めモジュールが存在する。フェードアウトの速度は、これらのモジュール間で異なって選択され得るが、１つのコア（ＡＣＥＬＰ又はＴＣＸ）について全ての封じ込めモジュールに対して同じフェードアウト速度を用いることが有益である。例えば以下の通りである。

ＡＣＥＬＰの場合、特に適応コードブック（ゲインの変更による）及び／又は新規コードブック信号（ゲインの変更による）について同じフェードアウト速度を用いることが求められる。

また、ＴＣＸの場合、特に時間領域信号、及び／又はＬＴＰゲイン（ゼロへのフェード）、及び／又はＬＰＣ重み付け（１へのフェード）、及び／又はＬＰ係数（背景スペクトル形状へのフェード）、及び／又はホワイトノイズへのクロスフェードについて、同じフェードアウト速度を用いることが求められる。

更に、ＡＣＥＬＰ及びＴＣＸについても同じフェードアウト速度を用いることが好ましいと考えられるが、コアの異なる特性のため、異なるフェードアウト速度を用いることを選択することも考えられる。

このフェードアウト速度は、静的であっても良いが、信号特性に対して適応的であることが好ましい。例えば、フェードアウト速度は、例えば、ＬＰＣ安定度因数（ＴＣＸ）及び／又は分類及び／又は連続して失われたフレームの数に依存し得る。

フェードアウト速度は、例えば、減衰定数に応じて決定されても良く、これは、絶対的又は相対的に与えられることができ、また特定のフェードアウト中に時間の経過に伴い変化し得る。

上述のように快適ノイズ信号を生成するための装置、方法及びコンピュータプログラムが提供された。

装置の文脈でいくつかの局面を記載したが、これらの局面は、対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。

本発明による分解された信号は、デジタル記憶媒体で記憶することができ、或るいは、伝送媒体、例えば無線伝送媒体又はインターネットのような有線伝送媒体、で送信することができる。

特定の実現要件に応じて、本発明の実施例は、ハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する（又は協働可能である）ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。

本発明によるいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の１つが実行されるようにする、電子的に読み出し可能な制御信号を有する非一時的データキャリアを含む。

一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の１つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。

他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の１つを実行するためのプログラムコードを有するものである。

従って、本発明の方法の更なる実施例は、データキャリア（又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体）であって、そこに記録された、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを含むものである。

従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。

更なる実施例は、本願明細書に記載の方法の１つを実行するように構成又は適合された処理手段、例えば、コンピュータ又はプログラム可能論理装置を含む。

更なる実施例は、本願明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施例においては、プログラム可能論理装置（例えば、フィールドプログラマブルゲートアレイ）を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の１つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。

上述の実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における実施例の記載及び説明として呈示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

‐部分空間分解：この方策は、例えば、ＫＬＴ（カルフネン・ロエヴ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）変換、また主成分分析としても知られる）及び／又はＤＦＴ（離散時間フーリエ変換）を利用して、ノイズ様の信号をクリーンな言語音声信号及びノイズ部分に分解することを試みる。それから、任意の平滑化アルゴリズムを用いて固有ベクトル・固有値をトレースすることができる［ＢＰ０６］［ＨＪＨ０８］。
ＥＰ２０２６３３０Ａ１は、フレーム損失封じ込めのための装置および方法を開示する。現在の損失フレームのピッチ周期は、現在の損失フレームの前に最後の良好なフレームのピッチ周期に基づいて得られる。現在の損失フレームの励振信号は、損失フレームの前に現在の損失フレームのピッチ周期および最後の良好なフレームの励振信号に基づいて回復される。それによって、受信者の聞き取りのコントラストが低減され、言語音声の品質が回線される。更に、ＥＰ２０２６３３０Ａ１では、継続する損失フレームのピッチ周期は、損失フレームの前に最後の良好なフレームのピッチ周期の変化傾向に基づいて調整される。

Claims

符号化音声信号を復号して再構成音声信号を得るための装置であって、
１つ以上のフレームを受信するための受信インターフェース（１１１０）と、
係数生成部（１１２０）と、
信号再構成部（１１３０）とを備え、
前記係数生成部（１１２０）は、前記１つ以上のフレームのうちの現在のフレームが前記受信インターフェース（１１１０）によって受信されており、且つ前記受信インターフェース（１１１０）によって受信されている現在のフレームが破損していない場合、前記現在のフレームに含まれる１つ以上の第１の音声信号係数を決定するように構成され、前記１つ以上の第１の音声信号係数は、前記符号化音声信号の特性を示し、１つ以上のノイズ係数が、前記符号化音声信号の背景ノイズを示し、
前記係数生成部（１１２０）は、前記現在のフレームが前記受信インターフェース（１１１０）によって受信されていない場合、又は前記受信インターフェース（１１１０）によって受信されている現在のフレームが破損している場合、前記１つ以上の第１の音声信号係数と前記１つ以上のノイズ係数とに応じて１つ以上の第２の音声信号係数を生成するように構成され、
前記音声信号再構成部（１１３０）は、前記現在のフレームが前記受信インターフェース（１１１０）によって受信されており、且つ前記受信インターフェース（１１１０）によって受信されている現在のフレームが破損していない場合、前記１つ以上の第１の音声信号係数に応じて前記再構成音声信号の第１の部分を再構成するように構成され、
前記音声信号再構成部（１１３０）は、前記現在のフレームが前記受信インターフェース（１１１０）によって受信されていない場合、又は前記受信インターフェース（１１１０）によって受信されている現在のフレームが破損している場合、前記１つ以上の第２の音声信号係数に応じて前記再構成音声信号の第２の部分を再構成するように構成される、装置。
請求項１に記載の装置であって、前記１つ以上の第１の音声信号係数は、前記符号化音声信号の１つ以上の線形予測フィルタ係数である、装置。
請求項２に記載の装置であって、前記１つ以上の線形予測フィルタ係数は、１つ以上のインミッタンススペクトル対によって、又は１つ以上の線形スペクトル対によって、又は１つ以上のインミッタンススペクトル周波数によって、又は前記符号化音声信号の１つ以上の線スペクトル周波数によって表される、装置。
請求項１から請求項３のいずれかに記載の装置であって、前記１つ以上のノイズ係数は、前記符号化音声信号の背景ノイズを示す１つ以上の線形予測フィルタ係数である、装置。
請求項１から請求項４のいずれかに記載の装置であって、前記１つ以上の線形予測フィルタ係数は、前記背景ノイズのスペクトル形状を表す、装置。
請求項１から請求項５のいずれかに記載の装置であって、前記係数生成部（１１２０）は、前記１つ以上の第２の音声信号部分が前記再構成音声信号の１つ以上の線形予測フィルタ係数であるように前記１つ以上の第２の音声信号部分を決定するように構成される、装置。
請求項１に記載の装置であって、
前記係数生成部（１１２０）は、

の式を適用することによって前記１つ以上の第２の音声信号係数を生成するように構成され、
ｆ_current［ｉ］は、前記１つ以上の第２の音声信号係数のうちの１つを示し、
ｆ_last［ｉ］は、前記１つ以上の第１の音声信号係数のうちの１つを示し、
ｐｔ_mean［ｉ］は、前記１つ以上のノイズ係数のうちの１つであり、
αは、実数（０≦α≦１）であり、
ｉは、インデックスである、装置。
請求項７に記載の装置であって、
ｆ_last［ｉ］は、前記符号化音声信号の線形予測フィルタ係数を示し、
ｆ_current［ｉ］は、前記再構成音声信号の線形予測フィルタ係数を示す、装置。
請求項８に記載の装置であって、ｐｔ_mean［ｉ］は、前記符号化音声信号の背景ノイズを示す、装置。
請求項１から請求項９のいずれかに記載の装置であって、前記係数生成部（１１２０）は、前記１つ以上のフレームのうちの現在のフレームが前記受信インターフェース（１１１０）によって受信されており、且つ前記受信インターフェース（１１１０）によって受信されている現在のフレームが破損していない場合、前記符号化音声信号のノイズスペクトルを決定することによって前記１つ以上のノイズ係数を決定するように構成される、装置。
請求項１から請求項１０のいずれかに記載の装置であって、前記係数生成部（１１２０）は、前記信号スペクトルに対して最小統計方策を用いて背景ノイズスペクトルを決定し、前記背景ノイズスペクトルから背景ノイズ形状を表すＬＰＣ係数を算出することによって、背景ノイズを表すＬＰＣ係数を決定するように構成される、装置。
符号化音声信号を復号して再構成音声信号を得るための方法であって、
１つ以上のフレームを受信するステップと、
前記１つ以上のフレームのうちの現在のフレームが受信されており、且つ前記受信されている現在のフレームが破損していない場合、前記現在のフレームに含まれる１つ以上の第１の音声信号係数を決定するステップと、を備え、前記１つ以上の第１の音声信号係数は、前記符号化音声信号の特性を示し、１つ以上のノイズ係数が、前記符号化音声信号の背景ノイズを示し、当該方法は、更に、
前記現在のフレームが受信されていない場合、又は受信されている前記現在のフレームが破損している場合、前記１つ以上の第１の音声信号係数と前記１つ以上のノイズ係数とに応じて１つ以上の第２の音声信号係数を生成するステップと、
前記現在のフレームが受信されており、且つ受信されている前記現在のフレームが破損していない場合、前記１つ以上の第１の音声信号係数に応じて前記再構成音声信号の第１の部分を再構成するステップと、
前記現在のフレームが受信されていない場合、又は受信されている前記現在のフレームが破損している場合、前記１つ以上の第２の音声信号係数に応じて前記再構成音声信号の第２の部分を再構成するステップと、を備える、方法。
コンピュータ又は信号プロセッサにおいて実行された時に請求項１２に記載の方法を実現するためのコンピュータプログラム。