JP5161212B2

JP5161212B2 - Ｉｔｕ−ｔｇ．７１１規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法

Info

Publication number: JP5161212B2
Application number: JP2009518697A
Authority: JP
Inventors: ブリュノ・ベセトゥ; ジミー・ラピエール; ウラジミール・マレノフスキー; ロッシェ・レフェブル; レドワン・サラミ
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2007-06-14
Filing date: 2007-12-28
Publication date: 2013-03-13
Anticipated expiration: 2027-12-28
Also published as: JP2009541815A; WO2008151408A8; EP2160733A4; JP5618826B2; EP2160733A1; CN101765879B; CN101765879A; JP2010530078A; WO2008151410A1; WO2008151408A1; US20110022924A1; US20110173004A1

Description

本発明はより詳細には、これに限らないがＩＴＵ−Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ）勧告Ｇ．７１１と相互動作が可能なマルチレイヤ埋め込みコーデックにおける音声信号の符号化および復号の分野に関する。さらに詳細には本発明は、音声信号コーデックのエンコーダおよび／またはデコーダにおける雑音成形（ｎｏｉｓｅｓｈａｐｉｎｇ）デバイスおよび方法に関する。

例えば、本発明によるデバイスおよび方法は８ｋＨｚのサンプリング周波数で動作するマルチレイヤ埋め込みコーデックの狭帯域部（通常は第１の、即ち低位レイヤ）において適用可能である。電話帯域幅、即ち２００乃至３４００Ｈｚにおける信号に最適化したＩＴＵ−Ｔ勧告Ｇ．７１１と異なり、本発明のデバイスおよび方法は範囲が５０乃至４０００Ｈｚである信号の品質を大きく改善する。帯域幅が５０乃至７０００Ｈｚまたはさらに広い広帯域信号を例えばダウンサンプリングすることにより、このような信号を通常生成する。本発明のデバイスおよび方法がなければ、これらの信号の品質はさらにもっと悪いことになるし、従来のＧ．７１１コーデックにより符号化および合成する場合、人工的可聴音を伴うことになる。

良好な主観的品質／ビットレートのトレードオフを有する効率的なディジタル広帯域通話／オーディオ符号化技術に対する需要は、オーディオ／ビデオ電話会議、マルチメディア、無線アプリケーションおよびＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ、インターネットプロトコル）電話などの多数のアプリケーションに対して増大しつつある。最近まで、通話符号化システムは電話周波数帯域幅、即ち２００乃至３４００Ｈｚの信号のみを処理することができた。今日、周波数帯域幅５０乃至７０００Ｈｚの信号を処理することができる広帯域システムに対する増大する需要が見られる。これらのシステムが狭帯域システムより相当高い品質を提供するのは、これらのシステムが音声の明瞭度および自然性を増しているからである。周波数帯域幅５０乃至７０００Ｈｚは会話中の対面通話品質を配信するのに十分であると見られた。音楽などのオーディオ信号に対しては、この周波数帯域幅は許容可能なオーディオ品質を提供するが、周波数帯域幅２０乃至２００００Ｈｚで動作するＣＤの品質よりなお低い。

６４ｋｂｐｓのＩＴＵ−Ｔ勧告Ｇ．７１１（非特許文献１）および８ｋｂｐｓのＧ．７２９はパケット交換の電話へのアプリケーションで広く使用される２つのコーデックである。従って、狭帯域から広帯域電話への移行には、これら２つの規格と後方相互動作が可能な広帯域コーデックを開発する重要性がある。このため、ＩＴＵ−Ｔは２００６年に勧告Ｇ．７２９．１を承認したが、Ｇ．７２９．１は８ｋｂｐｓのＩＴＵ−Ｔ勧告Ｇ．７２９と相互動作が可能なコアを有する埋め込みマルチレートコーダである。同様に、２００７年３月に６４ｋｂｐｓのＩＴＵ−Ｔ勧告Ｇ．７１１と相互動作が可能な狭帯域コアに基づく埋め込み広帯域コーデック（共にμ法則およびＡ法則）のための新しい活動が始まった。この新しいＧ．７１１に基づく規格はＩＴＵ−ＴＧ．７１１広帯域の拡張（Ｇ．７１１ｗｉｄｅｂａｎｄｅｘｔｅｎｓｉｏｎ、ＷＢＥ）として既知である。

Ｇ．７１１ＷＢＥでは、１６ｋＨｚでサンプルする入力音声信号をＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ、９０度差ミラーフィルタ）フィルタを使用する２つの帯域：０から４０００Ｈｚの低帯域および４０００から７０００Ｈｚの高帯域、に分割する。入力信号の帯域幅が５０乃至８０００Ｈｚであれば、低および高帯域はそれぞれ５０乃至４０００Ｈｚおよび４０００乃至８０００Ｈｚである。Ｇ．７１１ＷＢＥでは、入力広帯域信号を３つのレイヤにおいて符号化する。第１のレイヤ（レイヤ１；コア）は６４ｋｂｐｓのＧ．７１１と互換性のある形式で信号の低帯域を符号化する。次いで第２のレイヤ（レイヤ２；狭帯域エンハンスメントレイヤ）は低帯域に２ビット／サンプル（１６ｋビット／秒）を追加し、この帯域の信号品質を高める。最後に、第３のレイヤ（レイヤ３；広帯域拡張レイヤ）は別の２ビット／サンプル（１６ｋビット／秒）により高帯域を符号化し、広帯域合成を生成する。ビットストリームの構成を埋め込む。換言すれば常にレイヤ１があり、その後にレイヤ２またはレイヤ３、または双方（レイヤ２およびレイヤ３）が来る。このように、より多くのレイヤを復号する場合、品質が徐々に改善する合成信号を得ることができる。例えば図１はＧ．７１１ＷＢＥエンコーダの構成を図示する概要ブロック図であり、図２はＧ．７１１ＷＢＥデコーダの構成を図示する概要ブロック図であり、図３はＧ．７１１ＷＢＥコーデックの複数レイヤによるビットストリームの埋め込み構成例の構成を図示する概要ブロック図である。

圧縮と伸張を組み合わせるパルス符号変調（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ、ＰＣＭ）としても既知のＩＴＵ−Ｔ勧告Ｇ．７１１は８ビットを使用して各入力サンプルを量子化する。入力信号の振幅を、対数法則を使用してまず圧縮し、７ビット（符号に１ビットを追加）により一様に量子化し、次いで伸張して入力信号を線形領域に戻す。Ｇ．７１１規格は２つの圧縮法則、μ法則およびＡ法則を定義する。ＩＴＵ−Ｔ勧告Ｇ．７１１は電話帯域幅、即ち２００乃至３４００Ｈｚの狭帯域入力信号用に特に設計された。ＩＴＵ−Ｔ勧告Ｇ．７１１を帯域幅５０乃至４０００Ｈｚの信号に適用する場合、量子化雑音が煩わしく、特に高周波数（図４参照）で可聴である。従って、埋め込みＧ．７１１ＷＢＥの上位帯域（４０００乃至７０００Ｈｚ）を適切に符号化しても、合成広帯域信号の品質は依然として従来のＧ．７１１の限界により０乃至４０００Ｈｚ帯域の符号化にはなお不十分である。これが、レイヤ２をＧ．７１１ＷＢＥ規格に加えた理由である。レイヤ２はレイヤ１の残存雑音レベルを低減するので、狭帯域合成信号の総体的品質に改善をもたらす。一方これは不必要に高いビットレートおよび余分な複雑度になりうる。またこれは、レイヤ１のみまたはレイヤ１＋レイヤ３のみを復号する場合の可聴雑音の問題を解決しない。
Pulse code modulation (PCM) of voice frequencies, ITU-T Recommendation G.711, November 1988, (http://www.itu.int). AMR Wideband Speech Codec: Transcoding Functions, 3GPP Technical Specification TS 26.190 (http://www.3gpp.org). Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB), ITU-T Recommendation G.722.2, Geneva, January 2002 (http://www.itu.int). B.S. Atal and M.R. Schroeder, "Predictive coding of speech and subjective error criteria", IEEE Trans. of Audio, Speech and Signal Processing, vol. 27, no. 3, pp. 247-254, June 1979. 米国特許第６，８０７，５２４号

本発明の目的はそれ故特に、しかしこれに限らないがＩＴＵ−Ｔ勧告Ｇ．７１１と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形のためのデバイスおよび方法を提供することである。

より詳細には本発明に従い、入力音声信号の符号化過程における雑音成形方法を提供し、本方法は：入力音声信号をプレエンハンスメント（ｐｒｅ−ｅｍｐｈａｓｉｚｉｎｇ）し、プレエンハンスメント音声信号を生成するステップと；プレエンハンスメント音声信号に関するフィルタ伝達関数を計算するステップと；計算されたフィルタ伝達関数を介して雑音をフィルタリングすることにより雑音を成形し、成形雑音信号を生成するステップとを含み、雑音成形ステップが、所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するステップを含む。

本発明は、また入力音声信号の符号化過程における雑音成形方法に関係し、本方法は：入力音声信号の供給を受ける所与の音声信号コーデックの出力から復号信号を受信するステップと；復号信号をプレエンハンスメントし、プレエンハンスメント信号を生成するステップと；プレエンハンスメント信号に関するフィルタ伝達関数を計算するステップと；計算された伝達関数を介して雑音をフィルタリングすることにより雑音を成形し、成形雑音信号を生成するするステップとを含み、雑音成形ステップは所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバック生成ステップをさらに含む。

本発明は、また少なくともレイヤ１およびレイヤ２を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形方法に関係し、本方法は：
エンコーダにおいて：レイヤ１における雑音を成形するステップを含むレイヤ１における符号化音声信号を生成するステップと；レイヤ２におけるエンハンスメント信号を生成するステップと；
デコーダにおいて：エンコーダのレイヤ１からの符号化音声信号を復号し、合成音声信号を生成するステップと；レイヤ２からのエンハンスメント信号を復号するステップと；合成音声信号に関するフィルタ伝達関数を計算するステップと；計算されたフィルタ伝達関数を介してレイヤ２の復号エンハンスメント信号をフィルタリングし、レイヤ２のフィルタリングされたエンハンスメント信号を生成するステップと；レイヤ２のフィルタリングされたエンハンスメント信号を合成音声信号に加え、レイヤ１およびレイヤ２双方からの寄与を含む出力信号を生成するステップとを含む。

本発明は、さらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは：入力音声信号をプレエンハンスメントし、プレエンハンスメント信号を生成する手段と；プレエンハンスメント音声信号に関するフィルタ伝達関数を計算する手段と；所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と；計算されたフィルタ伝達関数を介して雑音フィードバックをフィルタリングすることにより雑音を成形し、成形雑音信号を生成する手段とを含む。

本発明は、さらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは：入力音声信号をプレエンハンスメントし、プレエンハンスメント信号を生成する第１のフィルタと；所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するフィードバックループと；プレエンハンスメント信号に関して判断する伝達関数を有し、雑音フィードバックを処理し、成形雑音信号を生成する第２のフィルタとを含む。

本発明は、なおさらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは：入力音声信号の供給を受ける所与の音声信号コーデックの出力から復号信号を受信する手段と；復号信号をプレエンハンスメントし、プレエンハンスメント信号を生成する手段と；プレエンハンスメント信号に関するフィルタ伝達関数を計算する手段と；所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と；計算されたフィルタ伝達関数を介して雑音フィードバックをフィルタリングすることにより雑音を成形する手段とを含む。

本発明は、なおさらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは：所与の音声信号コーデックの出力からの復号信号の受信機と；復号信号をプレエンハンスメントし、プレエンハンスメント信号を生成する第１のフィルタと；所与の音声信号コーデックを介する音声信号の処理により生成する雑音を表す雑音フィードバックを生成するフィードバックループと；プレエンハンスメント信号に関して判断する伝達関数を有し、雑音フィードバックを処理し、成形雑音信号を生成する第２のフィルタとを含む。

本発明は、さらに少なくともレイヤ１およびレイヤ２を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形デバイスに関係し、本デバイスは：
エンコーダにおいて：レイヤ１における雑音を成形する手段を含む音声信号を符号化する手段と；レイヤ２からのエンハンスメント信号を生成する手段と；
デコーダにおいて：レイヤ１からの符号化音声信号を復号し、レイヤ１からの合成音声信号を生成する手段と；レイヤ２からのエンハンスメント信号を復号する手段と；合成音声信号に関するフィルタ伝達関数を計算する手段と；エンハンスメント信号をフィルタリングし、レイヤ２のフィルタリングされたエンハンスメント信号を生成する手段と；レイヤ２のフィルタリングされたエンハンスメント信号を合成音声信号に加え、レイヤ１およびレイヤ２双方の寄与を含む出力信号を生成する手段とを含む。

本発明は、さらに少なくともレイヤ１およびレイヤ２を含むマルチレイヤ符号化デバイスおよび復号デバイスにおける雑音成形デバイスに関係し、本デバイスは：
符号化デバイスにおいて：レイヤ１における雑音成形フィルタを含むレイヤ１における音声信号の第１のエンコーダと；レイヤ２におけるエンハンスメント信号の第２のエンコーダと；
復号デバイスにおいて：合成音声信号を生成する符号化音声信号のデコーダと；レイヤ２におけるエンハンスメント信号のデコーダと；レイヤ１からの合成音声信号に関して判断する伝達関数を有し、復号エンハンスメント信号を処理し、レイヤ２のフィルタリングされたエンハンスメント信号を生成するフィルタと；合成音声信号とフィルタリングされたエンハンスメント信号を加え、レイヤ１およびレイヤ２双方の寄与を含む出力信号を生成する加算器とを含む。

添付の図面を参照して例としてのみ提示する説明上の実施形態に関する以下の非限定的な説明を読めば、本発明の上記のおよびその他の目的、利点および特徴が明らかになろう。

一般的に言えば、本発明の第１の非限定的で、説明上の実施形態によれば従来のＧ．７１１コーデックのみを使用して得られるよりかなり品質を改善した低帯域信号の符号化が可能になる。開示する第１の非限定的で、説明上の実施形態の背景にある考え方は、聴取者にとり残存雑音が遥かに煩わしくないようにある知覚基準およびマスキング効果に従ってＧ．７１１残存雑音を成形することである。開示するデバイスおよび方法をエンコーダにおいて適用し、開示するデバイスおよび方法はＧ．７１１との相互動作性に影響を及ぼさない。より詳細には、レイヤ１に対応する符号化ビットストリーム部を従来のＧ．７１１デコーダにより復号し、適切な雑音成形により品質を増すことができる。レイヤ１およびレイヤ２双方を復号する場合、開示するデバイスおよび方法はまた量子化雑音を成形する機構を提供する。これを、レイヤ２の情報を復号する場合、雑音成形デバイスおよび方法を補足する部分をまたデコーダに導入することにより達成する。

第１の非限定的で、説明上の実施形態では、３ＧＰＰＡＭＲ−ＷＢ規格（非特許文献２）およびＩＴＵ−Ｔ勧告Ｇ．７２２．２（非特許文献３）の場合と類似の雑音成形を使用する。ＡＭＲ−ＷＢでは、知覚加重ファクタをエンコーダにおける誤差最少化手順に使用し、所望の誤差信号を成形する。

その上第１の非限定的で、説明上の実施形態では、加重知覚フィルタを従来のＩＴＵ−Ｔ勧告Ｇ．７１１コーデックと相互動作可能なマルチレイヤ埋め込みコーデックに対し最適化し、加重知覚フィルタは入力信号に直接関係する伝達関数を有する。この伝達関数を、フレーム毎を基本に更新する。雑音成形方法は、サンプリング周波数の半値に近い周波数にエネルギーが集中する信号が原因となる閉ループの不安定性に対する保護を組み込む。第１の非限定的で、説明上の実施形態はまたデッドゾーン量子化器を組み込み、極めて低エネルギーの信号に適用する。復号する場合これら低エネルギー信号はデッドゾーン量子化器を組み込まなければ不愉快で粗い雑音を発生するが、これは開示するデバイスおよび方法のダイナミック（ｄｙｎａｍｉｃｓ）が極めて低レベルでは十分でないからである。マルチレイヤコーデックでは、また第２のレイヤ（レイヤ２）があり、第２のレイヤを使用して従来のＧ．７１１量子化器の量子化ステップを第１のレイヤ（レイヤ１）より細かくする。開示するデバイスおよび方法により、第２のレイヤから入力する信号をデコーダにおいて適切に成形し、量子化雑音を制御下に置く必要がある。これは、また雑音成形修正アルゴリズムをデコーダにおいて適用することにより行う。このように、両レイヤは適切な成形スペクトラムを持つ信号を生成し、この信号は従来のＩＴＵ−ＴＧ．７１１コーデックを使用する場合より人の耳により心地よい。提案するデバイスおよび方法の最後の特徴は雑音ゲートであり、これを使用して出力信号レベルが一定の閾値を下回って低減する場合出力信号を抑制する。雑音ゲートにより出力信号は活発なやり取りの間では明瞭に響き、従って聴取者が集中することの負担は低い。

本発明の第１の非限定的で、説明上の実施形態をさらに記述する前に、ＡＭＲ−ＷＢ（ＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ−Ｗｉｄｅｂａｎｄ、適応型マルチレート広帯域）規格について記述することにする。

１．ＡＭＲ−ＷＢにおける知覚加重
ＡＭＲ−ＷＢは分析、合成符号化パラダイムを使用し、入力信号、例えば通話と知覚加重領域における合成音声信号（フィルタリング励振）との間の平均二乗誤差を最小にすることにより、励振信号の最適ピッチおよび更新パラメータを探索する（図５）。

図５に示すように、固定コードブック５０３は利得Ｇ_ｃを乗算する固定コードブックベクトルｃ（ｎ）を生成する。加算器５０９により、利得Ｇ_ｃを乗算する固定コードブックベクトルｃ（ｎ）を、利得Ｇ_ｐを乗算する適応型コードブックベクトルｖ（ｎ）に加え、励振信号ｕ（ｎ）を生成する。励振信号ｕ（ｎ）を使用して、適応型コードブック５０６のメモリを更新し、励振信号ｕ（ｎ）を合成フィルタ５１０に供給し、加重合成音声信号

を生成する（以降、表記の都合上、数８をｓ^〜（ｎ）とする。文字の上に「〜」又は「＾」の記号がある場合、「〜」又は「＾」を文字の位置より１文字分後の位置に記す。以下同じ。）。加重合成音声信号ｓ^〜（ｎ）を入力音声信号ｓ（ｎ）から減算し、加重フィルタ５０１に供給する誤差信号ｅ（ｎ）を生成する。フィルタ５０１からの加重誤差ｅ_ｗ（ｎ）を、誤差最小化器５０２により最小にする；誤差信号ｅ_ｗ（ｎ）が最小になるまで、本処理を種々の適応型コードブックおよび固定コードブックベクトルにより反復（分析、合成）する。

これは、加重入力音声信号ｓ（ｎ）と加重合成音声信号ｓ^〜（ｎ）との間の誤差ｅ（ｎ）の最小化と同等である。加重フィルタ５０１は次式の形式の伝達関数Ｗ’（ｚ）を有する：

ここで、Ａ（ｚ）は線形予測（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ、ＬＰ）フィルタを表し、γ_１、γ_２は加重ファクタである。音声信号を加重領域で量子化するので、加重領域における量子化雑音スペクトラムは平坦であり、次式のように書くことができる：
Ｅ_ｗ（ｚ）＝Ｗ’（ｚ）Ｅ（ｚ）（２）
ここで、Ｅ（ｚ）は入力音声信号と合成音声信号ｓ^〜（ｎ）との間の誤差信号ｅ（ｎ）のスペクトラムであり、Ｅ_ｗ（ｚ）は加重誤差信号ｅ_ｗ（ｎ）の「平坦な」スペクトラムである。式（２）から、加重フィルタの逆数、即ちＥ（ｚ）＝Ｗ’（ｚ）^−１Ｅ_ｗ（ｚ）により、入力音声信号と合成音声信号との間の誤差Ｅ（ｚ）を成形することが分かりうる。この結果は非特許文献４に記載されている。伝達関数Ｗ’（ｚ）^−１は入力音声信号の幾つかのフォルマント構成を示す。従って、量子化誤差の成形により人の耳のマスキング特性を使用し、量子化誤差がフォルマント領域においてより多くのエネルギーを持つようにし、量子化誤差をこの領域に存在する強い信号エネルギーによりマスクすることとする。加重量は式（１）のファクタγ_１およびγ_２により制御する。

上記の従来の知覚加重フィルタは電話周波数帯域幅３００乃至３４００Ｈｚの信号とは良好に動作する。しかしながら、周波数帯域幅５０乃至７０００Ｈｚの広帯域信号の効率的知覚加重には、この従来の知覚加重フィルタは適さないことが分かった。また、フォルマント構成および必要なスペクトル傾斜の同時モデル化では従来の知覚加重フィルタに本来的な限界があることが分かった。低および高周波数間のダイナミックレンジが広いため、スペクトル傾斜は広帯域信号ではより明白である。従来技術は傾斜フィルタをＷ’（ｚ）に加え、広帯域入力音声信号の傾斜およびフォルマント加重を個別に制御することを示唆している。

特許文献１に記載のようにこの問題に対する解決策は、ＡＭＲ−ＷＢ規格に導入されており、入力においてプレエンハンスメントフィルタを適用し、例えばμがプレエンハンスメントファクタであるフィルタ１−μｚ^−１によりプレエンハンスメント音声信号を基本にＬＰフィルタＡ（ｚ）を計算し、その分母を固定することによる修正フィルタＷ’（ｚ）の使用を含む。この特別な場合、図４のＣＥＬＰ（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ、符号励振線形予測）モデルをプレエンハンスメント信号に適用し、デコーダにおいてプレエンハンスメントフィルタの逆数により、合成音声信号の強調を解除する。プレエンハンスメント信号ｓ（ｎ）に関してＬＰ分析を実行し、ＬＰフィルタＡ（ｚ）を得る。また分母を固定する新しい知覚加重フィルタを使用するが、これは次の関係により与えられる：

式（３）で、１次フィルタを分母において使用する。あるいは、高次フィルタをまた使用することができる。この構成はスペクトル傾斜からフォルマント加重を本質的に分離する。プレエンハンスメント通話信号ｓ（ｎ）を基本にＡ（ｚ）を計算するので、元の音声信号を基本にＡ（ｚ）を計算する場合と比較して、フィルタ１／Ａ（ｚ／γ_１）の傾斜は一層明白ではない。強調解除はデコーダにおいて以下の伝達関数を持つフィルタを使用して実行する：

ここで、μはプレエンハンスメントファクタである。式（３）のような雑音成形手法を使用して、伝達関数１／Ｗ’（ｚ）Ｐ（ｚ）を持つフィルタにより量子化誤差スペクトラムを成形する。γ_２を典型的な場合であるμに等しく設定すると、加重フィルタは次式のようになり：

量子化誤差スペクトラムを伝達関数が１／Ａ（ｚ／γ）であるフィルタにより成形し、Ａ（ｚ）は、プレエンハンスメント音声信号を基本に計算する。プレエンハンスメントと修正加重フィルタリングの組み合わせにより誤差成形を達成するこの構成は、広帯域信号の符号化に極めて効率的であり、加えて固定ポイントアルゴリズムの実装の容易さの利点になることを、主観聴取が示した。

上記の雑音成形は周波数帯域幅が５０乃至７０００Ｈｚである広帯域信号によりＡＭＲ−ＷＢにおいて使用するが、帯域幅が５０乃至４０００Ｈｚに制限される場合にも良好に動作し、この帯域幅は第１の非限定的で、説明上の実施形態およびＧ．７１１ＷＢＥコーデック（レイヤ１およびレイヤ２）の場合である。

２．ＩＴＵ−ＴＧ．７１１規格と相互動作可能なマルチレイヤ埋め込みコーデックにおける知覚加重
２．１第１のレイヤ（コアレイヤ）における雑音の知覚加重
図６はＩＴＵ−Ｔ勧告Ｇ．７１１（例えば、Ｇ．７１１ＷＢＥコーデックのレイヤ１）に基づく単一レイヤエンコーダの例を示し、この例では量子化誤差はフィルタ１／Ａ（ｚ／γ）により成形し、Ａ（ｚ）はフィルタ１−μｚ^−１を使用してプレエンハンスメント入力音声信号を基本に計算する。図７は図６の単純化であり、プレエンハンスメントフィルタと加重フィルタを組み合わせるが、ＬＰフィルタを依然図６におけるように例えばフィルタ１−μｚ^−１によるプレエンハンスメント音声信号を基本に計算する。図６および図７双方から、通常平坦なスペクトラムを有するＧ．７１１量子化誤差をフィルタ１／Ａ（ｚ／γ）により成形し、Ａ（ｚ）はプレエンハンスメント入力音声信号を基本に計算することは明らかである。図６および図７双方における構成は所望の雑音成形を達成するが、その構成は従来のＧ．７１１デコーダとの相互動作が可能なエンコーダにならない。これは逆加重フィルタをデコーダ出力において適用しなければならないことによる。

図８に種々の雑音成形方式を示し、これらの方式はデコーダにおける逆加重適用の必要性を回避する。従って図８の方式は、従来のＧ．７１１デコーダとの相互動作性を維持する。これは、Ｇ．７１１量子化器８０２の入力に雑音フィードバック８０１を導入することにより達成する。図８のフィードバックループ８０１は、種々の方法で構成することができる汎用フィルタＦ（ｚ）８０３を介してＧ．７１１デコーダ８０２から加算器８０５に出力信号Ｙ（ｚ）を供給する。実例のこのフィルタ８０３の伝達関数を本明細書でさらに記述する。加重フィルタ８０４による加重信号Ｓ（ｚ）からフィルタ８０３からのフィルタリング化信号を減算し、Ｇ．７１１量子化器８０２の入力に入力信号Ｘ（ｚ）を供給する。図８で、以下の関係を観測する：
Ｘ（ｚ）＝Ｓ（ｚ）Ｗ（ｚ）−Ｙ（ｚ）Ｆ（ｚ）（６ａ）
Ｙ（ｚ）＝Ｘ（ｚ）＋Ｑ（Ｚ）（６ｂ）
ここで、Ｘ（ｚ）はＧ．７１１量子化器８０２の入力音声信号、Ｓ（ｚ）は原音声信号、Ｙ（ｚ）はＧ．７１１量子化器８０２の出力信号、Ｑ（Ｚ）は平坦なスペクトラムを持つＧ．７１１の量子化誤差であり、Ｗ（ｚ）は加重フィルタ８０４の伝達関数である。上の式６ａおよび式６ｂは次式を生じる：
Ｙ（ｚ）＝Ｓ（ｚ）Ｗ（ｚ）−Ｙ（ｚ）Ｆ（ｚ）＋Ｑ（Ｚ）（７）
上式は次式になる：
Ｙ（ｚ）［１＋Ｆ（ｚ）］＝Ｓ（ｚ）Ｗ（ｚ）＋Ｑ（Ｚ）（８）
上式は次式と同等である：

それ故、Ｆ（ｚ）＝Ｗ（ｚ）−１を選択することにより、以下の関係を得ることができる：

従って、出力（合成）音声信号Ｙ（ｚ）と入力音声信号Ｓ（ｚ）との間の誤差を加重フィルタＷ（ｚ）の逆数により成形する。図９は図８と同一であるが、ＡＭＲ−ＷＢで使用する知覚加重フィルタを伴う。即ち、図８の加重フィルタＷ（ｚ）８０４をＷ（ｚ）＝１／Ａ（ｚ／γ）のように設定し、Ａ（ｚ）はプレエンハンスメント信号を基本に計算する。図８に戻り、Ｆ（ｚ）＝Ｗ（ｚ）−１と設定すると、この構成を、機能を変更することなく図１０ｄの構成に変形できることが分かりうる。変形を図１０ａ乃至図１０ｄに示す。まず図１０ａについて考えると、図１０ａは図８でＷ（ｚ）をＦ（ｚ）＋１により置換することにより得られる。これは勿論Ｆ（ｚ）＝Ｗ（ｚ）−１と設定するのと同じである。フィルタＦ（ｚ）＋１を次いでフィルタ「１」（即ち、１に等しい伝達関数）と並列のフィルタＦ（ｚ）により置換することができ、その出力を図１０ｂに示すごとく合計する。図１０ｂの２つの合計を図１０ｃに示すように３つの入力を持つ単一の合計により置換することができる。これらの入力のうち２つは正の符号を有し、第３の入力は負の符号を持つ。フィルタＦ（ｚ）は線形であるので、図１０ｃは図１０ｄと同等であることを示しうる。実際、フィルタリングの前に２つの入力を線形フィルタにより加算（または減算）することは、個々の入力をフィルタリングし（図１０ｃに示すように）、次いでフィルタ出力を加算（または減算）するのと同等である。図１０ｄから、以下のように書くことができる：
Ｘ（ｚ）＝Ｓ（ｚ）＋Ｆ（ｚ）［Ｓ（ｚ）−Ｙ（ｚ）］（１１ａ）
Ｙ（ｚ）＝Ｘ（ｚ）＋Ｑ（ｚ）（１１ｂ）
従って、
Ｙ（ｚ）＝Ｓ（ｚ）＋Ｆ（ｚ）［Ｓ（ｚ）−Ｙ（ｚ）］＋Ｑ（ｚ）（１２）
上式は次式になる：
Ｙ（ｚ）［１＋Ｆ（ｚ）］＝Ｓ（ｚ）［１＋Ｆ（ｚ）］＋Ｑ（ｚ）（１３）
それ故、

従って、Ｆ（ｚ）＝Ｗ（ｚ）−１を設定することにより、図８の場合と同じ誤差成形を達成するが、フィルタリング演算は少なく、それ故複雑度の削減になる。図１１は図１０ｄと同一であるが、ＡＭＲ−ＷＢで使用する誤差成形を伴う。より詳細には成形フィルタＷ（ｚ）をＷ（ｚ）＝Ａ（ｚ／γ）に設定し、Ａ（ｚ）はプレエンハンスメント音声信号１１０１を基本に計算し、従って量子化誤差をフィルタ１／Ａ（ｚ／γ）により成形する。次いで図１０ｄのフィルタＦ（ｚ）をＷ（ｚ）−１、Ａ（ｚ／γ）−１にそれぞれ設定する。図１２は図４におけるのと同じ信号のスペクトラムであるが、図１１の構成における雑音成形の適用後のスペクトラムを示す。高周波数における量子化雑音を信号により適切にマスクすることを図１２で明確に見ることができる。

図１１で使用するプレエンハンスメントファクタμは固定であり、または適応的でありうる。第１の非限定的で、説明上の実施形態では、信号に依存する適応プレエンハンスメントファクタμを使用する。ゼロ交差率ｃをこのために入力音声信号に関して計算する。ゼロ交差率ｃを過去と現行フレームのそれぞれｓ（ｎ−１）およびｓ（ｎ）に関して以下の関係を使用して計算する：

ここで、Ｎはフレームサイズまたはフレーム長である。
プレエンハンスメントファクタμは次の関係により与える：

これは範囲０．３８＜μ＜１．０になる。このように、プレエンハンスメントは調和信号には強く、雑音には弱い。

要約すると、雑音成形フィルタＷ（ｚ）をＷ（ｚ）＝Ａ（ｚ／γ）により与え、Ａ（ｚ）はプレエンハンスメント音声信号を基本に計算し、式（１５）および式（１６）で記述するように適応プレエンハンスメントファクタμを使用して、プレエンハンスメントを実行する。

先の第１の非限定的で、説明上の実施形態では、フィルタＷ（ｚ）＝Ａ（ｚ／γ）（プレエンハンスメントおよびＬＰ分析）の計算は入力音声信号に基づく。第２の非限定的で、説明上の実施形態では、フィルタをレイヤ１からの復号信号に基づいて計算する。以下に本明細書で記述することとするように、埋め込み符号化構成における第２の狭帯域エンハンスメントレイヤ、例えばレイヤ２で同じ雑音成形を実行するために、第２のレイヤからの復号信号をフィルタ１／Ｗ（ｚ）を介してフィルタリングするデバイスおよび方法を開示する。従って、プレエンハンスメントおよびＬＰ分析をまたデコーダにおいて実行すべきであり、デコーダでは過去の復号信号のみが利用可能である。それ故、デコーダで計算する雑音成形フィルタとの差分を最小にするために、エンコーダで計算するフィルタはレイヤ１からの過去の復号信号に基づくことができ、レイヤ１からの過去の復号信号はエンコーダおよびデコーダ双方において利用可能である。この第２の非限定的で、説明上の実施形態をＩＴＵ−Ｔ勧告Ｇ．７１１ＷＢＥ規格（図１参照）において使用する。

図１８は図１１に類似の従来のＧ．７１１との相互動作性を維持する雑音成形方式を示すが、雑音成形フィルタは過去の復号信号を基本に計算する。プレエンハンスメント装置１８０２における過去の復号信号１８０１に関して、プレエンハンスメントをまず実行する。第２の非限定的で、説明上の実施形態では、最後の２フレーム（ｙ（ｎ）、ｎ＝−２Ｎ、．．．、−１）からの復号信号を使用する。プレエンハンスメントファクタをμ＝１−０．００７８ｃにより与え、ここでゼロ交差率ｃを以下の関係により与える：

ここで、負の指標は過去の信号を表す。過去のプレエンハンスメント信号１８０３に関して、ＬＰ分析を次いで実行する。

第２の非限定的で、説明上の実施形態では例えば非対称ウィンドウを使用して、４次のＬＰ分析をフレーム毎に一度行う。ウィンドウを２つの部分に分割する：第１の部分の長さは６０サンプルであり、第２の部分の長さは２０サンプルである。ウィンドウを次の関係により与える：

ここで、値Ｌ_１＝６０およびＬ_２＝２０を使用する（Ｌ_１＋Ｌ_２＝２Ｎ＝８０）。過去の復号信号ｙ（ｎ）をプレエンハンスメントし、ウィンドウを設け、信号ｓ’（ｎ）、ｎ＝０、．．．、２Ｎ−１を得る。ウィンドウを設けた信号ｓ’（ｎ）、ｎ＝０、．．．、７９の自動相関ｒ（ｋ）を以下の関係を使用して計算し：

以下のウィンドウを使用する自動相関に遅延ウィンドウを設けることにより、１２０Ｈｚの帯域幅拡張を使用する。

ここで、ｆ_０＝１２０Ｈｚは帯域幅拡張であり、ｆ_ｓ＝８０００Ｈｚはサンプリング周波数である。その上、ｒ（０）を白色雑音補正ファクタ１．０００１により乗算し、このファクタは−４０ｄＢにおいてノイズフロアを加えるのと同等である。

ＬＰＣ分析器１８０４において修正自動相関を使用し、以下の式のセットを解き、ＬＰフィルタ係数ａ_ｋ、ｋ＝１、．．．、４を得る：

通常の当業者には良く知られるレビンソン−ダービン（Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ）アルゴリズムを使用して、以上の式のセットを解く。

２．２マルチレイヤ方式における雑音の知覚加重（エンコーダ部）
以上の説明は、単一レイヤのＧ．７１１と互換性のあるエンコーダにおける符号化雑音の成形法を記述する。複数レイヤを使用する場合の適切な雑音成形を保証するために、図１３および図１４におけるエンコーダ（第１の、即ちコアレイヤ用）と図１５におけるデコーダ（Ｇ．７１１ＷＢＥにおけるレイヤ２などの上位レイヤ用）との間で、雑音成形アルゴリズムを分散させる。

図１３は２つのレイヤを使用する場合のアルゴリズムのエンコーダ側を示す。Ｑ_Ｌ１およびＱ_Ｌ２はそれぞれレイヤ１およびレイヤ２の量子化器である。Ｇ．７１１ＷＢＥ規格では、レイヤ１は８ビット／サンプルのＧ．７１１と互換性のある符号化（エンコーダにおける雑音成形を伴う）に相当し、レイヤ２は２ビット／サンプルの低帯域エンハンスメントレイヤに相当する。図１３は、レイヤ１からの過去の合成信号（ｙ＾₈（ｎ））のみを使用して、雑音成形雑音フィードバックループ１３０１を適用することを示す。これは、レイヤ１からの符号化雑音のみを適切に成形することを保証する。次いでレイヤ２エンコーダ（Ｑ_Ｌ２）を直接適用して、レイヤ１を細かくする。このレイヤ２（および恐らくレイヤ２の上の他の上位レイヤ）のための雑音成形を下記のごとくデコーダにおいて適用することとなろう。

図１９は図１３に類似の雑音成形を伴う２レイヤのＧ．７１１と相互動作可能なエンコーダの構成を示すが、過去の復号信号１９０３に基づきフィルタ計算器１９０２において計算する雑音成形フィルタ１９０１を伴う。

概念的には、図１３および図１９は図１４と同等である。図１４で、アルゴリズムを４つの演算に分解し、１から４の番号を付す（まるで囲む）。時間ｎにおいて、入力サンプルｓ［ｎ］をフィルタリング化差分信号ｄ［ｎ］に加える。それ故ｚ変換領域で、図１４における演算１の加算器１４０１の出力Ｘ（ｚ）を以下のように書くことができる：
Ｘ（ｚ）＝Ｓ（ｚ）＋Ｆ（ｚ）Ｄ（ｚ）（１７）
以前のように、フィルタＦ（ｚ）１４０２をＦ（ｚ）＝Ｗ（ｚ）−１と定義し、ここで例えばＷ（ｚ）＝Ａ（ｚ／γ）は加重ＬＰフィルタであり、Ａ（ｚ）はプレエンハンスメント音声信号（通話またはオーディオ）に関して計算する。図１４における演算２からの差分信号ｄ[ｎ]を加算器１４０３により生成し、ｚ変換領域において以下のように表す：
Ｄ（ｚ）＝Ｓ（ｚ）−Ｙ＾_８（ｚ）（１８）
ここで、Ｙ＾_８（ｚ）（または時間領域のｙ＾_８[ｎ]）は第１のレイヤからの量子化出力である（Ｇ．７１１ＷＢＥコーデックにおける８ビットＰＣＭ）。従って、図１４の雑音フィードバックはレイヤ１の出力のみを考慮する。なお図１４を参照して、信号ｘ[ｎ]、即ち雑音フィードバックにより修正する入力を量子化器Ｑにおいて量子化する。この量子化器Ｑはレイヤ１の８ビット（これをｙ＾_８[ｎ]に復号できる）に加えてレイヤ２の２エンハンスメントビット（これを復号し、ｅ＾［ｎ]を形成できる）を生成する。演算３では、ｙ_１０[ｎ]をｙ＾_８[ｎ]とｅ＾［ｎ]の和として定義し、次の関係を生じる：
Ｙ_１０（ｚ）＝Ｘ（ｚ）＋Ｑ（ｚ）（１９）
ここで、Ｑ（ｚ）（または時間領域のｑ[ｎ]）はブロックＱからの量子化雑音である。これが１０ビットＰＣＭ量子化器からの量子化雑音であるのは、レイヤ１およびレイヤ２ビット双方をＱから得るからである。Ｇ．７１１ＷＢＥエンコーダなどのマルチレイヤエンコーダでは、これらの１０ビットはレイヤ１からの８ビット（ＰＣＭと互換性のある）に加えてレイヤ２(エンハンスメントレイヤ)からの２ビットに実際に相当する。

図１４で雑音フィードバックがレイヤ１からのみ入力することを保証するために、演算４はｙ_１０[ｎ]からｅ＾［ｎ]を減算し、ｙ＾_８[ｎ]を再び生じる：
Ｙ＾_８（ｚ）＝Ｙ_１０（ｚ）−Ｅ＾（ｚ）（２０）
実際には、演算４を明確には実行しない。図１４の箱Ｑのレイヤ１部からのビットを使用して、ｙ＾_８[ｎ]を復号し、レイヤ２からの追加の２ビットをただ納め、チャネルに送信する。レイヤ１のビットのみを復号する場合、以下の入力／合成の関係をもたらす：

ここで、Ｑ_８（ｚ）はレイヤ１のみからの量子化雑音（コアの８ビットＰＣＭ）である。これはそのコアレイヤ(即ちレイヤ１)にとり所望の雑音成形結果である。

２．３マルチレイヤ方式における雑音の知覚加重（デコーダ部)
この節では、レイヤ１およびレイヤ２双方を復号する、即ち図１４の信号ｙ_１０[ｎ]を復号する場合の雑音の成形方法を記述する。式（１７）のＤ（ｚ）を式（１８）に与える式により置換すれば、以下の関係を生じる：
Ｘ（ｚ）＝Ｓ（ｚ）＋Ｆ（ｚ）｛Ｓ（ｚ）−Ｙ＾_８（ｚ）｝（２２）
式（１９）に、Ｘ（ｚ）とＹ_１０（ｚ）との間の関係を提示する。式（２２）のＸ（ｚ）を置換することにより、以下の関係を得る：
Ｙ_１０（ｚ）−Ｑ（ｚ）＝Ｓ（ｚ）＋Ｆ（ｚ）｛Ｓ（ｚ）−Ｙ＾_８（ｚ）｝（２３）
次に以上の関係のＹ＾_８（ｚ）を置換するために式（２０）を使用すると、次の関係を生じる：
Ｙ_１０（ｚ）−Ｑ（ｚ）＝Ｓ（ｚ）＋Ｆ（ｚ）｛Ｓ（ｚ）−Ｙ_１０（ｚ）
＋Ｅ＾（ｚ）｝（２４）
上式（２４）の左側のＹ_１０（ｚ）における全項を分離すると、次の関係を生じる：
｛Ｆ（ｚ）＋１｝Ｙ_１０（ｚ）＝｛Ｆ（ｚ）＋１｝Ｓ（ｚ）
＋Ｑ（ｚ）＋Ｆ（ｚ）Ｅ＾（ｚ）（２５）
両側を｛Ｆ（ｚ）＋１｝で除算すると、以下の関係を得る：

Ｆ（ｚ）＝Ｗ（ｚ）−１であるので、上式を以下のように書くことができる：

Ｑ（ｚ）が図１４の１０ビット量子化器Ｑからの符号化雑音であることを思い出そう、即ちレイヤ１およびレイヤ２双方を使用して、ｘ[ｎ]を符号化する。従ってコアレイヤ(レイヤ１)およびエンハンスメントレイヤ(レイヤ２)を復号する場合、得るべき所望の信号は次の部分のみであり：

これは式(２７)の右側から得る。項

はそれ故望ましくなく、削除すべきである。そうすると次のように書ける：

以上の等式でＹ_Ｄ（ｚ）は、レイヤ１およびレイヤ２双方を復号する場合の所望の信号を示す。次に、Ｙ_１０（ｚ）はＹ＾_８（ｚ）（レイヤ１の合成信号)およびＥ＾（ｚ）（レイヤ２から送信するエンハンスメント２ビット）に以下のように関係する：
Ｙ_１０（ｚ）＝Ｙ＾_８（ｚ）＋Ｅ＾（ｚ）（３０）
Ｙ_１０（ｚ）にこの関係を使用し、以上のＹ_Ｄ（ｚ）の定義においてＹ_１０（ｚ）を置換すると、以下の関係を生じる：

上式（３１）の最終項を以下のように拡張することができる。

これは最終的に以下を生じる：

式(３３)は、適切な雑音成形によりレイヤ１＋レイヤ２の合成を得るためにデコーダにおいて実行しなければならない演算を示す。エンコーダ側では、雑音成形を図１４に記述するように適用する。第１のレイヤの量子化信号ｙ＾_８[ｎ]のみを使用する（量子化エンハンスメントレイヤの寄与はなく）。デコーダ側では、以下を実行する：
・モジュール１５０１においてレイヤ１の合成（ｙ＾_８[ｎ]）を計算する；
・モジュール１５０２においてレイヤ２のエンハンスメント信号（ｅ＾［ｎ]）を計算(復号)する；
・循環（全ポール）フィルタ

によりｅ＾［ｎ]をフィルタリングし、信号ｅ＾_２［ｎ]を形成する（フィルタ１５０３参照）；
・加算器１５０４において信号ｙ＾_８[ｎ]とｅ＾_２［ｎ]を合計し、所望の信号ｙ_Ｄ[ｎ]（レイヤ１およびレイヤ２の寄与の和）を形成する。
側面情報の伝達を回避するためにレイヤ１合成信号ｙ＾_８[ｎ]を使用してデコーダにおいて、フィルタＷ（ｚ）＝Ｆ（ｚ）＋１を計算する（フィルタ計算器１５０５参照)。Ｇ．７１１ＷＢＥコーデックでは、レイヤ１は高レート(６４ｋビット／ｓのＰＣＭ)で動作し、従ってレイヤ１を使用してデコーダでこのフィルタを計算するのは、エンコーダで原(入力)音声信号に関して計算する同じフィルタとそれほどの不整合を持ち込まない。とはいえ不整合を完全に回避するためにはエンコーダおよびデコーダ双方において利用可能なローカルな復号信号ｙ＾_８[ｎ]を使用して、フィルタＷ（ｚ）をエンコーダにおいて計算する。レイヤ２における適切な雑音成形を達成するこの復号処理を図１５に示す。エンコーダ側に類似してＷ（ｚ）＝Ａ（ｚ／γ）であり、式(１５)および式(１６)に従い適応するプレエンハンスメントファクタにより適応プレエンハンスメントを適用後、レイヤ１信号に基づき、ＬＰフィルタＡ（ｚ）を計算する。事実第２の非限定的で、説明上の実施形態では、同じプレエンハンスメントおよび過去の復号信号に関して実行する４次のＬＰ分析を上記のようにエンコーダ側で行う。

本明細書で以上に非限定的で、説明上の実施形態により本発明を記述したが、主題とする発明の精神および本質から逸脱することなく、これらの実施形態を修正することができる。例えば、第２のレイヤ(レイヤ２)を量子化するのにサンプル当り２ビットのスカラ量子化を使用する代わりに、ベクトル量子化などのその他の量子化方策を使用することができる。その上、他の加重フィルタ公式を使用することができる。以上の説明上の実施形態では、雑音成形をＷ^−１（ｚ）＝１／Ａ（ｚ／γ）により与える。一般にＷ^−１（ｚ）により量子化雑音を成形することが望ましければ、エンコーダのフィルタＦ（ｚ）（図８および図１０）をＦ（ｚ）＝Ｗ（ｚ）−１により与え、デコーダでは第２のレイヤの量子化信号Ｅ＾（ｚ）をＷ^−１（ｚ）により加重する。

２．４雑音成形ループの不安定性に対する保護
幾つかの限定的な場合、例えばある音楽の分野では、信号エネルギーは４０００Ｈｚ（低帯域におけるサンプリング周波数の半値）近くの単一の周波数ピークに集中することがある。この特別な場合、フィルタが強く共鳴するので、雑音成形フィードバックは不安定になる。その結果成形雑音は正確でなく、合成信号は音が切れる。これは人工的可聴音を生成し、その継続時間は雑音成形ループがその安定状態に戻るまでの数フレームでありうる。この問題を防止するために、高周波数にエネルギーが集中する信号をエンコーダにおいて検出するといつでも、雑音成形フィードバックを減衰させる。

特に割合：

を計算し、ここでｒ_０およびｒ_１はそれぞれ第１のおよび第２の自動相関係数である。第１の自動相関係数を次式により与え：

第２の自動相関係数を以下の関係を使用して計算する：

割合ｒを信号のスペクトル傾斜についての情報として使用することができる。雑音成形を削減するために、以下の条件を満たさなければならない：

加重フィルタの係数をファクタαだけ減衰させることにより、雑音成形フィードバックを次いで以下のように修正する：

減衰ファクタαは割合ｒの関数であり、次の関係により与える：

非常に低レベルの信号に実際的な減衰があれば、エネルギーが高周波数に集中する信号の知覚フィルタの減衰を起動しない。これを次の節で説明することとする。

２．５非常に低レベルの信号に対する固定雑音成形フィルタ
入力信号が非常に低いエネルギーを持つ場合、雑音成形デバイスおよび方法は符号化雑音の適切なマスキングを妨げることがある。その理由は、Ｇ．７１１デコーダの分析がレベルに依存するからである。信号レベルが低すぎる場合、量子化雑音は入力信号と凡そ同じエネルギーを持ち、歪みは１００％に近い。それ故フィルタリング化雑音がそれに加わる場合、入力信号のエネルギーは増加することさえ起こりうる。これは、次に復号信号などのエネルギーを増加させる。雑音フィードバックは数フレームの間に早くも飽和状態になり、これは望ましくない。この飽和状態を防止するために非常に低レベルの信号に対し、雑音成形フィルタを減衰させる。

フィルタの減衰条件を検出するために、過去の復号信号ｙ＾_８[ｎ]のエネルギーが一定の閾値を下回るか、過去の復号信号ｙ＾_８[ｎ]のエネルギーを調べることができる。式(３５)の相関ｒ_０はこのエネルギーを表すことに注意されたい。従って条件、
ｒ_０＜θ、（４０）
を満たせば、非常に低レベルの信号に対する減衰を実行し、ここでθは所与の閾値である。あるいは正規化ファクタη_Ｌを式(３５)の相関ｒ_０について計算することができる。正規化ファクタは左へのシフトの最大数を表し、これを１６ビット値のｒ_０について実行し、結果が３２７６７を下回るように維持することができる。η_Ｌが条件：
η_Ｌ≧１６、（４１）
を満たす場合、非常に低レベルの信号に対する減衰を実行する。

加重ファクタをγ＝０．５に設定することにより加重フィルタに関して、減衰を実行する。即ち：

非常に低レベルの入力音声信号に対して雑音成形フィルタを減衰させれば、知覚的に低い雑音床を有することの利益をもたらすことなく雑音フィードバックループが目標雑音レベルを増加させる場合を回避する。また、エンコーダとデコーダとの間のフィルタ不整合の影響を減じるのに役立つ。

上記の知覚フィルタ減衰（不安定性即ち非常に低レベル信号に対する保護）を排他的に実行するが、これは、同時に低レベル信号が実際にはありえないことを意味する。これを以下の条件において説明する：
η_Ｌ≧１６であれば、
式(４２）を生じる知覚フィルタの減衰を行う。
そうでなく、

であれば、
式(３８）を生じる知覚フィルタの減衰を行う。
それ以外であれば、
減衰はせず、
終了。

２．６デッドゾーン量子化
本発明の第１のおよび第２の非限定的で、説明上の実施形態において開示する雑音成形は固定(適応しない）量子化レベルを持つＰＣＭエンコーダにおける雑音の問題を提示するので、幾つかの非常に小さな信号の状態は入力より大きなエネルギーを持つ合成信号を実際に生成しうる。これは、量子化器への入力信号が２つの量子化レベルの中点の周りで振動する場合に生じる。

Ａ法則ＰＣＭでは、最低量子化レベルは０および±１６である。量子化の前に、各入力サンプルを＋８の値だけオフセットする。信号が８の値の周りで振動すれば、８を下回る振幅を持つ各サンプルを０として量子化することとし、８以上の各サンプルは１６に量子化することとする。次いで、入力音声信号が例えば６と１２との間でのみ変動しようとも、量子化信号を０と１６との間に留めることとする。これは、雑音成形の循環的性質によりさらに増幅しうる。１つの解決策は、レイヤ１の量子化器の持つ原点(０値）の周りの領域を増やすことである。例えば、−１１と＋１１との間の±１１を含む全ての値を（−７と＋７の代わりに)レイヤ１の量子化器によりゼロに設定することとする。これは、実際上量子化器のデッドゾーンを増やし、ゼロに設定することとする低レベルサンプルの数を増す。一方Ｇ．７１１ＷＢＥエンコーダなどのマルチレイヤＧ．７１１と相互動作可能な符号化方式では、拡張レイヤがあり、これを使用してコアレイヤ(即ちレイヤ１)の粗い量子化レベルを細かくする。それ故デッドゾーン量子化器をレイヤ１で使用する場合、またレイヤ２の量子化器の量子化レベルを修正する必要がある。誤差が最小であるように、これらのレベルを修正する。Ａ法則のデッドゾーン量子化レベルの１つの可能な構成を入力−出力グラフ形式で図１６に示す。ｘ軸は量子化器への入力値を表し、ｙ軸は、即ち符号化および復号する場合の復号出力値を表す。図１６に相当するＡ法則量子化レベルをＧ．７１１ＷＢＥコーデックにおいて使用し、図１６に相当するＡ法則量子化レベルはまたこの方法により使用する好ましいレベルである。

μ法則の場合、同じ原理に従うが、量子化閾値は異なる（詳しくは図１７参照)。μ法則では、量子化の前に適用するオフセットはないが、１３２の内部バイアスがある。再度図１７の入力−出力グラフはμ法則デッドゾーン量子化法の好ましい構成を示す。

以下の条件を満たす場合にのみデッドゾーン量子化器は動作する：

ここで、ｋ＝η_Ｌは式（３５）のｒ_０の値を正規化するのに使用するものと同じ正規化ファクタである。以上の条件が成立する場合、埋め込み低帯域量子化器およびコアレイヤデコーダを使用しない。代わって異なる量子化技術を適用し、これを以下で説明する。式（４０）の条件をまた使用して、デッドゾーン量子化器を動作させることができることに注意されたい。

条件（４３）に見るように、条件（４３）を満たす極端な低レベル入力信号ｓ（ｎ）に対してのみ、デッドゾーン量子化器は動作する。動作間隔をデッドゾーンと呼び、この間隔内ではローカルなコアレイヤ復号信号ｙ（ｎ）をゼロに抑制する。このデッドゾーン量子化器では以下の式のセットに従い、サンプルｓ（ｎ）を量子化する。
Ａ法則の場合：
ｕ（ｎ）＝０

μ法則の場合：
ｕ（ｎ）＝０

上式で、上の関係ｕ（ｎ）＝ｙ＾_８（ｎ）は量子化コアレイヤであり、ｖ（ｎ）＝ｅ＾（ｎ）は第２の量子化レイヤである。

２．７雑音ゲート
準無声期間の間の合成信号に関する雑音一掃の程度をさらに増すために雑音ゲート法をデコーダに加える。フレームエネルギーが非常に低い場合、雑音ゲートは出力信号を減衰させる。この減衰はレベルおよび時間双方において漸進的である。減衰レベルは信号に依存し、サンプル毎を基本に徐々に修正する。非限定的例では下記のように、雑音ゲートはＧ．７１１ＷＢＥデコーダにおいて動作する。

そのエネルギーを計算する前に、レイヤ１の合成信号を１次ハイパスＦＩＲフィルタによりまずフィルタリングする
ｙ_ｆ（ｎ）＝ｙ（ｎ）−０．７６８ｙ（ｎ−１）、ｎ＝０、．．、Ｎ−１（４４）
ここで、ｙ（ｎ）、ｎ＝０、．．、Ｎ−１は現行フレームの合成信号に対応し、Ｎ＝４０はフレーム長である。フィルタリングされた信号エネルギーは次式により計算する。

雑音ゲートの早い投入を避けるために、前フレームのエネルギーを現行フレームのエネルギーに加え、次式の総合エネルギーを与える。
Ｅ_ｔ＝Ｅ_０＋Ｅ_−１（４６）
各フレームの復号終了時にＥ_−１をＥ_０により更新することに注意されたい。

信号エネルギーについての情報に基づいて、ファクタ１／２^７により乗算する式（４６）のＥ_ｔの平方根として目標利得を計算する、即ち

目標利得を下限は０．２５の値により制限し、上限は１．０により制限する。従って、利得ｇ_ｔが１．０より小さい場合、雑音ゲートを動作する。ＲＭＳ値が≒２０である信号が目標利得ｇ_ｔ≒１．０となり、ＲＭＳ値が≒５である信号が目標利得ｇ_ｔ≒０．２５となるように、ファクタ１／２^７を選択した。これらの値はＧ．７１１ＷＢＥコーデックに対し最適としたが、これらの値を異なるフレームワークにおいて修正することは可能である。

デコーダにおける合成信号がそのエネルギーを高帯域、即ち４０００乃至８０００Ｈｚに集中して有する場合、目標利得を１．０に設定することにより雑音ゲートの動作を徐々に停止する。それ故、低帯域および高帯域合成信号の電力測定結果を現行フレームに対して計算する。特に、低帯域信号電力（レイヤ１＋レイヤ２で合成する）を以下の関係により与える：

高帯域信号電力（レイヤ３で合成する）を次式により与える

ここで、ｚ（ｎ）、ｎ＝０、．．、Ｎ−１は合成高帯域信号を示す。レイヤ３を実装していなければ、雑音ゲートの条件付けはなく、ｇ_ｔが１．０より小さければ毎回雑音ゲートを動作する。レイヤ３を使用する場合、Ｐ_ＨＢ＞４×１０^−７であり、かつ、Ｐ_ＨＢ＞１６^＊Ｐ_ＬＢの場合毎回、目標利得を１．０に設定する。

最後に、出力合成信号の各サンプル（即ち、低帯域および高帯域合成信号双方を共に組み合わせる場合）を利得により乗算する：
ｇ（ｎ）＝０．９９ｇ（ｎ−１）＋０．０１ｇ_ｔ、ｎ＝０、．．、Ｎ−１（５０）
上式を、サンプル毎を基本に更新する。利得がゆっくりと目標利得ｇ_ｔに向かって収束することが分かりうる。

以上の説明では非限定的で、説明上の実施形態により本発明を記述したが、添付する特許請求の範囲内において、主題とする発明の精神および本質から逸脱することなくこの説明上の実施形態を随意に修正することができる。

Ｇ．７１１広帯域拡張エンコーダの概要ブロック図である。Ｇ．７１１広帯域拡張デコーダの概要ブロック図である。Ｇ．７１１ＷＢＥコーデックにおける複数レイヤを有する埋め込みビットストリームの構成を示す概要図である。雑音成形を伴わないＰＣＭ符号化における通話および雑音スペクトラムを示すグラフである。ＡＭＲ−ＷＢコーデックにおける誤差信号の知覚的成形を示す概要ブロック図である。Ｇ．７１１のフレームワークにおけるプレエンハンスメントおよび雑音成形を示す概要ブロック図である。図６の概要ブロック図と同等である、プレエンハンスメントおよび雑音成形を示す単純化した概要ブロック図である。従来のＧ．７１１デコーダとの相互動作性を維持する雑音成形を示す概要ブロック図である。ＡＭＲ−ＷＢの場合と同様に知覚加重フィルタを使用する従来のＧ．７１１との相互動作性を維持する雑音成形を示す概要ブロック図である。従来のＧ．７１１デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。従来のＧ．７１１デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。従来のＧ．７１１デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。従来のＧ．７１１デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。従来のＧ．７１１との相互動作性を維持し、ＡＭＲ−ＷＢの場合と同様に知覚加重フィルタを使用する最終雑音成形方式の構成に関する概要ブロック図である。雑音成形を伴うＰＣＭ符号化における通話および雑音スペクトラムを示すグラフである。雑音成形を伴う２レイヤＧ．７１１との相互動作可能なエンコーダの構成を示す概要ブロック図である。雑音成形を伴う２レイヤＧ．７１１との相互動作可能なエンコーダの詳細構成を示す概要ブロック図である。雑音成形を伴う２レイヤＧ．７１１との相互動作可能なデコーダの詳細構成を示す概要ブロック図である。デッドゾーン量子化器を持つ、および持たないＧ．７１１ＷＢＥコーデックにおけるＡ法則量子化器レベルを示すグラフである。デッドゾーン量子化器を持つ、および持たないＧ．７１１ＷＢＥコーデックにおけるＡ法則量子化器レベルを示すグラフである。デッドゾーン量子化器を持つ、および持たないＧ．７１１ＷＢＥコーデックにおけるμ法則量子化器レベルを示すグラフである。デッドゾーン量子化器を持つ、および持たないＧ．７１１ＷＢＥコーデックにおけるμ法則量子化器レベルを示すグラフである。図１１に類似であるが、過去の復号信号を基本に計算する雑音成形フィルタを伴う従来のＧ．７１１との相互動作性を維持する最終雑音成形方式の構成に関する概要ブロック図である。図１３に類似であるが、過去の復号信号を基本に計算する雑音成形フィルタを伴う２レイヤＧ．７１１との相互動作可能なエンコーダの構成を示す概要ブロック図である。

符号の説明

５０１加重フィルタ
５０２誤差最小化
５０３固定コードブック
５０６適応型コードブック
５０８過去の励振
５１０合成フィルタ

Claims

音声信号コーデックによる入力音声信号の符号化過程における雑音成形方法であって、前記方法が：
前記入力音声信号をプレエンハンスメントし、プレエンハンスメント音声信号を生成するステップと；
前記プレエンハンスメント音声信号を使用して、雑音フィードバックフィルタ伝達関数を計算するステップと；
前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するステップと；
を含み、
前記雑音フィードバックを生成するステップは、
前記音声信号コーデックの出力信号と前記入力音声信号との間の誤差を計算するステップと；
前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングするステップと；
前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加えるステップと；
を含む雑音成形方法。
請求項１に記載の雑音成形方法において、前記音声信号コーデックがＩＴＵ−ＴＧ．７１１コーデックを含む雑音成形方法。
請求項１に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を計算するステップが、Ａ（ｚ）が線形予測フィルタを表し、γが加重ファクタである関係Ａ（ｚ／γ）−１を計算するステップを含む雑音成形方法。
請求項２に記載の雑音成形方法において、前記音声信号コーデックがマルチレイヤコーデックを含む雑音成形方法。
請求項４に記載の雑音成形方法において、前記マルチレイヤコーデックが前記ＩＴＵ−ＴＧ．７１１コーデックを含む雑音成形方法。
請求項１に記載の雑音成形方法において、前記入力音声信号をプレエンハンスメントするステップが、μがプレエンハンスメントファクタであり、ｚがｚ変換領域を表す伝達関数１−μｚ^−１を有するフィルタを介して前記入力音声信号を処理するステップを含む雑音成形方法。
請求項６に記載の雑音成形方法において、前記プレエンハンスメントファクタμが、ｃが、

であるゼロ交差率であり、ｓ（ｉ）が前記入力音声信号であり、Ｎが前記入力音声信号のフレーム長である次の関係：

に従い適応する雑音成形方法。
請求項６に記載の雑音成形方法において、前記プレエンハンスメントファクタμが、０．３８と１との間の範囲にある雑音成形方法。
請求項６に記載の雑音成形方法において、前記プレエンハンスメントファクタμが固定値を含む雑音成形方法。
請求項１に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を計算するステップがフレームごとを基本に前記雑音フィードバックフィルタ伝達関数を更新するステップを含む雑音成形方法。
音声信号コーデックによる入力音声信号の符号化過程における雑音成形方法であって、前記方法が：
前記入力音声信号の供給を受ける前記音声信号コーデックの出力から復号信号を受信するステップと；
前記復号された出力信号をプレエンハンスメントし、プレエンハンスメント信号を生成するステップと；
前記プレエンハンスメント信号を使用して、雑音フィードバックフィルタ伝達関数を計算するステップと；
前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するステップと；
を含み、
前記雑音フィードバックを生成するステップは、
前記音声信号コーデックの前記復号された出力信号と前記入力音声信号との間の誤差を計算するステップと；
前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングするステップと；
前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加えるステップと；
を含む雑音成形方法。
請求項１１に記載の雑音成形方法において、前記音声信号コーデックがＩＴＵ−ＴＧ．７１１コーデックである雑音成形方法。
請求項１１に記載の雑音成形方法において、前記音声信号コーデックが少なくともレイヤ１およびレイヤ２を含むＩＴＵ−ＴＧ．７１１マルチレイヤコーデックを含む雑音成形方法。
請求項１１に記載の雑音成形方法において、前記復号された出力信号を受信するステップが、Ｇ．７１１マルチレイヤコーデックのレイヤ１から出力信号を受信するステップを含む雑音成形方法。
請求項１１に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を計算するステップが、Ａ（ｚ）が線形予測フィルタであり、γが加重ファクタである関係Ａ（ｚ／γ）−１を計算するステップを含む雑音成形方法。
請求項１１に記載の雑音成形方法において、前記復号された出力信号をプレエンハンスメントするステップが、μがプレエンハンスメントファクタであり、ｚがｚ変換領域を表す伝達関数１−μｚ^−１を有するフィルタを介して前記復号された出力信号を処理するステップを含む雑音成形方法。
請求項１６に記載の雑音成形方法において、前記プレエンハンスメントファクタμが、

がゼロ交差率であり、ｙ（ｎ）が前記復号信号であり、Ｎが前記復号信号のフレーム長であるμ＝１−０．００７８ｃに従い適応する雑音成形方法。
請求項１３に記載の雑音成形方法において、不安定性に対して前記雑音フィードバックフィルタ伝達関数を保護するステップをさらに含む雑音成形方法。
請求項１８に記載の雑音成形方法において、不安定性に対して前記雑音フィードバックフィルタ伝達関数を保護するステップが前記入力音声信号に関するサンプリング周波数の半値に近い周波数に集中するエネルギーを持つ信号を検出するステップを含む雑音成形方法。
請求項１９に記載の雑音成形方法において、前記サンプリング周波数の半値に近い前記周波数に集中する前記エネルギーを持つ前記信号を検出するステップが前記信号エネルギーの周波数分布を反映するパラメータｒを計算するステップを含む雑音成形方法。
請求項２０に記載の雑音成形方法において、前記信号エネルギーの前記周波数分布を反映する前記パラメータｒを計算するステップが、ｒ_０が第１の自動相関であり、ｒ_１がレイヤ１からの前記復号信号の第２の自動相関である、式

を計算するステップを含む雑音成形方法。
請求項２１に記載の雑音成形方法において、前記パラメータｒが一定の閾値を下回れば、前記雑音フィードバックを削減するステップをさらに含む雑音成形方法。
請求項２２に記載の雑音成形方法において、前記雑音フィードバックを削減するステップがファクタ

により前記雑音フィードバックフィルタ伝達関数を削減するステップを含む雑音成形方法。
請求項２３に記載の雑音成形方法において、ファクタαにより前記雑音フィードバックフィルタ伝達関数を削減するステップが、Ａ（ｚ）が前記プレエンハンスメント信号を基本に計算する線形予測フィルタであり、γが加重ファクタである減衰伝達関数Ａ（ｚ／αγ）−１を計算するステップを含む雑音成形方法。
請求項２１に記載の雑音成形方法において、所与の閾値より低いエネルギーを持つ低エネルギー信号を検出するステップをさらに含む雑音成形方法。
請求項２５に記載の雑音成形方法において、所与の閾値より低いエネルギーを持つ低エネルギー信号を検出するステップが不安定性に対して前記雑音フィードバックフィルタ伝達関数を保護するステップを含む雑音成形方法。
請求項２６に記載の雑音成形方法において、低エネルギー信号を検出するステップが前記第１の自動相関ｒ_０に関係して計算する正規化ファクタη_Ｌを計算するステップを含む雑音成形方法。
請求項２７に記載の雑音成形方法において、η_Ｌが一定の値より大きい場合、前記雑音フィードバックフィルタ伝達関数を減衰させるステップをさらに含む雑音成形方法。
請求項２８に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を減衰させるステップが加重ファクタをγ＝０．５に設定し、前記加重ファクタを前記雑音フィードバックフィルタ伝達関数に適用するステップを含む雑音成形方法。
請求項２５に記載の雑音成形方法において、デッドゾーン量子化をさらに含む雑音成形方法。
請求項３０に記載の雑音成形方法において、前記デッドゾーン量子化が低レベル信号に対して量子化レベルをゼロに設定するステップを含む雑音成形方法。
請求項１３に記載の雑音成形方法において、前記コーデックのエンコーダにおけるレイヤ１の雑音成形および前記コーデックのデコーダにおけるレイヤ２の雑音成形をさらに含む雑音成形方法。
請求項３２に記載の雑音成形方法において、前記エンコーダにおけるレイヤ１の雑音成形が量子化器の出力信号からレイヤ２を減算し、レイヤ１のみに基づいて雑音フィードバックを生成するステップを含む雑音成形方法。
請求項３２に記載の雑音成形方法において、前記デコーダにおけるレイヤ２の雑音成形が：
レイヤ１からの出力信号を計算するステップと；
レイヤ１からの前記計算された出力信号に基づきフィルタ伝達関数を計算するステップと；
レイヤ２からのエンハンスメント信号を計算するステップと；
前記計算されたフィルタ伝達関数を介してレイヤ２からの前記エンハンスメント信号をフィルタリングするステップと
を含む雑音成形方法。
請求項３２に記載の雑音成形方法において、レイヤ１コーデックとしてＧ．７１１コーデックをさらに含み、レイヤ１における雑音成形が従来のＧ．７１１デコーダとの相互動作性を維持するステップを含む雑音成形方法。
少なくともレイヤ１およびレイヤ２を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形方法であって、前記方法が：
前記エンコーダにおいて：
請求項１又は１１に記載の雑音成形方法を使用して、レイヤ１における雑音を成形するステップを含むレイヤ１における符号化音声信号を生成するステップと；
レイヤ２におけるエンハンスメント信号を生成するステップと；
前記デコーダにおいて：
前記エンコーダのレイヤ１からの前記符号化音声信号を復号し、合成音声信号を生成するステップと；
レイヤ２からの前記エンハンスメント信号を復号するステップと；
前記合成音声信号を使用して、フィルタ伝達関数を計算するステップと；
前記計算されたフィルタ伝達関数を介してレイヤ２の前記復号エンハンスメント信号をフィルタリングし、レイヤ２のフィルタリングされたエンハンスメント信号を生成するステップと；
レイヤ２の前記フィルタリングされたエンハンスメント信号を前記合成音声信号に加え、レイヤ１およびレイヤ２双方からの寄与を含む出力信号を生成するステップと
を含む雑音成形方法。
請求項３６に記載の雑音成形方法において、レイヤ１コーデックとしてＧ．７１１コーデックをさらに含み、レイヤ１における雑音成形が従来のＧ．７１１デコーダとの相互動作性を維持するステップを含む雑音成形方法。
請求項３６に記載の雑音成形方法において、前記エンコーダのレイヤ１における雑音を成形するステップが、レイヤ１からの過去の復号信号をプレエンハンスメントし、前記プレエンハンスメント信号を生成するステップを含む雑音成形方法。
請求項３８に記載の雑音成形方法において、レイヤ１およびレイヤ２量子化器を介して処理することにより生成する雑音を表す雑音フィードバックを生成するステップをさらに含む雑音成形方法。
請求項３９に記載の雑音成形方法において、雑音フィードバックを生成するステップが前記レイヤ１およびレイヤ２量子化器の出力信号からレイヤ２の前記エンハンスメント信号を除去するステップを含む雑音成形方法。
請求項３６に記載の雑音成形方法において、前記デコーダにおける前記フィルタ伝達関数を計算するステップが、Ａ（ｚ）がレイヤ１からの前記合成音声信号に関して計算する線形予測フィルタであり、γが加重ファクタに相当する、式

を計算するステップを含む雑音成形方法。
請求項３６に記載の雑音成形方法において、所与の閾値を下回り低減する合成音声信号を抑制する雑音ゲートを前記デコーダにおいて使用するステップをさらに含む雑音成形方法。
請求項４２に記載の雑音成形方法において、前記合成音声信号を抑制するステップが前記合成音声信号のエネルギーを徐々に減衰させるステップをさらに含む雑音成形方法。
請求項４３に記載の雑音成形方法において、前記合成音声信号の目標利得を計算するステップをさらに含む雑音成形方法。
請求項４４に記載の雑音成形方法において、前記合成音声信号の前記目標利得を計算するステップが、Ｅ_ｔが２フレームに亘る前記合成音声信号のエネルギーである式

を計算するステップを含む雑音成形方法。
音声信号コーデックによる入力音声信号の符号化過程における雑音成形デバイスであって、前記デバイスが：
前記入力音声信号をプレエンハンスメントし、プレエンハンスメント音声信号を生成する手段と；
前記プレエンハンスメント音声信号を使用して、雑音フィードバックフィルタ伝達関数を計算する手段と；
前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と；
を含み、
前記雑音フィードバックを生成する手段は、
前記音声信号コーデックの出力信号と前記入力音声信号との間の誤差を計算する手段と；
前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングする手段と；
前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加える手段と；
を含む雑音成形デバイス。
請求項４６に記載の雑音成形デバイスにおいて、前記音声信号コーデックがＩＴＵ−ＴＧ．７１１コーデックを含む雑音成形デバイス。
請求項４６に記載の雑音成形デバイスにおいて、前記入力音声信号をプレエンハンスメントする手段が、μが適応型プレエンハンスメントファクタであり、ｚがｚ変換領域を表す伝達関数１−μｚ^−１を有するプレエンハンスメントフィルタを含む雑音成形デバイス。
請求項４８に記載の雑音成形デバイスにおいて、前記適応型プレエンハンスメントファクタμの計算器をさらに含む雑音成形デバイス。
請求項４６に記載の雑音成形デバイスにおいて、前記誤差を計算する手段が前記音声信号コーデックからの前記出力信号と前記入力音声信号との差分を計算する加算器を含む雑音成形デバイス。
請求項４６に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段が、Ａ（ｚ）が線形予測フィルタであり、γが加重ファクタである伝達関数Ａ（ｚ／γ）−１を持つフィルタをさらに含む雑音成形デバイス。
音声信号コーデックによる入力音声信号の符号化過程における雑音成形デバイスであって、前記デバイスが：
前記入力音声信号の供給を受ける前記音声信号コーデックの出力から復号信号を受信する手段と；
前記復号された出力信号をプレエンハンスメントし、プレエンハンスメント信号を生成する手段と；
前記プレエンハンスメント信号に関する雑音フィードバックフィルタ伝達関数を計算する手段と；
前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と；
を含み、
前記雑音フィードバックを生成する手段は、
前記音声信号コーデックの前記復号された出力信号と前記入力音声信号との間の誤差を計算する手段と；
前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングする手段と；
前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加える手段と；
を含む雑音成形デバイス。
請求項５２に記載の雑音成形デバイスにおいて、前記音声信号コーデックがＧ．７１１コーデックである雑音成形デバイス。
請求項５２に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段が、Ａ（ｚ）が線形予測フィルタであり、γが加重ファクタである伝達関数Ａ（ｚ／γ）−１を持つフィルタを含む雑音成形デバイス。
請求項５２に記載の雑音成形デバイスにおいて、前記復号された出力信号をプレエンハンスメントする手段が、μが適応型プレエンハンスメントファクタであり、ｚがｚ変換領域を表す伝達関数１−μｚ^−１を有するプレエンハンスメントフィルタを含む雑音成形デバイス。
請求項５５に記載の雑音成形デバイスにおいて、前記適応型プレエンハンスメントファクタμの計算器をさらに含む雑音成形デバイス。
請求項５２に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段の不安定性に対し前記雑音フィードバックを生成する手段を保護する保護要素をさらに含む雑音成形デバイス。
請求項５７に記載の雑音成形デバイスにおいて、前記保護要素がサンプリング周波数の半値に近い周波数に集中するエネルギーを持つ信号の検出器を含む雑音成形デバイス。
請求項５８に記載の雑音成形デバイスにおいて、前記復号された出力信号の第１と第２の自動相関との間の割合であって、前記信号エネルギーの周波数分布を表す前記割合の計算器をさらに含む雑音成形デバイス。
請求項５２に記載の雑音成形デバイスにおいて、前記雑音フィードバックを低減する利得コントローラをさらに含む雑音成形デバイス。
請求項５２に記載の雑音成形デバイスにおいて、低エネルギー信号に対して量子化レベルをゼロに設定するデッドゾーン量子化器をさらに含む雑音成形デバイス。
少なくともレイヤ１およびレイヤ２を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形デバイスであって、前記デバイスが：
前記エンコーダにおいて：
レイヤ１における雑音を成形する請求項４６又は５２に記載の雑音成形デバイスを含む音声信号を符号化する手段と；
レイヤ２におけるエンハンスメント信号を生成する手段と；
前記デコーダにおいて：
前記エンコーダのレイヤ１からの前記符号化音声信号を復号し、合成音声信号を生成する手段と；
レイヤ２からの前記エンハンスメント信号を復号する手段と；
前記合成音声信号を使用して、フィルタ伝達関数を計算する手段と；
前記計算されたフィルタ伝達関数を介してレイヤ２からの前記復号されたエンハンスメント信号をフィルタリングし、レイヤ２のフィルタリングされたエンハンスメント信号を生成する手段と；
レイヤ２の前記フィルタリングされたエンハンスメント信号を前記合成音声信号に加え、レイヤ１およびレイヤ２双方からの寄与を含む出力信号を生成する手段と
を含む雑音成形デバイス。
請求項６２に記載の雑音成形デバイスにおいて、前記符号化デバイスにおけるプレエンハンスメントフィルタをさらに含む雑音成形デバイス。
請求項６２に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段が、Ａ（ｚ）が線形予測フィルタであり、γが加重ファクタであるＡ（ｚ／γ）−１の伝達関数を持つフィルタを含む雑音成形デバイス。
請求項６２に記載の雑音成形デバイスにおいて、前記音声信号コーデックがＩＴＵ−ＴＧ．７１１コーデックを含む雑音成形デバイス。
請求項６２に記載の雑音成形デバイスにおいて、所与の閾値に劣るエネルギーレベルを持つ前記合成音声信号を抑制する雑音ゲートをさらに含む雑音成形デバイス。