JP5551692B2

JP5551692B2 - 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム

Info

Publication number: JP5551692B2
Application number: JP2011516978A
Authority: JP
Inventors: ラルフガイガー; ベルンハルトグリル; ブリュノベセトゥ; フィリップグルネー; ギヨームフックス; マルクスマルトラス; マクスノイエンドルフ; ゲラルドシューラー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ; ヴォイスエイジ・コーポレーション
Priority date: 2008-07-11
Filing date: 2009-06-04
Publication date: 2014-07-16
Anticipated expiration: 2029-06-04
Also published as: KR20110043592A; BRPI0910527B1; RU2011102422A; JP2011527444A; CA2730195C; BRPI0910527A2; WO2010003491A1; AU2009267555A1; CA2730195A1; EP2144171B1; CN102089758B; EP2144171A1; RU2507572C2; KR101516468B1; CN102089758A; ES2683077T3

Description

本発明は、抽出された音声信号のフレームを符号化するための音声符号器、復号化するための音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムに関する。音声信号は、異なる符号化演算法を有する、２つの異なる音声符号器によって処理される。

低いビット速度の音声およびスピーチ符号化技術の文脈の中で、従来より、いくつかの異なる符号化技法が、最も可能な主観的品質を有する信号の低いビット速度の符号化を達成するために、所定のビット速度で使われてきた。一般的な音楽／音響信号のための符号器は、マスキング閾値曲線に従って、量子化誤差のスペクトルの（一時的な）形を形成することによって、主観的品質を最適化することを目的とする。マスキング閾値曲線は、知覚モデル（「知覚音声符号化」）によって、入力信号から想定される。他方、非常に低いビット速度のスピーチの符号化は、人間のスピーチの製作モデルに基づくとき、すなわち、線形予測符号化（ＬＰＣ）を使って、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化するとき、非常に効率良く働くように見える。

これらの２つの異なる取り組みの結果として、一般的な音声符号器は、通常、スピーチ源モデルの開発不足のため、ＬＰＣに基づいた専用スピーチ符号器と同様、非常に低いデータ速度のスピーチ信号を実行しない。一般的な音声符号器は、ＭＰＥＧ−１３層（ＭＰＥＧは、ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐの略である。）、または、ＭＰＥＧ−２／４の発展した音声符号化（ＡＡＣ）などである。逆に、一般的な音楽信号に適用される場合、マスキング閾値曲線に従って、符号化歪みのスペクトル包絡線を柔軟に形成できないため、ＬＰＣに基づいたスピーチ符号器は、通常、納得のいく結果を達成しない。以下では、ＬＰＣに基づいた符号化と知覚音声符号化との両方の利点を、一つの枠組みに結合する概念が説明される。その結果、一般的な音声信号とスピーチ信号との両方に効率の良い、統一された音声符号化が、説明される。

従来より、知覚音声符号器は、マスキング閾値曲線の想定に従って、効率良く音声信号を符号化するために、フィルタバンクに基づいた取り組みを使用し、量子化歪みを形成する。

図１６は、単旋律の知覚符号化システムの基本的なブロック図を示す。分析フィルタバンク１６００は、時間領域サンプルを、副抽出したスペクトル成分に写像するために使用される。このシステムは、スペクトル成分の数に依存して、副帯域符号器（小さい数の副帯域、例えば３２個）、または、変換符号器（大きな数の周波数線、例えば５１２本）とも称される。知覚（「心理音響」）モデル１６０２は、マスキング閾値に依存した実際の時間を想定するために使用される。スペクトル（「副帯域」または「周波数領域」）成分は、量子化雑音が実際の伝達信号の下に隠され、かつ、復号化後に知覚できないような方法で、量子化および符号化１６０４される。これは、時間および周波数にわたって、スペクトル値の量子化の粒状性を変更することによって達成される。

量子化およびエントロピー符号化された、スペクトル係数または副帯域値が、副情報に加えて、ビットストリーム形式器１６０６に入力される。ビットストリーム形式器１６０６は、送信または保存に適した、符号化された音声信号を提供する。ビットストリーム形式器１６０６の出力ビットストリームは、インターネットを通して送信され、または、機械読取可能なデータ担持体に保存される。

復号器側では、復号器入力インターフェース１６１０が、符号化されたビットストリームを受信する。復号器入力インターフェース１６１０は、副情報から、エントロピー符号化および量子化されたスペクトル値／副帯域値を分離する。符号化されたスペクトル値は、復号器入力インターフェース１６１０と再量子化器１６２０との間に位置するハフマン復号器などのエントロピー復号器に入力される。このエントロピー復号器の出力は、量子化されたスペクトル値である。これらの量子化されたスペクトル値は、再量子化器１６２０に入力される。再量子化器１６２０は、逆量子化を実行する。再量子化器１６２０の出力は、合成フィルタバンク１６２２に入力される。合成フィルタバンク１６２２は、周波数／時間変換と、時間領域折り返し雑音除去操作（重複、加算、および／または、合成側窓化操作など）と、を含む合成フィルタリングを実行し、最終的に出力音声信号を得る。

従来より、効率の良いスピーチ符号化は、線形予測符号化（ＬＰＣ）に基づいており、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化する。ＬＰＣと励振パラメータの両方は、符号器から復号器に送信される。この原則は図１７ａおよび図１７ｂに示される。

図１７ａは線形予測符号化に基づいた符号化／復号化システムの符号器側を示す。スピーチ入力は、ＬＰＣフィルタ係数を出力するＬＰＣ分析器１７０１に入力される。ＬＰＣフィルタ１７０３は、これらのＬＰＣフィルタ係数に基づいて調整される。ＬＰＣフィルタ１７０３は、スペクトル的に白くされた音声信号（「予測誤差信号」とも称される）を出力する。このスペクトル的に白くされた音声信号は、励振パラメータを発生させる残留／励振符号器１７０５に入力される。したがって、スピーチ入力が、一方では、励振パラメータに符号化され、他方では、ＬＰＣ係数に符号化される。

図１７ｂに示された復号器側では、励振パラメータが、励振信号を発生させる励振復号器１７０７に入力される。励振信号は、ＬＰＣ合成フィルタ１７０９に入力される。ＬＰＣ合成フィルタ１７０９は、送信されたＬＰＣフィルタ係数を使用して調整される。したがって、ＬＰＣ合成フィルタ１７０９は、再構成された、または、合成されたスピーチ出力信号を発生する。

時間の経過と共に、多くの方法が、残留（励振）信号の、効率が良く、かつ、知覚的に納得のいく表現に関して、提案されてきた。残留（励振）信号は、多重パルス励振（ＭＰＥ）、正規パルス励振（ＲＰＥ）、符号励振線形予測（ＣＥＬＰ）などがある。

線形予測符号化は、過去の観測値の線形結合（一次結合）として、過去の所定の数の観測値に基づいた系列の現在のサンプルの期待値を生むことを試みる。入力信号の冗長を減らすために、符号器ＬＰＣフィルタ１７０３は、スペクトル包絡線の中の入力信号を「白く」する。すなわち、符号器ＬＰＣフィルタ１７０３は、信号のスペクトル包絡線の逆のモデルである。逆に、復号器ＬＰＣ合成フィルタ１７０９は、信号のスペクトル包絡線のモデルである。特に、周知の自動後退（ＡＲ）線形予測分析法が、全極近似によって信号のスペクトル包絡線をモデル化することが知られている。

通常、狭帯域スピーチ符号器（すなわち、８ｋＨｚの標本抽出割合（サンプリング速度）を有するスピーチ符号器）は、８と１２の間の順でＬＰＣフィルタを用いる。ＬＰＣフィルタの性質によれば、一定の周波数分析能は、周波数領域全体にわたって有効である。これは知覚周波数目盛に対応していない。

従来のＬＰＣ／ＣＥＬＰに基づいた符号化の強度（スピーチ信号のための最も良い品質）と、従来のフィルタバンクに基づいた知覚音声符号化手法（音楽に、最も良い）と、を結合するために、これらの構造物の間の結合符号化が、提案されてきた。ＡＭＲ−ＷＢ＋符号器（適応型多重速度広帯域符号器、ＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅＢａｎｄｃｏｄｅｒ）の中では、二者択一の２つの符号化カーネル（ＯＳの中枢部）が、ＬＰＣ残留信号を操作する（非特許文献１参照）。一方の符号化カーネルは、ＡＣＥＬＰ（代数符号励振線形予測、ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）、すなわち、音楽信号に対して良質の状態を達成するために、従来の音声符号化技術に類似している符号化手法に基づいたフィルタバンクに基づいており、スピーチ信号の符号化に対して、非常に効率が良い。他方の符号化カーネルは、ＴＣＸ（変換符号励振、ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）に基づいている。入力信号の特性によって、２つの符号化モードの１つが、ＬＰＣ残留信号を送信するために、短期間に選択される。このようにして、８０ｍｓ持続時間のフレームが、４０ｍｓまたは２０ｍｓの副フレームに分離され、副フレームの中で、２つの符号化モードの間の決定がされる。

ＡＭＲ−ＷＢ＋符号器（拡張適応型多重速度広帯域符号器）は、２つの本質的に異なるモードＡＣＥＬＰとＴＣＸとを切り換えることができる（非特許文献２参照）。ＡＣＥＬＰモードでは、時間領域信号が、代数符号励振によって符号化される。ＴＣＸモードでは、高速フーリエ変換（ＦＦＴ）が使用され、ＬＰＣ重み付け信号のスペクトル値が、ベクトル量子化に基づいて符号化される。励振信号は、復号器にて、ＬＰＣ重み付け信号から引き出される。

どのモードを使用するかの決定が、試行化と復号化の両方の選択肢と、結果として生じる信号対雑音比（ＳＮ比）の比較とによって、行われる。

この場合は、閉ループ決定とも称される。閉じている制御ループが存在するので、符号化性能、および／または、効率を評価し、次に、一方を捨てることによって、より良いＳＮ比を有する他方を選ぶ。

音声符号化やスピーチ符号化の応用に対して、窓化を有さないブロック変形（フレーム変形）が実行できないことは、周知である。したがって、ＴＣＸモードに対して、信号は、１／８の重複を有する低重複窓で窓化される。この重複している領域は、次のブロック（フレーム）が次第に現れる間に、先のブロック（フレーム）が次第に消えるために、例えば、連続した音声フレームの非相関量子化雑音による人工物（雑音）を抑制するために、必要である。こうして、非臨界的抽出（サンプリング）と比較される負荷（オーバーヘッド）が、合理的に低く保たれ、閉ループ決定に必要な復号化は、現在のフレームの少なくとも７／８のサンプルで再構成する。

ＡＭＲ−ＷＢ＋符号器は、ＴＣＸモードの中の１／８の負荷（オーバーヘッド）を導入する。すなわち、符号化されるべきスペクトル値の数は、入力サンプル数より１／８多い。これは、データ負荷の増加という不利な点を提供する。そのうえ、対応する帯域通過フィルタの周波数特性も、連続したフレームの１／８の急勾配の重複領域のため、不利である。

図１８は、連続したフレームの符号負荷および重複について、もう少し詳しく説明するために、窓パラメータの定義を示す。図１８に示された窓は、左側の立ち上がりエッジ領域（左重複領域とも称される）Ｌと、中央領域（１の領域または通過部分とも称される）Ｍと、立ち下がりエッジ領域（右重複領域とも称される）Ｒとを有する。さらに、図１８は、フレーム内の完全再構成の領域ＰＲを指示する矢印を示している。さらに、図１８は、変換コアの長さＴを指示する矢印を示している。

図１９は、図１８に従って、ＡＭＲ−ＷＢ＋符号器の窓系列のグラフと、その下部分に窓パラメータの表を示している。図１９の上部分に示された窓系列は、ＡＣＥＬＰフレーム、ＴＣＸ２０フレーム（２０ｍｓ持続時間のフレーム）、ＴＣＸ２０フレーム、ＴＣＸ４０フレーム（４０ｍｓ持続時間のフレーム）、ＴＣＸ８０フレーム（８０ｍｓ持続時間のフレーム）、ＴＣＸ２０フレーム、ＴＣＸ２０フレーム、ＡＣＥＬＰフレーム、ＡＣＥＬＰフレームである。

窓系列からは、変化している重複部分が認められる。変化している重複部分は、正確に、中央領域Ｍの１／８だけ重複している。図１９の下部分の表は、変換コアの長さＴが、常に、新しい完全再構成されたサンプルの領域ＰＲより、１／８だけ大きいことを示す。さらに、これは、ＡＣＥＬＰフレームからＴＣＸフレームへの転移の場合だけではなく、ＴＣＸｘ（「ｘ」は、任意の長さのＴＣＸフレームを示す）フレームからＴＣＸｘフレームへの転移の場合でも存在することに注目するべきである。したがって、各ブロック（フレーム）において、１／８の負荷（オーバーヘッド）が導入される。すなわち、臨界的抽出は、決して達成されない。

ＴＣＸフレームからＡＣＥＬＰフレームに切り替わるとき、窓サンプルは、その重複領域（例えば、図１９の上部分の領域１９００）の中のＦＦＴ−ＴＣＸフレームから捨てられる。ＡＣＥＬＰフレームからＴＣＸフレームに切り替わるとき、窓化された無入力応答（ＺＩＲ）は、窓化のために符号器で取り除かれ、回復化のために復号器で加えられる。窓化された無入力応答（ＺＩＲ）は、図１９の上部分で点線１９１０によって示されている。ＴＣＸフレームからＴＣＸフレームに切り替わるとき、窓化されたサンプルは、相互フェードのために使用される。ＴＣＸフレームは、様々に量子化できるので、連続したフレームの間の量子化誤差または量子化雑音は、異なる、および／または、独立している。そのほかに、相互フェード無しで、あるフレームから次のフレームに切り替わるとき、目を引く人工物（雑音）が生じる。したがって、相互フェードが、所定の品質を達成するために必要である。

図１９の下部分の表から、フレームの成長長さと共に、相互フェード領域が成長する、ということが認められる。図２０は、ＡＭＲ−ＷＢ＋符号器内の可能な転移のための様々な窓の図と共に、別の表を提供する。ＴＣＸフレームからＡＣＥＬＰフレームに転移するとき、重複しているサンプルは捨てられる。ＡＣＥＬＰフレームからＴＣＸフレームに転移するとき、ＡＣＥＬＰフレームからの無入力応答は、符号器で取り除かれて、回復化のために復号器で加えられる。

Ｂ．ベセット、Ｒ．ルフェーヴル、Ｒ．サラミ、「ハイブリッドＡＣＥＬＰ／ＴＣＸ技術を使用する普遍的なスピーチ／音声符号化」、ＩＥＥＥＩＣＡＳＳＰ会報２００５年度、３０１〜３０４ページ、２００５年３ＧＰＰ（第３世代共同プロジェクト）技術仕様書Ｎｏ．２６．２９０、バージョン６．３．０、２００５年６月

１／８の負荷（オーバーヘッド）が、常に、導入されることは、ＡＭＲ−ＷＢ＋符号器の重要な不具合である。

それゆえに、本発明の主たる目的は、抽出された音声信号のフレームを、効率良く符号化するための音声符号器、復号化するための音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムを提供することである。

本発明の目的は、請求項１に記載の音声符号器、請求項１２に記載の音声符号化方法、請求項１４に記載の音声復号器、および請求項２０に記載の音声復号化方法により達成される。

本発明は、仮に、時間折り返し雑音導入変換が、例えば、ＴＣＸ符号化のために使用されるならば、より効率の良い符号化を行うことができるという発見に基づいている。時間領域折り返し雑音導入変換は、隣接フレーム間に相互フェードがまだ生じている間、臨界的抽出を達成できる。例えば、変形離散余弦変換（ＭＤＣＴ＝ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）は、重複している時間領域フレームを周波数領域に変形するために使用される。この特定の変換は、２Ｎ個の時間領域サンプルに対して、Ｎ個の周波数領域サンプルだけを生産するので、時間領域フレームが５０％だけ重複しても、臨界的抽出が維持される。復号器または逆時間折り返し雑音導入変換にて、重複および加算ステージが、時間領域折り返し雑音除去（ＴＤＡＣ＝ＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇＣａｎｃｅｌａｔｉｏｎ）が実行される方法で、時間折り返し雑音重複および逆変換された時間領域サンプルを結合するために適用される。

本発明は、周波数領域と時間領域との切り換えの文脈の中で、例えば、ＡＭＲ−ＷＢ＋のような、低重複窓を有する符号化が使用される。本発明は、非臨界的抽出されたフィルタバンクの代わりにＭＤＣＴを使用する。このように、非臨界的抽出による負荷（オーバーヘッド）は、例えば、ＭＤＣＴの臨界的抽出の特性に基づいて、有利に減少する。さらに、より長い重複が、追加の負荷を導入することなく、可能である。本発明は、より長い負荷に基づいて、相互フェードが、より円滑に行なわれる、言い換えれば、音質が復号器で増加する、という利点を提供できる。

１つの詳細な実施形態では、ＡＭＲ−ＷＢ＋の機能性、特に、閉ループまたは開ループの決定に基づいたＡＣＥＬＰモードとＴＣＸモードとの間の切り換えを維持している間、ＡＭＲ−ＷＢ＋ＴＣＸモードの中のＦＦＴは、ＭＤＣＴによって置き替えられる。本発明は、ＡＣＥＬＰフレームの後の最初のＴＣＸフレームのために、非臨界的抽出された態様でＭＤＣＴを使用し、次に、全てのその後のＴＣＸフレームのために、臨界的抽出された態様でＭＤＣＴを使用する。本発明は、変形されていないＡＭＲ−ＷＢ＋に類似した低重複窓を有するにもかかわらず、より長い重複を有するＭＤＣＴを使用して、閉ループ決定の特徴を保有する。これは、変形されていないＴＣＸ窓と比べて、より良い周波数応答の利点を提供する。

この発明の上述の目的，その他の目的，特徴および利点は、図面を基準して行う以下の発明を実施するための形態の説明から一層明らかとなろう。

音声符号器の一実施形態を示すブロック図である。時間領域折り返し雑音を導入している変換の一実施形態のための方程式を示す図である。音声符号器の別の一実施形態を示すブロック図である。音声符号器のさらに別の一実施形態を示すブロック図である。音声符号器のさらに別の一実施形態を示すブロック図である。音声符号器のさらに別の一実施形態を示すブロック図である。図４ａは、有声スピーチのための時間領域スピーチ信号のサンプルを示すグラフであり、図４ｂは、有声スピーチ信号サンプルのスペクトルを示すグラフである。図５ａは、無声スピーチのための時間領域スピーチ信号のサンプルを示すグラフであり、図５ｂは、無声スピーチ信号サンプルのスペクトルを示すグラフである。分析／合成ＣＥＬＰの一実施形態を示すブロック図である。短期予測情報と予測誤差信号とを提供している符号器側ＡＣＥＬＰステージを示すブロック図である。音声復号器の一実施形態を示すブロック図である。音声復号器の別の一実施形態を示すブロック図である。音声復号器のさらに別の一実施形態を示すブロック図である。窓関数の一実施形態を示すグラフである。窓関数の別の一実施形態を示すグラフである。従来および本実施形態の、窓関数と遅延とを示すグラフである。窓パラメータを説明するための説明図である。窓関数の系列を示すグラフおよび窓パラメータを示す表である。ＭＤＣＴに基づいた一実施形態の可能な転移を示す表である。一実施形態の可能な転移を示す表である。１つの実施形態に従って、ＡＣＥＬＰフレームからＴＣＸ８０フレームへの転移窓を示すグラフである。１つの実施形態に従って、ＴＣＸｘフレームからＴＣＸ２０フレームへの転移窓を示すグラフである。１つの実施形態に従って、ＡＣＥＬＰフレームからＴＣＸ２０フレームへの転移窓を示すグラフである。１つの実施形態に従って、ＡＣＥＬＰフレームからＴＣＸ４０フレームへの転移窓を示すグラフである。１つの実施形態に従って、ＴＣＸｘフレームからＴＣＸ８０フレームを経て、ＴＣＸｘフレームへの転移窓を示すグラフである。１つの実施形態に従って、ＡＣＥＬＰフレームからＴＣＸ８０フレームへの転移を示すグラフである。従来の符号器および復号器の例を示すブロック図である。従来のＬＰＣ符号化を示すブロック図である。従来のＬＰＣ復号化を示すブロック図である。従来の相互フェード窓を説明するためにの説明図である。従来のＡＭＲ−ＷＢ＋符号器の窓系列を示すグラフおよび窓パラメータを示す表である。ＡＭＲ−ＷＢ＋符号器のＡＣＥＬＰフレームとＴＣＸフレームとの間の転移で使用される窓を示す表である。

図１は音声符号器１０を示す。音声符号器１０は、抽出された音声信号のフレームを符号化するために適用され、符号化されたフレームを得る。フレームは、多数の時間領域音声サンプルを含む。音声符号器１０は、音声サンプルのフレームに基づいて、合成フィルタの係数情報および予測領域フレームを決定するための予測符号化分析ステ−ジ１２を含む。例えば、予測領域フレームは、励振フレームに基づくことができる。予測領域フレームは、ＬＰＣ領域信号のサンプルまたは重み付けされたサンプルを含む。合成フィルタの励振信号は、ＬＰＣ領域信号から得られる。言い換えると、本実施形態において、予測領域フレームは、合成フィルタの励振信号のサンプルを含む励振フレームに基づく。

本実施形態では、予測領域フレームは、励振フレームのフィルタバージョンに対応する。例えば、知覚フィルタリングは、励振フレームに適用され、予測領域フレームを得る。別の実施形態では、高帯域通過または低帯域通過フィルタリングは、励振フレームに適用され、予測領域フレームを得る。さらに別の実施形態では、予測領域フレームは、直接に、励振フレームに対応する。

音声符号器１０は、さらに、重複予測領域フレームを周波数領域に変換して、予測領域フレームスペクトルを得るための時間領域折り返し雑音導入変換器１４を含む。時間領域折り返し雑音導入変換器１４は、臨界的抽出方法で、重複予測領域フレームを変換するように設けられる。音声符号器１０は、さらに、予測領域フレームスペクトルを符号化して、合成フィルタの係数情報と符号化された予測領域フレームスペクトルとに基づいて、符号化されたフレームを得るための冗長減少符号器１６を含む。

冗長減少符号器１６は、予測領域フレームスペクトル、および／または、合成フィルタの係数情報を符号化するために、ハフマン（Ｈｕｆｆｍａｎ）符号化またはエントロピー符号化を使用するように設けられる。

本実施形態では、時間領域折り返し雑音導入変換器１４は、重複予測領域フレームを変換するように設けられる。その結果、予測領域フレームスペクトルの平均サンプル数は、予測領域フレームの中の平均サンプル数と等しい。従って、フレームは、臨界的抽出を達成する。さらに、時間領域折り返し雑音導入変換器１４は、変更離散的余弦変換（ＭＤＣＴ、ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）に従って、重複予測領域フレームを変換するように設けられる。

以下では、変更離散的余弦変換（ＭＤＣＴ）が、図２に示した方程式（ａ）〜（ｊ）によって、詳細に説明される。変更離散的余弦変換（ＭＤＣＴ）は、重複されているという追加特性を有した４型離散的余弦変換（ＤＣＴ−ＩＶ）に基づいたフーリエ関連変換である。すなわち、より大きいデータセットの連続したブロック（フレーム）が実行されるように設計される。連続したブロック（フレーム）が重複されるので、例えば、１つのブロック（フレーム）の後半が、次のブロック（フレーム）の前半と一致する。この重複は、ＤＣＴのエネルギー圧縮品質に加えて、信号圧縮応用のために、ＭＤＣＴを特に魅力的に作る。それは、ブロック（フレーム）境界から生じる人工物（雑音）を避けることを助けるからである。したがって、ＭＤＣＴは、例えば、音声圧縮のために、ＭＰ３（ＭＰＥＧ２／４層３）、ＡＣ−３（ドルビーによる音声符号器３）、オッグボルビス（ＯｇｇＶｏｒｂｉｓ）、および、ＡＡＣ（発展した音声符号化）で使われる。

ＭＤＣＴは、プリンセンとブラッドレーによる初期研究（１９８６年）に続いて、１９８７年に、時間領域折り返し雑音除去（ＴＤＡＣ）のＭＤＣＴ基本原則を開発するために、プリンセン、ジョンソン、およびブラッドレーによって提案された。ＭＤＣＴは、以下でさらに説明される。また、類似の変換である、離散的正弦変換（ＤＳＴ）に基づいたＭＤＳＴが存在する。ＭＤＳＴは、様々の型のＤＣＴまたはＤＣＴ／ＤＳＴの組み合わせに基づいたＭＤＣＴの別の形式と同様に、稀に使用される。また、ＭＤＳＴは、本実施形態において、時間領域折り返し雑音導入変換器１４によって使用される。

ＭＰ３において、ＭＤＣＴは、直接に音声信号に適用されず、むしろ、３２帯域多相矩形フィルタバンク（ＰＱＦ、ＰｏｌｙｐｈａｓｅＱｕａｄｒａｔｕｒｅＦｉｌｔｅｒｂａｎｋ）の出力に適用される。このＭＤＣＴの出力は、折り返し雑音減少公式によって後処理され、ＰＱＦの典型的な折り返し雑音を減少する。ＭＤＣＴを有するフィルタバンクのそのような組み合わせは、ハイブリッドフィルタバンクまたは副帯域ＭＤＣＴと称される。他方、ＡＡＣは、通常、純粋なＭＤＣＴを使用する。（稀に使用される）ＭＰＥＧ−４ＡＡＣ−ＳＳＲ変形（ソニー製）だけが、ＭＤＣＴに従う４帯域ＰＱＦを使用する。適応型変換音声符号化（ＡＴＲＡＣ）は、ＭＤＣＴに従う積み重ねられた矩形鏡フィルタ（ＱＭＦ、ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）を使用する。

この変換の前の規格化係数は、ここでの約束であるが、任意の条件であり、相互に異なる。ＭＤＣＴとＩＭＤＣＴとの規格化の積だけが、以下で制限される。

逆ＭＤＣＴは、ＩＭＤＣＴとして知られている。入力および出力の異なる数が存在するので、一見したところ、ＭＤＣＴは逆にさせられないように見えるかもしれない。しかしながら、完全な可逆性は、連続した重複ブロック（フレーム）の重複ＩＭＤＣＴを加えることによって達成され、誤差の除去と元データの検索とが引き起こされる。この技術は、時間領域折り返し雑音除去（ＴＤＡＣ）として知られている。

ＩＭＤＣＴは、図２の（ｂ）の公式に従って、Ｎ個の実数Ｘ₀，・・・，Ｘ_N-1を、２Ｎ個の実数ｙ₀，・・・，ｙ_2N-1に変換する。ＤＣＴ−ＩＶのように、直交変換は、その逆が、前の変換と同じ形式を有する。

通常の窓正規化（以下、参照）を有する窓化されたＭＤＣＴの場合、ＩＭＤＣＴの前の規格化係数は、２を乗算されるべきであり、すなわち、２／Ｎになる。

ＭＤＣＴ公式の直接応用は、Ｏ（Ｎ²）操作を必要とするけれども、高速フーリエ変換（ＦＦＴ）のように、計算を再帰的に因数に分析することによって、Ｏ（ＮｌｏｇＮ）の複雑さだけを有するＭＤＣＴ公式を計算することは、可能である。また、Ｏ（Ｎ）前処理および後処理のステップを組み合わされた他の変換（通常、ＤＦＴ（ＦＦＴ）またはＤＣＴ）を介して、ＭＤＣＴを計算できる。また、以下で説明されるように、ＤＣＴ−ＩＶのどんな演算法も、すぐに、等しいサイズのＭＤＣＴおよびＩＭＤＣＴを計算するための方法を提供する。

通常の信号圧縮の応用において、変換特性は、窓関数ｗ_n（ｎ＝０，・・・，２Ｎ−１）を使用することによって、さらに改良される。窓関数ｗ_nは、ｎ＝０と２Ｎのポイントで窓関数ｗ_nを円滑にゼロにすることによって、ｎ＝０と２Ｎの境界で不連続を避けるために、上のＭＤＣＴおよびＩＭＤＣＴの公式の中で、ｘ_nとｙ_nとが乗算される。すなわち、データは、ＭＤＣＴの前とＩＭＤＣＴの後に、窓化される。原則として、ｘとｙは異なる窓関数を有し、また、窓関数ｗ_nは、特に、異なるサイズのデータブロック（フレーム）が組み合わされる場合、１つのブロック（フレーム）から次のブロック（フレーム）に変化する。しかし、簡単のために、等しいサイズのブロック（フレーム）が組み合わされて同じ窓関数となる、よくある場合が、最初に考えられる。

変換は可逆のまま残る。すなわち、ｗが、図２の（ｃ）に従って、プリンセン−ブラッドレー条件を満足する限り、ＴＤＡＣは、対称窓ｗ_n＝ｗ_2N-1-nに対して働く。

様々な異なる窓関数は一般的である。一例として、ＭＰ３およびＭＰＥＧ−２ＡＡＣのためには、図２の（ｄ）の窓関数ｗ_nが与えられる。そして、ボルビス（Ｖｏｒｂｉｓ）のためには、図２の（ｅ）の窓関数ｗ_nが与えられる。ＡＣ−３はカイザー−ベッセル（Ｋａｉｓｅｒ−Ｂｅｓｓｅｌ）から派生した窓を使用する。また、ＭＰＥＧ−４ＡＡＣも、カイザー−ベッセルから派生した窓を使用する。

ＭＤＣＴに適用される窓は、プリンセン−ブラッドレー条件を達成しなければならないので、他のタイプの信号分析に使用される窓と異なることに注目するべきである。この違いの理由の１つは、ＭＤＣＴの窓が、ＭＤＣＴ（分析フィルタ）とＩＭＤＣＴ（合成フィルタ）の両方に対して、２度適用されるということである、

定義の点検によって判るように、等しいＮに対して、ＭＤＣＴは本質的にＤＣＴ−ＩＶと同等である。入力が（Ｎ／２）だけ移行すると、データの２つのＮ−ブロック（フレーム）は、同時に変換される。より慎重にこの等価性を調べることによって、ＴＤＡＣのような重要な特性が容易に引き出される。

ＤＣＴ−ＩＶとの正確な関係を定義するために、ＤＣＴ−ＩＶは、二者択一の偶数／奇数の境界条件に対応するということを理解しなければならない。ＤＣＴ−ＩＶは、その左側の境界（ｎ＝−（１／２）の周囲）で偶数であり、その右側の境界（ｎ＝Ｎ−（１／２））の周囲）で奇数などである。ＤＦＴのような場合には、周期的境界に代わる。これは図２の（ｆ）で与えられた同一性から結果として生じる。したがって、仮に、その入力が、長さＮの列ｘであれば、この列ｘを、（ｘ，−ｘ_R，−ｘ，ｘ_R，・・・）などに広げるイメージが想像される。ここで、ｘ_Rは、逆順のｘを示す。

２Ｎ個の入力とＮ個の出力とを有したＭＤＣＴを考えてください。入力は、それぞれサイズがＮ／２の４つのブロック（ａ，ｂ，ｃ，ｄ）に分割される。仮に、これら４つのブロック（ａ，ｂ，ｃ，ｄ）が、（ＭＤＣＴ定義における＋Ｎ／２タームから）Ｎ／２だけ移行するならば、３つのブロック（ｂ、ｃ、ｄ）が、ＤＣＴ−ＩＶのＮ個の入力の終端を過ぎて広がるので、上で説明した境界状態に従って、３つのブロック（ｂ、ｃ、ｄ）は「折り返され」なければならない。

その結果、２Ｎ個の入力（ａ，ｂ，ｃ，ｄ）を有するＭＤＣＴは、正確に、Ｎ個の入力（−ｃ_R−ｄ，ａ−ｂ_R）を有するＤＣＴ−ＩＶと同等である。ここで、Ｒは、上で説明したように、反転（逆順）を示す。このように、ＤＣＴ−ＩＶを計算するどんな演算法も、普通にＭＤＣＴに適用される。

同様に、上で説明したように、ＩＭＤＣＴ公式は、正確に、ＤＣＴ−ＩＶの１／２である（ＤＣＴ−ＩＶの逆である）。出力はＮ／２だけ移行され、（境界条件を通して）長さ２Ｎまで拡張される。逆ＤＣＴ−ＩＶは、上記から、入力（−ｃ_R−ｄ，ａ−ｂ_R）に容易に戻る。出力が移行されて、境界条件を通して拡張されるとき、図２の（ｇ）に表示された結果を得る。その結果、ＩＭＤＣＴ出力の半分が、冗長である。

今、ＴＤＡＣがどのように働くかが、理解できる。連続した、そして、５０％重複した２Ｎブロック（ｃ，ｄ，ｅ，ｆ）のＭＤＣＴを計算すると想定してください。ＩＭＤＣＴは、上記との類似で、（ｃ−ｄ_R，ｄ−ｃ_R，ｅ＋ｆ_R，ｅ_R＋ｆ）／２を生じる。これが、半分重複している前のＩＭＤＣＴの結果に加えられるとき、逆タームは除去され、容易に（ｃ，ｄ）を得て、元のデータを回復する。

「時間領域折り返し雑音除去」という用語の起源は明確である。論理的ＤＣＴ−ＩＶの境界部分を越えて広がる入力データの使用は、ナイキスト周波数を超える周波数が、より低周波数に折り返し雑音を発生させるのと正確に同じ方法で、データに折り返し雑音を発生させることを引き起こす。この折り返し雑音が、周波数領域の代わりに時間領域の中で起こる場合は除かれる。したがって、組み合わせｃ−ｄ_Rなどは、組み合わせのための正確に正しい記号を有し、加算されるとき除去される。

奇数Ｎ（実際に稀に使用される）に対しては、Ｎ／２が整数でないので、ＭＤＣＴは単なるＤＣＴ−ＩＶの移行順列ではない。この場合、サンプルを半分だけ追加的に移行することは、ＭＤＣＴ／ＩＭＤＣＴがＤＣＴ−ＩＩＩ／ＩＩと等価になるということを意味する。分析は上記に類似している。

上では、ＴＤＡＣ特性が、通常のＭＤＣＴに対して立証され、半分重複している連続ブロック（連続フレーム）の加算ＩＭＤＣＴが、元のデータを回復することを示す。窓化されたＭＤＣＴのためのこの逆特性の派生は、わずかだけ複雑である。

ブロック（ａ，ｂ，ｃ，ｄ）およびブロック（ｃ，ｄ，ｅ，ｆ）が変更離散的余弦変換（ＭＤＣＴ）され、それらの重複している半分が逆変更離散的余弦変換（ＩＭＤＣＴ）され、かつ、加算されるとき、我々は元データ（ｃ＋ｄ_R，ｃ_R＋ｄ）／２＋（ｃ−ｄ_R，ｄ−ｃ_R）／２＝（ｃ，ｄ）を得る、ということを、上記から思い出してください。

今、ＭＤＣＴ入力とＩＭＤＣＴ出力の両方が、長さ２Ｎの窓関数によって乗算されることが、提案される。上記したように、対称窓関数、したがって、形式（ｗ，ｚ，ｚ_R，ｗ_R）の対称窓関数を想定する。ここで、ｗとｚは、長さがＮ／２のベクトルであり、Ｒは、前と同様、反転（逆順）を示す。次に、プリンセン−ブラッドレー条件が記載される。

乗算と加算は、要素ごとに実行される。あるいは、等価的にｗとｚを逆にする。

したがって、ブロック（ａ，ｂ，ｃ，ｄ）を変更離散的余弦変換（ＭＤＣＴ）する代わりに、ブロック（ｗａ，ｚｂ，ｚ_Rｃ，ｗ_Rｄ）の変更離散的余弦変換（ＭＤＣＴ）が、要素ごとに実行される全ての乗算と共に行われる。これが、窓関数によって再び（要素ごとに）、変更離散的余弦変換（ＭＤＣＴ）され、かつ、乗算されるとき、その後半分Ｎが、図２の（ｈ）に示すように生じる。

ＩＭＤＣＴ正規化は、窓化された場合、係数２だけ異なるので、１／２の乗算はもはや存在しないことに注目するべきである。同様に、ブロック（ｃ，ｄ，ｅ，ｆ）の窓化されたＭＤＣＴとＩＭＤＣＴは、図２の（ｉ）に従って、その前半分Ｎにおいて生じる。これら２つの半分が、一緒に加算されるとき、図２の（ｊ）の結果を得られ、元のデータが回復される。

図３ａは音声符号器１０の別の実施形態を示す。時間領域折り返し雑音導入変換器１４は、窓関数を重複予測領域フレームに適用するための窓フィルタ１７と、窓化された重複予測領域フレームを予測領域スペクトルに変換するための変換器１８と、を備える。上記に従って、多様な窓関数が想像できる。多様な窓関数のうちのいくつかが、以下で詳説される。

図３ｂは音声符号器１０の別の実施形態を示す。時間領域折り返し雑音導入変換器１４は、事象を検出して、仮に、事象が検出されるならば、窓系列情報を提供するための処理装置１９を備える。窓フィルタ１７は、窓系列情報に従って、窓関数を適用するように設けられる。例えば、事象は、抽出された音声信号のフレームから分析された所定の信号特性に依存して起こる。例えば、異なる窓の長さ、または、異なる窓のエッジなどが、信号、音調、はかなさなどの自己相関の特性に従って適用される。言い換えれば、様々な事象が、抽出された音声信号のフレームの様々な特性の一部として起こる。処理装置１９は、音声信号のフレームの特性に従って、様々な窓系列を提供する。窓系列のための、より詳細な系列およびパラメータが、以下から設定される。

図３ｃは音声符号器１０の別の実施形態を示す。予測領域フレームは、時間領域折り返し雑音導入変換器１４だけではなく、符号表符号器１３にも提供される。符号表符号器１３は、予め決定された符号表に基づいて、予測領域フレームを符号化し、符号表符号化された（予測領域）フレームを得るように設けられる。さらに、図３ｃに示された実施形態は、符号表符号化されたフレーム、または、符号化されたフレームのいずれを使用するかを決めて、符号化効率測度に基づいて、最終的な符号化されたフレームを得るための決定器１５を備えている。図３ｃに示された実施形態は、閉ループシナリオとも称される。このシナリオにおいて、決定器１５は、２つの枝から符号化されたフレームを得るための可能性を有する。一方の枝は変換に基づいたものであり、他方の枝は符号表に基づいたものである。符号化効率測度を決定するために、決定器１５は、両方の枝からの符号化されたフレームを復号して、異なる枝からの誤差統計を評価することによって、符号化効率測度を決定する。

言い換えれば、決定器１５は、符号化手順を逆戻りするように、すなわち、両方の枝に対して完全な復号化を実行するように設けられる。決定器１５は、完全に復号化されたフレームを有しながら、図３ｃの点線の矢印によって示されるように、復号されたサンプルと元のサンプルとを比較するように設けられる。また、決定器１５は、予測領域フレームが提供される。そのほかに、冗長減少符号器１６からの符号化されたフレームと、符号表符号器１３からの符号表符号化されたフレームと、を復号して、その結果を、元々符号化された予測領域フレームと比較することが成される。そのほかに、ある実施形態では、違いを比較することによって、例えば、信号対雑音比、統計誤差または最小誤差などに関する、符号化効率測度が決定される。いくつかの実施形態では、それぞれの符号速度、すなわち、フレームを符号化するために要求されるビット数に関連する、符号化効率測度が決定される。決定器１５は、冗長減少符号器１６からの符号化されたフレーム、または、符号表符号化されたフレームのいずれか一方を、最終的な符号化されたフレームとして、符号化効率測度に基づいて選択するように設けられる。

図３ｄは音声符号器１０の別の実施形態を示す。決定器１５に接続されたスイッチ２０が存在する。スイッチ２０は、符号化効率測度に基づいて、時間領域折り返し雑音導入変換器１４と符号表符号器１３との間で、予測領域フレームを切り換える。決定器１５は、抽出された音声信号のフレームに基づいて、スイッチ２０の位置を決定するために、すなわち、時間領域折り返し雑音導入変換器１４および冗長減少符号器１６を有する、変換に基づいた符号化枝、または、符号表符号器１３を有する、符号表に基づいた符号化枝のいずれか一方を使用するために、符号化効率測度を決定するように設けられている。既に上で説明したように、例えば、フレームが、音調のようなものであろうと、または、雑音のようなものであろうと、符号化効率測度は、抽出された音声信号のフレームの特性（すなわち、音声の特性自体）に基づいて決定される。

図３ｄに示した実施形態の構成は、開ループ構成と称される。決定器１５が、それぞれの符号化枝の結果を知ることなく、入力フレームに基づいて決定するからである。さらに別の実施形態では、決定器１５は、図３ｄに点線の矢印によって示されている予測領域フレームに基づいて決定する。言い換えれば、決定器１５は、抽出された音声信号のフレームに基づいて決定されるのではなく、むしろ予測領域フレームに基づいて決定される。

以下では、決定器１５の決定過程が説明される。一般に、音声信号の衝撃波のような部分と定常信号の定常波のような部分との間の差が、信号処理操作を適用することによって、作られる。そこでは、衝撃波のような特性が測定され、同様に、定常波のような特性も測定される。そのような測定は、例えば、音声信号の波形を分析することによって成される。このために、変換に基づいた処理、ＬＰＣ処理、または、どんな他の処理も実行される。その部分が衝撃波のような部分であるかないか、を決定する直感的な方法は、例えば、時間領域波形を見て、この時間領域波形が、一定の間隔で、または、不規則な間隔で、ピークを有するかどうか、を決定することである。そして、一定の間隔のピークは、スピーチのような符号化器、すなわち、符号表符号器に対して、より適している。スピーチ内でさえ、有声部分と無声部分とが区別される、ということに注目するべきである。符号表符号器１３は、有声信号部分または有声フレームに対して、より効率が良い。時間領域折り返し雑音導入変換器１４と冗長減少符号器１６とを含む変換に基づいた符号化枝は、無声フレームに対して、より適している。一般に、変換に基づいた符号化は、音声信号以外の定常信号に対して、より適している。

例示的に、図４ａおよび図４ｂ、図５ａおよび図５ｂを参照する。衝撃波のような信号号部分と定常波のような信号部分が、例示的に議論される。一般に、決定器１５は、異なる評価基準（例えば、定常性、はかなさ、スペクトル白さなど）に基づいて決定するように、設けられている。以下において、評価基準例が、実施形態の一部として与えられる。特に、図４ａには時間領域の有声スピーチが示され、図４ｂには周波数領域の有声スピーチが示されている。有声スピーチは、衝撃波のような信号部分の例として議論される。そして、無声スピーチ部分が、定常波のような信号部分の例として、図５ａおよび図５ｂを参照して議論される。

一般に、スピーチは、有声、無声、または、混合に分類される。抽出された有声および無声の部分に関する時間および周波数領域の記載は、図４ａ、４ｂ、５ａおよび５ｂに示されている。有声スピーチは、時間領域において準周期的であって、周波数領域において調和構造化されている。一方、無声スピーチは、不規則のようであって、広帯域である。さらに、有声部分のエネルギーは、一般に、無声部分のエネルギーより高い。有声スピーチの短期間スペクトルは、その微細なフォルマント（ｆｏｒｍａｎｔ）構造によって特徴付けられる。微細な倍音構造は、スピーチの準周期性の結果であり、振動している声帯に帰する。フォルマント構造（スペクトル包絡線とも称される）は、音源と声帯との相互作用の結果である。声道は、いん頭と口腔から成る。有声スピーチの短期間スペクトルに「合致」するスペクトル包絡線の形は、声道の輸送特性と声門のパルスによるスペクトル傾斜（６ｄＢ／オクターブ）とに関連している。

スペクトル包絡線は、１連のピーク（フォルマントと称される）によって特徴付けられる。フォルマントは、声道の共鳴モードである。平均の声道には、５ｋＨｚ未満のフォルマントが３個〜５個存在する。通常、３ｋＨｚ未満で起こる最初の３個のフォルマントの振幅および位置は、スピーチの合成および知覚の両方において、かなり重要である。より高いフォルマントも、広帯域で無声のスピーチ表現に対して重要である。スピーチ特性は、以下の物理的スピーチ製作システムに関連する。振動している声帯によって発生した、準周期的声門の空気パルスを有する声道の励振は、有声スピーチを製作する。周期的パルスの周波数は、基本周波数または基本ピッチと称される。声道の中で空気を強制的に圧縮することは、無声スピーチを製作する。鼻音は、鼻道と声道との音響結合の結果である。そして、破裂音は、声道の閉鎖の後に作られた空気圧を、突然に減少させることによって減少する。

したがって、音声信号の定常波のような部分は、図５ａで示すように、時間領域の定常波のような部分、または、周波数領域の定常波のような部分である。それは、例えば、図４ａ）で示すように、衝撃波のような部分と異なる。時間領域の定常波のような部分は、永久的な繰り返しパルスを示さないという事実の結果である。しかしながら、後で概説するように、定常波のような部分と衝撃波のような部分との間の差は、ＬＰＣ方法を使用して実行される。ＬＰＣ方法は、声道と声道の励振をモデル化する。信号の周波数領域が考慮されるとき、衝撃波のような信号は、個々のフォルマントの際立つ外観、すなわち、図４ｂの際立つピークを示す。一方、定常波のような信号スペクトルは、図５ｂに示すように、かなり広いスペクトルを有する。あるいは、倍音信号の場合、定常波のような信号スペクトルは、特定の音を表すいくつかの際立つピークを持つ、かなり連続した雑音床を有する。特定の音は、例えば、音楽信号の中に起こるが、図４ｂの衝撃波のような信号のように、相互に正規の距離を持っていない。

さらに、衝撃波のような部分と定常波のような部分とは、同時的に起こる。すなわち、それは、時間内の音声信号の一部分が定常波のようであり、別の部分が衝撃波のようであることを意味する。二者択一的に、または、追加的に、信号特性は、様々な周波数帯域において異なる。したがって、音声信号が、定常波のようであるか、または、衝撃波のようであるかの決定は、周波数を選択して実行される。その結果、特定の周波数帯域、または、いくつかの特定の周波数帯域は、定常波のようであると考えられ、他の周波数帯域は、衝撃波のようであると考えられる。この場合、音声信号の特定の時間部分は、衝撃波のような部分、または、定常波のような部分を含む。

図３ｄに示した実施形態に戻って、決定器１５は、音声フレーム、予測領域フレーム、または、励振信号を分析する。それらが、かなり衝撃波のようである（すなわち、符号表符号器１３に一層適している）のか、または、かなり定常波のようである（すなわち、変換に基づいた符号化枝に一層適している）のか、を決定するためである。

次に、分析／合成ＣＥＬＰ符号器が、図６を参照して議論される。ＣＥＬＰ符号器の詳細は、「スピーチ符号化：個人指導用報告」、アンドレア・スパニエル、ＩＥＥＥ会報、８４巻、Ｎｏ．１０、１９９４年１０月、１５４１〜１５８２ページに記載されている。図６に示したＣＥＬＰ符号器は、長期予測構成部６０と短期予測構成部６２とを含む。さらに、符号表６４が使用されている。知覚重み付けフィルタＷ（ｚ）６６と誤差最小化制御装置６８も設けられている。ｓ（ｎ）は入力音声信号である。知覚的に重み付けされた後、重み付けされた信号は相殺器６９に入力される。相殺器６９は、重み付けされた合成信号（符号６６に実装されている知覚重み付けフィルタＷ（ｚ）の出力）と実際の重み付けされた予測誤差信号ｓ_w（ｎ）との間の誤差を計算する。

一般に、短期予知Ａ（ｚ）は、以下でさらに議論するＬＰＣ分析ステ−ジによって計算される。この情報によって、長期予測Ａ_L（ｚ）は、長期予測利得（ピッチ利得）ｂおよび長期予測遅延（ピッチ遅延）Ｔを含む。ＣＥＬＰ演算法は、例えばガウス系列の符号表を使用して、励振領域フレームまたは予測領域フレームを符号化する。ＡＣＥＬＰ演算法は、特定の代数的に設計された符号表を有する。「ＡＣＥＬＰ」の「Ａ」は、「代数的」を表す。

符号表は多かれ少なかれベクトルを含む。各ベクトルは、サンプルの数に従った長さを有する。利得係数ｇは、励振ベクトルを長さ調整する。励振サンプルは、長期合成フィルタと短期合成フィルタとによって、ふるいにかけられる。「最適な」ベクトルが選択され、その結果、知覚的に重み付けされた誤差の平均平方（不偏分散）が、最小になる。ＣＥＬＰの中の検索過程は、図６に示した分析／合成構成から明白である。図６は、分析／合成ＣＥＬＰの一例を示しただけであり、本実施形態は、図６に示した構造に制限されない、ことに注目するべきである。

ＣＥＬＰにおいて、長期予測器は、前の励振信号を含む適応型符号表としてしばしば実行される。長期予測遅延および長期予測利得は、適応型符号表の索引および利得によって表され、重み付けされた誤差の平均平方（不偏分散）を最小にすることによって選択される。この場合、励振信号は、２つの利得調整されたベクトルの加算から成る。１つは適応型符号表からのベクトルであり、もう１つは固定型符号表からのベクトルである。ＡＭＲ−ＷＢ＋の中の知覚重み付けフィルタＷ（ｚ）は、ＬＰＣフィルタに基づいている。したがって、知覚的に重み付けされた信号は、ＬＰＣ領域信号の形式である。ＡＭＲ−ＷＢ＋の中で使用される変換領域符号器において、変換は重み付けされた信号に適用される。復号器において、励振信号は、合成の逆から成るフィルタや重み付けフィルタを通して、復号化され重み付けされた信号を、ふるいにかけることによって得られる。

次に、予測符号化分析ステ−ジ１２の機能性が、図７に示された実施形態に従って議論される。この実施形態では、決定器１５の中でＬＰＣ分析とＬＰＣ合成とを使用する。

図７は、予測符号化分析ステ−ジ１２のより詳細な実行を示す。音声信号はフィルタ決定ブロック７８３に入力される。フィルタ決定ブロック７８３は、フィルタ情報Ａ（ｚ）、すなわち、合成フィルタの係数情報を決定する。この情報は、量子化されて、復号器のために必要な短期予測情報として出力される。相殺器７８６では、信号の現在のサンプルが入力され、現在のサンプルの予測値が減算される。その結果、このサンプルに対して、予測誤差信号が信号線７８４に発生する。予測誤差信号は、励振信号または励振フレーム（通常、符号化された後）と称されることに注目するべきである。

図８ａは、符号化されたフレームを復号して、抽出された音声信号のフレームを得るための音声復号器８０を示す。フレームは多数の時間領域サンプルを含む。音声復号器８０は、符号化されたフレームを復号し、合成フィルタの係数情報、および、予測領域フレームスペクトル、または、予測スペクトル領域フレームを得るための冗長検索復号器８２を含む。音声復号器８０は、さらに、予測スペクトル領域フレームを変換して、重複予測領域フレームを得るための逆時間領域折り返し雑音導入変換器８４を含む。逆時間領域折り返し雑音導入変換器８４は、連続した予測領域フレームスペクトルから重複予測領域フレームを決定するように設けられる。さらに、音声復号器８０は、重複予測領域フレームを結合して、臨界的抽出方法で予測領域フレームを得るための重複／加算結合器８６を含む。予測領域フレームは、ＬＰＣに基づいて重み付けされた信号から成る。重複／加算結合器８６は、予測領域フレームを励振フレームに変換するための変換器を含む。音声復号器８０は、さらに、係数に基づいた合成フレームおよび励振フレームを決定するための予測合成ステージ８８を含む。

重複／加算結合器８６は、重複予測領域フレームを結合するように設けられている。その結果、予測領域フレームの平均サンプル数は、予測領域フレームスペクトルの平均サンプル数と等しい。本実施形態では、逆時間領域折り返し雑音導入変換器８４が、上記の詳細に従って、ＩＭＤＣＴに従って、予測領域フレームスペクトルを時間領域に変換するように設けられている。

一般に、重複／加算結合器８６において、任意に、図８ａ〜図８ｃの中で括弧で示される「励振回復」が存在する。重複／加算結合器８６は、ＬＰＣ重み付け領域で実行される。次に、重み付けされた信号は、逆重み付け合成フィルタを通して、ふるいにかけられることによって、励振信号に変換される。

さらに、予測合成ステージ８８は、線形予測、すなわち、ＬＰＣに基づいてフレームを決定するように設けられている。音声復号器８０の別の実施形態は、図８ｂに示される。図８ｂに示された音声復号器８０は、図８ａに示された音声復号器８０と同様の構成部品を示す。しかしながら、図８ｂに示された逆時間領域折り返し雑音導入変換器８４は、さらに、予測領域フレームスペクトルを、重複予測領域フレームに変換するための変換器８４ａと、窓関数を、変換された重複予測領域フレームに適用して、重複予測領域フレームを得るための窓フィルタ８４ｂと、を含む。

図８ｃは、図８ｂに示された実施形態と同様の構成部品を有する音声復号器８０の別の実施形態を示す。図８ｃに示された実施形態において、逆時間領域折り返し雑音導入変換器８４は、さらに、事象を検出して、仮に、事象が窓フィルタ８４ｂに検出されると、窓系列情報を提供するための処理装置８４ｃを含む。そして、窓フィルタ８４ｂは、窓系列情報に従って、窓関数を適用するように設けられている。事象は、符号化されたフレームまたは副情報から派生した指示、または、符号化されたフレームまたは副情報によって提供された指示である。

音声符号器１０および音声復号器８０の本実施形態において、それぞれの窓フィルタ１７，８４ｂは、窓系列情報に従って、窓関数を適用するように設けられる。図９は一般的な矩形窓を示す。窓系列情報は、窓がサンプルを隠す第１のゼロ部分、フレームのサンプル（すなわち、予測領域フレームまたは重複予測領域フレーム）が変更されないで通過する第２の通過部分、および、フレームの終端のサンプルを隠す第３のゼロ部分を含む。言い換えれば、適用される窓関数は、第１のゼロ部分において、フレームの始端のサンプル数を抑圧し、第２の通過部分において、サンプルを通過し、次に、第３のゼロ部分において、フレームの終端のサンプル数を抑圧する。この文脈において、抑圧は、窓の通過部分の始端、および／または、終端に、ゼロ系列を追加することを言及する。第２の通過部分は、窓関数が、単に、１の値を有するようなものである。すなわち、サンプルは、変更されないで通過する。すなわち、窓関数は、フレームのサンプルを通して切り替わる。

図１０は窓系列または窓関数の別の実施形態を示す。窓系列は、さらに、第１のゼロ部分と第２の通過部分との間の立ち上がりエッジ部分、および、第２の通過部分と第３のゼロ部分との間の立ち下がりエッジ部分を含む。立ち上がりエッジ部分は、フェードイン部分であると見做すことができる。立ち下がりエッジ部分は、フェードアウト部分であると見做すことができる。本実施形態では、第２の通過部分は、ＬＰＣ領域フレームのサンプルを全く変更しないための系列を含む。

言い換えれば、ＭＤＣＴに基づいたＴＣＸは、算術復号器から、多数の量子化されたスペクトル係数の数ｌｇを要求する。ＴＣＸは、最後のモードのｍｏｄ［］値およびｌａｓｔ＿ｌｐｄ＿ｍｏｄｅ値によって決定される。これら２つの値は、逆ＭＤＣＴで適用される窓の長さと形とを定義する。窓は、３つの部分、すなわち、Ｌ個のサンプルの左側重複部分、Ｍ個のサンプルの中央部分、および、Ｒ個のサンプルの右側重複部分で構成される。長さ２＊ｌｇのＭＤＣＴ窓を得るために、ＺＬゼロが左側で加算され、ＺＲゼロが右側で加算される。

以下の表１は、いくつかの実施形態のためのｌａｓｔ＿ｌｐｄ＿ｍｏｄｅとｍｏｄ［］の関数として、スペクトル係数の数ｌｇを示す。

ＭＤＣＴ窓は、以下の式によって与えられる。

本実施形態は、ＭＤＣＴ、ＩＤＭＣＴのシステム符号化遅延が、それぞれ、元のＭＤＣＴと比較したとき、様々な窓関数の適用を通して小さくなる、という利点を提供する。この利点をより詳細に提供するために、図１１は４つのグラフを示す。上から１番目のグラフは、ＭＤＣＴと共に使用される従来の三角形窓関数に基づいた時間単位Ｔの中のシステム遅延を示す。上から２番目のグラフは、従来の三角形窓関数を示す。

ここで考えられるシステム遅延は、サンプルが復号器ステージに達するときに経験する遅延である。サンプルを符号化したり、送信したりするための遅延は存在しない、と仮定する。言い換えれば、図１１に示したシステム遅延は、符号化が開始される前の、フレームのサンプルを蓄積することによって喚起した符号化遅延と考える。上で説明したように、時間単位Ｔでサンプルを復号するために、０と２Ｔの間のサンプルは、変換されなければならない。これは、別の時間単位ＴのＴにおけるサンプルのシステム遅延をもたらす。しかしながら、このサンプルのすぐ後のサンプルは復号化され、２Ｔに中心を置く第２の窓の全てのサンプルは、利用可能でなければならない。したがって、システム遅延は、２Ｔに飛び、第２の窓の中心のＴへ下がる。図１１の上から３番目のグラフは、本実施形態で提供される窓関数の系列を示す。図１１の上から２番目のグラフの従来の窓関数と比較すると、窓の非ゼロ部分の重複領域が、２Δｔだけ減少していることが認められる。言い換えれば、本実施形態に使用される窓関数は、従来技術の窓関数と同じ幅であるが、しかし、予測できる第１のゼロ部分および第３のゼロ部分を有する。

言い換えれば、復号器は、第３のゼロ部分が存在し、それ故、復号化や符号化がそれぞれ、より早く開始されることを既に知る。したがって、システム遅延は、図１１の下のグラフに示すように、２Δｔだけ減少する。言い換えれば、復号器は、ゼロ部分に対して待つ必要がなく、２Δｔ節約できる。もちろん、復号手順の後に、全てのサンプルが同じシステム遅延を有さなければならないことは、明白である。図１１のグラフは、サンプルが復号器に達するまでに経験するシステム遅延を論証する。言い換えれば、復号した後の全体のシステム遅延は、従来技術の窓関数の場合は２Ｔであり、本実施形態の窓関数の場合は２Ｔ−２Δｔである。

以下で、ＦＦＴに替えて、ＭＤＣＴがＡＭＲ−ＷＢ＋符号器の中で使用される実施形態が考えられる。したがって、窓は図１２に従って詳説される。窓は、左重複領域または立ち上がりエッジ部分として「Ｌ」を定義し、１の領域または第２の通過部分として「Ｍ」を定義し、右重複領域または立ち下がりエッジ部分として「Ｒ」を定義する。さらに、第１のゼロ部分および第３のゼロ部分が考慮される。そのほかに、フレーム内の完全再構成の領域「ＰＲ」が、矢印によって、図１２の中に示される。さらに、矢印で示された変換コアの長さ「Ｔ」は、周波数領域のサンプルの数、すなわち、時間領域のサンプルの数の半分に対応する。変換コアの長さ「Ｔ」は、第１のゼロ部分、立ち上がりエッジ部分「Ｌ」、第２の通過部分「Ｍ」、立ち下がりエッジ部分「Ｒ」、および、第３のゼロ部分から成る。そのほかに、周波数サンプルの数は、ＭＤＣＴを使用するとき、減少する。ＭＤＣＴの変換符号器長さ（変換コアの長さ）

Ｔ＝Ｌ／２＋Ｍ＋Ｒ／２

と比較すると、ＦＦＴまたは離散余弦変換（ＤＣＴ）の周波数サンプルの数（変換コアの長さ）は、

Ｔ＝Ｌ＋Ｍ＋Ｒ

である。

図１３ａの上部には、ＡＭＲ−ＷＢ＋の窓関数の系列の一例のグラフを示す。左から右に、ＡＣＥＬＰフレーム、ＴＣＸ２０フレーム、ＴＣＸ２０フレーム、ＴＣＸ４０フレーム、ＴＣＸ８０フレーム、ＴＣＸ２０フレーム、ＴＣＸ２０フレーム、ＡＣＥＬＰフレーム、および、ＡＣＥＬＰフレームを示している。点線は、既に上で説明したように、無入力応答を示す。

図１３ａの下部には、様々な窓部分のパラメータ表が存在する。本実施形態において、ＴＣＸｘフレームが別のＴＣＸｘフレームに続くとき、左重複部分または立ち上がりエッジ部分Ｌは、１２８である。ＡＣＥＬＰフレームがＴＣＸｘフレームに続くとき、同様の窓が使用される。仮に、ＴＣＸ２０フレームまたはＴＣＸ４０フレームがＡＣＥＬＰフレームに続くならば、左重複部分Ｌは無視される。すなわち、Ｌ＝０である。ＡＣＥＬＰフレームからＴＣＸ８０フレームに転移するとき、Ｌ＝１２８の重複部分が使用される。図１３ａのグラフから、表において、基本原理は、フレーム内の完全再構成に対して十分な負荷（オーバーヘッド）が存在する限り、非臨界的抽出が維持されること、そして、批判的抽出への切り替えはできるだけ早いこと、であることが認められる。言い換えれば、ＡＣＥＬＰフレームの後の最初のＴＣＸフレームだけが、本実施形態で、非臨界的抽出された状態で残る。

図１３ａの下に示された表の中で、図１９に示された従来のＡＭＲ−ＷＢ＋の表との違いが強調される。強調されたパラメータは、本実施形態の利点を示す。重複部分は拡張され、その結果、相互フェード化がより円滑に実行され、窓の周波数応答が改良される。一方、臨界的抽出は維持される。

図１３ａの下の表から、ＡＣＥＬＰフレームからＴＣＸフレームへの転移に対してのみ、負荷（オーバーヘッド）が導入されることが認められる。すなわち、この転移Ｔ＞ＰＲに対してだけ、非臨界的抽出が達成される。ＴＣＸｘフレームからＴＣＸｘフレームへの全ての転移に対して（「ｘ」はどんなフレーム持続時間も示す）、変換コアの長さＴは、新しい完全に再構成されたサンプルの数と等しい。すなわち、臨界的抽出が達成される。図１３ｂは、ＡＭＲ−ＷＢ＋に基づいたＭＤＣＴを有する全ての可能な転移ごとの全ての窓のグラフ表示を有する表を示す。図１３ａの表の中で既に示したように、窓の左部分Ｌは、もはや前のＴＣＸフレームの長さに依存しない。また、図１４ｂのグラフ表示は、異なるＴＣＸフレーム間を切り換えるとき、臨界的抽出が維持されることを示す。ＴＣＸフレームからＡＣＥＬＰフレームへの転移に対して、１２８個のサンプルの負荷（オーバーヘッド）が生産されることが認められる。窓の左側が、前のＴＣＸフレームの長さに依存しないので、図１３ｂに示した表は、図１４ａに示されるように簡素化される。図１４ａは、再び、全ての可能な転移のための窓のグラフ表示を示す。ＴＣＸフレームからの転移は、１つの列に、まとめられる。

図１４ｂは、ＡＣＥＬＰフレームからＴＣＸ８０フレームへの転移窓をさらに詳細に示す。図１４ｂのグラフは、横軸がサンプル数を示し、縦軸が窓関数を示す。ＭＤＣＴの入力を考えると、左ゼロ部分（第１のゼロ部分）は、サンプル１からサンプル５１２に達する。立ち上がりエッジ部分は、サンプル５１３とサンプル６４０との間である。第２の通過部分は、サンプル６４１とサンプル１６６４との間である。立ち下がりエッジ部分は、サンプル１６６５とサンプル１７９２との間である。第３のゼロ部分は、サンプル１７９３とサンプル２３０４との間である。ＭＤＣＴの上の議論によれば、本実施形態では、２３０４個の時間領域サンプルが、１１５２個の周波数領域サンプルに変更される。上の記述に従って、現在の窓の時間領域折り返し雑音ゾーンは、サンプル５１３とサンプル６４０との間、すなわち、Ｌ＝１２８のサンプルに広がる立ち上がりエッジ部分内にある。別の時間領域折り返し雑音ゾーンは、サンプル１６６５とサンプル１７９２との間、すなわち、Ｒ＝１２８のサンプルの立ち下がりエッジ部分に広がる。第１のゼロ部分と第３のゼロ部分のため、完全再構成が、サイズＭ＝１０２４のサンプル６４１とサンプル１６６４との間で成される、無折り返し雑音ゾーンが存在する。図１４ｂにおいて、点線によって示されたＡＣＥＬＰフレームは、サンプル６４０で終わる。様々な選択肢が、ＴＣＸ８０フレームの窓の立ち上がりエッジ部分のサンプル５１３〜６４０に関して生じる。１つの選択肢は、最初に、サンプルを捨てて、ＡＣＥＬＰフレームで残ることである。別の選択肢は、ＴＣＸ８０フレームに対して時間領域折り返し雑音除去を実行するために、ＡＣＥＬＰ出力を使用することである。

図１４ｃは、「ＴＣＸｘ」によって指示されたＴＣＸフレームからＴＣＸ２０フレームへの転移、および、ＴＣＸ２０フレームからＴＣＸｘフレームへ戻る転移を示す。図１４ｂ〜図１４ｆは、図１４ｂに関して既に説明したと同じグラフ表現を使用する。ＴＣＸ２０フレームの窓は、図１４ｃのサンプル２５６を中央にして示されている。５１２個の時間領域サンプルは、ＭＤＣＴによって、２５６個の周波数領域サンプルに変換される。時間領域サンプルは、第３のゼロ部分と同様に、第１のゼロ部分のために６４個のサンプルを使用する。そのほかに、サイズＭ＝１２８の無折り返し雑音ゾーンは、ＴＣＸ２０フレームの窓の中央の周囲に広がっている。サンプル６５とサンプル１９２との間の左重複部分または立ち上がりエッジ部分は、時間領域折り返し雑音除去のために、点線によって示したように、前の窓の立ち下がりエッジ部分に組み合わされる。そのほかに、サイズＰＲ＝２５６の完全再構成の領域が生じる。全てのＴＣＸフレームの窓の全ての立ち上がりエッジ部分は、Ｌ＝１２８であり、全ての立ち下がりエッジ部分Ｒ＝１２８に合致するので、後続のＴＣＸフレームと同様に、前のＴＣＸフレームはどんなサイズのものでもよい。ＡＣＥＬＰフレームからＴＣＸ２０フレームへ転移するとき、図１４ｄに示されるように、異なる窓が使用される。図１４ｄから認められるように、立ち上がりエッジ部分は、Ｌ＝０、すなわち、矩形エッジになるように選択される。そのほかに、完全再構成の領域はＰＲ＝２５６である。そして、図１４ｅは、ＡＣＥＬＰフレームからＴＣＸ４０フレームへ転移したときの同様のグラフを示す。別の例として、図１４ｆは、ＴＣＸｘフレームの窓から、ＴＣＸ８０フレームの窓を経由して、ＴＣＸｘフレームの窓への転移を示す。

結論として、図１４ｂ〜図１４ｆは、ＡＣＥＬＰフレームからＴＣＸ２０フレーム、ＴＣＸ４０フレーム、または、ＡＣＥＬＰフレームへ転移する場合を除いて、ＭＤＣＴの窓のための重複部分が、常に１２８個のサンプルであることを示す。

ＴＣＸフレームからＡＣＥＬＰフレームへ転移するとき、または、ＡＣＥＬＰフレームからＴＣＸ８０フレームへ転移するとき、複数の選択肢が可能である。１つの実施形態では、ＭＤＣＴＴＣＸフレームから抽出された窓は、重複部分で捨てられる。別の実施形態では、窓化されたサンプルが、相互フェードのために使用され、さらに、重複部分の中で折り返し雑音化されたＡＣＥＬＰフレームのサンプルに基づくＭＤＣＴＴＣＸフレームのサンプルの中の時間領域折り返し雑音を除去するために使用される。さらに別の実施形態では、相互フェードが、時間領域折り返し雑音を除去することなく、実行される。ＡＣＥＬＰフレームからＴＣＸフレームへの転移では、無入力応答（ＺＩＲ、ｚｅｒｏ−ｉｎｐｕｔｒｅｓｐｏｎｓｅ）が、窓化のために符号器で取り除かれ、回復のために復号器で加えられる。図において、これは、ＡＣＥＬＰフレームの窓に続いているＴＣＸフレームの窓内の点線によって示される。本実施形態では、ＴＣＸフレームからＴＣＸフレームへ転移するとき、窓化されたサンプルは、相互フェードのために使用される。

ＡＣＥＬＰフレームからＴＣＸ８０フレームへ転移するとき、フレームの長さは、より長くなり、ＡＣＥＬＰフレームと重複される。時間領域折り返し雑音除去方法も使用される。

ＡＣＥＬＰフレームからＴＣＸ８０フレームへ転移するとき、前のＡＣＥＬＰフレームは、リンギング（波打ち波形）を導入する。リンギングは、ＬＰＣフィルタリングの使用による、前のフレームから生じる誤差拡大として認識される。ＴＣＸ４０フレームおよびＴＣＸ２０フレームのために使用されるＺＩＲ方法は、リンギングを説明する。本実施形態におけるＴＣＸ８０フレームのための変形は、１０８８個の変換長さを有する、すなわち、ＡＣＥＬＰフレームと重複しないＺＩＲ方法を使用することである。別の実施形態では、図１５に示されたと同じ１１５２個の変換長さが維持され、ＺＩＲ方法が利用される直前に重複領域のゼロ化をする。図１５は、重複領域のゼロ化およびＺＩＲ方法の使用を有する、ＣＥＬＰフレームからＴＣＸ８０フレームへの転移を示す。ＺＩＲ部分は、ＡＣＥＬＰフレームの窓の後端に続いて、点線によって再び示される。

まとめると、本実施形態は、ＴＣＸフレームが先行するとき、全てのＴＣＸフレームに対して臨界的抽出が実行される、という利点を提供する。従来の取り組みと比べて、１／８の負荷（オーバーヘッド）の減少が達成される。さらに、本実施形態は、連続フレームの間の転移領域または重複領域が、常に１２８個のサンプルである、すなわち、従来のＡＭＲ−ＷＢ＋の場合より長い、という利点を提供する。改良された重複領域は、改良された周波数応答と、より円滑な相互フェードと、を提供する。そのほかに、より良い信号品質が、符号化過程および復号化過程の全体で達成される。

本発明に係る方法の特定の実施要求に依存して、本発明に係る方法は、ハードウェアまたはソフトウェアの中で実現される。実現は、電磁気的に読み込み可能な制御信号を有するデジタル記憶媒体、特に、ディスク、ＤＶＤ、フラッシュメモリ、ＣＤで成される。デジタル記憶媒体は、発明の方法が実行されるように、プログラム可能コンピュータシステムと協働する。したがって、一般に、本発明は、コンピュータプログラム製品がコンピュータ上で稼動するとき、発明の方法を実行するために操作されるプログラム符号を、機械読取可能な担持体に保存されたプログラム符号を有するコンピュータプログラム製品である。言い換えれば、本発明の方法は、コンピュータプログラムがコンピュータ上で稼動するとき、発明の方法を少なくとも１つ実行するためのプログラム符号を有しているコンピュータプログラムである。

Claims

抽出された音声信号のフレームを符号化して、最終的な符号化されたフレームを得るための音声符号器（１０）であって、抽出された音声信号のフレームは複数の時間領域音声サンプルを含み、
音声サンプルのフレームに基づいて、合成フィルタの係数情報と予測領域フレームとを決定するための予測符号化分析ステ−ジ（１２）と、
重複している前記予測領域フレームを周波数領域に変換して、予測領域フレームスペクトルを得るための時間領域折り返し雑音導入変換器（１４）と、
前記予測領域フレームスペクトルを符号化して、前記合成フィルタの係数情報と符号化された予測領域フレームスペクトルとに基づいて、符号化されたフレームを得るための冗長減少符号器（１６）と、
予め決められた符号表に基づいて、前記予測領域フレームを符号化して、符号表符号化された予測領域フレームを得るための符号表符号器（１３）と、
前記符号表符号化された予測領域フレーム、もしくは、前記符号化されたフレームのいずれか一方の使用を決定し、符号化効率測度に基づいて、前記最終的な符号化されたフレームを得るための決定器（１５）と、を備え、
前記時間領域折り返し雑音導入変換器（１４）は、臨界的抽出方法で、重複している前記予測領域フレームを周波数領域に変換するように設けられていること、
を特徴とする、音声符号器。
前記予測領域フレームは、前記合成フィルタのための入力信号のサンプルを含んでいる励振フレームに基づいていること、を特徴とする、請求項１に記載の音声符号器。
前記時間領域折り返し雑音導入変換器（１４）は、重複している前記予測領域フレームを変換するように設けられ、その結果、前記予測領域フレームスペクトルの平均サンプル数が、前記予測領域フレームの平均サンプル数と等しいこと、を特徴とする、請求項１または請求項２に記載の音声符号器。
前記時間領域折り返し雑音導入変換器（１４）は、変更離散余弦変換（ＭＤＣＴ）に従って、重複している前記予測領域フレームを変換するように設けられていること、を特徴とする、請求項１〜請求項３のいずれかに記載の音声符号器。
前記時間領域折り返し雑音導入変換器（１４）は、窓関数を、重複している前記予測領域フレームに適用するための窓フィルタ（１７）と、窓化された重複している前記予測領域フレームを、前記予測領域フレームスペクトルに変換するための変換器（１８）と、を備えていること、を特徴とする、請求項１〜請求項４のいずれかに記載の音声符号器。
前記時間領域折り返し雑音導入変換器（１４）は、事象を検出して、仮に、事象が検出されるならば、窓系列情報を前記窓フィルタ（１７）に提供するための処理装置（１９）を備え、前記窓フィルタ（１７）は、前記窓系列情報に従って、前記窓関数を適用するように設けられていること、を特徴とする、請求項５に記載の音声符号器。
前記窓系列情報は、第１のゼロ部分、第２の通過部分、および、第３のゼロ部分を含むこと、を特徴とする、請求項６に記載の音声符号器。
前記窓系列情報は、前記第１のゼロ部分と前記第２の通過部分との間に立ち上がりエッジ部分、および、前記第２の通過部分と前記第３のゼロ部分との間に立ち下がりエッジ部分を含むこと、を特徴とする、請求項７に記載の音声符号器。
前記第２の通過部分は、前記予測領域フレームスペクトルのサンプルを変更しないための窓系列を含むこと、を特徴とする、請求項８に記載の音声符号器。
前記予測符号化分析ステ−ジ（１２）は、線形予測符号化（ＬＰＣ）に基づいて、前記合成フィルタの係数情報を決定するように設けられていること、を特徴とする、請求項１〜請求項９のいずれかに記載の音声符号器。
前記決定器（１５）に接続された、前記符号化効率測度に基づいて、前記時間領域折り返し雑音導入変換器（１４）と前記符号表符号器（１３）との間の前記予測領域フレームを切り換えるためのスイッチ（２０）をさらに備えたこと、を特徴とする、請求項１に記載の音声符号器。
抽出された音声信号のフレームを符号化して、最終的な符号化されたフレームを得るための音声符号化方法であって、抽出された音声信号のフレームは複数の時間領域音声サンプルを含み、
音声サンプルのフレームに基づいて、合成フィルタの係数情報を決定するステップと、
音声サンプルのフレームに基づいて、予測領域フレームを決定するステップと、
重複している前記予測領域フレームを周波数領域に変換して、時間領域折り返し雑音を導入している臨界的抽出方法で、予測領域フレームスペクトルを得るステップと、
前記予測領域フレームスペクトルを符号化して、前記合成フィルタの係数情報と符号化された前記予測領域フレームスペクトルとに基づいて、符号化されたフレームを得るステップと、
予め決められた符号表に基づいて、前記予測領域フレームを符号化して、符号表符号化された予測領域フレームを得るステップと、
前記符号表符号化された予測領域フレーム、もしくは、前記符号化されたフレームのいずれか一方の使用を決定し、符号化効率測度に基づいて、前記最終的な符号化されたフレームを得るステップと、
を備えていること、を特徴とする、音声符号化方法。
プログラムがコンピュータ上で実行されると、前記コンピュータが請求項１２に記載の音声符号化方法を実行する、コンピュータプログラム。
符号化されたフレームを復号化して、抽出された音声信号の複数のフレームを得るための音声復号器（８０）であって、抽出された音声信号の複数のフレームは、複数の時間領域音声サンプルを含み、
前記符号化されたフレームを復号化して、合成フィルタの係数情報と予測領域フレームスペクトルとを得るための冗長検索復号器（８２）と、
前記予測領域フレームスペクトルを時間領域に変換して、重複している予測領域フレームを得るための逆時間領域折り返し雑音導入変換器（８４）と、
重複している前記予測領域フレームを組み合わせて、臨界的抽出方法で、予測領域フレームを得るための重複／加算結合器（８６）と、
前記合成フィルタの係数情報と前記予測領域フレームとに基づいて、前記抽出された音声信号のフレームを決定するための予測合成ステージ（８８）と、を備え、
前記逆時間領域折り返し雑音導入変換器（８４）は、連続する前記予測領域フレームスペクトルから、前記重複している予測領域フレームを決定するように設けられ、かつ、
前記逆時間領域折り返し雑音導入変換器（８４）は、前記予測領域フレームスペクトルを、変換された重複している予測領域フレームに変換するための変換器（８４ａ）と、窓関数を、前記変換された重複している予測領域フレームに適用して、前記重複している予測領域フレームを得るための窓フィルタ（８４ｂ）と、事象を検出して、仮に、事象が検出されるならば、窓系列情報を前記窓フィルタ（８４ｂ）に提供するための処理装置（８４ｃ）と、を備え、
前記窓フィルタ（８４ｂ）は、前記窓系列情報に従って、前記窓関数を適用するように設けられ、前記窓系列情報は、第１のゼロ部分、第２の通過部分、および、第３のゼロ部分を含むこと、
を特徴とする、音声復号器。
重複／加算結合器（８６）は、前記重複している予測領域フレームを組み合わせるように設けられ、その結果、前記予測領域フレームの平均サンプル数が、前記予測領域スペクトルの平均サンプル数と等しいこと、を特徴とする、請求項１４に記載の音声復号器。
前記逆時間領域折り返し雑音導入変換器（８４）は、逆変更離散余弦変換（ＩＭＤＣＴ）に従って、前記予測領域フレームスペクトルを時間領域に変換するように設けられていること、を特徴とする、請求項１４または請求項１５に記載の音声復号器。
前記予測合成ステージ（８８）は、線形予測符号化（ＬＰＣ）に基づいて、抽出された音声サンプルのフレームを決定するように設けられていること、を特徴とする、請求項１４〜請求項１６のいずれかに記載の音声復号器。
前記窓系列情報は、前記第１のゼロ部分と前記第２の通過部分との間に立ち上がりエッジ部分、および、前記第２の通過部分と前記第３のゼロ部分との間に立ち下がりエッジ部分を含むこと、を特徴とする、請求項１７に記載の音声復号器。
前記第２の通過部分は、前記予測領域フレームのサンプルを変更するための窓系列を含むこと、を特徴とする、請求項１８に記載の音声復号器。
符号化されたフレームを復号化して、抽出された音声信号の複数のフレームを得るための音声復号化方法であって、抽出された音声信号の複数のフレームは、複数の時間領域音声サンプルを含み、
前記符号化されたフレームを復号化して、合成フィルタの係数情報と予測領域フレームスペクトルとを得るステップと、
前記予測領域フレームスペクトルを時間領域に変換して、連続する前記予測領域フレームスペクトルから、重複している予測領域フレームを得るステップと、
重複している前記予測領域フレームを組み合わせて、臨界的抽出方法で、予測領域フレームを得るステップと、
前記合成フィルタの係数情報と前記予測領域フレームとに基づいて、前記抽出された音声信号のフレームを決定するステップと、を備え、
前記予測領域フレームスペクトルを時間領域に変換して、連続する前記予測領域フレームスペクトルから、重複している予測領域フレームを得るステップは、前記予測領域フレームスペクトルを、変換された重複している予測領域フレームに変換するステップと、
窓フィルタ（８４ｂ）によって、窓関数を前記変換された重複している予測領域フレームに適用して、前記重複している予測領域フレームを得るステップと、事象を検出して、仮に、事象が検出されるならば、窓系列情報を前記窓フィルタ（８４ｂ）に提供するステップと、を備え、
前記窓フィルタ（８４ｂ）は、前記窓系列情報に従って、前記窓関数を適用するように設けられ、前記窓系列情報は、第１のゼロ部分、第２の通過部分、および、第３のゼロ部分を含むこと、
を特徴とする、音声復号化方法。
プログラムがコンピュータ上で実行されると、前記コンピュータが請求項２０に記載の音声復号化方法を実行する、コンピュータプログラム。