JP5551814B2

JP5551814B2 - 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム

Info

Publication number: JP5551814B2
Application number: JP2013127397A
Authority: JP
Inventors: イェレミールコンテ; フィリップグルネー; シュテファンバイエル; マルクスマルトラス; ブリュノベセトゥ; ベルンハルトグリル
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-07-11
Filing date: 2013-06-18
Publication date: 2014-07-16
Anticipated expiration: 2029-06-26
Also published as: BRPI0910512A2; EG26653A; AU2009267466B2; EP2311032B1; WO2010003563A8; ES2657393T3; ZA201100089B; TWI459379B; CA2871498C; EP3002750A1; AR072738A1; CA2871372C; PL3002750T3; EP3002750B1; JP2013214089A; MY181247A; US8892449B2; CA2730204C; ES2564400T3; PL2311032T3

Description

本発明は、例えば、時間領域と変換領域のように、異なる符号化領域における音声符号の分野の、音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムに関する。

低いビット速度の音声およびスピーチ符号化技術の文脈の中で、従来より、いくつかの異なる符号化技法が、最も可能な主観的品質を有する信号の低いビット速度の符号化を達成するために、所定のビット速度で使われてきた。一般的な音楽／音響信号のための符号器は、マスキング閾値曲線に従って、量子化誤差のスペクトルの（一時的な）形を形成することによって、主観的品質を最適化することを目的とする。マスキング閾値曲線は、知覚モデル（「知覚音声符号化」）によって、入力信号から想定される。他方、非常に低いビット速度のスピーチの符号化は、人間のスピーチの製作モデルに基づくとき、すなわち、線形予測符号化（ＬＰＣ）を使って、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化するとき、非常に効率良く働くように見える。

これらの２つの異なる取り組みの結果として、一般的な音声符号器は、通常、スピーチ源モデルの開発不足のため、ＬＰＣに基づいた専用スピーチ符号器と比較して、非常に低いデータ速度のスピーチ信号のため、それほど良く働かない。一般的な音声符号器は、ＭＰＥＧ−１３層（ＭＰＥＧは、ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐの略である。）、または、ＭＰＥＧ−２／４の発展した音声符号化（ＡＡＣ）などである。逆に、一般的な音楽信号に適用される場合、マスキング閾値曲線に従って、符号化歪みのスペクトル包絡線を柔軟に形成できないため、ＬＰＣに基づいたスピーチ符号器は、通常、納得のいく結果を達成しない。以下では、ＬＰＣに基づいた符号化と知覚音声符号化との両方の利点を、一つの枠組みに結合する概念が説明される。その結果、一般的な音声信号とスピーチ信号との両方に効率の良い、統一された音声符号化が、説明される。

従来より、知覚音声符号器は、マスキング閾値曲線の想定に従って、効率良く音声信号を符号化するために、フィルタバンクに基づいた取り組みを使用し、量子化歪みを形成する。

図１６は、単旋律の知覚符号化システムの基本的なブロック図を示す。分析フィルタバンク１６００は、時間領域サンプルを、副抽出したスペクトル成分に写像するために使用される。このシステムは、スペクトル成分の数に依存して、副帯域符号器（小さい数の副帯域、例えば３２個）、または、変換符号器（大きな数の周波数線、例えば５１２本）とも称される。知覚（「心理音響」）モデル１６０２は、マスキング閾値に依存した実際の時間を想定するために使用される。スペクトル（「副帯域」または「周波数領域」）成分は、量子化雑音が実際の伝達信号の下に隠され、かつ、復号化後に知覚できないような方法で、量子化および符号化１６０４される。これは、時間および周波数にわたって、スペクトル値の量子化の粒状性を変更することによって達成される。

量子化およびエントロピー符号化された、スペクトル係数または副帯域値が、副情報に加えて、ビットストリーム形式器１６０６に入力される。ビットストリーム形式器１６０６は、送信または保存に適した、符号化された音声信号を提供する。ビットストリーム形式器１６０６の出力ビットストリームは、インターネットを通して送信され、または、機械読取可能なデータ担持体に保存される。

復号器側では、復号器入力インターフェース１６１０が、符号化されたビットストリームを受信する。復号器入力インターフェース１６１０は、副情報から、エントロピー符号化および量子化されたスペクトル値／副帯域値を分離する。符号化されたスペクトル値は、復号器入力インターフェース１６１０と再量子化器１６２０との間に位置するハフマン復号器などのエントロピー復号器に入力される。このエントロピー復号器の出力は、量子化されたスペクトル値である。これらの量子化されたスペクトル値は、再量子化器１６２０に入力される。再量子化器１６２０は、逆量子化を実行する。再量子化器１６２０の出力は、合成フィルタバンク１６２２に入力される。合成フィルタバンク１６２２は、周波数／時間変換と、時間領域折り返し雑音除去操作（重複、加算、および／または、合成側窓化操作など）と、を含む合成フィルタリングを実行し、最終的に出力音声信号を得る。

従来より、効率の良いスピーチ符号化は、線形予測符号化（ＬＰＣ）に基づいており、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化する。ＬＰＣと励振パラメータの両方は、符号器から復号器に送信される。この原則は図１７ａおよび図１７ｂに示される。

図１７ａは線形予測符号化に基づいた符号化／復号化システムの符号器側を示す。スピーチ入力は、ＬＰＣフィルタ係数を出力するＬＰＣ分析器１７０１に入力される。ＬＰＣフィルタ１７０３は、これらのＬＰＣフィルタ係数に基づいて調整される。ＬＰＣフィルタ１７０３は、スペクトル的に白くされた音声信号（「予測誤差信号」とも称される）を出力する。このスペクトル的に白くされた音声信号は、励振パラメータを発生させる残留／励振符号器１７０５に入力される。したがって、スピーチ入力が、一方では、励振パラメータに符号化され、他方では、ＬＰＣ係数に符号化される。

図１７ｂに示された復号器側では、励振パラメータが、励振信号を発生させる励振復号器１７０７に入力される。励振信号は、ＬＰＣ合成フィルタ１７０９に入力される。ＬＰＣ合成フィルタ１７０９は、送信されたＬＰＣフィルタ係数を使用して調整される。したがって、ＬＰＣ合成フィルタ１７０９は、再構成された、または、合成されたスピーチ出力信号を発生する。

時間の経過と共に、多くの方法が、残留（励振）信号の、効率が良く、かつ、知覚的に納得のいく表現に関して、提案されてきた。残留（励振）信号は、多重パルス励振（ＭＰＥ）、正規パルス励振（ＲＰＥ）、符号励振線形予測（ＣＥＬＰ）などがある。

線形予測符号化は、過去の観測値の線形結合（一次結合）として、過去の所定の数の観測値に基づいた系列の現在のサンプルの期待値を生むことを試みる。入力信号の冗長を減らすために、符号器ＬＰＣフィルタ１７０３は、スペクトル包絡線の中の入力信号を「白く」する。すなわち、符号器ＬＰＣフィルタ１７０３は、信号のスペクトル包絡線の逆のモデルである。逆に、復号器ＬＰＣ合成フィルタ１７０９は、信号のスペクトル包絡線のモデルである。特に、周知の自動後退（ＡＲ）線形予測分析法が、全極近似によって信号のスペクトル包絡線をモデル化することが知られている。

通常、狭帯域スピーチ符号器（すなわち、８ｋＨｚの標本抽出割合（サンプリング速度）を有するスピーチ符号器）は、８と１２の間の順でＬＰＣフィルタを用いる。ＬＰＣフィルタの性質によれば、一定の周波数分析能は、周波数領域全体にわたって有効である。これは知覚周波数目盛に対応していない。

従来のＬＰＣ／ＣＥＬＰに基づいた符号化の強度（スピーチ信号のための最も良い品質）と、従来のフィルタバンクに基づいた知覚音声符号化手法（音楽に、最も良い）と、を結合するために、これらの構造物の間の結合符号化が、提案されてきた。ＡＭＲ−ＷＢ＋符号器（適応型多重速度広帯域符号器、ＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅＢａｎｄｃｏｄｅｒ）の中では、二者択一の２つの符号化カーネル（ＯＳの中枢部）が、ＬＰＣ残留信号を操作する（非特許文献１参照）。一方の符号化カーネルは、ＡＣＥＬＰ（代数符号励振線形予測、ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）、すなわち、音楽信号に対して良質の状態を達成するために、従来の音声符号化技術に類似している符号化手法に基づいたフィルタバンクに基づいており、スピーチ信号の符号化に対して、非常に効率が良い。他方の符号化カーネルは、ＴＣＸ（変換符号励振、ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）に基づいている。入力信号の特性によって、２つの符号化モードの１つが、ＬＰＣ残留信号を送信するために、短期間に選択される。このようにして、８０ｍｓ持続時間のフレームが、４０ｍｓまたは２０ｍｓの副フレームに分離され、副フレームの中で、２つの符号化モードの間の決定がされる。

ＡＭＲ−ＷＢ＋符号器（拡張適応型多重速度広帯域符号器）は、２つの本質的に異なるモードＡＣＥＬＰとＴＣＸとを切り換えることができる（非特許文献２参照）。ＡＣＥＬＰモードでは、時間領域信号が、代数符号励振によって符号化される。ＴＣＸモードでは、高速フーリエ変換（ＦＦＴ）が使用され、ＬＰＣ重み付け信号のスペクトル値が、ベクトル量子化に基づいて符号化される。ＬＰＣ励振は、ＬＰＣ重み付け信号から引き出される。

どのモードを使用するかの決定が、試行化と復号化の両方の選択肢と、結果として生じる信号対雑音比（ＳＮ比）の比較とによって、行われる。

この場合は、閉ループ決定とも称される。閉じている制御ループが存在するので、符号化性能、および／または、効率を評価し、次に、一方を捨てることによって、より良いＳＮ比を有する他方を選ぶ。

音声符号化やスピーチ符号化の応用に対して、窓化を有さないブロック変形（フレーム変形）が実行できないことは、周知である。したがって、ＴＣＸモードに対して、信号は、１／８期目の重複を有する低重複窓で窓化される。この重複している領域は、次のブロック（フレーム）が次第に現れる間に、先のブロック（フレーム）が次第に消えるために、例えば、連続した音声フレームの非相関量子化雑音による人工物（雑音）を抑制するために、必要である。こうして、無批判的抽出（ノン−クリティカル・サンプリング）と比較される負荷（オーバーヘッド）が、合理的に低く保たれ、閉ループ決定に必要な復号化は、現在のフレームの少なくとも７／８期目のサンプルで再構成する。

ＡＭＲ−ＷＢ＋符号器は、ＴＣＸモードの中の１／８期目の負荷（オーバーヘッド）を導入する。すなわち、符号化されるべきスペクトル値の番号は、入力サンプルの番号より１／８期目の分だけ多い。これは、データ負荷の増加という不利な点を提供する。そのうえ、対応する帯域通過フィルタの周波数特性も、連続したフレームの１／８期目の急勾配の重複領域のため、不利である。

図１８は、連続したフレームの符号負荷および重複について、もう少し詳しく説明するために、窓パラメータの定義を示す。図１８に示された窓は、左側の立ち上がりエッジ領域（左重複領域とも称される）Ｌと、中央領域（１の領域または通過部分とも称される）Ｍと、立ち下がりエッジ領域（右重複領域とも称される）Ｒとを有する。さらに、図１８は、フレーム内の完全再構成の領域ＰＲを指示する矢印を示している。さらに、図１８は、変換コアの長さＴを指示する矢印を示している。

図１９は、図１８に従って、ＡＭＲ−ＷＢ＋符号器の窓系列のグラフと、その下部分に窓パラメータの表を示している。図１９の上部分に示された窓系列は、ＡＣＥＬＰフレーム、ＴＣＸ２０フレーム（２０ｍｓ持続時間のフレーム）、ＴＣＸ２０フレーム、ＴＣＸ４０フレーム（４０ｍｓ持続時間のフレーム）、ＴＣＸ８０フレーム（８０ｍｓ持続時間のフレーム）、ＴＣＸ２０フレーム、ＴＣＸ２０フレーム、ＡＣＥＬＰフレーム、ＡＣＥＬＰフレームである。

窓系列からは、変化している重複部分が認められる。変化している重複部分は、正確に、中央領域Ｍの１／８期目だけ重複している。図１９の下部分の表は、変換コアの長さＴが、常に、新しい完全再構成されたサンプルの領域ＰＲより、１／８期目だけ大きいことを示す。さらに、これは、ＡＣＥＬＰフレームからＴＣＸフレームへの転移の場合だけではなく、ＴＣＸｘ（「ｘ」は、任意の長さのＴＣＸフレームを示す）フレームからＴＣＸｘフレームへの転移の場合でも存在することに注目するべきである。したがって、各ブロック（フレーム）において、１／８期目の負荷（オーバーヘッド）が導入される。すなわち、批判的抽出（クリティカル・サンプリング）は、決して達成されない。

ＴＣＸフレームからＡＣＥＬＰフレームに切り替わるとき、窓サンプルは、その重複領域（例えば、図１９の上部分の領域１９００）の中のＦＦＴ−ＴＣＸフレームから捨てられる。ＡＣＥＬＰフレームからＴＣＸフレームに切り替わるとき、無入力応答（ＺＩＲ）は、窓化の前に符号器で取り除かれ、回復化のために復号器で加えられる。窓化された無入力応答（ＺＩＲ）は、図１９の上部分で点線１９１０によって示されている。ＴＣＸフレームからＴＣＸフレームに切り替わるとき、窓化されたサンプルは、相互フェードのために使用される。ＴＣＸフレームは、様々に量子化できるので、連続したフレームの間の量子化誤差または量子化雑音は、異なる、および／または、独立している。そのほかに、相互フェード無しで、あるフレームから次のフレームに切り替わるとき、目を引く人工物（雑音）が生じる。したがって、相互フェードが、所定の品質を達成するために必要である。

図１９の下部分の表から、フレームの成長長さと共に、相互フェード領域が成長する、ということが認められる。図２０は、ＡＭＲ−ＷＢ＋符号器内の可能な転移のための様々な窓の図と共に、別の表を提供する。ＴＣＸフレームからＡＣＥＬＰフレームに転移するとき、重複しているサンプルは捨てられる。ＡＣＥＬＰフレームからＴＣＸフレームに転移するとき、ＡＣＥＬＰフレームからの無入力応答は、符号器で取り除かれて、回復化のために復号器で加えられる。

以下において、音声符号化が示される。音声符号化は、時間領域（ＴＤ）の符号化と周波数領域（ＦＤ）の符号化とを利用する。さらに、２つの符号化領域の間の切り換えが利用される。図２１に時間軸が示されている。最初のフレーム２１０１は、ＦＤ符号器によって符号化され、別のフレーム２１０３が続く。フレーム２１０３は、ＴＤ符号器によって符号化され、第１の領域２１０１と領域２１０２で重複する。時間領域で符号化されたフレーム２１０３の後に、フレーム２１０５が続く。フレーム２１０５は、再び周波数領域で符号化され、先行フレーム２１０３と領域２１０４で重複する。重複領域２１０２，２１０４は、符号化領域が切り換えられるときは常に生じる。

これら重複領域の目的は、転移を円滑に進めるためである。しかしながら、重複領域は、符号化効率を損失する、および、人工物（雑音）を生じる傾向がある。したがって、重複領域または転移は、伝達情報のいくつかの負荷（オーバーヘッド）の間、すなわち、符号化効率と転移の品質（すなわち、復号化された信号の音質）との間の妥協として、しばしば選択される。この妥協を構成するために、転移を処理したり、図２１に示すような転移窓２１１１，２１１３，２１１５を設計したりするとき、注意するべきである。

周波数領域符号化モードと時間領域符号化モードとの間の転移の管理に関連する従来の考え方は、例えば、相互フェード窓を使用すること、すなわち、重複領域と同じくらい大きい負荷（オーバーヘッド）を導入することである。先行フレームを徐々に消滅させて、後続フレームを徐々に出現させる相互フェード窓は、同時に利用される。転移が行われるときはいつも、信号が、それ以上、批判的抽出されないので、負荷（オーバーヘッド）によるこの取り組みは、復号化効率における不足をもたらす。批判的抽出された重複変換は、例えば、非特許文献３に開示され、そして、例えば、ＡＡＣ（発展音声符号化）に使用されている（非特許文献４参照）。

さらに、折り返し雑音化されていない相互フェード転移が、非特許文献５および非特許文献６に開示されている。

特許文献１は、時間領域符号器と周波数領域符号器との間の切り換えのための概念を開示している。概念は、時間領域／周波数領域の切り換えに基づいた符号器に適用される。例えば、概念は、ＡＭＲ−ＷＢ＋符号器のＡＣＥＬＰモードに従って、時間領域符号化に適用され、そして、周波数領域符号器の一例として、ＡＡＣに適用される。図２２は、上側の枝の周波数領域復号器と下側の枝の時間領域復号器とを利用する、従来の符号器のブロック図を示す。周波数領域復号経路は、ＡＡＣ復号器によって例示され、再量子化器２２０２と逆変更離散的余弦変換（ＩＭＤＣＴ）ブロック２２０４とを含む。ＡＡＣ復号器において、変更離散的余弦変換（ＭＤＣＴ、ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）は、時間領域と周波数領域との間の変換として使用される。図２２において、時間領域復号経路は、ＡＭＲ−ＷＢ＋復号器２２０６の出力を周波数領域の再量子化器２２０２の出力に結合するために、ＭＤＣＴブロック２２０８が続いたＡＭＲ−ＷＢ＋復号器２２０６として例示される。

これは周波数領域の中の組み合わせを可能にする。重複および加算ステージ（図２２に図示せず）は、隣接するブロックが時間領域または周波数領域で符号化されるかどうかを考慮する必要なく、隣接するブロックを結合して相互フェードするために、ＩＭＤＣＴブロック２２０４の後に使用される。

特許文献１に開示されている別の従来の取り組みは、図２２のＭＤＣＴブロック２２０８、すなわち、時間領域復号化の場合のＤＣＴ−ＩＶおよびＩＤＣＴ−ＩＶを避けることである。いわゆる時間領域折り返し雑音除去（ＴＤＡＣ、ＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇＣａｎｃｅｌｌａｔｉｏｎ）への別の取り組みが使用される。これは図２３に示されている。図２３は、ＡＡＣ復号器として例示された周波数領域復号器を有する別の復号器を示す。ＡＡＣ復号器は、再量子化器２３０２とＩＭＤＣＴブロック２３０４とを含む。時間領域経路は、ＡＭＲ−ＷＢ＋復号器２３０６とＴＤＡＣブロック２３０８とによって例示される。ＴＤＡＣブロック２３０８は、直接に時間領域において、適切な組み合わせのために、すなわち、時間領域折り返し雑音除去のために、必要な時間領域折り返し雑音を導入するので、図２３に示した復号器は、時間領域で、すなわち、ＩＭＤＣＴブロック２３０４の後で、復号化されたブロックの組み合わせを許す。いくつかの計算を節約するために、そして、各ＡＭＲ−ＷＢ＋領域の最初および最後の「スーパーフレーム」ごとに、すなわち、１０２４個のサンプルごとに、ＭＤＣＴを使用する代わりに、ＴＤＡＣは、１２８個のサンプルの重複領域で使用されるだけである。ＡＡＣ処理で導入された正規時間領域折り返し雑音は、ＡＭＲ−ＷＢ＋部品の中の対応する逆時間領域折り返し雑音が導入される間、維持される。

ＷＯ２００８／０７１３５３

Ｂ．ベセット、Ｒ．ルフェーヴル、Ｒ．サラミ、「ハイブリッドＡＣＥＬＰ／ＴＣＸ技術を使用する普遍的なスピーチ／音声符号化」、ＩＥＥＥＩＣＡＳＳＰ会報２００５年度、３０１〜３０４ページ、２００５年３ＧＰＰ（第３世代共同プロジェクト）技術仕様書Ｎｏ．２６．２９０、バージョン６．３．０、２００５年６月Ｊ．プリンセン、Ａ．ブラッドレー、「時間領域折り返し雑音除去に基づいた分析／合成フィルターバンク設計」、ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ、ＡＳＳＰ−３４（５）、１１５３〜１１６１ページ、１９８６年映画および関連音声の一般的な符号化：発展音声符号化、国際規格１３８１８−７、映画専門分類ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、１９９７年フィールダ、ルイスＤ．、トッド、クレイグＣ．、「分配応用のためのビデオに適した音声符号化システムの設計」、論文Ｎｏ．１７−００８、ＡＥＳ第１７国際大会：高品質音声符号化（１９９９年８月）フィールダ、ルイスＤ．、ディヴィッドソン、グラントＡ．、「デジタルテレビ分配のための音声符号化ツール」、前刷りＮｏ．５１０４、ＡＥＳの第１０８回大会）、２０００年１月

折り返し雑音化されていない相互フェード窓は、無批判的抽出（ノン−クリティカル・サンプリング）された符号化係数を発生し、符号化するための情報の負荷（オーバーヘッド）を加算するので、効率良く符号化しない、という不都合を有する。例えば、特許文献１に記載のように時間領域復号器で、時間領域折り返し雑音化（ＴＤＡ、ＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇ）を導入することは、この負荷（オーバーヘッド）を低減するけれども、２つの符号器の一時的なフレーム化が互いに合致するように適用されるだけである。さもなければ、符号化効率は再び減少する。さらに、復号器側のＴＤＡは、特に、時間領域符号器の開始点で問題が多い。潜在的リセットの後に、通常、時間領域符号器または時間領域復号器は、例えば、線形予測符号化（ＬＰＣ、ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）を使用する時間領域符号器または時間領域復号器の記憶部の空き容量による量子化雑音の破裂（バースト）を発生する。復号器は、次に、永久状態または安定状態になる前に、所定時間かかり、時間が経過するにつれて、より一定の量子化雑音を放出する。それは、通常、聞き取れるので、この破裂エラー（誤り）は不利である。

それゆえに、本発明の主たる目的は、複数領域での音声符号化の切り換えを改良して、量子化雑音の破裂を低減し、かつ、符号化効率が良い音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムを提供することである。

この目的は、請求項１に記載の符号器、請求項１０に記載の符号化方法、請求項１２に記載の音声復号器および請求項１８に記載の音声復号化方法によって達成される。

対応する符号化領域のフレーム化が適用される、または、変更された相互フェード窓が利用されるときは、時間領域符号化と周波数領域符号化とを利用する音声符号化概念における改良された切り換えが達成される、ということが本発明の発見である。例えば、ＡＭＲ−ＷＢ＋符号器は、時間領域符号器として使用される。ＡＡＣ符号器は、周波数領域符号器の一例として利用される。２つの符号器の間の、より効率の良い切り換えが、ＡＭＲ−ＷＢ＋部分のフレーム化を適用することによって、または、それぞれのＡＡＣ符号化部分の変更された開始窓もしくは停止窓を使用することによって、達成される。

ＴＤＡＣが復号器で適用され、折り返し雑音化されていない相互フェード窓が利用される、ということが本発明の更なる発見である。

本発明によれば、相互フェード品質を保証している適度の相互フェード領域を維持している間、負荷（オーバーヘッド）情報が減少し、重複転移において導入されるという利点を提供する。その結果、量子化雑音の破裂を低減し、かつ、符号化効率が良い音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムを得ることができる。この発明の上述の目的，その他の目的，特徴および利点は、図面を基準して行う以下の発明を実施するための形態の説明から一層明らかとなろう。

音声符号器の一実施形態を示すブロック図である。音声復号器の一実施形態を示すブロック図である。ＭＤＣＴ／ＩＭＤＣＴのための方程式を示す図である。変更されたフレーム化を利用している一実施形態を示すグラフである。図４ａは時間領域の準周期的信号を示すグラフであり、図４ｂは周波数領域の有声信号を示すグラフである。図５ａは時間領域の雑音のような信号を示すグラフであり、図５ｂは周波数領域の無声信号を示すグラフである。分析／合成ＣＥＬＰの一実施形態を示すブロック図である。ＬＰＣ分析ステージの一実施形態を示すブロック図である。変更された停止窓を有する一実施形態を示すグラフである。変更された停止−開始窓を有する一実施形態を示すグラフである。原則窓を示すグラフである。より発展した窓を示すグラフである。変更された停止窓を有する一実施形態を示すグラフである。異なる重複領域を有する一実施形態を示すグラフである。変更された開始窓を有する一実施形態を示すグラフである。符号器で適用された、折り返し雑音無し化の変更された停止窓の一実施形態を示すグラフである。復号器で適用された、折り返し雑音無し化の変更された停止窓の一実施形態を示すグラフである。従来の符号器および復号器の例を示すブロック図である。従来の有声信号および無声信号のためのＬＰＣ符号化を示すブロック図である。従来の有声信号および無声信号のためのＬＰＣ復号化を示すブロック図である。従来の相互フェード窓を説明するためにの説明図である。従来のＡＭＲ−ＷＢ＋符号器の窓系列を示すグラフおよび窓パラメータを示す表である。ＡＭＲ−ＷＢ＋符号器のＡＣＥＬＰフレームとＴＣＸフレームとの間の転移で使用される窓を示す表である。異なる符号化領域の連続した音声フレームの系列例を示すグラフである。異なる領域の音声復号化のための従来の取り組みを示すブロック図である。従来の時間領域折り返し雑音除去のための例を示すブロック図である。

図１ａは音声サンプルを符号化するための音声符号器１００を示す。音声符号器１００は、第１の符号化領域の中の音声サンプルを符号化するための、第１の時間領域折り返し雑音導入符号器（ＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇＩｎｔｒｏｄｕｃｉｎｇＤｅｃｏｄｅｒ）１１０を備える。第１の時間領域折り返し雑音導入符号器１１０は、第１のフレーム化規則、開始窓、および、停止窓を有する。さらに、音声符号器１００は、第２の符号化領域の中の音声サンプルを符号化するための、第２の符号器１２０を備える。第２の符号器１２０は、音声サンプルの第１の予め決められた番号の予め決められたフレームサイズ、および、音声サンプルの第２の予め決められた番号の符号化準備期間を有する。符号化準備期間は、所定の、または、予め決められており、音声サンプル、音声サンプルのフレームまたは音声信号の系列に依存している。第２の符号器１２０は、異なる第２のフレーム化規則を有する。第２の符号器１２０のフレームは、いくつかの時間的に後続の音声サンプルの符号化された表現である。時間的に後続の音声サンプルの数は、音声サンプルの第１の予め決められた番号と等しい。

音声符号器１００は、さらに制御装置１３０を備える。制御装置１３０は、音声サンプルの特性に対応して、第１の時間領域折り返し雑音導入符号器１１０から第２の符号器１２０へ切り換えるためのものである。また、制御装置１３０は、第１の時間領域折り返し雑音導入符号器１１０から第２の符号器１２０への切り換えに対応して、第２のフレーム化規則を変更したり、あるいは、第２のフレーム化規則を変更しないままで、第１の時間領域折り返し雑音導入符号器１１０の開始窓または停止窓を変更したりするためのものである。

制御装置１３０は、入力音声サンプルに基づいて、または、第１の時間領域折り返し雑音導入符号器１１０または第２の符号器１２０に基づいて、音声サンプルの特性を決定するように設けられる。これは図１ａの点線によって示される。入力音声サンプルは、点線を通って制御装置１３０に提供される。さらに、切り換え決定に関する詳細が以下に提供される。

制御装置１３０は、第１の時間領域折り返し雑音導入符号器１１０および第２の符号器１２０が並行に音声サンプルを符号化するという方法で、第１の時間領域折り返し雑音導入符号器１１０および第２の符号器１２０を制御する。制御装置１３０は、それぞれの結果に基づいて、切り換え決定について決め、切り換え前に変更を実行する。別の実施形態では、制御装置１３０は、音声サンプルの特性を分析して、どの符号化枝を使用するかを決定し、他の枝を切り離す。そのような実施形態では、第２の符号器１２０の符号化準備期間は、適切なものになる。切り換え前の際、符号化準備期間が考慮されなければならない。さらに以下で詳説される。

第１の時間領域折り返し雑音導入符号器１１０は、後続の音声サンプルの最初のフレームを周波数領域に変換するための周波数領域変換器を備える。第１の時間領域折り返し雑音導入符号器１１０は、後続のフレームが第２の符号器１２０によって符号化されるときは、最初の符号化されたフレームを、開始窓で重み付けするように設けられている。さらに、第１の時間領域折り返し雑音導入符号器１１０は、先行フレームが第２の符号器１２０によって符号化されるべきであるとき、最初の符号化されたフレームを、停止窓で重み付けするように設けられている。

様々な記法が使用されることに注目するべきである。第１の時間領域折り返し雑音導入符号器１１０は、開始窓または停止窓を適用する。ここで、残りのために、開始窓は第２の符号器１２０へ切り換わる前に適用される、ということが想定される。そして、第２の符号器１２０から元の第１の時間領域折り返し雑音導入符号器１１０へ切り換わるとき、停止窓は第１の時間領域折り返し雑音導入符号器１１０で適用される、ということが想定される。一般性の損失無しで、表現は、第２の符号器１２０に関して、逆もまた同様に使用される。混乱を避けるために、第２の符号器１２０が始動する、または、その後、第２の符号器１２０が停止するとき、表現「開始」と「停止」は、第１の符号器１１０で適用される窓を称する。

第１の時間領域折り返し雑音導入符号器１１０の中で使用される周波数領域変換器は、ＭＤＣＴに基づいて、最初のフレームを、周波数領域に変換するように設けられている。さらに、第１の時間領域折り返し雑音導入符号器１１０は、ＭＤＣＴサイズを、開始窓および停止窓に、または、変更された開始窓および停止窓に、適用するように設けられている。ＭＤＣＴとそのサイズの詳細は、以下に設定される。

第１の時間領域折り返し雑音導入符号器１１０は、結果的に、折り返し雑音無しの部分を有する開始窓および／または停止窓を使用するように、設けられている。すなわち、窓の中に、時間領域折り返し雑音を有さない部分が存在する。さらに、先行フレームが第２の符号器１２０によって符号化されるときは、第１の時間領域折り返し雑音導入符号器１１０は、窓の立ち上がりエッジ部分にて、折り返し雑音無しの部分を有する開始窓および／または停止窓を使用するように、設けられている。すなわち、第１の時間領域折り返し雑音導入符号器１１０は、折り返し雑音無しである立ち上がりエッジ部分を有する停止窓を利用する。その結果、後続フレームが、第２の符号器１２０によって、すなわち、折り返し雑音無しである立ち下がりエッジ部分を有する停止窓を使用することによって、符号化されるときは、第１の時間領域折り返し雑音導入符号器１１０は、折り返し雑音無しである立ち下がりエッジ部分を有する窓を利用するように設けられている。

制御装置１３０は、第２の符号器１２０を始動するように設けられている。その結果、第２の符号器１２０のフレームの系列の最初のフレームは、第１の時間領域折り返し雑音導入符号器１１０の先行する折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含む。言い換えれば、第１の時間領域折り返し雑音導入符号器１１０および第２の符号器１２０の出力は、制御装置１３０によって、第１の時間領域折り返し雑音導入符号器１１０からの符号化された音声サンプルの折り返し雑音無しの部分が、第２の符号器１２０によって出力された符号化された音声サンプルに重複する方法で、調整される。制御装置１３０は、さらに、相互フェードさせる、すなわち、一方の符号器を徐々に出現（フェードイン）させる間、他方の符号器を徐々に消滅（フェードアウト）させるように設けられている。

制御装置１３０は、第２の符号器１２０を始動するように設けられているので、音声サンプルの第２の予め決められた番号の符号化準備期間は、第１の時間領域折り返し雑音導入符号器１１０の開始窓の折り返し雑音無しの部分と重複する。第２の符号器１２０の後続のフレームは、停止窓の折り返し雑音の部分と重複する。言い換えれば、制御装置１３０は、符号化準備期間中、折り返し雑音化されていない音声サンプルが、第１の時間領域折り返し雑音導入符号器１１０から利用可能であるように、第２の符号器１２０を調整する。そして、折り返し雑音化された音声サンプルだけが、第１の時間領域折り返し雑音導入符号器１１０から利用可能であるときは、第２の符号器１２０の準備期間が終わり、符号化された音声サンプルは、通常の方法で、第２の符号器１２０の出力にて利用可能である。

制御装置１３０は、さらに、第２の符号器１２０を始動するように設けられているので、符号化準備期間は、開始窓の折り返し雑音化部分に重複する。本実施形態では、重複部分の間、折り返し雑音化された音声サンプルは、第１の時間領域折り返し雑音導入符号器１１０の出力から利用可能である。そして、準備期間の符号化された音声サンプルは、第２の符号器１２０の出力にて、利用可能である。準備期間は、増加した量子化雑音を認識する。制御装置１３０は、重複の期間中、２つの次善的に符号化された音声系列の間を相互フェードするように設けられている。

制御装置１３０は、さらに、音声サンプルの異なる特性に対応して、第１の時間領域折り返し雑音導入符号器１１０から切り換わるように設けられている。そして、制御装置１３０は、第１の時間領域折り返し雑音導入符号器１１０から第２の符号器１２０への切り換えに対応して、第２のフレーム化規則を変更するように、または、第２のフレーム化規則が変更されないままで、第１の時間領域折り返し雑音導入符号器１１０の開始窓または停止窓を変更するように、設けられている。言い換えれば、制御装置１３０は、２つの音声符号器の間の前後で切り換わるように設けられている。

別の実施形態では、制御装置１３０は、第１の時間領域折り返し雑音導入符号器１１０を始動するように設けられている。その結果、停止窓の折り返し雑音無しの部分が、第２の符号器１２０のフレームに重複する。言い換えれば、制御装置１３０は、２つの符号器の出力の間を相互フェードするように設けられている。いくつかの実施形態では、次善的に符号化されている間だけ、第２の符号器１２０の出力が徐々に消滅する。すなわち、第１の時間領域折り返し雑音導入符号器１１０からの折り返し雑音化された音声サンプルが徐々に現れる。別の実施形態では、制御装置１３０は、第２の符号器１２０と第１の時間領域折り返し雑音導入符号器１１０の折り返し雑音化されていないフレームとの間を相互フェードするように設けられている。

第１の時間領域折り返し雑音導入符号器１１０は、前述の非特許文献４（映画および関連音声の一般的な符号化：発展音声符号化、国際規格１３８１８−７、映画専門分類ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、１９９７年）に従っているＡＡＣ符号器を含む。

第２の符号器１２０は、３ＧＰＰ（第３世代共同プロジェクト）、技術仕様書Ｎｏ．２６．２９０、バージョン６．３．０、２００５年６月、「音声符号器処理機能、拡張適応型多重速度広帯域符号器、符号変換機能」第６刷に従っているＡＭＲ−ＷＢ＋符号器（拡張適応型多重速度広帯域符号器、ＥｘｔｅｎｄｅｄＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ−ＷｉｄｅＢａｎｄＣｏｄｅｃ）を含む。

制御装置１３０は、ＡＭＲまたはＡＭＲ−ＷＢ＋フレーム化規則を変更するように設けられる。その結果、最初のＡＭＲスーパーフレームは、５つのＡＭＲフレームを含む。上記技術仕様書に従って、スーパーフレームは、上記技術仕様書の１８ページの図４、表１０と２０ページの図５とを比較すると、４つの通常のＡＭＲフレームを含む。以下でさらに詳述するように、制御装置１３０は、余分なフレームをＡＭＲスーパーフレームに加えるように設けられている。スーパーフレームは、スーパーフレームの始端または終端に、フレームを追加することによって変更される、ことに注目するべきである。すなわち、フレーム化規則は、スーパーフレームの端に、同様に上手に合致される。

図１ｂは、音声サンプルの符号化されたフレームを復号するための音声復号器１５０の一実施形態を示す。音声復号器１５０は、第１の復号化領域の中の音声サンプルを復号するための第１の時間領域折り返し雑音導入復号器１６０を備える。第１の時間領域折り返し雑音導入復号器１６０は、第１のフレーム化規則、開始窓、および、停止窓を有する。音声復号器１５０は、さらに、第２の復号化領域の中の音声サンプルを復号するための第２の復号器１７０を備える。第２の復号器１７０は、音声サンプルの第１の予め決められた番号の予め決められたフレームサイズと音声サンプルの第２の予め決められた番号の符号化準備期間とを有する。さらに、第２の復号器１７０は、異なる第２のフレーム化規則を有する。第２の復号器１７０のフレームは、多数の時間的に後続の音声サンプルの復号化された表現である。その数は、音声サンプルの第１の予め決められた番号と等しい。

音声復号器１５０は、さらに制御装置１８０を備える。制御装置１８０は、音声サンプルの符号化されたフレームの指示に基づいて、第１の時間領域折り返し雑音導入復号器１６０から第２の復号器１７０へ切り換えるためのものである。また、制御装置１８０は、第１の時間領域折り返し雑音導入復号器１６０から第２の復号器１７０への切り換えに対応して、第２のフレーム化規則を変更したり、あるいは、第２のフレーム化規則を変更しないままで、第１の時間領域折り返し雑音導入復号器１６０の開始窓または停止窓を変更したりするように設けられている。

上の記述によると、例えば、ＡＡＣ符号器とＡＡＣ復号器において、開始窓と停止窓は、復号器と同様に符号器においても適用される。音声符号器１００の上の記述に従って、音声復号器１５０は対応する復号化部品を提供する。制御装置１８０のための切り換え指示が、符号化されたフレームに伴うビット、フラッグ（旗）、または、副情報の点から提供される。

第１の時間領域折り返し雑音導入復号器１６０は、復号された音声サンプルの最初のフレームを時間領域に変換するための時間領域変換器を含む。第１の時間領域折り返し雑音導入復号器１６０は、後続のフレームが第２の復号器１７０によって復号化されるときは、最初の復号化されたフレームを、開始窓で重み付けするように、および／または、先行フレームが第２の復号器１７０によって復号化されるべきであるときは、最初の復号化されたフレームを、停止窓で重み付けするように、設けられている。時間領域変換器は、第１のフレームを、逆ＭＤＣＴに基づいて、時間領域に変換するように設けられている。および／または、第１の時間領域折り返し雑音導入復号器１６０は、ＩＭＤＣＴサイズを、開始窓および／または停止窓、または、変更された開始窓および／または停止窓に適用するように設けられている。ＩＭＤＣＴサイズはさらに以下で詳説される。

第１の時間領域折り返し雑音導入復号器１６０は、折り返し雑音無し、または、折り返し雑音無しの部分を有している開始窓、および／または、停止窓を利用するように設けられている。第１の時間領域折り返し雑音導入復号器１６０は、さらに、先行フレームが第２の復号器１７０によって復号されるときは、窓の立ち上がりエッジ部分で折り返し雑音無しの部分を有する停止窓を使用するように設けられている。および／または、第１の時間領域折り返し雑音導入復号器１６０は、後続のフレームが、第２の復号器１７０によって復号されるときは、立ち下がりエッジ部分で折り返し雑音無しの部分を有する開始窓を持つ。

音声符号器１００の上で説明した実施形態に対応して、制御装置１８０は、第２の復号器１７０を始動するように設けられる。その結果、第２の復号器１７０のフレーム系列の最初のフレームは、第１の時間領域折り返し雑音導入復号器１６０の先行する折り返し雑音無しの部分の中で処理されたサンプルの復号化された表現を含む。制御装置１８０は、第２の復号器１７０を始動するように設けられるので、音声サンプルの第２の予め決められた番号の符号化準備期間は、第１の時間領域折り返し雑音導入復号器１６０の開始窓の折り返し雑音無しの部分と重複し、第２の復号器１７０の後続のフレームは、停止窓の折り返し雑音の部分と重複する。

別の実施形態において、制御装置１８０は、第２の復号器１７０を始動するように設けられ、その結果、符号化準備期間が、開始窓の折り返し雑音部分と重複する。

別の実施形態において、制御装置１８０は、さらに、符号化された音声サンプルからの指示に対応して、第２の復号器１７０から第１の時間領域折り返し雑音導入復号器１６０へ切り換えるように、かつ、第２の復号器１７０から第１の時間領域折り返し雑音導入復号器１６０へ切り換えに対応して、第２のフレーム化規則を変更したり、あるいは、第２のフレーム化規則を変更しないで、第１の時間領域折り返し雑音導入復号器１６０の開始窓または停止窓を変更したりするように、設けられる。指示は、符号化されたフレームに伴うフラッグ（旗）、ビット、または、副情報の点から提供される。

本実施形態では、制御装置１８０は、第１の時間領域折り返し雑音導入復号器１６０を始動するように設けられる。その結果、停止窓の折り返し雑音部分は、第２の復号器１７０のフレームと重複する。

制御装置１８０は、異なる復号器の復号化された音声サンプルの連続したフレームの間で相互フェードを適用するように設けられる。さらに、制御装置１８０は、第２の復号器１７０の復号化されたフレームから、開始窓または停止窓の折り返し雑音部分の中の折り返し雑音を決定するように設けられる。また、制御装置１８０は、決定された折り返し雑音に基づいて、折り返し雑音部分の中の折り返し雑音を減少させるように設けられる。

制御装置１８０は、さらに、第２の復号器１７０から、音声サンプルの符号化準備期間を捨てるように設けられる。

以下では、変更離散的余弦変換（ＭＤＣＴ）と逆変更離散的余弦変換（ＩＭＤＣＴ）が説明される。変更離散的余弦変換（ＭＤＣＴ）は、図２に示した方程式（ａ）〜（ｊ）によって、より詳細に説明される。変更離散的余弦変換（ＭＤＣＴ）は、重複されているという追加特性を有した４型離散的余弦変換（ＤＣＴ−ＩＶ）に基づいたフーリエ関連変換である。すなわち、より大きいデータセットの連続したブロック（フレーム）が実行されるように設計される。後続のブロック（フレーム）が重複されるので、例えば、１つのブロック（フレーム）の後半が、次のブロック（フレーム）の前半と一致する。この重複は、ＤＣＴのエネルギー圧縮品質に加えて、信号圧縮応用のために、ＭＤＣＴを特に魅力的に作る。それは、ブロック（フレーム）境界から生じる人工物（雑音）を避けることを助けるからである。したがって、ＭＤＣＴは、例えば、音声圧縮のために、ＭＰ３（ＭＰＥＧ２／４層３）、ＡＣ−３（ドルビーによる音声符号器３）、オッグボルビス（ＯｇｇＶｏｒｂｉｓ）、および、ＡＡＣ（発展した音声符号化）で使われる。

ＭＤＣＴは、プリンセンとブラッドレーによる初期研究（１９８６年）に続いて、１９８７年に、時間領域折り返し雑音除去（ＴＤＡＣ）のＭＤＣＴ基本原則を開発するために、プリンセン、ジョンソン、およびブラッドレーによって提案された。ＭＤＣＴは、以下でさらに説明される。また、類似の変換である、離散的正弦変換（ＤＳＴ）に基づいたＭＤＳＴが存在する。ＭＤＳＴは、様々の型のＤＣＴまたはＤＣＴ／ＤＳＴの組み合わせに基づいたＭＤＣＴの別の形式と同様に、稀に使用される。また、ＭＤＳＴは、本実施形態において、時間領域折り返し雑音導入変換器１４によって使用される。

ＭＰ３において、ＭＤＣＴは、直接に音声信号に適用されず、むしろ、３２帯域多相矩形フィルタバンク（ＰＱＦ、ＰｏｌｙｐｈａｓｅＱｕａｄｒａｔｕｒｅＦｉｌｔｅｒｂａｎｋ）の出力に適用される。このＭＤＣＴの出力は、折り返し雑音減少公式によって後処理され、ＰＱＦの典型的な折り返し雑音を減少する。ＭＤＣＴを有するフィルタバンクのそのような組み合わせは、ハイブリッドフィルタバンクまたは副帯域ＭＤＣＴと称される。他方、ＡＡＣは、通常、純粋なＭＤＣＴを使用する。（稀に使用される）ＭＰＥＧ−４ＡＡＣ−ＳＳＲ変形（ソニー製）だけが、ＭＤＣＴに従う４帯域ＰＱＦを使用する。適応型変換音声符号化（ＡＴＲＡＣ）は、ＭＤＣＴに従う積み重ねられた矩形鏡フィルタ（ＱＭＦ、ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）を使用する。

この変換の前の規格化係数は、ここでの約束であるが、任意の条件であり、相互に異なる。ＭＤＣＴとＩＭＤＣＴとの規格化の積だけが、以下で制限される。

逆ＭＤＣＴは、ＩＭＤＣＴとして知られている。入力および出力の異なる数が存在するので、一見したところ、ＭＤＣＴは逆にさせられないように見えるかもしれない。しかしながら、完全な可逆性は、後続の重複ブロック（フレーム）の重複ＩＭＤＣＴを加えることによって達成され、誤差の除去と元データの検索とが引き起こされる。この技術は、時間領域折り返し雑音除去（ＴＤＡＣ）として知られている。

ＩＭＤＣＴは、図２の（ｂ）の公式に従って、Ｎ個の実数Ｘ₀，・・・，Ｘ_N-1を、２Ｎ個の実数ｙ₀，・・・，ｙ_2N-1に変換する。ＤＣＴ−ＩＶのように、直交変換は、その逆が、前の変換と同じ形式を有する。

通常の窓正規化（以下、参照）を有する窓化されたＭＤＣＴの場合、ＩＭＤＣＴの前の規格化係数は、２を乗算されるべきであり、すなわち、２／Ｎになる。

ＭＤＣＴ公式の直接応用は、Ｏ（Ｎ²）操作を必要とするけれども、高速フーリエ変換（ＦＦＴ）のように、計算を再帰的に因数に分析することによって、Ｏ（ＮｌｏｇＮ）の複雑さだけを有するＭＤＣＴ公式を計算することは、可能である。また、Ｏ（Ｎ）前処理および後処理のステップを組み合わされた他の変換（通常、ＤＦＴ（ＦＦＴ）またはＤＣＴ）を介して、ＭＤＣＴを計算できる。また、以下で説明されるように、ＤＣＴ−ＩＶのどんな演算法も、すぐに、等しいサイズのＭＤＣＴおよびＩＭＤＣＴを計算するための方法を提供する。

通常の信号圧縮の応用において、変換特性は、窓関数ｗ_n（ｎ＝０，・・・，２Ｎ−１）を使用することによって、さらに改良される。窓関数ｗ_nは、ｎ＝０と２Ｎのポイントで窓関数ｗ_nを円滑にゼロにすることによって、ｎ＝０と２Ｎの境界で不連続を避けるために、上のＭＤＣＴおよびＩＭＤＣＴの公式の中で、ｘ_nとｙ_nとが乗算される。すなわち、データは、ＭＤＣＴの前とＩＭＤＣＴの後に、窓化される。原則として、ｘとｙは異なる窓関数を有し、また、窓関数ｗ_nは、特に、異なるサイズのデータブロック（フレーム）が組み合わされる場合、１つのブロック（フレーム）から次のブロック（フレーム）に変化する。しかし、簡単のために、等しいサイズのブロック（フレーム）が組み合わされて同じ窓関数となる、よくある場合が、最初に考えられる。

変換は可逆のまま残る。すなわち、ｗが、図２の（ｃ）に従って、プリンセン−ブラッドレー条件を満足する限り、ＴＤＡＣは、対称窓ｗ_n＝ｗ_2N-1-nに対して働く。

様々な異なる窓関数は一般的である。一例として、ＭＰ３およびＭＰＥＧ−２ＡＡＣのためには、図２の（ｄ）の窓関数ｗ_nが与えられる。そして、ボルビス（Ｖｏｒｂｉｓ）のためには、図２の（ｅ）の窓関数ｗ_nが与えられる。ＡＣ−３はカイザー−ベッセル（Ｋａｉｓｅｒ−Ｂｅｓｓｅｌ）から派生した窓を使用する。また、ＭＰＥＧ−４ＡＡＣも、カイザー−ベッセルから派生した窓を使用する。

ＭＤＣＴに適用される窓は、プリンセン−ブラッドレー条件を達成しなければならないので、他のタイプの信号分析に使用される窓と異なることに注目するべきである。この違いの理由の１つは、ＭＤＣＴの窓が、ＭＤＣＴ（分析フィルタ）とＩＭＤＣＴ（合成フィルタ）の両方に対して、２度適用されるということである、

定義の点検によって判るように、等しいＮに対して、ＭＤＣＴは本質的にＤＣＴ−ＩＶと同等である。入力が（Ｎ／２）だけ移行すると、データの２つのＮ−ブロック（フレーム）は、同時に変換される。より慎重にこの等価性を調べることによって、ＴＤＡＣのような重要な特性が容易に引き出される。

ＤＣＴ−ＩＶとの正確な関係を定義するために、ＤＣＴ−ＩＶは、二者択一の偶数／奇数の境界条件に対応するということを理解しなければならない。ＤＣＴ−ＩＶは、その左側の境界（ｎ＝−（１／２）の周囲）で偶数であり、その右側の境界（ｎ＝Ｎ−（１／２））の周囲）で奇数などである。ＤＦＴのような場合には、周期的境界に代わる。これは図２の（ｆ）で与えられた同一性から結果として生じる。したがって、仮に、その入力が、長さＮの列ｘであれば、この列ｘを、（ｘ，−ｘ_R，−ｘ，ｘ_R，・・・）などに広げるイメージが想像される。ここで、ｘ_Rは、逆順のｘを示す。

２Ｎ個の入力とＮ個の出力とを有したＭＤＣＴを考えてください。入力は、それぞれサイズがＮ／２の４つのブロック（ａ，ｂ，ｃ，ｄ）に分割される。仮に、これら４つのブロック（ａ，ｂ，ｃ，ｄ）が、（ＭＤＣＴ定義における＋Ｎ／２タームから）Ｎ／２だけ移行するならば、３つのブロック（ｂ、ｃ、ｄ）が、ＤＣＴ−ＩＶのＮ個の入力の終端を過ぎて広がるので、上で説明した境界状態に従って、３つのブロック（ｂ、ｃ、ｄ）は「折り返され」なければならない。

その結果、２Ｎ個の入力（ａ，ｂ，ｃ，ｄ）を有するＭＤＣＴは、正確に、Ｎ個の入力（−ｃ_R−ｄ，ａ−ｂ_R）を有するＤＣＴ−ＩＶと同等である。ここで、Ｒは、上で説明したように、反転（逆順）を示す。このように、ＤＣＴ−ＩＶを計算するどんな演算法も、普通にＭＤＣＴに適用される。

同様に、上で説明したように、ＩＭＤＣＴ公式は、正確に、ＤＣＴ−ＩＶの１／２である（ＤＣＴ−ＩＶの逆である）。出力はＮ／２だけ移行され、（境界条件を通して）長さ２Ｎまで拡張される。逆ＤＣＴ−ＩＶは、上記から、入力（−ｃ_R−ｄ，ａ−ｂ_R）に容易に戻る。出力が移行されて、境界条件を通して拡張されるとき、図２の（ｇ）に表示された結果を得る。その結果、ＩＭＤＣＴ出力の半分が、冗長である。

今、ＴＤＡＣがどのように働くかが、理解できる。後続の、そして、５０％重複した２Ｎブロック（ｃ，ｄ，ｅ，ｆ）のＭＤＣＴを計算すると想定してください。ＩＭＤＣＴは、上記との類似で、（ｃ−ｄ_R，ｄ−ｃ_R，ｅ＋ｆ_R，ｅ_R＋ｆ）／２を生じる。これが、半分重複している前のＩＭＤＣＴの結果に加えられるとき、逆タームは除去され、容易に（ｃ，ｄ）を得て、元のデータを回復する。

「時間領域折り返し雑音除去」という用語の起源は明確である。論理的ＤＣＴ−ＩＶの境界部分を越えて広がる入力データの使用は、ナイキスト周波数を超える周波数が、より低周波数に折り返し雑音を発生させるのと正確に同じ方法で、データに折り返し雑音を発生させることを引き起こす。この折り返し雑音が、周波数領域の代わりに時間領域の中で起こる場合は除かれる。したがって、組み合わせｃ−ｄ_Rなどは、組み合わせのための正確に正しい記号を有し、加算されるとき除去される。

奇数Ｎ（実際に稀に使用される）に対しては、Ｎ／２が整数でないので、ＭＤＣＴは単なるＤＣＴ−ＩＶの移行順列ではない。この場合、サンプルを半分だけ追加的に移行することは、ＭＤＣＴ／ＩＭＤＣＴがＤＣＴ−ＩＩＩ／ＩＩと等価になるということを意味する。分析は上記に類似している。

上では、ＴＤＡＣ特性が、通常のＭＤＣＴに対して立証され、半分重複している後続のブロック（後続のフレーム）の加算ＩＭＤＣＴが、元のデータを回復することを示す。窓化されたＭＤＣＴのためのこの逆特性の派生は、わずかだけ複雑である。

ブロック（ａ，ｂ，ｃ，ｄ）およびブロック（ｃ，ｄ，ｅ，ｆ）が変更離散的余弦変換（ＭＤＣＴ）され、それらの重複している半分が逆変更離散的余弦変換（ＩＭＤＣＴ）され、かつ、加算されるとき、我々は元データ（ｃ＋ｄ_R，ｃ_R＋ｄ）／２＋（ｃ−ｄ_R，ｄ−ｃ_R）／２＝（ｃ，ｄ）を得る、ということを、上記から思い出してください。。

今、ＭＤＣＴ入力とＩＭＤＣＴ出力の両方が、長さ２Ｎの窓関数によって乗算されることが、提案される。上記したように、対称窓関数、したがって、形式（ｗ，ｚ，ｚ_R，ｗ_R）の対称窓関数を想定する。ここで、ｗとｚは、長さがＮ／２のベクトルであり、Ｒは、前と同様、反転（逆順）を示す。次に、プリンセン−ブラッドレー条件が記載される。

乗算と加算は、要素ごとに実行される。あるいは、等価的にｗとｚを逆にする。

したがって、ブロック（ａ，ｂ，ｃ，ｄ）を変更離散的余弦変換（ＭＤＣＴ）する代わりに、ブロック（ｗａ，ｚｂ，ｚ_Rｃ，ｗ_Rｄ）の変更離散的余弦変換（ＭＤＣＴ）が、要素ごとに実行される全ての乗算と共に行われる。これが、窓関数によって再び（要素ごとに）、変更離散的余弦変換（ＭＤＣＴ）され、かつ、乗算されるとき、その後半分Ｎが、図２の（ｈ）に示すように生じる。

ＩＭＤＣＴ正規化は、窓化された場合、係数２だけ異なるので、１／２の乗算はもはや存在しないことに注目するべきである。同様に、ブロック（ｃ，ｄ，ｅ，ｆ）の窓化されたＭＤＣＴとＩＭＤＣＴは、図２の（ｉ）に従って、その前半分Ｎにおいて生じる。これら２つの半分が、一緒に加算されるとき、図２の（ｊ）の結果を得られ、元のデータが回復される。

以下では、符号器側の制御装置１３０と復号器側の制御装置１８０とが、それぞれ、第１の符号化領域から第２の符号化領域への切り換わりに対応して、第２のフレーム化規則を変更する、実施形態が詳説される。本実施形態において、切り換えられた符号器の中の円滑な移行、すなわち、ＡＭＲ−ＷＢ＋符号化とＡＡＣ符号化との間の円滑な切り換えが、達成される。円滑な移行を有するために、何らかの重複、すなわち、信号の小領域または多数の音声サンプルが、利用される。２つの符号化モードが、信号の小領域または多数の音声サンプルに適用される。言い換えれば、以下の記述において、第１の時間領域折り返し雑音導入符号器１１０と第１の時間領域折り返し雑音導入復号器１６０とは、提供されるＡＡＣ符号化とＡＡＣ復号化とに対応する。第２の符号器１２０と第２の復号器１７０とは、ＡＣＥＬＰモードの中のＡＭＲ−ＷＢ＋に対応する。本実施形態は、それぞれの制御装置１３０，１８０の１つの選択肢に対応する。ＡＭＲ−ＷＢ＋のフレーム化、すなわち、第２のフレーム化規則は、制御装置１３０，１８０の中で変更される

図３はいくつかの窓およびフレームが示される時間軸を示す。図３において、ＡＡＣ正規窓３０１の後には、ＡＡＣ開始窓３０２が続く。ＡＡＣにおいて、ＡＡＣ開始窓３０２は長いフレームと短いフレームとの間で使用される。ＡＡＣ受継フレーム化、すなわち、第１の時間領域折り返し雑音導入符号器１１０および第１の時間領域折り返し雑音導入復号器１６０の第１のフレーム化規則を示すために、短いＡＡＣ窓の系列３０３が図３に示されている。短いＡＡＣ窓の系列３０３は、長いＡＡＣ窓の系列を開始するＡＡＣ停止窓３０４によって終了する。上の記述によると、第２の符号器１２０および第２の復号器１７０は、それぞれＡＭＲ−ＷＢ＋のＡＣＥＬＰモードを利用する、ということが想定される。ＡＭＲ−ＷＢ＋は、図３に示されている系列３２０の等しいサイズのフレームを利用する。図３は、ＡＭＲ−ＷＢ＋のＡＣＥＬＰに従って、異なる型の事前フィルタフレームの系列を示す。ＡＡＣフレームからＡＣＥＬＰフレームへの切り換え前に、制御装置１３０または制御装置１８０は、ＡＣＥＬＰのフレーム化を変更する。その結果、最初のスーパーフレーム３２０（系列３２０）は、４つのフレームの代わりに５つのフレームから成る。したがって、ＡＣＥデータ３１４は復号器で利用可能である。一方、ＡＡＣ復号化されたデータも利用可能である。したがって、最初の部分は復号器にて捨てられる。最初の部分は、第２の符号器１２０、第２の復号器１７０のそれぞれの符号化準備期間と称される。一般に、別の実施形態において、ＡＭＲ−ＷＢ＋スーパーフレームは、スーパーフレームの終端にフレームを追加することによって、拡張される。

図３は、２つのモード転移、すなわち、ＡＡＣからＡＭＲ−ＷＢ＋へのモード転移と、ＡＭＲ−ＷＢ＋からＡＡＣへのモード転移を示す。本実施形態において、ＡＡＣ符号器の典型的な開始窓３０２および停止窓３０４が使用される。ＡＭＲ−ＷＢ＋符号器のフレーム長は、ＡＡＣ符号器の開始窓／停止窓のフェード化部分を重複するために増加する。すなわち、第２のフレーム化規則が変更される。図３によれば、ＡＡＣからＡＭＲ−ＷＢ＋への転移（すなわち、第１の時間領域折り返し雑音導入符号器１１０から第２の符号器１２０への転移、または、第１の時間領域折り返し雑音導入復号器１６０から第２の復号器１７０への転移）が、それぞれ、重複部分をカバーするために、ＡＡＣフレーム化を維持し、かつ、転移のときに時間領域フレームを拡張することによって、処理される。転移におけるＡＭＲ−ＷＢ＋スーパーフレーム、すなわち、図３における最初のスーパーフレーム３２０は、４つのフレームの代わりに５つのフレームを使用する。５番目のフレームは重複部分をカバーする。これはデータ負荷（オーバーヘッド）を導入する。しかしながら、本実施形態は、ＡＡＣモードとＡＭＲ−ＷＢ＋モードとの間の円滑な移行が確実にされる、という利点を提供する。

既に上で説明したように、制御装置１３０は、異なる分析または異なる選択肢が想像できる音声サンプルの特性に基づいて、２つの符号化領域の間を切り換えるように設けられる。例えば、制御装置１３０は、信号の定常部分または転移部分に基づいて、符号化モードを切り換える。別の選択肢は、音声サンプルが有声信号に対応しているか、または、無声信号に対応しているか、に基づいて切り換わることである。音声サンプルの特性を決定するための詳細な実施形態を提供するために、以下において、制御装置１３０は、信号の声の類似性に基づいて切り換わる。

例示的に、図４ａおよび図４ｂ並びに図５ａおよび図５ｂを参照する。準周期的衝撃波のような信号部分と雑音のような信号部分が、例示的に議論される。一般に、制御装置１３０，１８０は、異なる評価基準（例えば、定常性、はかなさ、スペクトル白さなど）に基づいて決定するように、設けられている。以下において、評価基準例が、実施形態の部分として与えられる。特に、図４ａには時間領域の有声スピーチが示され、図４ｂには周波数領域の有声スピーチが示されている。有声スピーチは、準周期的衝撃波のような信号部分の例として議論される。そして、無声スピーチ部分が、雑音のような信号部分の例として、図５ａおよび図５ｂを参照して議論される。

一般に、スピーチは、有声、無声、または、混合に分類される。有声スピーチは、時間領域において準周期的であって、周波数領域において調和構造化されている。一方、無声スピーチは、不規則のようであって、広帯域である。さらに、有声部分のエネルギーは、一般に、無声部分のエネルギーより高い。有声スピーチの短期間スペクトルは、その微細なフォルマント（ｆｏｒｍａｎｔ）構造によって特徴付けられる。微細な倍音構造は、スピーチの準周期性の結果であり、振動している声帯に帰する。フォルマント構造（スペクトル包絡線とも称される）は、音源と声帯との相互作用の結果である。声道は、いん頭と口腔から成る。有声スピーチの短期間スペクトルに「合致」するスペクトル包絡線の形は、声道の輸送特性と声門のパルスによるスペクトル傾斜（６ｄＢ／オクターブ）とに関連している。

スペクトル包絡線は、１連のピーク（フォルマントと称される）によって特徴付けられる。フォルマントは、声道の共鳴モードである。平均の声道には、５ｋＨｚ未満のフォルマントが３個〜５個存在する。通常、３ｋＨｚ未満で起こる第１の３個のフォルマントの振幅および位置は、スピーチの合成および知覚の両方において、かなり重要である。より高いフォルマントも、広帯域で無声のスピーチ表現に対して重要である。スピーチ特性は、以下の物理的スピーチ製作システムに関連する。振動している声帯によって発生した、準周期的声門の空気パルスを有する声道の励振は、有声スピーチを製作する。周期的パルスの周波数は、基本周波数または基本ピッチと称される。声道の中で空気を強制的に圧縮することは、無声スピーチを製作する。鼻音は、鼻道と声道との音響結合の結果である。そして、破裂音は、声道の閉鎖の後に作られた空気圧を、突然に減少させることによって減少する。

したがって、音声信号の雑音のような部分は、図５ａで示すように、時間領域の定常部分、または、周波数領域の定常部分である。それは、例えば、図４ａで示すように、準周期的衝撃波のような部分と異なる。時間領域の定常部分は、永久的な繰り返しパルスを示さないという事実の結果である。しかしながら、後で概説するように、雑音のような部分と準周期的衝撃波のような部分との間の差は、励振信号のＬＰＣの後で観察される。ＬＰＣは、声道と声道の励振をモデル化する方法である。信号の周波数領域が考慮されるとき、衝撃波のような信号は、個々のフォルマントの際立つ外観、すなわち、図４ｂの際立つピークを示す。一方、定常信号スペクトルは、図５ｂに示すように、かなり広いスペクトルを有する。あるいは、倍音信号の場合、定常信号スペクトルは、特定の音を表すいくつかの際立つピークを持つ、かなり連続した雑音床を有する。特定の音は、例えば、音楽信号の中に起こるが、図４ｂの衝撃波のような信号のように、相互に正規の距離を持っていない。

さらに、準周期的衝撃波のような部分と雑音のような部分とは、同時的に起こる。すなわち、それは、時間内の音声信号の部分が雑音であり、別の部分が準周期的衝撃波、すなわち、音色であることを意味する。二者択一的に、または、追加的に、信号特性は、様々な周波数帯域において異なる。したがって、音声信号が、雑音であるか、または、音色であるかの決定は、周波数を選択して実行される。その結果、特定の周波数帯域、または、いくつかの特定の周波数帯域は、雑音であると考えられ、他の周波数帯域は、音色であると考えられる。この場合、音声信号の特定の時間部分は、音色成分および雑音成分を含む。

次に、分析／合成ＣＥＬＰ符号器が、図６を参照して議論される。ＣＥＬＰ符号器の詳細は、「スピーチ符号化：個人指導用報告」、アンドレア・スパニエル、ＩＥＥＥ会報、８４巻、Ｎｏ．１０、１９９４年１０月、１５４１〜１５８２ページに記載されている。図６に示したＣＥＬＰ符号器は、長期予測構成部６０と短期予測構成部６２とを含む。さらに、符号表６４が使用されている。知覚重み付けフィルタＷ（ｚ）６６と誤差最小化制御装置６８も設けられている。ｓ（ｎ）は入力音声信号である。知覚的に重み付けされた後、重み付けされた信号は相殺器６９に入力される。相殺器６９は、重み付けされた合成信号（符号６６に実装されている知覚重み付けフィルタＷ（ｚ）の出力）と実際の重み付けされた信号ｓ_w（ｎ）との間の誤差を計算する。

一般に、短期予知Ａ（ｚ）は、以下でさらに議論するＬＰＣ分析ステ−ジによって計算される。この情報によって、長期予測Ａ_L（ｚ）は、長期予測利得（ピッチ利得）ｂおよび長期予測遅延（ピッチ遅延）Ｔを含む。ＣＥＬＰ演算法は、例えばガウス系列の符号表を使用して、短期予測および長期予測の後に得られた残留信号を符号化する。ＡＣＥＬＰ演算法は、特定の代数的に設計された符号表を有する。「ＡＣＥＬＰ」の「Ａ」は、「代数的」を表す。

符号表は多かれ少なかれベクトルを含む。各ベクトルは、サンプルの数に従った長さを有する。増幅係数ｇは、符号ベクトルを長さ調整する。増幅され符号化されたサンプルは、長期合成フィルタと短期合成フィルタとによって、ふるいにかけられる。「最適な」符号ベクトルが選択され、その結果、知覚的に重み付けされた誤差の平均平方（不偏分散）が、最小になる。ＣＥＬＰの中の検索過程は、図６に示した分析／合成構成から明白である。図６は、分析／合成ＣＥＬＰの一例を示しただけであり、本実施形態は、図６に示した構造に制限されない、ことに注目するべきである。

ＣＥＬＰにおいて、長期予測器は、前の励振信号を含む適応型符号表としてしばしば実行される。長期予測遅延および長期予測利得は、適応型符号表の索引および利得によって表され、重み付けされた誤差の平均平方（不偏分散）を最小にすることによって選択される。この場合、励振信号は、２つの利得調整されたベクトルの加算から成る。１つは適応型符号表からのベクトルであり、もう１つは固定型符号表からのベクトルである。ＡＭＲ−ＷＢ＋符号器の中の知覚重み付けフィルタＷ（ｚ）は、ＬＰＣフィルタに基づいている。したがって、知覚的に重み付けされた信号は、ＬＰＣ領域信号の形式である。ＡＭＲ−ＷＢ＋符号器の中で使用される変換領域符号器において、変換は重み付けされた信号に適用される。復号器において、励振信号は、合成の逆から成るフィルタや重み付けフィルタを通して、復号化され重み付けされた信号を、ふるいにかけることによって得られる。

次に、予測符号化分析ステ−ジの機能性が、図７に示された実施形態に従って議論される。この実施形態では、制御装置１３０，１８０の中でＬＰＣ分析とＬＰＣ合成とを使用する

図７は、ＬＰＣ（線形予測符号化）分析ステージのより詳細な実行を示す。音声信号はフィルタ決定ブロック７８３に入力される。フィルタ決定ブロック７８３は、フィルタ情報Ａ（ｚ）、すなわち、合成フィルタの係数情報を決定する。この情報は、量子化されて、復号器のために必要な短期予測情報として出力される。相殺器７８６では、信号の現在のサンプルが入力され、現在のサンプルの予測値が減算される。その結果、このサンプルに対して、予測誤差信号が信号線７８４に発生する。予測誤差信号は、励振信号または励振フレーム（通常、符号化された後）と称されることに注目するべきである。

図８ａは別の実施形態で達成された窓の時間系列を示す。以下で考慮される実施形態において、ＡＭＲ−ＷＢ＋符号器は第２の符号器１２０に対応し、ＡＡＣ符号器は第１の時間領域折り返し雑音導入符号器１１０に対応する。以下の実施形態は、ＡＭＲ−ＷＢ＋符号器フレーム化を維持する。すなわち、第２のフレーム化規則は、変更されないで残るが、ＡＭＲ−ＷＢ＋符号器からＡＡＣ符号器への転移の中の窓化は、変更される。ＡＡＣ符号器の開始窓／停止窓は操作される。言い換えれば、ＡＡＣ符号器の窓化は、転移において、より長い。

図８ａおよび図８ｂはこの実施形態を示す。両方の図は、従来のＡＡＣ窓８０１の系列を示す。図８ａには、新しい変更された停止窓８０２が導入され、図８ｂには、新しい停止／開始窓８０３が導入されている。ＡＣＥＬＰに関して、同様のフレーム化が、図３の実施形態に関して既に説明したように表現され、使用される。図８ａおよび図８ｂに表現されるような窓系列をもたらす実施形態において、通常のＡＡＣ符号器フレーム化は維持されない、すなわち、変更された開始窓、停止窓、または、開始／停止窓が使用される、ということが想定される。図８ａの中に表現された第１の窓８０２は、ＡＭＲ−ＷＢ＋符号器からＡＡＣ符号器への転移のためのものである。ＡＡＣ符号器は、長い停止窓８０２を使用する。別の窓８０３は図８ｂによって説明される。図８ｂは、ＡＡＣ符号器が後続の短い窓８０１を使用するとき、ＡＭＲ−ＷＢ＋符号器からＡＡＣ符号器への転移を示す。この転移のために、図８ｂに認められるように、ＡＡＣの長い窓８０３が使用される。図８ａは、ＡＣＥＬＰの最初のスーパーフレーム８２０が、４つのフレームを含む、すなわち、従来のＡＣＥＬＰフレーム化（すなわち、第２のフレーム化規則）に従うことを示す。ＡＣＥＬＰフレーム化規則を維持するために、すなわち、第２のフレーム化規則が変更されないで維持されるために、図８ａおよび図８ｂに認められるように、変更された窓８０２，８０３が利用される。

それ故、以下において、窓化に関するいくつかの詳細が、概略的に紹介される。

図９は一般的な矩形窓を示す。窓系列情報は、窓がサンプルを隠す第１のゼロ部分、フレームのサンプル（すなわち、入力時間領域フレームまたは重複時間領域フレーム）が変更されないで通過する第２の通過部分、および、フレームの終端のサンプルを隠す第３のゼロ部分を含む。言い換えれば、適用される窓関数は、第１のゼロ部分において、フレームの始端のサンプル数を抑圧し、第２の通過部分において、サンプルを通過し、次に、第３のゼロ部分において、フレームの終端のサンプル数を抑圧する。この文脈において、抑圧は、窓の通過部分の始端、および／または、終端に、ゼロ系列を追加することを言及する。第２の通過部分は、窓関数が、単に、１の値を有するようなものである。すなわち、サンプルは、変更されないで通過する。すなわち、窓関数は、フレームのサンプルを通して切り替わる。

図１０は窓系列または窓関数の別の実施形態を示す。窓系列は、さらに、第１のゼロ部分と第２の通過部分との間の立ち上がりエッジ部分、および、第２の通過部分と第３のゼロ部分との間の立ち下がりエッジ部分を含む。立ち上がりエッジ部分は、フェードイン部分であると見做すことができる。立ち下がりエッジ部分は、フェードアウト部分であると見做すことができる。本実施形態では、第２の通過部分は、ＬＰＣ領域フレームのサンプルを全く変更しないための系列を含む。

図８ａに示されていた実施形態に戻って、ＡＭＲ−ＷＢ＋符号器からＡＡＣ符号器への転移が、図１１においてさらに詳細に表現されるとき、変更された停止窓が、ＡＭＲ−ＷＢ＋符号器とＡＡＣ符号器との間を転移する実施形態の中で使用される。図１１はＡＣＥＬＰフレーム１１０１，１１０２，１１０３，１１０４を示す。変更された停止窓８０２は、ＡＡＣ符号器、すなわち、第１の時間領域折り返し雑音導入符号器１１０および第１の時間領域折り返し雑音導入復号器１６０にそれぞれ転移するために使用される。ＭＤＣＴの上記の詳細に従って、窓は、５１２個のサンプルの第１のゼロ部分を有するフレーム１１０２の中央において、開始する。この第１のゼロ部分の後には、窓の立ち上がりエッジ部分が続く。１２８個のサンプルを横切って拡がる立ち上がりエッジ部分の後には、第２の通過部分が続く。第２の通過部分は、５７６個のサンプルまで拡がる。すなわち、第１のゼロ部分が折り重ねられた、立ち上がりエッジ部分の後の５１２個のサンプルの後に、第２の通過部分の６４個だけ多いサンプルが続く。それは、６４個のサンプルを横切って拡がる窓の終端の第３のゼロ部分から生じる。窓の立ち下がりエッジ部分は、そのほかに、１０２４個のサンプルをもたらす。１０２４個のサンプルは、後続の窓に重複することになっている。

また、本実施形態は、中間コード（以下によって例示される）を使用して説明される。
／＊ＢｌｏｃｋＳｗｉｔｃｈｉｎｇｂａｓｅｄｏｎａｔｔａｃｋｓ＊／
Ｉｆ（ｔｈｅｒｅｉｓａｎａｔｔａｃｋ）｛ｎｅｘｔｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＳＨＯＲＴ＿ＷＩＮＤＯＷ；｝
ｅｌｓｅ｛ｎｅｘｔｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＬＯＮＧ＿ＷＩＮＤＯＷ；｝
／＊ＢｌｏｃｋＳｗｉｔｃｈｉｎｇｂａｓｅｄｏｎＡＣＥＬＰＳｗｉｔｃｈｉｎｇＤｅｃｉｓｉｏｎ＊／
ｉｆ（ｎｅｘｔｆｒａｍｅｉｓＡＭＲ）｛ｎｅｘｔｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＳＨＯＲＴ＿ＷＩＮＤＯＷ；｝
／＊ＢｌｏｃｋＳｗｉｔｃｈｉｎｇｂａｓｅｄｏｎＡＣＥＬＰＳｗｉｔｃｈｉｎｇＤｅｃｉｓｉｏｎｆｏｒＳＴＯＰ＿ＷＩＮＤＯＷ＿１１５２＊／
ｉｆ（ａｃｔｕａｌｆｒａｍｅｉｓＡＭＲ＆＆ｎｅｘｔｆｒａｍｅｉｓｎｏｔＡＭＲ）｛ｎｅｘｔｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＳＴＯＰ＿ＷＩＮＤＯＷ＿１１５２；｝
／＊ＢｌｏｃｋＳｗｉｔｃｈｉｎｇｆｏｒＳＴＯＰＳＴＡＲＴ＿ＷＩＮＤＯＷ＿１１５２＊／
ｉｆ（ｎｅｘｔｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝＝ＳＨＯＲＴ＿ＷＩＮＤＯＷ）｛ｉｆ（ｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝＝ＳＴＯＰ＿ＷＩＮＤＯＷ＿１１５２）｛ｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＳＴＯＰＳＴＡＲＴ＿ＷＩＮＤＯＷ＿１１５２；｝｝

図１１に表現された実施形態に戻って、１２８個のサンプルを横切って拡がる窓の立ち上がりエッジ部分の中に、時間領域折り返し雑音折り畳み部分が存在する。この時間領域折り返し雑音折り畳み部分は、最後のＡＣＥＬＰフレーム１１０４に重複するので、ＡＣＥＬＰフレーム１１０４の出力は、立ち上がりエッジ部分において、時間領域折り返し雑音除去のために使用される。時間領域折り返し雑音除去は、上で説明した例に沿って、時間領域または周波数領域の中で実行される。言い換えれば、最後のＡＣＥＬＰフレームの出力は、周波数領域に変換され、次に、変更された停止窓８０２の立ち上がりエッジ部分に重複する。最後のＡＣＥＬＰフレームの出力が、変更された停止窓８０２の立ち上がりエッジ部分に重複する前に、二者択一的に、ＴＤＡまたはＴＤＡＣが、最後のＡＣＥＬＰフレームに適用される。

上で説明した実施形態は、転移のときに発生した負荷（オーバーヘッド）を低減する。それは、時間領域符号化のフレーム化（すなわち、第２のフレーム化規則）に対して、どんな変更の必要性も取り除く。さらに、それは、周波数領域符号化器、すなわち、ビット振り分けと転移に対する係数の番号との観点から、通常、時間領域符号器、すなわち、第２の符号器１２０より柔軟である第１の時間領域折り返し雑音導入符号器（ＡＡＣ符号器）を設ける。

以下では、別の実施形態が説明される。別の実施形態は、第１の時間領域折り返し雑音導入符号器１１０と第２の符号器１２０との間で、および、第１の時間領域折り返し雑音導入復号器１６０と第２の復号器１７０との間で、それぞれ切り換わるとき、折り返し雑音無しの相互フェードを提供する。この実施形態は、ＴＤＡＣによる雑音が、特に低ビット伝送速度で、始動または再開処理の場合において避けられる、という利点を供給する。利点は、窓の右側部分または立ち下がりエッジ部分において時間領域折り返し雑音無しの、変更されたＡＡＣ開始窓を有する実施形態によって達成される。変更された開始窓は左右非対称の窓である。すなわち、窓の右側部分または立ち下がりエッジ部分はＭＤＣＴの折り畳み点の前で終わる。その結果、窓は、時間領域折り返し雑音無しである。同時に、重複領域は、１２８個のサンプルの代わりに６４個のサンプルまで下がる実施形態によって減少する。

本実施形態では、音声符号器１００または音声復号器１５０が、永久的で安定した状態になる前に、所定の時間かかる。言い換えれば、時間領域符号器（すなわち、第２の符号器１２０および第２の復号器１７０）の始動期間中、例えばＬＰＣの係数を入力するために、所定の時間が必要である。リセットの場合のエラー（誤り）を調整するために、ＡＭＲ−ＷＢ＋入力信号の左側部分が、第２の符号器１２０にて、例えば６４個のサンプルの長さを有する短い正弦窓で窓化される。さらに、合成信号の左側部分が、第２の復号器１７０にて、同じ信号（短い正弦窓）で窓化される。このように、矩形化された正弦窓が、矩形正弦を開始窓の右側部分に適用しながら、ＡＡＣ符号器に同様に適用される。

この窓化を使用して、ＡＡＣ符号器からＡＭＲ−ＷＢ＋符号器への転移が、時間領域折り返し雑音無しで実行され、例えば、６４個のサンプルのような短い相互フェード正弦窓によって成される。図１２は、ＡＡＣからＡＭＲ−ＷＢ＋への転移およびＡＭＲ−ＷＢ＋からＡＡＣに戻す転移を例示している時間軸を示す。図１２は、ＡＡＣ開始窓１２０１の後に、ＡＡＣ窓１２０１と重複しているＡＭＲ−ＷＢ＋部分１２０３が続くことを示す。重複部分１２０２は、６４個のサンプルを横切って拡がる。ＡＭＲ−ＷＢ＋部分の後には、１２８個のサンプルを有する重複部分１２０４と重複しながら、ＡＡＣ停止窓１２０５が続く。

図１２によると、本実施形態は、ＡＡＣからＡＭＲ−ＷＢ＋への転移の際に、それぞれの折り返し雑音無しの窓を適用する。

図１３は変更された開始窓を表示す。変更された開始窓は、符号器１００の側と復号器１５０の側との両方において、ＡＡＣからＡＭＲ−ＷＢへ転移するとき、第１の時間領域折り返し雑音導入符号器１１０および第１の時間領域折り返し雑音導入復号器１６０のそれぞれに適用される。

図１３に表現された窓は、第１のゼロ部分が存在しないことを示す。窓は、正に、立ち上がりエッジ部分から始まる。立ち上がりエッジ部分は、１０２４個のサンプルを横切って広がる。すなわち、折り畳み軸は、図１３に示された１０２４個の間隔の中央にある。対称軸は、１０２４個の間隔の右側にある。図１３から認められるように、第３のゼロ部分は、５１２個のサンプルに拡がる。すなわち、折り返し雑音は、窓全体の右側部分に存在しない。すなわち、通過部分は、中心から６４個のサンプル間隔の始めに向かって拡がっている。立ち下がりエッジ部分は、６４個のサンプルを横切って拡がることが認められ、相互重複部分が狭いという利点を提供する。６４個のサンプル間隔は、相互フェードのために使用される。しかしながら、折り返し雑音は、６４個のサンプル間隔に存在しない。したがって、低負荷（低オーバーヘッド）しか導入されない。

上で説明した変更された窓を有する実施形態は、あまりに多くの負荷（オーバーヘッド）情報を符号化すること、すなわち、いくつかのサンプルを２度符号化することを避けることができる。上の記述に従って、同様に設計された窓は、１つの実施形態に従って、ＡＭＲ−ＷＢ＋からＡＡＣへの転移のために、任意に適用される。ここで、再びＡＡＣの窓に変更することは、重複部分を６４個のサンプルに低減する。

したがって、変更された停止窓は、実施形態において、２３０４個のサンプルに伸ばされ、１１５２個のポイントのＭＤＣＴの中で使用される。窓の左側部分は、ＭＤＣＴの折り畳み軸の後で、フェードインを始めることによって、言い換えれば、第１のゼロ部分を、全体のＭＤＴＣサイズの４分の１より長くすることによって、時間領域折り返し雑音無しにされる。補足的な矩形正弦窓はＡＭＲ−ＷＢ＋領域の最後の６４個の復号化されたサンプルに適用される。これら２つの相互フェード窓が、負荷（オーバーヘッド）伝達情報を制限することによって、ＡＭＲ−ＷＢ＋からＡＡＣへの円滑な転移を得ることを許す。

図１４は、符号器１００側で適用される、ＡＭＲ−ＷＢ＋からＡＡＣへの転移のための窓を示す。折り畳み軸は５７６個のサンプルの後である、すなわち、第1のゼロ部分は５７６個のサンプルを横切って拡がることが認められる。これは、窓全体の左側は折り返し雑音無しであるという結果をもたらす。相互フェードは、窓の２／４番目に、すなわち、５７６個のサンプルの後に、言い換えれば、折り畳み軸をまさに超えるとき開始する。相互フェード領域、すなわち、窓の立ち上がりエッジ部分は、図１４によると、６４個のサンプルまで狭められる。

図１５は、復号器１５０側で適用される、ＡＭＲ−ＷＢ＋からＡＡＣへの転移のための窓を示す。窓は図１４で説明した窓と同様である。したがって、符号化されて、次に復号されるサンプルを通して適用する両方の窓は、矩形正弦窓を再びもたらす。

以下の中間コードは、ＡＡＣからＡＭＲ−ＷＢ＋に切り替わるときの、開始窓の選択手順の実施形態について説明する。

これらの実施形態は、例えば、以下のような中間コードを使用して説明される。
／＊ＡｄｊｕｓｔｔｏａｌｌｏｗｅｄＷｉｎｄｏｗＳｅｑｕｅｎｃｅ＊／
ｉｆ（ｎｅｘｔｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝＝ＳＨＯＲＴ＿ＷＩＮＤＯＷ）｛ｉｆ（ｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝＝ＬＯＮＧ＿ＷＩＮＤＯＷ）｛ｉｆ（ａｃｔｕａｌｆｒａｍｅｉｓｎｏｔＡＭＲ＆＆ｎｅｘｔｆｒａｍｅｉｓＡＭＲ）｛ｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＳＴＡＲＴ＿ＷＩＮＤＯＷ＿ＡＭＲ；｝
ｅｌｓｅ｛ｗｉｎｄｏｗＳｅｑｕｅｎｃｅ＝ＳＴＡＲＴ＿ＷＩＮＤＯＷ；｝｝

上で説明した実施形態は、転移の間、連続した窓の小さい重複領域を使用することによって、発生した情報の負荷（オーバーヘッド）を低減する。さらに、これらの実施形態は、これらの小さい重複領域が、人工物（雑音）の阻止を円滑にすること、すなわち、円滑な相互フェードを有することに対して十分であるという利点を提供する。さらに、それは、フェード化された入力でそれを初期化することによって、時間領域符号化器（すなわち、第２の符号器１２０、第２の復号器１７０のそれぞれ）の開始によるエラーの破裂（量子化雑音の破裂）の影響を低減する。

まとめると、本実施形態は、円滑な相互フェード領域が、多重モード音声符号化概念において、高い符号化効率で実行される、という利点を提供する。すなわち、転移窓は、伝達されるべき追加情報に関して、低い負荷（オーバーヘッド）しか導入しない。さらに、本実施形態は、１つのモードのフレーム化または窓化を、他のモードに適用する間、多重モード符号器を使用することを可能にする。

いくつかの局面が、装置の文脈の中で説明されたけれども、これらの局面が、対応する方法の記述を表すことは明確である。ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。類似的に、方法ステップの文脈の中で説明された局面は、対応する装置の対応するブロックまたは項目または特徴の記述を表す。

符号化された音声信号は、デジタル保存媒体に保存されたり、インターネットなどの無線伝送媒体または有線伝送媒体のような伝送媒体で送信されたりする。

特定の実現要求によって、本発明に係る実施形態は、ハードウェアまたはソフトウェアの中で実現される。実現は、電子的に読み取り可能な制御信号をその上に保存したデジタル保存媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリを使用して実行される。それはプログラム可能なコンピュータシステムと協働する（あるいは、協働可能である）。その結果、それぞれの方法が実行される。

本発明に従ったいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータ担持体を含む。制御信号は、プログラム可能なコンピュータシステムと協働可能である。その結果、ここで説明した方法の１つが実行される。

一般に、本発明に係る実施形態は、プログラムコードを有したコンピュータプログラム製品として実現される。コンピュータプログラム製品がコンピュータ上で稼動するとき、プログラムコードは、方法の１つを実行するために操作される。プログラムコードは、例えば、機械読み取り可能な担持体に保存される。

他の実施形態は、ここで説明した方法の１つを実行するために、機械読み取り可能な担持体に保存されたコンピュータプログラムを含む。

言い換えれば、本発明に係る方法の実施形態は、コンピュータプログラムがコンピュータ上で稼動するとき、ここで説明した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

さらに、本発明に係る方法の実施形態は、ここで説明した方法の１つを実行するためのコンピュータプログラムが記録された、データ担持体（または、デジタル保存媒体、または、コンピュータ読み取り可能な媒体）である。

さらに、本発明に係る方法の実施形態は、ここで説明した方法の１つを実行するためのコンピュータプログラムを表す、データストリームまたは信号系列である。例えば、データストリームまたは信号系列は、データ通信接続（インターネット）を通して、移送されるように構成される。

さらに、実施形態は、ここで説明した方法の１つを実行するように構成された、または、設けられた処理手段（例えば、コンピュータ、または、プログラム可能な論理回路）を含む。

さらに、実施形態は、ここで説明した方法の１つを実行するためにインストールされたコンピュータプログラムを有するコンピュータを含む。

いくつかの実施形態において、プログラム可能な論理回路（例えば、電界プログラム可能ゲートアレイ）は、ここで説明した方法の機能性のいくつか、または、全てを実行するように使用される。いくつかの実施形態において、電界プログラム可能ゲートアレイは、ここに説明した方法の１つを実行するために、マイクロプロセッサと協働する。一般に、方法は、好ましくは、ハードウェア装置によって実行される。

上述の実施形態は、本発明の原理のために単に例示するだけである。配置および本明細書において記載される詳細の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、近い将来の特許請求の範囲だけによってのみ制限され、本実施形態の記述および説明の目的により特定の詳細な表現によっては制限されないことを意図している。

Claims

音声サンプルを符号化するための音声符号器（１００）であって、
第１のフレーム化規則と、開始窓と、停止窓とを有する、第１の符号化領域の中の音声サンプルを符号化するための第１の時間領域折り返し雑音導入符号器（１１０）と、
異なる第２のフレーム化規則と、スーパーフレームのための音声サンプルの第１の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第２の予め決められた番号の符号化準備期間とを有する、第２の符号化領域の中の音声サンプルを符号化するための第２の符号器（１２０）と、
音声サンプルの特性に対応して、前記第１の時間領域折り返し雑音導入符号器（１１０）から前記第２の符号器（１２０）に、もしくは、前記第２の符号器（１２０）から前記第１の時間領域折り返し雑音導入符号器（１１０）に切り換えるための制御装置（１３０）と、を備え、
前記第２の符号器（１２０）は、前記第２のフレーム化規則がＡＭＲフレーム化規則である、ＡＭＲ符号器もしくはＡＭＲ−ＷＢ＋符号器を含み、前記第２の符号器（１２０）のスーパーフレームは、前記ＡＭＲフレーム化規則に従って、４つのＡＭＲフレームを含み、前記第２の符号器（１２０）の前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第１の予め決められた番号と等しく、
前記制御装置（１３０）は、前記切り換えにおける最初のスーパーフレームが音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第１の時間領域折り返し雑音導入符号器（１１０）から前記第２の符号器（１２０）への切り換え、もしくは、前記第２の符号器（１２０）から前記第１の時間領域折り返し雑音導入符号器（１１０）への切り換えに応答して、前記第２のフレーム化規則を変更し、
前記切り換えにおける最初のスーパーフレームが、前記４つのＡＭＲフレームに加えて５番目のＡＭＲフレームを含み、前記５番目のＡＭＲフレームがそれぞれ、前記第１の時間領域折り返し雑音導入符号器（１１０）の前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
を特徴とする、音声符号器。
前記第１の時間領域折り返し雑音導入符号器（１１０）は、後続の音声サンプルの最初のフレームを、周波数領域に変換するための周波数領域変換器を含むこと、を特徴とする、請求項１に記載の音声符号器。
前記第１の時間領域折り返し雑音導入符号器（１１０）は、後続フレームが、前記第２の符号器（１２０）によって符号化されるときは、最後のフレームを前記開始窓で重み付けするように、および／または、先行フレームが、前記第２の符号器（１２０）によって符号化されるべきであるときは、最初のフレームを前記停止窓で重み付けするように、設けられていること、を特徴とする、請求項２に記載の音声符号器。
前記周波数領域変換器は、変更離散的余弦変換（ＭＤＣＴ）に基づいて、前記最初のフレームを周波数領域に変換するように設けられ、前記第１の時間領域折り返し雑音導入符号器（１１０）は、変更離散的余弦変換（ＭＤＣＴ）サイズを、開始窓および／または停止窓および／または変更開始窓および／または変更停止窓に適用するように設けられていること、を特徴とする、請求項２に記載の音声符号器。
前記第１の時間領域折り返し雑音導入符号器（１１０）は、折り返し雑音部分および／または折り返し雑音無しの部分を有する、前記開始窓および／または前記停止窓を利用するように設けられていること、を特徴とする、請求項１に記載の音声符号器。
前記第１の時間領域折り返し雑音導入符号器（１１０）は、先行フレームが前記第２の符号器（１２０）によって符号化されるときは、窓の立ち上がりエッジ部分にて、そして、後続フレームが前記第２の符号器（１２０）によって符号化されるときは、立ち下がりエッジ部分にて、折り返し雑音無しの部分を有する前記開始窓および／または前記停止窓を利用するように設けられていること、を特徴とする、請求項１に記載の音声符号器。
前記制御装置（１３０）は、前記第２の符号器（１２０）を始動するように設けられ、その結果、前記第２の符号器（１２０）のフレーム系列の最初のフレームが、前記第１の時間領域折り返し雑音導入符号器（１１０）の先行する折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含むこと、を特徴とする、請求項５に記載の音声符号器。
前記制御装置（１３０）は、前記第２の符号器（１２０）を始動するように設けられ、その結果、前記音声サンプルの第２の予め決められた番号の符号化準備期間が、前記第１の時間領域折り返し雑音導入符号器（１１０）の前記開始窓の折り返し雑音無しの部分に重復し、前記第２の符号器（１２０）の後続フレームが、前記停止窓の折り返し雑音部分に重複するように設けられていること、を特徴とする、請求項５に記載の音声符号器。
前記制御装置（１３０）は、前記第２の符号器（１２０）を始動するように設けられ、その結果、前記符号化準備期間が前記開始窓の折り返し雑音部分に重複すること、を特徴とする、請求項５に記載の音声符号器。
音声サンプルを符号化するための音声符号化方法であって、
第１のフレーム化規則と、開始窓と、停止窓とを使用して、第１の符号化領域の中の音声サンプルを符号化するステップと、
ＡＭＲ符号化もしくはＡＭＲ−ＷＢ＋符号化の方法によって、異なる第２のフレーム化規則と、スーパーフレームのための音声サンプルの第１の予め決められた番号の予め決められたフレームサイズとを使用して、第２の符号化領域の中の音声サンプルを符号化するステップと、
前記第１の符号化領域から前記第２の符号化領域に、もしくは、前記第２の符号化領域から前記第１の符号化領域に切り換えるステップと、
前記切り換えにおける最初のスーパーフレームが、音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第１の符号化領域から前記第２の符号化領域への切り換え、もしくは、前記第２の符号化領域から前記第１の符号化領域への切り換えに応答して、前記第２のフレーム化規則を変更するステップと、を備え、
前記第２のフレーム化規則は、ＡＭＲフレーム化規則であり、前記スーパーフレームは、前記ＡＭＲフレーム化規則に従って、４つのＡＭＲフレームを含み、前記第２の符号化領域の前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第１の予め決められた番号と等しく、
前記切り換えにおける最初のスーパーフレームは、前記４つのＡＭＲフレームに加えて５番目のＡＭＲフレームを含み、５番目のＡＭＲフレームはそれぞれ、前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
を特徴とする、音声符号化方法。
プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項１０に記載の音声符号化方法を実行する、前記プログラムコードを有するコンピュータプログラム。
音声サンプルの符号化されたフレームを復号化するための音声復号器（１５０）であって、
第１のフレーム化規則と、開始窓と、停止窓とを有する、第１の復号化領域の中の音声サンプルを復号化するための第１の時間領域折り返し雑音導入復号器（１６０）と、
異なる第２のフレーム化規則と、スーパーフレームのための音声サンプルの第１の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第２の予め決められた番号の符号化準備期間とを有する、第２の復号化領域の中の音声サンプルを復号化するための第２の復号器（１７０）と、
音声サンプルの符号化されたフレームの中の指示に基づいて、前記第１の時間領域折り返し雑音導入復号器（１６０）から前記第２の復号器（１７０）に、もしくは、前記第２の復号器（１７０）から前記第１の時間領域折り返し雑音導入復号器（１６０）に切り換えるための制御装置（１８０）と、を備え、
前記第１の時間領域折り返し雑音導入復号器（１６０）は、逆変更離散的余弦変換（ＩＭＤＣＴ）に基づいて、復号化された音声サンプルの最初のフレームを、時間領域に変換するための時間領域変換器を含み、
前記第２の復号器（１７０）は、前記第２のフレーム化規則がＡＭＲフレーム化規則である、ＡＭＲ復号器もしくはＡＭＲ−ＷＢ＋復号器を含み、前記第２の復号器（１７０）の前記スーパーフレームは、前記ＡＭＲフレーム化規則に従って、４つのＡＭＲフレームを含み、前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第１の予め決められた番号と等しく、
前記制御装置（１８０）は、前記切り換えにおける最初のスーパーフレームが音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第１の時間領域折り返し雑音導入復号器（１６０）から前記第２の復号器（１７０）への切り換え、もしくは、前記第２の復号器（１７０）から前記第１の時間領域折り返し雑音導入復号器（１６０）への切り換えに応答して、前記第２のフレーム化規則を変更するように設けられ、
前記切り換えにおける最初のスーパーフレームは、前記４つのＡＭＲフレームに加えて、５番目のＡＭＲフレームを含み、前記５番目のＡＭＲフレームはそれぞれ、前記第１の時間領域折り返し雑音導入復号器（１６０）の前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
を特徴とする、音声復号器。
前記第１の時間領域折り返し雑音導入復号器（１６０）は、後続フレームが、前記第２の復号器（１７０）によって復号化されるときは、最後の復号化されたフレームを前記開始窓で重み付けするように、および／または、先行フレームが、前記第２の復号器（１７０）によって復号化されるべきであるときは、最初の復号化されたフレームを前記停止窓で重み付けするように、設けられていること、を特徴とする、請求項１２に記載の音声復号器。
前記時間領域変換器が、逆変更離散的余弦変換（ＩＭＤＣＴ）に基づいて、前記最初のフレームを時間領域に変換するように設けられ、前記第１の時間領域折り返し雑音導入復号器（１６０）は、逆変更離散的余弦変換（ＩＭＤＣＴ）サイズを、前記開始窓および／または前記停止窓、もしくは、変更開始窓および／または変更停止窓に適用するように設けられていること、を特徴とする、請求項１３に記載の音声復号器。
前記第１の時間領域折り返し雑音導入復号器（１６０）は、折り返し雑音部分および折り返し雑音無しの部分を有している、開始窓および／または停止窓を利用するように設けられていること、を特徴とする、請求項１２に記載の音声復号器。
前記制御装置（１８０）は、前記第２の復号器（１７０）を始動するように設けられ、その結果、前記第２の復号器（１７０）のフレーム系列の最初のフレームが、前記第１の時間領域折り返し雑音導入復号器（１６０）の先行する折り返し雑音無しの部分の中で処理されたサンプルの復号化された表現を含むこと、を特徴とする、請求項１５に記載の音声復号器。
前記制御装置（１８０）は、前記第２の復号器（１７０）を始動するように設けられ、その結果、前記音声サンプルの第２の予め決められた番号の符号化準備期間が、前記第１の時間領域折り返し雑音導入復号器（１６０）の前記開始窓の折り返し雑音無しの部分に重復し、前記第２の復号器（１７０）の後続フレームが、前記停止窓の折り返し雑音部分に重複するように設けられていること、を特徴とする、請求項１５に記載の音声復号器。
音声サンプルの符号化されたフレームを復号化するための音声復号化方法であって、
第１のフレーム化規則と、開始窓と、停止窓とを有し、かつ、逆変更離散的余弦変換（ＩＭＤＣＴ）に基づいて、復号化された音声サンプルの最初のフレームを時間領域に変換することを使用して、時間領域折り返し雑音を導入している第１の復号化領域の中の音声サンプルを復号化するステップと、
ＡＭＲ復号化もしくはＡＭＲ−ＷＢ＋復号化の方法によって、異なる第２のフレーム化規則を使用して、第２の復号化領域の中の音声サンプルを復号化するステップと、
音声サンプルの符号化されたフレームからの指示に基づいて、前記第１の復号化領域から前記第２の復号化領域へ、もしくは、前記第２の復号化領域から前記第１の復号化領域へ、切り換えるステップと、
前記切り換えにおける最初のスーパーフレームが、音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第１の復号化領域から前記第２の復号化領域への切り換え、もしくは、前記第２の復号化領域から前記第１の復号化領域への切り換えに応答して、前記第２のフレーム化規則を変更するステップと、を備え、
前記第２のフレーム化規則は、ＡＭＲフレーム化規則であり、前記スーパーフレームは、前記ＡＭＲフレーム化規則に従って、４つのＡＭＲフレームを含み、前記第２の復号化領域は、音声サンプルの第１の予め決められた番号の予め決められたフレームサイズと音声サンプルの第２の予め決められた番号の符号化準備期間とを有し、前記第２の復号化領域の前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第１の予め決められた番号と等しく、
前記切り換えにおける最初のスーパーフレームは、前記４つのＡＭＲフレームに加えて５番目のＡＭＲフレームを含み、５番目のＡＭＲフレームはそれぞれ、前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
を特徴とする、音声復号化方法。
音声サンプルを符号化するための音声符号器（１００）であって、
第１のフレーム化規則と、開始窓と、停止窓とを有する第１の符号化領域の中の音声サンプルを符号化するための第１の時間領域折り返し雑音導入符号器（１１０）と、
音声サンプルの第１の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第２の予め決められた番号の符号化準備期間と、異なる第２のフレーム化規則とを有する、第２の符号化領域の中の音声サンプルを符号化するためのＣＥＬＰ符号器である第２の符号器（１２０）と、
音声サンプルの特性に対応して、前記第１の時間領域折り返し雑音導入符号器（１１０）から前記第２の符号器（１２０）に、もしくは、前記第２の符号器（１２０）から前記第１の時間領域折り返し雑音導入符号器（１１０）に切り換え、かつ、前記切り替えに応答して、前記第２のフレーム化規則を変更するための制御装置（１３０）と、を備え、
前記第１の時間領域折り返し雑音導入符号器（１１０）は、折り返し雑音の部分および折り返し雑音無しの部分を有する前記開始窓および／または前記停止窓を利用するように設けられ、
前記第２の符号器（１２０）は、前記符号化準備期間中、増加した量子化雑音を認識し、前記第２の符号器（１２０）のフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第１の予め決められた番号と等しく、
前記制御装置（１３０）は、前記切り替えに応答して、前記第２のフレーム化規則を変更するように設けられ、その結果、前記第２の符号器（１２０）のフレーム系列の最初のフレームが、前記第１の時間領域折り返し雑音導入符号器（１１０）の前記折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含むこと、
を特徴とする、音声符号器。
音声サンプルの符号化されたフレームを復号するための音声復号器（１５０）であって、
第１のフレーム化規則と、開始窓と、停止窓とを有する第１の復号化領域の中の音声サンプルを復号化するための第１の時間領域折り返し雑音導入復号器（１６０）と、
音声サンプルの第１の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第２の予め決められた番号の符号化準備期間と、異なる第２のフレーム化規則とを有する、第２の復号化領域の中の音声サンプルを復号化するためのＣＥＬＰ復号器である第２の復号器（１７０）と、
音声サンプルの前記符号化されたフレームの中の指示に基づいて、前記第１の時間領域折り返し雑音導入復号器（１６０）から前記第２の復号器（１７０）に、もしくは、前記第２の復号器（１７０）から前記第１の時間領域折り返し雑音導入復号器（１６０）に切り換えるための制御装置（１８０）と、を備え、
前記第１の時間領域折り返し雑音導入復号器（１６０）は、折り返し雑音の部分および折り返し雑音無しの部分を有する前記開始窓および／または前記停止窓を利用するように設けられ、
前記第２の復号器（１７０）は、前記符号化準備期間中、増加した量子化雑音を経験し、前記第２の復号器（１７０）のフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第１の予め決められた番号と等しく、
前記制御装置（１８０）は、前記切り替えに応答して、前記第２のフレーム化規則を変更するように設けられ、その結果、前記第２の復号器（１７０）のフレーム系列の最初のフレームが、前記第１の時間領域折り返し雑音導入復号器（１６０）の前記折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含み、前記第２の復号器（１７０）は、前記音声サンプルの符号化された表現を復号して捨てるように設けられていること、
を特徴とする、音声復号器。
プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項１８に記載の音声復号化方法を実行する、前記プログラムコードを有するコンピュータプログラム。