JP5600822B2

JP5600822B2 - 正弦波置換を用いた音声符号化および復号化のための装置および方法

Info

Publication number: JP5600822B2
Application number: JP2014508848A
Authority: JP
Inventors: サッシャディスヒ; ベンヤミンシューベルト; ラルフガイガー; マルティーンディーツ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2012-01-20
Filing date: 2012-12-21
Publication date: 2014-10-08
Anticipated expiration: 2032-12-21
Also published as: RU2562383C2; TW201346891A; WO2013107602A1; US20140074486A1; EP2673776B1; KR20130137235A; US9343074B2; CN103493130B; AU2012366843A1; MX350686B; AR089772A1; ZA201308073B; AU2012366843B2; KR101672025B1; CA2831176C; JP2014517932A; RU2013148123A; SG194706A1; CN103493130A; CA2831176A1

Description

本発明は、音声信号符号化、復号化および処理に関し、特に、正弦波置換を用いた音声符号化および復号化に関する。

音声信号処理は、ますます重要になっている。最新の知覚的な音声コーデックが満足できる音声品質をますます低いビットレートで供給することを求められるため、チャレンジが生まれる。さらに、例えば双方向通信アプリケーションや分散ゲームなどに関して、しばしば、許される待ち時間は非常に短い。

例えばＵＳＡＣ（ＵｉｎｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ）などのような最新の音声コーデックは、しばしば時間領域予測符号化と変換領域符号化との間で切り換わるが、音楽コンテンツはいまだに大部分が変換領域において符号化されている。例えば１４ｋｂｉｔ／ｓ未満の低ビットレートにおいて、音楽アイテムの音の成分は、変換符号器を用いて符号化するとき、しばしば悪く聞こえ、十分な品質で音声を符号化するという課題をさらに挑戦的にする。

さらに、（低遅延最適化ウィンドウ形状および／または変換長のために）低遅延制約は、しばしば変換符号器のフィルタバンクの次善の周波数応答につながり、したがって、更にこの種のコーデックの知覚的な品質を危うくする。

古典的な音響心理学的モデルによれば、量子化ノイズに関する透明度のための事前の必要条件が定められている。高ビットレートにおいて、これは、人間の聴覚マスキングレベルに従う量子化ノイズの知覚的に構成される最適時間／度数分布に関する。しかしながら、低ビットレートにおいて、透明度は達成されることができない。したがって、マスキングレベル必要条件減少戦略は、低ビットレートで使用されることができる。

すでに、最高のコーデックが音楽コンテンツのために提供されており、特に、周波数領域においてスペクトル係数を量子化して送信する修正離散コサイン変換（ＭＤＣＴ）に基づく変換符号器である。しかしながら、非常に低いデータレートにおいて、各時間フレームの極めて少ないスペクトルラインだけが、そのフレームのために利用できるビットによって符号化されることができるだけである。結果として、時間変調アーチファクトおよびいわゆる鳥のさえずりのようなアーチファクトが、符号化信号に必然的にもたらされる。

最も顕著に、この種のアーチファクトは、準定常状態の音の成分において認められる。これは、特に、遅延制約のため、周知の漏洩効果のために隣接するスペクトル係数（スペクトル的な広がり）の間の著しいクロストークを誘導する変換ウィンドウ形状が選ばれなければならない場合に起こる。しかしながら、それにもかかわらず、通常、これらの隣接するスペクトル係数の１つだけまたは少数だけが、低ビットレート符号器による粗い量子化の後、ゼロ以外のままである。

上述のように、従来技術において、１つの方法によれば、変換符号器が使用される。
音楽コンテンツの符号化のために適切である同時期に起こる高い圧縮比音声コーデックは、全て変換符号化に依存している。最も顕著な例は、ＭＰＥＧ２／４、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）およびＭＰＥＧ−Ｄ、ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ（ＵＳＡＣ）である。ＵＳＡＣは、ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ（ＡＣＥＬＰ）モジュール、および主に話し言葉の符号化を目的とするＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ（ＴＣＸ）モジュール（非特許文献５を参照）、および主に音楽の符号化を目的とするＡＡＣで構成される切り換えられたコアを有する。ＡＡＣと同様に、ＴＣＸは、変換ベースの符号化方法である。低いビットレート設定で、特に基礎をなす符号化方式がＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ（ＭＤＣＴ）（非特許文献１を参照）に基づく場合、これらの符号化方式は鳥のさえずりのようなアーチファクトを呈しやすい。

音楽再生のために、変換符号器は、音声データ圧縮の好適な技術である。しかしながら、低ビットレートで、従来の変換符号器は、強い鳥のさえずりおよび粗さアーチファクトを呈する。大部分のアーチファクトは、あまりにまばらに符号化された音のスペクトル成分から生じる。特にこれらが主に厳しい遅延制約を満たすように設計されている次善のスペクトル伝達関数ブロック（漏洩効果）によってスペクトル的に傷付けられる場合に、これは起こる。

従来技術の他の方法によれば、符号化方式は、一時的現象、正弦波およびノイズに対して完全にパラメータに関するものである。特に、中間および低ビットレートのために、完全にパラメータの音声コーデックは標準化され、その中で最も優れていたのは、ＭＰＥＧ−４Ｐａｒｔ３、Ｓｕｂｐａｒｔ７ＨａｒｍｏｎｉｃａｎｄＩｎｄｉｖｉｄｕａｌＬｉｎｅｓｐｌｕｓＮｏｉｓｅ（ＨＩＬＮ）（非特許文献２を参照）およびＭＰＥＧ−４Ｐａｒｔ３、Ｓｕｂｐａｒｔ８ＳｉｎｕＳｏｉｄａｌＣｏｄｉｎｇ（ＳＳＣ）（非特許文献３を参照）である。しかしながら、パラメータ符号器は、不愉快で不自然な音に悩まされ、ビットレートの増加と共に、知覚的な透明性に向かって高められない。

更なる方法は、混成波形およびパラメータの符号化を提供する。非特許文献４において、波形符号化およびＭＰＥＧ４−ＳＳＣ（正弦波部分のみ）をベースにした変換の混成が提案される。反復的な方法において、正弦波は信号から抽出されて減算され、変換符号化技術によって符号化される残差信号を形成する。抽出された正弦波は一組のパラメータによって符号化されて、残差と一緒に送信される。非特許文献６において、混成符号化方法は、正弦波と残差とを別に符号化するように提供される。非特許文献７において、いわゆるＣｏｎｓｔｒａｉｎｅｄＥｎｅｒｇｙＬａｐｐｅｄＴｒａｎｓｆｏｒｍ（ＣＥＬＴ）コーデック／ゴースト・ウェブページで、発振器の列を混成符号化のために利用するというアイデアが描かれる。

中間または高ビットレートで、変換符号器は、それらの自然の音のため音楽の符号化のために適切である。そこで、基本的な音響心理学的なモデルの透明度要件は、完全に、または、ほぼ完全に満たされる。しかしながら、低ビットレートで、符号器は深刻に音響心理学的なモデルの要件に背かなければならず、このような状況で、変換符号器は鳥のさえずり、粗さおよび音楽のノイズのアーチファクトの傾向がある。

完全にパラメータの音声コーデックが低いビットレートに最も適しているにもかかわらず、それらは、不愉快に人工的に聞こえることは公知である。さらに、むしろ粗いパラメトリックモデルの段階的な改良は可能でないため、これらのコーデックは知覚的な透明性に継ぎ目なく拡大縮小しない。

[1] Daudet, L.; Sandler, M.; , "MDCT analysis of sinusoids: exact results and applications to coding artifacts reduction," Speech and Au dio Processing, IEEE Transactions on, vol.12, no.3, pp. 302-312, May 2004 [2] Purnhagen, H.; Meine, N.;, "HILN-the MPEG-4 parametric a udio coding tools," Circuits and Systems, 2000. Proceedings. ISCAS 2000 Geneva. The 2000 IEEE International Symposium an, vol.3, no., pp.201-204 vol.3, 2000 [3] Oomen, Werner; Schuijers, Erik; den Brinker, Bert; Breeb aart, Jeroen:," Advances in Parametrie Coding for High-Quality Audio," Audio Engineering Society Convention 114, preprint, Amsterdam/NL, March 2003 [4] van Schijndel, N.H. ; van de Par, S.; , "Rate-distortion optimized hybrid sound coding," Applications of Signal Processing to Audio and Acoustics, 2005. IEEE Workshop on, vol., no., pp. 235-238, 16-19 Oct. 20 05 [5] Bessette, 8.; Lefebvre, R.; Salami, R. ; , "Universal sp eech/audio coding using hybrid ACELP/TCX techniques," Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP '05). IEEE International Conf erence on, vol.3, no., pp. iii/301- iii/304 Val. 3, 18-23 March 2005 [6] Ferreira, A.J.S. "Combined spectral envelope normalizati on and subtraction of sinusoidal components in the ODFT and MDCT frequency d omains," Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, vol., no., pp.51-54, 2001 [7] http://people.xiph.org/~xiphmont/demo/ghost/demo.html The corresponding archive.org-website is stored at: http://web.archive.org/web/20110121141149/http://people.xiph.org/~xiphmont /demo/ghost/demo.html [8] ISO/IEC 14496-3:2005(E) - Information technology - Cod ing of audio-visual objects - Part 3: Audio, Subpart 4 [9] ISO/IEC 14496-3:2009(E) - Information technology - Cod ing of audio-visual objects - Part 3: Audio, Subpart 4

混成波形およびパラメータの符号化は、個々の方法の限界を潜在的に克服することができて、両方の技術の相互に交差する特性から、潜在的に利益を得ることができるかもしれない。しかしながら、それは、現在の最高水準の技術で、混成コーデックの変換符号化部分および複合型コーデックのパラメータ部分との間の相互作用の欠如によって妨げられる。課題は、パラメータのおよび変換コーデック部分の間の信号の境界、変換およびパラメータ部分の間のビット割当量の舵取り、パラメータおよび変換コーデック出力のパラメータシグナル技術および継ぎ目のない結合に関する。

本発明の目的は、混成音声符号化および復号化のための改良された概念を提供することである。

本発明の目的は、請求項１に記載の装置、請求項１２に記載の装置、請求項２９に記載の方法、請求項３０に記載の方法、および請求項３１に記載のコンピュータプログラムによって解決される。

符号化された音声信号スペクトルに基づいて音声出力信号を生成する装置が提供される。

装置は、復号化音声信号スペクトルを得るために、符号化された音声信号スペクトルを処理するための処理ユニットを含む。復号化音声信号スペクトルは、複数のスペクトル係数を有し、スペクトル係数の各々は、符号化された音声信号スペクトルの範囲内でスペクトル位置およびスペクトル値を有し、スペクトル係数は符号化された音声信号スペクトルの範囲内でそれらのスペクトル位置に連続的に順序付けられ、それにより、スペクトル係数がスペクトル係数のシーケンスを形成する。

さらに、装置は、復号化音声信号スペクトルの１つ以上の擬似係数を決定するための擬似係数決定器を含み、各々の擬似係数はスペクトル位置とスペクトル値を有する。

さらに、装置は、修正された音声信号スペクトルを得るために１つ以上の擬似係数を所定の値にセットするためのスペクトル修正ユニットを含む。

さらに、装置は、時間領域変換信号を得るために修正された音声信号スペクトルを時間領域に変換するためのスペクトル−時間変換ユニットを含む。

さらに、装置は、時間領域発振器信号を生成するための制御可能な発振器を含み、制御可能な発信器は少なくとも１つ以上の擬似係数のスペクトル位置およびスペクトル値によって制御される。

さらに、装置は、音声出力信号を得るために、時間領域変換信号と時間領域発振器信号とを混合するためのミキサーを含む。

提案された概念は、低ビットレートで従来のブロックベースの変換コーデックの知覚的な品質を強化する。いくつかの実施例において、置換される領域に近似するエネルギーまたはレベルを有する擬似ライン（擬似係数とも呼ばれる）によって、隣接する部分的な極小値にわたり、部分的な極大値を囲む、音声信号スペクトルの部分的な音領域を置換することは、提唱される。

実施例によれば、低遅延および低ビットレートの音声符号化が提供される。いくつかの実施例は、ＴｏｎｅＦｉｌｌｉｎｇ（ＴＦ）と呼ばれる新しいおよび発明の概念に基づく。用語ＴｏｎｅＦｉｌｌｉｎｇは、符号化技術を示し、別の方法で、悪く符号化された自然音は、知覚的に類似であるが、純粋な正弦波音に置換される。それにより、最も近いＭＤＣＴビンのスペクトル位置に関する正弦波のスペクトル位置に依存しているある程度の振幅変調アーチファクトは回避される（「鳥のさえずり」として知られている）。

実施例によれば、すべての考えられるアーチファクトのある程度の不快感は、重み付けされる。これは、例えば、ピッチ、調和、変調等の知覚的な側面に関連し、アーチファクトの固定されたものに関連する。すべての態様は、ＳｏｕｎｄＰｅｒｃｅｐｔｉｏｎＡｎｎｏｙａｎｃｅＭｏｄｅｌ（ＳＰＡＭ）において評価される。このようなモデルによって進められて、ＴｏｎｅＦｉｌｌｉｎｇは、重要な効果を提供する。自然音を純正弦波音に置き換えることによって導かれるピッチおよび変調エラーは、まばらに量子化された自然音のトーンによって生じた付加ノイズの影響および劣った定常性（「鳥のさえずり」）に対して重み付けされる。

ＴｏｎｅＦｉｌｌｉｎｇは、重要な相違点を正弦波−プラス−ノイズ・コーデックに提供する。例えば、ＴＦは、正弦波の減算の代わりに、正弦波によって音を置換する。知覚的に類似の音は、置換される原音構成成分と同じ局部的なＣｅｎｔｅｒｓＯｆＧｒａｖｉｔｙ（ＣＯＧ）を有する。実施例によれば、元の音は、音声スペクトル（ＣＯＧ機能の左から右の裾野部分）において消去される。概して、置換のために使用される正弦波の周波数分解能は、サイド情報を最小化するためにできるだけ粗く、同時に、調子外れの感覚を避けるために知覚要求を構成している。

いくつかの実施形態において、ＴｏｎｅＦｉｌｌｉｎｇは、低いカットオフ周波数の下ではなく、前記知覚要求による低いカットフ周波数の上で実施されることができる。ＴｏｎｅＦｉｌｌｉｎｇを実施するときに、音は変換符号器の範囲内でスペクトル擬似ラインを介して表される。しかしながら、ＴｏｎｅＦｉｌｌｉｎｇを装備した符号器において、擬似ラインは、古典的な音響心理学的モデルによって制御される通常の処理を受ける。したがって、ＴｏｎｅＦｉｌｌｉｎｇを行うとき、（ビットレートｘ、ｙで、音の構成要素が置換される）パラメータ部分の推測的な制限の必要がない。このように、変換コーデックへの堅い統合は、成し遂げられる。

局部的なＣＯＧｓ（平滑化された評価；最大品質の測定）を検出することによって、音の成分を除去することによって、擬似ラインの大きさを通したレベル情報、擬似ラインのスペクトル位置を通した周波数情報および擬似ラインの符合を通した細かい周波数情報（ハーフ・ビン・オフセット）を運ぶ置換された擬似ライン（擬似係数）を発生させることによって、ＴｏｎｅＦｉｌｌｉｎｇ機能は、符号器で使用されることができる。擬似係数（擬似ライン）は、通常のスペクトル係数（スペクトルライン）のようなコーデックの次の量子化器ユニットによって処理される。

ＴｏｎｅＦｉｌｌｉｎｇは、さらに、分離されたスペクトルラインを検出することによって、復号器で使用されることができ、正確な擬似係数（擬似ライン）は、フラグアレイ（例えばビットフィールド）によって記録されることができる。復号器は、正弦波トラックを築くために、擬似ライン情報を連結することができる。出生／継続／死方式は、連続トラックを合成するために使用されることができる。

復号化のために、擬似係数（擬似ライン）は、サイド情報の範囲内で送信されるフラグアレイによって、このように記録されることができる。擬似ラインのハーフ−ビン周波数分解能は、擬似係数（擬似ライン）の符号によって信号を送ることができる。復号器で、擬似ラインは、逆変換ユニットの前にスペクトルから消されることができ、発振器の列によって別に合成されることができる。時間とともに、発振器の対は連結され、パラメータの挿入はスムーズに発振器出力を放出するために使用される。

パラメータ駆動発振器のオンセットおよびオフセットが形成され、それにより、それらが変換コーデックのウィンドウイング動作の時間特性に密接に対応し、したがって、出力信号の変換コーデック生成部分と発信器生成部分との間の継ぎ目のない移行が確実となる。

設けられている概念は、うまく、そして、容易に、ＡＡＣ、ＴＣＸまたは類似の構成の既存の変換符号化方式に統合される。パラメータ量子化精度の操縦は、コーデックの現存率の制御によって、暗に実行されることができる。

実施例によれば、スペクトル係数の各々は、直近の先行点および直近の後続点のうちの少なくとも１つを有することができ、前記スペクトル係数の直近の先行点は、シーケンスの中で直ちに前記スペクトル係数に先行するスペクトル係数の１つでもよく、前記スペクトル係数の直近の後続点は、シーケンスの中で直ちに前記スペクトル係数に続くスペクトル係数の１つでもよい。擬似係数決定器は、所定の値と異なるスペクトル値を有するシーケンスのスペクトル係数の少なくとも１つを決定することによって復号化音声信号スペクトルの１つ以上の擬似係数を決定するように構成されることができ、それは直近の先行点を有し、そのスペクトル値は所定の値に等しく、そして、それは直近の後続点を有し、そのスペクトル値は所定の値に等しい。

実施例において、所定の値は、ゼロであってもよい。

実施例によれば、擬似係数決定器は擬似係数候補としてシーケンスの少なくとも１つのスペクトル係数を決定することによって復号化音声信号スペクトルの１つ以上の擬似係数を決定するように構成されることができ、それは直近の先行点を有し、そのスペクトル値は所定の値に等しく、そして、それは直近の後続点を有し、そのスペクトル値は所定の値に等しい。擬似係数決定器は、擬似係数候補が擬似係数であることをサイド情報が示すかどうかを決定することによって擬似係数候補が擬似係数であるかどうかを決定するように構成されることができる。

実施例において、発振器信号の発振器信号周波数が１つ以上の擬似係数の１つのスペクトル位置に依存するように、制御可能な発振器は発振器信号周波数を有する時間領域発振器信号を生成するように構成されることができる。

いくつかの実施形態では、発振器信号の信号周波数は、２以上の時間的に連続的な擬似係数のスペクトル位置の間への挿入を実行することによって発生する。

実施例によれば、擬似係数は符号付きの値であり、各々が符号成分を含む。発信器信号の発信器信号周波数はさらに１つ以上の擬似係数の１つの符号成分に依存し、符号成分が第１の符号値であるとき発信器信号周波数は第１の周波数値を有し、符号成分が異なる第２の符号値であるとき発信器信号周波数は異なる第２の周波数値を有するように、制御可能な発振器は時間領域発振器信号を生成するように構成されることができる。

実施例において、スペクトル値が第３の値を有するときに発振器信号の大きさは第１の振幅値を有し、スペクトル値が異なる第４の値を有するときに発振器信号の大きさが異なる第２の振幅値を有し、第４の値が第３の値より大きいときに第２の振幅値は第１の振幅値より大きくなるように、制御可能な発振器は発振器信号の大きさが１つ以上の擬似係数の１つのスペクトル値に依存する時間領域発振器信号を生成するように構成されることができる。

いくつかの実施例によれば、発振器信号の振幅値は、２つ以上の時間的に連続的な擬似係数のスペクトル値の間への挿入を実行することによって生成される。たとえば、いくつかの実施例において、発振器信号の大きさは、値が送信される時間における位置の間への挿入を実行することによって生成される。

実施例において、さらに、制御可能な発振器は、例えば伝送の間のデータフレーム損失を隠すために、または、発振器の制御の不安定な動作を滑らかにするために、先行するフレームの擬似係数から引き出される外挿パラメータによって制御されることもできる。

いくつかの実施例によれば、発振器信号の振幅値は、２つ以上の擬似係数のスペクトル値の間への挿入を実行することによって生成される。たとえば、いくつかの実施例において、発振器信号の大きさは、値が送信される時間における位置の間に挿入を実行することによって生成される。

実施例によれば、修正された音声信号スペクトルは、ＭＤＣＴ係数を含むＭＤＣＴスペクトルでもよい。スペクトル−時間変換ユニットは、復号化音声信号スペクトルの係数の少なくともいくつかが時間領域に変換されることによって、ＭＤＣＴスペクトルをＭＤＣＴ領域から時間領域に変換するように構成されることができる。

実施例において、ミキサーは、時間領域において時間領域変換信号を時間領域発振器信号に加えることによって、時間領域変換信号および時間領域発振器信号を混合するように構成されることができる。

さらに、音声信号入力スペクトルを符号化する装置が設けられている。音声信号入力スペクトルは複数のスペクトル係数を含み、スペクトル係数の各々は、音声信号入力スペクトルの範囲内のスペクトル位置およびスペクトル値を有する。スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は音声信号入力スペクトルの範囲内でそれらのスペクトル位置に従って連続して順序付けられる。スペクトル係数の各々は、１つ以上の先行点の少なくとも１つ、および、１つ以上の後続点の少なくとも１つを含み、前記スペクトル係数の先行点のそれぞれは、シーケンスの中で前記スペクトル係数に先行するスペクトル係数のうちの１つである。前記スペクトル係数の後続点のそれぞれは、シーケンスの中で前記スペクトル係数の後に続くスペクトル係数のうちの１つである。

装置は、好ましくは基本的な時間−周波数変換によって与えられるようなより高いスペクトル分解能において、１つの極値またはより多くの極値を決定するための極値決定器を含む。

例えば、音声信号入力スペクトルは、複数のＭＤＣＴ係数を有するＭＤＣＴスペクトルでもよい。

極値決定器は、比較スペクトル上の１つまたは複数の極値を決定することができ、比較スペクトルの係数の比較値は、ＭＤＣＴスペクトルのＭＤＣＴ係数のそれぞれに割り当てられる。しかしながら、比較スペクトルは、音声信号入力スペクトルより高いスペクトル分解能を有することができる。たとえば、比較スペクトルは、ＭＤＣＴ音声信号入力スペクトルより２倍のスペクトル分解能を有する離散フーリエ変換（ＤＦＴ）スペクトル（均一に、または、余分に積み重ねられたＤＦＴ）でもよい。これによって、ＤＦＴスペクトルの全ての第２のスペクトル値だけが、それからＭＤＣＴスペクトルのスペクトル値に割り当てられる。しかしながら、比較スペクトルの極値が決定されるときに、比較スペクトルの他の係数は考慮されることができる。これによって、比較スペクトルの係数は、音声信号入力スペクトルのスペクトル係数に割り当てられないが、直近の先行点および直近の後続点を有する極値として決定されることができ、それは、それぞれ、音声信号入力スペクトルのスペクトル係数に、そして、音声信号入力スペクトルのそのスペクトル係数の直近の後続点に割り当てられる。このように、（例えば高分解能ＤＦＴスペクトルの中の）比較スペクトルの前記極値が、（ＭＤＣＴ）音声信号入力スペクトルの前記スペクトル係数および（ＭＤＣＴ）音声信号入力スペクトルの前記スペクトル係数の前記直近の後続点の間に位置する（ＭＤＣＴ）音声信号入力スペクトルの範囲内でスペクトル位置に割り当てられると考えられることができる。後ほど説明されるように、このような状況は擬似係数の適当な符号値を選択することによって符号化されることができる。これによって、サブ−ビン分解能は、成し遂げられる。

さらに、装置は、少なくとも１つの極値係数の少なくとも１つの先行点または少なくとも１つの後続点のスペクトル値を所定の値に設定することによって修正された音声信号スペクトルを得るために、音声信号入力スペクトルを修正するためのスペクトル修正器を含む。さらに、スペクトル修正器は、１つ以上の極値係数のスペクトル値を所定の値に設定しないように、または１つ以上の極値係数の少なくとも１つを擬似係数で置換するように構成され、ここで、擬似係数のスペクトル値は所定の値と異なるものである。

さらに、装置は、符号化された音声信号スペクトルを得るために修正された音声信号スペクトルを処理するための処理ユニットを含む。

さらに、装置は、サイド情報を生成して送信するためのサイド情報発生器を含み、サイド情報発生器は、スペクトル修正器によって生成される修正された音声信号入力スペクトルの範囲内で１つ以上の擬似係数候補の位置を決めるように構成され、サイド情報発生器は擬似係数候補の少なくとも１つを選択された候補として選択するように構成され、そして、サイド情報が擬似係数として選択された候補を示すように、サイド情報発生器はサイド情報を生成するように構成される。

好ましくは基本的な時間−周波数変換によって与えられるようなより高いスペクトル分解能において、極値係数の各々は、そのスペクトル値が先行点の少なくとも１つのスペクトル値より大きく、そのスペクトル値が後続点の少なくとも１つのスペクトル値より大きいスペクトル係数の１つであるように、極値決定器は１つ以上の極値係数を決定するように構成される。または、スペクトル係数の各々は前記スペクトル係数と関連した比較値を有し、極値係数の各々は、その比較値がその先行点の少なくとも１つの比較値より大きく、その比較値がその後続点の少なくとも１つの比較値より大きいスペクトル係数の１つであるように、極値決定器は１つ以上の極値係数を決定するように構成される。

実施例によれば、サイド情報発生器によって生成されるサイド情報は静的で、所定のサイズであることができ、または、そのサイズは信号適応的に反復的に評価されることができる。この場合、サイド情報の実際のサイズは、同様に復号器に発信される。それで、実施例によれば、サイド情報発生器４４０は、サイド情報のサイズを送信するように構成される。

実施例において、音声信号入力スペクトルのスペクトル係数の少なくともいくつかのスペクトル値が修正された音声信号スペクトルの中で修正されないまま残されるように、スペクトル修正器は音声信号入力スペクトルを修正するように構成される。

実施例によれば、スペクトル係数の各々は、その先行点の１つとしての直近の先行点およびその後続点の１つとしての直近の後続点の少なくとも１つを含み、前記スペクトル係数の直近の先行点は、シーケンスの中で前記スペクトル係数のすぐ前に先行するスペクトル係数の１つであり、前記スペクトル係数の直近の後続点は、シーケンスの中で前記スペクトル係数のすぐ後に続くスペクトル係数の１つである。

スペクトル修正器は、極値係数の少なくとも１つの直近の先行点または直近の後続点のスペクトル値を所定の値に設定することにより修正された音声信号スペクトルを得るために音声信号入力スペクトルを修正するように構成されることができ、スペクトル修正器は１つ以上の極値係数のスペクトル値を所定の値に設定しないように構成されてもよく、または１つ以上の極値係数の少なくとも１つを擬似係数で置換するように構成されることができ、擬似係数のスペクトル値は、所定の値と異なるものである。極値決定器が比較スペクトル（例えばパワースペクトル）に基づいて極値係数を決定するとき、例えば、比較スペクトル（例えばパワースペクトル）の極大であるスペクトル係数は、音声信号入力スペクトル（例えばＭＤＣＴスペクトル）の極大である必要はないということに留意すべきである。

極値係数の各々は、そのスペクトル値が直近の先行点のスペクトル値より大きく、そのスペクトル値が直近の後続点のスペクトル値より大きいスペクトル係数の１つであるように、極値決定器は１つ以上の極値係数を決定するように構成されることができる。または、スペクトル係数の各々は前記スペクトル係数と関連した比較値を有し、極値係数の各々は、その比較値が直近の先行点の比較値より大きく、その比較値が直近の後続点の比較値より大きいスペクトル係数の１つであるように、極値決定器は１つ以上の極値係数を決定するように構成される。

実施例によれば、１つ以上の極小係数の各々は、そのスペクトル値がその先行点の１つのスペクトル値より小さく、そのスペクトル値がその後続点の１つのスペクトル値より小さいスペクトル係数の１つであるように、極値決定器は１つ以上の極小係数を決定するように構成され、または、スペクトル係数の各々は前記スペクトル係数と関連する比較値を有し、極小係数の各々は、その比較値がその先行点の１つの比較値より小さく、その比較値がその後続点の１つの比較値より小さいスペクトル係数の１つであるように、極値決定器は１つ以上の極小係数を決定するように構成される。このような実施例において、代表値が所定の値と異なるように、スペクトル修正器は、極値係数の１つ以上および極小係数の１つ以上のスペクトル値または比較値に基づいて代表値を決定するように構成される。さらに、スペクトル修正器は、前記スペクトル値を代表値に設定することによって音声信号入力シーケンスの係数のうちの１つのスペクトル値を変えるように構成される。

実施例によれば、スペクトル修正器は、極値係数の１つの比較値またはスペクトル値の１つの値の差が閾値より小さいかどうか決定するように構成されることができる。さらに、音声信号入力スペクトルのスペクトル係数の少なくともいくつかのスペクトル値が、値の差が閾値より小さいかどうかに依存している修正された音声信号スペクトルにおいて修正されないままにされるように、スペクトル修正器は音声信号入力スペクトルを修正するように構成されることができる。

実施例において、サブシーケンスのそれぞれは、複数の次のスペクトル係数、音声信号入力スペクトルを含むように、極値決定器はスペクトル値のシーケンスの１つ以上のサブシーケンスを決定するように構成されることができる。次のスペクトル係数は、それらのスペクトル位置に従ってサブシーケンスの範囲内で連続して順序付けられる。サブシーケンスの各々は、前記連続的に順序付けられたサブシーケンスの最初にある最初の成分および前記連続的に順序付けられたサブシーケンスの最後にある最後の成分を含む。さらに、サブシーケンスの各々は、極小係数のうちの正確に２つおよび極値係数のうちの正確に１つを含み、極小係数の１つはサブシーケンスの最初の成分であり、極小係数の他の１つはサブシーケンスの最後の成分である。このような実施例において、スペクトル修正器は、スペクトル値に基づく代表値またはサブシーケンスの１つの係数の比較値を決定するように構成されることができる。スペクトル修正器は、前記スペクトル値を代表値に設定することによって前記サブシーケンスの係数のうちの１つのスペクトル値を変えるように構成されることができる。

実施例によれば、極値決定器は、複数の重み付けされた係数を得るために、比較値の結果およびサブシーケンスの各々のスペクトル係数のための位置の値を決定し、重み付けされた係数を合計することにより第１の合計を取得し、サブシーケンスの全てのスペクトル係数の比較値を合計して第２の合計を取得し、第１の合計を第２の合計で割ることにより中間結果を取得し、中間結果を丸めて最も近く丸めることにより重心係数を取得することにより重心係数を決定するように構成され、スペクトル修正器は、所定の値に対して重心係数ではないサブシーケンスの全てのスペクトル係数のスペクトル値を設定するように構成される。または、極値決定器は、複数の重み付けされた係数を得るために、サブシーケンスの各スペクトル係数のためのスペクトル値および位置の値を決定し、重み付けされた係数を合計することにより第１の合計を取得し、サブシーケンスの全てのスペクトル係数のスペクトル値を合計して第２の合計を取得し、第１の合計を第２の合計で割ることにより中間結果を取得し、中間結果を丸めて最も近く丸めることにより重心係数を取得することにより重心係数を決定するように構成され、スペクトル修正器は、所定の値に対して重心係数ではないサブシーケンスの全てのスペクトル係数のスペクトル値を設定するように構成される。

実施例において、所定の値は、ゼロである。

実施例によれば、各スペクトル係数の比較値は、音声信号のエネルギー保存変換から生じている更なるスペクトルの更なる係数の二乗値である。

実施例において、各スペクトル係数の比較値は、音声信号のエネルギー保存変換から生じている更なるスペクトルの更なる係数の振幅値である。

実施例によれば、更なるスペクトルは離散フーリエ変換（ＤＦＴ）スペクトルであり、エネルギー保存変換は離散フーリエ変換（均一に、または、余分に積み重ねられたＤＦＴ）である。

他の実施例によれば、更なるスペクトルはＣｏｍｐｌｅｘＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ（ＣＭＤＣＴ）スペクトルであり、そして、エネルギー保存変換はＣＭＤＣＴである。

実施例によれば、スペクトル修正器は、微調整情報を受信するように構成される。音声信号入力スペクトルの係数は、各々が符号成分を有する符号付きの値である。微調整情報が第１の微調整状態にあるとき、スペクトル修正器は１つ以上の極値係数の、または、擬似係数の１つである符号成分を第１の符号値に設定するように構成されることができる。そして、微調整情報が第２の微調整状態にあるとき、スペクトル修正器は１つ以上の極値係数の、または、擬似係数の１つである符号成分を異なる第２の符号値に設定するように構成されることができる。

実施例において、音声信号入力スペクトルは、ＭＤＣＴ係数を含むＭＤＣＴスペクトルとすることができる。

実施例によれば、処理ユニットは、量子化された音声信号スペクトルを得るために、修正された音声信号スペクトルを量子化するように構成される。処理ユニットは、符号化された音声信号スペクトルを得るために、量子化された音声信号スペクトルを処理するように構成されることができる。さらに、処理ユニットは、そのスペクトル値が所定の値に等しい直近の先行点と、そのスペクトル値が所定の値に等しい直近の後続点を含む量子化された音声信号スペクトルのそれらのスペクトル係数のためだけに、前記係数が極値係数の１つであるかどうかを示すサイド情報を生成するように構成される。前記スペクトル係数の直近の先行点は量子化された音声信号スペクトルの範囲内で前記スペクトル係数に直近に先行する他のスペクトル係数であり、そして、前記スペクトル係数の直近の後続点は量子化された音声信号スペクトルの範囲内で前記スペクトル係数に直近に続く他のスペクトル係数である。

さらに、符号化された音声信号スペクトルに基づいて音声出力信号を生成する方法が与えられている。スペクトル係数の各々は、符号化された音声信号スペクトルの範囲内のスペクトル位置およびスペクトル値を有する。スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は符号化された音声信号スペクトルの範囲内でそれらのスペクトル位置に従って連続して順序付けられる。音声出力信号を生成する方法は、以下のことを含む。
- 複数のスペクトル係数を含む復号化音声信号スペクトルを得るために、符号化された音声信号スペクトルを処理すること。
- 復号化音声信号スペクトルの１つ以上の擬似係数（擬似係数の各々はスペクトル位置およびスペクトル値を有する）を決定すること。
- 修正された音声信号スペクトルを得るために１つ以上の擬似係数を所定の値に設定すること。
- 時間領域変換信号を得るために修正された音声信号スペクトルを時間領域に変換すること。
- １つ以上の擬似係数の少なくとも１つのスペクトル位置およびスペクトル値によって制御されている制御可能な発振器によって時間領域発振器信号を生成すること、および、
- 音声出力信号を得るために時間領域変換信号および時間領域発振器信号を混合すること。

さらに、音声信号入力スペクトルを符号化する方法が与えられている。音声信号入力スペクトルは、複数のスペクトル係数を含む。スペクトル係数の各々は、音声信号入力スペクトル範囲内のスペクトル位置およびスペクトル値を有する。スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は音声信号入力スペクトルの範囲内のそれらのスペクトル位置に従って連続して順序付けられる。スペクトル係数の各々は、１つ以上の先行点の少なくとも１つおよび１つ以上の後続点の少なくとも１つを有する。前記スペクトル係数の各先行点は、シーケンスの中で前記スペクトル係数に先行するスペクトル係数の１つである。前記スペクトル係数の各後続点は、シーケンスの中で前記スペクトル係数の後に続くスペクトル係数のうちの１つである。音声信号入力スペクトルを符号化する方法は以下のものを含む。
- １つ以上の極値係数を決定すること。
- 極値係数の少なくとも１つの先行点の少なくとも１つまたは後続点の少なくとも１つのスペクトル値を所定の値に設定することによって修正された音声信号スペクトルを得るために音声信号入力スペクトルを修正することであって、音声信号入力スペクトルを修正することは、１つ以上の極値係数のスペクトル値を所定の値に設定しないことによって、または１つ以上の極値係数の少なくとも１つを擬似係数に置換することによって実行され、擬似係数のスペクトル値が所定の値と異なること、
- 符号化された音声信号スペクトルを得るために修正された音声信号スペクトルを処理すること、および
- サイド情報を生成して、送信することであって、サイド情報は、修正された音声信号入力スペクトルの範囲内で１つ以上の擬似係数候補の位置を決めることによって生成され、サイド情報は選択された候補として擬似係数の少なくとも１つを選択することにより生成され、サイド情報が生成されて、そのサイド情報が擬似係数として選択された候補を示す。

極値係数の各々は、そのスペクトル値がその先行点の１つのスペクトル値より大きく、そのスペクトル値がその後続点の１つのスペクトル値より大きいスペクトル係数の１つであるように、１つ以上の極値係数は決定される。または、スペクトル係数の各々は、前記スペクトル係数と関連した比較値を有し、極値係数の各々は、その比較値がその先行点の少なくとも１つの比較値より大きく、その比較値がその後続点の少なくとも１つの比較値より大きいスペクトル係数の１つであるように、１つ以上の極値係数が決定される。

さらに、コンピュータまたは信号処理器で実行されるときに、上記の方法を実施するためのコンピュータプログラムが与えられる。

音声符号器、音声復号器、関連した方法およびプログラムまたは符号化された音声信号が与えられる。さらに、波形符号器のための正弦波置換のための概念が与えられる。

低ビットレートで、本発明は、信号技術の上のビットレートに対して改良された知覚的な品質および改良されたスケーリングを得るために、波形符号化およびパラメータの符号化をしっかりとまとめる方法の概念を提供する。

いくつかの実施例では、残差から合成された正弦波を反復的に減算する正弦波符号器と対照的に、スペクトルの尖頂のある領域（隣接した局部的な極小値にわたり、局部的な極大値を包含して）は、各々単一の正弦波によって完全に置換されることができる。適切な尖頂のある領域は引き抜かれて滑らかにされ、わずかに白色化されたスペクトル表現となり、特定の特徴（ピークの高さ、ピークの形状）に関して選択される。

いくつかの実施例によれば、これらの置換正弦波は、符号化されるスペクトルの範囲内で擬似ライン（擬似係数）として示され、（例えば、正確な値の本当の突起に対応する正ＭＤＣＴラインと対照的に）正弦波の完全な振幅またはエネルギーを反映する。

いくつかの実施例において、正弦波パラメータの別々の信号と対照的に、擬似ライン（擬似係数）は、標準的なスペクトルラインのような量子化器に存在するコーデックによって扱われる。

いくつかの実施例において、擬似ライン（擬似係数）は、サイド情報フラグアレイによってこのようにマークされる。

いくつかの実施例において、擬似ラインの符号の選択は、半サブバンド周波数分解能を意味することができる。

いくつかの実施例において、正弦波置換のための低いカットオフ周波数は、限られた周波数分解能（例えば半サブバンド）により望ましい。

いくつかの実施例において、復号器において、擬似ラインは、規則的なスペクトルから削除されることができ、擬似ライン合成は、補完発振器のバンクによって達成される。

いくつかの実施例において、前のスペクトルの外挿から得られる正弦波の軌道の任意に測定された開始位相は、使用されることができる。

いくつかの実施例において、任意のＴｉｍｅＤｏｍａｉｎＡｌｉａｓＣａｎｃｅｌｌａｔｉｏｎ（ＴＤＡＣ）技術は、正弦波の軌道のオンセット／オフセットで、エイリアスのモデリングによって使用されることができる。

いくつかの実施例において、オンセット／オフセットの別名のモデリングによる任意のＴＤＡＣエイリアス解除は、使用されることができる。

以下に、本発明の実施例が、図面を参照して更に詳細に記載されている。

図１は、実施例に従って符号化された音声信号スペクトルに基づいて音声出力信号を生成する装置を示す。図２は、他の実施例に従って符号化された音声信号スペクトルに基づいて音声出力信号を生成する装置を示す。図３は、オリジナルの正弦波とＭＤＣＴ／逆ＭＤＣＴチェーンによって処理された後の正弦波とを比較している２つの線図を示す。図４は、実施例に従って音声信号入力スペクトルを符号化する装置を示す。図５は、音声信号入力スペクトル、対応するパワースペクトルおよび修正された（置換された）音声信号スペクトルを示す。図６は、他のパワースペクトル、他の修正された（置換された）音声信号スペクトルおよび量子化された音声信号スペクトルを示し、符号器側で発生する量子化された音声信号スペクトルは、実施例によっては、復号器側で復号化される復号化音声信号スペクトルに対応する。

図４は、実施例に従って音声信号入力スペクトルを符号化する装置を示す。符号化のための装置は、極値決定器４１０、スペクトル修正器４２０、処理ユニット４３０およびサイド情報発生器４４０を含む。

図４の装置を更に詳細に考察する前に、図４の装置によって符号化される音声信号入力スペクトルが更に詳細に考察される。

原則として、いかなる種類の音声信号スペクトルも、図４の装置によって符号化されることができる。音声信号入力スペクトルは、例えば、ＭＤＣＴ（修正離散コサイン変換）スペクトル、ＤＦＴ（離散フーリエ変換）振幅スペクトルまたはＭＤＳＴ（修正離散コサイン変換）スペクトルであってもよい。

図５は、音声信号入力スペクトル５１０の一例を示す。図５において、音声信号入力スペクトル５１０は、ＭＤＣＴスペクトルである。

音声信号入力スペクトルは、複数のスペクトル係数を含む。スペクトル係数の各々は、音声信号入力スペクトルの範囲内のスペクトル位置およびスペクトル値を有する。

図５の実施例を考慮すると、音声信号入力スペクトルは音声信号のＭＤＣＴ変換に起因し、例えば、音声信号入力スペクトルを得るために音声信号を変換したフィルタバンクは、例えば１０２４チャネルを使用する。それから、スペクトル係数の各々は１０２４チャネルのうちの１つと関連しており、そして、チャンネル番号（例えば、０と１０２３との間の数）は前記スペクトル係数のスペクトル位置であると考えることができる。図５において、横座標５１１は、スペクトル係数のスペクトル位置に関連する。より良好な具体例のために、５２および１４８の間のスペクトル位置を有する係数だけが図５に示される。

図５において、縦座標５１２は、スペクトル係数のスペクトル値を決定するのを助ける。音声信号入力スペクトルのスペクトル係数のスペクトル値であるＭＤＣＴスペクトルを表す図５の実施例において、横座標５１２はスペクトル係数のスペクトル値を参照する。ＭＤＣＴ音声信号入力スペクトルのスペクトル係数がスペクトル値として負の実数を有することができるのと同様に正の実数を有することができる点に留意する必要がある。

しかしながら、他の音声信号入力スペクトルは、正またはゼロであるスペクトル値を有するスペクトル係数を有することができるだけである。たとえば、音声信号入力スペクトルは、離散フーリエ変換に起因する係数の大きさを表すスペクトル値を有するスペクトル係数を持ったＤＦＴマグニチュードスペクトルであってもよい。それらのスペクトル値は、正またはゼロであり得るだけである。

更なる実施例において、音声信号入力スペクトルは、複素数であるスペクトル値を有するスペクトル係数を含む。たとえば、大きさおよび位相の情報を示しているＤＦＴスペクトルは、複素数であるスペクトル値を有するスペクトル係数を含む。

手本となって図５に示されるように、スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は音声信号入力スペクトルの範囲内でそれらのスペクトル位置に従って連続して順序付けられる。スペクトル係数の各々は、１つ以上の先行点および１つ以上の後続点の少なくとも１つを有し、前記スペクトル係数の各先行点は、シーケンスの中で前記スペクトル係数に先行するスペクトル係数のうちの１つである。前記スペクトル係数の各後続点は、シーケンスの中で前記スペクトル係数に続くスペクトル係数のうちの１つである。たとえば、図５において、スペクトル位置８１、８２または８３（など）を有するスペクトル係数は、スペクトル位置８０を有するスペクトル係数に対して後続点である。スペクトル位置７９、７８または７７（など）を有するスペクトル係数は、スペクトル位置８０を有するスペクトル係数に対して先行点である。ＭＤＣＴスペクトルの実施例のために、スペクトル係数のスペクトル位置がＭＤＣＴ変換のチャネルであってもよく、スペクトル係数は、（例えば、０と１０２３との間のチャンネル番号）に関連する。また、説明の便宜上、図５のＭＤＣＴスペクトル５１０が５２および１４８の間のスペクトル位置を有するスペクトル係数を示すだけである点に留意する必要がある。

図４に戻って、極値決定器４１０は、現在更に詳細に記載されている。極値決定器４１０は、１つ以上の極値係数を決定するように構成される。

一般に、極値決定器４１０は、音声信号入力スペクトルまたは極値係数のための音声信号入力スペクトルに関連するスペクトルを分析する。極値係数を決定する目的は、あとで、１つ以上の局部的な音領域が、音声信号スペクトルにおいて擬似係数によって、例えば各音領域に対する１つの擬似係数によって置換されることである。

一般に、音声信号入力スペクトルが関連する、音声信号のパワースペクトルの峰の多い領域は、音の領域を示す。それは、従って、音声信号入力スペクトルが関連する音声信号のパワースペクトルの峰の多い領域を確認することが好ましい。極値決定器４１０は、例えば、（スペクトル値が極値決定器によってペアで比較されることから）比較係数と呼ばれる係数を含むパワースペクトルを分析することができ、その結果、音声信号入力スペクトルのスペクトル係数の各々はそれに関連する比較値を有する。

図５において、パワースペクトル５２０が示される。パワースペクトル５２０およびＭＤＣＴ音声信号入力スペクトル５１０は、同じ音声信号に関する。パワースペクトル５２０は、比較係数と呼ばれる係数を含む。各スペクトル係数は、横座標５２１および比較値に関連するスペクトル位置を含む。音声信号入力スペクトルの各スペクトル係数は、それに関連した比較係数を有し、したがって、さらにそれに関連したその比較係数の比較値を有する。たとえば、音声信号入力スペクトルのスペクトル値と関連した比較値は、音声信号入力スペクトルの考えられるスペクトル係数と同じスペクトル位置を有する比較係数の比較値であってもよい。音声信号入力スペクトル５１０の３つとパワースペクトル５２０の比較係数の３つの間の関連（そして、このようにこれらの比較係数の比較値との関連）は、それぞれの比較係数（またはそれらの比較値）の関連および音声信号入力スペクトル５１０のそれぞれのスペクトル係数を示している点線５１３、５１４、５１５によって示される。

極値係数の各々は、その比較値がその先行点の１つの比較値より大きく、その比較値がその後続点の１つの比較値より大きいスペクトル係数の１つであるように、極値決定器４１０は１つ以上の極値係数を決定するように構成されることができる。

たとえば、極値決定器４１０は、パワースペクトルの局部的な最大値を決定することができる。換言すれば、極値係数の各々は、その比較値がその直近の先行点の比較値より大きく、その比較値がその直近の後続点の比較値より大きいスペクトル係数の１つであるように、極値決定器４１０は１つ以上の極値係数を決定するように構成されることができる。ここで、スペクトル係数の直近の先行点は、パワースペクトルにおいて前記スペクトル係数の直近で先行するスペクトル係数の１つである。前記スペクトル係数の直近の後続点は、パワースペクトルにおいて前記スペクトル係数の直近で続くスペクトル係数の１つである。

しかしながら、他の実施例は、極値決定器４１０がすべての局部的な極大を決定することを必要としていない。たとえば、実施例において、極値決定器は、例えば、特定の周波数範囲に関連する、パワースペクトルの特定の部分を分析することができるだけである。

他の実施例において、極値決定器４１０は、極値係数としてそれらの係数だけを構成され、考慮した局部的な極大値の比較値および次の局部的な極小値および／または先行する局部的な極小値の比較値の差は、閾値より大きい。

極値修正器４１０は、比較スペクトル上の１つまたは複数の極値を決定し、比較スペクトルの係数の比較値は、ＭＤＣＴスペクトルのＭＤＣＴ係数の各々に割り当てられる。しかしながら、比較スペクトルは、音声信号入力スペクトルより高いスペクトル分解能を有する。たとえば、比較スペクトルは、ＭＤＣＴ音声信号入力スペクトルより２倍のスペクトル分解能を有するＤＦＴスペクトルであってもよい。これによって、ＤＦＴスペクトルの全ての第２のスペクトル値だけは、それからＭＤＣＴスペクトルのスペクトル値に割り当てられる。しかしながら、比較スペクトルの１つまたは複数の極値が決定されるときに、比較スペクトルの他の係数は考慮されることができる。これによって、比較スペクトルの係数は、音声信号入力スペクトルのスペクトル係数に割り当てられないが、直近の先行点および直近の後続点を有し、それぞれ、音声信号入力スペクトルのスペクトル係数に、および、音声信号入力スペクトルのそのスペクトル係数の直近の後続点に割り当てられる極値として決定される。このように、（例えば、高分解能度ＤＦＴスペクトルの）比較スペクトルの前記極値が、（ＭＤＣＴ）音声信号入力スペクトルの前記スペクトル係数および（ＭＤＣＴ）音声信号入力スペクトルの前記スペクトル係数の直近の前記後続点の間に位置する（ＭＤＣＴ）音声信号入力スペクトルの範囲内のスペクトル位置に割り当てられると考えられることができる。後ほど説明されるように、このような状況は擬似係数の適当な符号値を選択することによって符号化される。これによって、サブ−ビン分解能は、成し遂げられる。

いくつかの実施例において、その比較値がその直近の先行点の比較値およびその直近の後続点の比較値より大きいという必要を極値計数が満たす必要がない点に留意する必要がある。その代わりに、それらの実施例において、極値係数の比較値がその先行点の１つおよびその後続点の１つより大きいことは、充分かもしれない。例えば、次のような状況を考える。

表１に記載されている状況において、極値決定器４１０は、極値係数としてスペクトル位置２１４でのスペクトル係数を合理的に考えることができる。スペクトル係数２１４の比較値は、その直近の先行点２１３の比較値より大きくなく（０．８３＜０．８４）、その直近の後続点２１５の比較値より大きくない（０．８３＜０．８５）が、それはその先行点の他の１つ、先行点２１２の比較値より（著しく）大きく（０．８３＞０．０２）、それはその後続点の他の１つ、後続点２１６の比較値より（著しく）大きい（０．８３＞０．０１）。スペクトル係数が係数２１２および２１６の比較値と比較して比較的大きい比較値を有する３つの係数２１３、２１４、２１５の中央に位置するため、スペクトル係数２１４をこの「峰の多い領域」の極値であると考えることはさらに合理的に見える。

たとえば、極値決定器４１０は、前記比較係数の比較値が前記比較係数のスペクトル位置に最も近い３つの先行点の比較値のうちの少なくとも１つより大きいかどうか、いくつかまたは全ての比較係数から決定するように構成されることができる。および／または、極値決定器４１０は、前記比較係数の比較値が前記比較係数のスペクトル位置に最も近い３つの後続点の比較値のうちの少なくとも１つより大きいかどうか、いくつかまたは全ての比較係数から決定するように構成されることができる。極値決定器４１０は、それから、前記決定の結果に応じて前記比較係数を選択するべきかどうか決めることができる。

いくつかの実施例において、各スペクトル係数の比較値は、音声信号のエネルギー保存変換から生じている更なるスペクトル（比較スペクトル）の更なる係数の二乗値である。

更なる実施例において、各スペクトル係数の比較値は、音声信号のエネルギー保存変換から生じている更なるスペクトルの更なる係数の振幅値である。

実施例によれば、更なるスペクトルは離散フーリエ変換スペクトルであり、エネルギー保存変換は離散フーリエ変換である。

更なる実施例によれば、更なるスペクトルはＣｏｍｐｌｅｘＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ（ＣＭＤＣＴ）スペクトルであり、エネルギー保存変換はＣＭＤＣＴである。

他の実施例において、極値決定器４１０は、比較スペクトルを分析することができず、その代わりに、音声信号入力スペクトル自体を分析することができる。これは、例えば、音声信号入力スペクトル自体がエネルギー保存変換から生じるとき、音声信号入力スペクトルが離散フーリエ変換マグニチュードスペクトルであるとき、合理的である。

たとえば、極値係数の各々は、そのスペクトル値がその先行点の１つのスペクトル値より大きく、そのスペクトル値がその後続点の１つのスペクトル値より大きいスペクトル係数の１つであるように、極値決定器４１０は１つ以上の極値係数を決定するように構成されることができる。

実施例において、極値係数の各々は、そのスペクトル値がその直近の先行点のスペクトル値より大きく、そのスペクトル値がその直近の後続点のスペクトル値より大きいスペクトル係数の１つであるように、極値決定器４１０は１つ以上の極値係数を決定するように構成されることができる。

さらに、極値係数の少なくとも１つの先行点または後続点のスペクトル値を所定の値に設定することにより修正された音声信号スペクトルを得るために、装置は音声信号入力スペクトルを修正するためのスペクトル修正器４２０を含む。スペクトル修正器４２０は、１つ以上の極値係数のスペクトル値を所定の値に設定しないように構成されるか、または、１つ以上の極値係数の少なくとも１つを擬似係数で置換するように構成され、擬似係数のスペクトル値は所定の値とは異なる。

好ましくは、所定の値は、ゼロでもよい。たとえば、図５の修正された（置換された）音声信号スペクトル５３０において、多くのスペクトル係数のスペクトル値は、スペクトル修正器４２０によってゼロに設定された。

換言すれば、修正された音声信号スペクトルを得るために、スペクトル修正器４２０は、極値係数の１つの先行点または後続点の少なくともスペクトル値を所定の値に設定する。所定の値は、例えばゼロでもよい。このような先行点または後続点の比較値は、前記極値の比較値より小さい。

さらに、極値係数自体に関して、スペクトル修正器４２０は、以下の通りに進められる。
- スペクトル修正器４２０は、極値係数を所定の値に設定しない、または：
- スペクトル修正器４２０が極値係数の少なくとも１つを擬似係数で置換し、擬似係数のスペクトル値は、所定の値と異なる。これは、極値係数の少なくとも１つのスペクトル値が所定の値に設定され、スペクトル係数の別のもののスペクトル値が所定の値と異なる値に設定されることを意味する。このような値は、前記極値係数の先行点の１つ、または、前記極値係数の後続点の１つの前記極値係数のスペクトル値から引き出される。または、そのような値は、前記極値係数の先行点の１つ、または、前記極値係数の後続点の１つの前記極値係数の比較値から引き出される。

スペクトル修正器４２０は、例えば、極値係数の１つを、前記極値係数のスペクトル値または比較値から、前記極値係数の先行点の１つのスペクトル値または比較値から、または、前記極値係数の後続点の１つのスペクトル値または比較値から引き出されるスペクトル値を有する擬似係数で置換するように構成されることができる。

さらに、装置は、符号化された音声信号スペクトルを得るために修正された音声信号スペクトルを処理するための処理ユニット４３０を含む。

たとえば、処理ユニット４３０は、いかなる種類の音声符号器であってもよく、例えばＭＰ３（ＭＰＥＧ−１ＡｕｄｉｏＬａｙｅｒＩＩＩまたはＭＰＥＧ−２ＡｕｄｉｏＬａｙｅｒＩＩＩ；ＭＰＥＧ＝ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）音声符号器、ＷＭＡ（Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ）のための音声符号器、ＷＡＶＥファイルまたはＭＰＥＧ−２／４ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）音声符号器またはＭＰＥＧ―ＤＵＳＡＣ（ＵｎｉｆｉｅｄＳｐｅｅｄａｎｄＡｕｄｉｏＣｏｄｉｎｇ）符号器などであってもよい。

処理ユニット４３０は、例えば、文献〔８〕（ISO/IEC 14496-3:2005 - Information technology - Coding of audio-visual objects - Part 3: Audio, Subpart 4）にて説明したように、または文献〔９〕（ISO/IEC 14496-3:2009(E) - Information technology - Coding of audio-visual objects - Part 3: Audio, Subpart 4）にて説明したように、音声符号器でもよい。たとえば、処理ユニット４３０は、量子化器および／または文献〔８〕に記載されているような時間的ノイズ形成ツールを含み、および／または処理ユニット４３０は、例えば文献〔８〕に記載されているような知覚的なノイズ置換ツールを含むことができる。

さらに、装置は、サイド情報を生成して、送信するためのサイド情報発生器４４０を含む。サイド情報発生器４４０は、スペクトル修正器４２０によって生成される修正された音声信号入力スペクトルの範囲内で１つ以上の擬似係数候補の位置を決めるように構成される。さらに、サイド情報発生器４４０は、擬似係数候補の少なくとも１つを選択された候補として選択するように構成される。さらに、サイド情報が擬似係数として選択された候補を示すように、サイド情報発生器４４０はサイド情報を生成するように構成される。

図４に示される実施例において、サイド情報発生器４４０は、スペクトル修正器４２０によって擬似係数の位置（例えば、擬似係数の各々の位置）を受信するように構成される。さらに、図４の実施例において、サイド情報発生器４４０は、擬似係数候補の位置（例えば、擬似係数候補の各々の位置）を受信するように構成される。

たとえば、いくつかの実施例において、処理ユニット４３０は、量子化された音声信号スペクトルに基づいて擬似係数候補を決定するように構成されることができる。実施例において、処理ユニット４３０は、修正された音声信号スペクトルを量子化することによって、量子化された音声信号スペクトルを生成することができた。たとえば、処理ユニット４３０は擬似係数候補として量子化された音声信号スペクトルの少なくとも１つのスペクトル係数を決定することができ、それは直近の先行点を有し、そのスペクトル値は所定の値（例えば、０に等しい）に等しく、そして、それは直近の後続点を有し、そのスペクトル値は所定の値に等しい。

また、他の実施例において、処理ユニット４３０は量子化された音声信号スペクトルをサイド情報発生器４４０にパスすることができ、サイド情報発生器４４０は量子化された音声信号スペクトルに基づいて自身で擬似係数候補を決定することができる。他の実施例によれば、擬似係数候補は、修正された音声信号スペクトルに基づいて別の方法で決定される。

サイド情報発生器によって生成されるサイド情報は静的で、所定のサイズであることが可能であり、または、そのサイズは信号適応方法で反復的に推定されることができる。この場合、サイド情報の実際のサイズは、同様に復号器に発信される。それで、実施例において、サイド情報発生器４４０は、サイド情報のサイズを送信するように構成される。

実施例によれば、極値決定器４１０は、比較係数、例えば図５におけるパワースペクトル５２０の係数を分析するように構成され、極小係数の各々は、その比較値がその先行点の１つの比較値より小さく、その比較値がその後続点の１つの比較値より小さいスペクトル係数の１つであるように、１つ以上の極小係数を決定するように構成される。このような実施例において、スペクトル修正器４２０は極値係数の１つ以上の、および、極小係数の１つ以上の比較値に基づいて代表値を決定するように構成されることができ、代表値は所定の値とは異なる。さらに、スペクトル修正器４２０は、前記スペクトル値を代表値に設定することによって音声信号入力スペクトルの係数の１つのスペクトル値を変えるように構成されることができる。

特定の実施例において、極値決定器は、比較係数、例えば図５におけるパワースペクトル５２０の係数を分析するように構成され、極小係数の各々は、その比較値がその直近の先行点の比較値より小さく、その比較値がその直近の後続点の比較値より小さいスペクトル係数の１つであるように、１つ以上の極小係数を決定するように構成される。

あるいは、極値決定器４１０は、音声信号入力スペクトル５１０自身を分析するように構成され、１つ以上の極小係数の各々は、そのスペクトル値がその先行点の１つのスペクトル値より小さく、そのスペクトル値がその後続点の１つのスペクトル値より小さいスペクトル係数の１つであるように、１つ以上の極小係数を決定するように構成される。このような実施例において、代表値が所定の値とは異なるように、スペクトル修正器４２０は、１つ以上の極値係数の、および、１つ以上の極小係数のスペクトル値に基づいて代表値を決定するように構成されることができる。さらに、スペクトル修正器４２０は、前記スペクトル値を代表値に設定することにより、音声信号入力スペクトルの係数の１つのスペクトル値を変えるように構成されることができる。

特定の実施例において、極値決定器４１０は、音声信号入力スペクトル５１０自身を分析するように構成され、１つ以上の極小係数の各々は、スそのスペクトル値がその直近の先行点のスペクトル値より小さく、そのスペクトル値がその直近の後続点のペクトル値より小さいペクトル係数の１つであるように，１つ以上の極小係数を決定するように構成される。

両方の実施例において、スペクトル修正器４２０は、代表値を決定するために、極値係数および１つ以上の極小係数を考慮し、特に、それらの関連する比較値またはそれらのスペクトル値を考慮する。それから、音声信号入力スペクトルのスペクトル係数の１つのスペクトル値は、代表値に設定される。そのスペクトル値が代表値に設定されるスペクトル係数は、例えば、極値係数自身であるか、または、そのスペクトル値が代表値に設定されるスペクトル係数は、極値係数を置換する擬似係数である。

実施例において、各々のサブシーケンスは、音声信号入力スペクトルの複数の後続のスペクトル係数を含むように、極値決定器４１０はスペクトル値のシーケンスの１つ以上のサブシーケンスを決定するように構成されることができる。後続のスペクトル係数は、それらのスペクトル位置に従ってサブシーケンスの範囲内で連続して順序付けられる。サブシーケンスの各々は、前記連続して順序付けられたサブシーケンスにおいて最初である最初の成分および前記連続して順序付けられたサブシーケンスにおいて最後である最後の成分を含む。

特定の実施例において、サブシーケンスの各々は、例えば、極小係数のうちの正確に２つおよび極値係数のうちの正確に１つを含み、極小係数のうちの１つはサブシーケンスの最初の成分であり、極小係数のうちの他の１つはサブシーケンスの最後の成分である。

実施例において、スペクトル修正器４２０は、サブシーケンスの１つの係数のスペクトル値または比較値に基づいて代表値を決定するように構成されることができる。たとえば、極値決定器４１０が比較スペクトルの、例えばパワースペクトル５２０の比較係数を分析した場合、スペクトル修正器４２０はサブシーケンスの１つの係数の比較値に基づいて代表値を決定するように構成されることができる。しかしながら、極値決定器４１０が音声信号入力スペクトル５１０のスペクトル係数を分析した場合、スペクトル修正器４２０はサブシーケンスの１つの係数のスペクトル値に基づいて代表値を決定するように構成されることができる。

スペクトル修正器４２０は、前記スペクトル値を代表値に設定することによって、前記サブシーケンスの係数の１つのスペクトル値を変えるように構成される。表２は、スペクトル位置２５２〜２５８で５つのスペクトル係数を有する例を提供する。

極値決定器４１０は、スペクトル係数２５５（スペクトル位置２５５を有するスペクトル係数）について、その比較値（０．７３）はその（ここでは、直近の）先行点２５４の比較値（０．４８）より大きく、その比較値（０．７３）はその（ここでは、直近の）後続点２５６の比較値（０．４５）より大きいため、極値係数であることを決定することができる。

さらに、極値決定器４１０は、スペクトル係数２５３について、その比較値（０．０５）はその（ここでは、直近の）先行点２５２の比較値（０．１２）より小さく、その比較値（０．０５）はその（ここでは、直近の）後続点２５４の比較値（０．４８）より小さいため、極小係数であることを決定することができる。

さらに、極値決定器４１０は、スペクトル係数２５７について、その比較値（０．０３）がその（ここでは、直近の）先行点２５６の比較値（０．４５）より小さく、その比較値（０．０３）がその（ここでは、直近の）後続点２５８の比較値（０．１８）より小さいため、極小係数であることを決定することができる。

極値決定器４１０は、スペクトル係数２５５が極値係数であることを決定することにより、極小係数としてスペクトル係数２５３が極値係数２５５に最も近い先行する極小係数であることを決定することにより、および、極小係数としてスペクトル係数２５７が極値係数２５５に最も近い後続の極小係数であることを決定することにより、スペクトル係数２５３ないし２５７を含むサブシーケンスを決定することができる。

スペクトル修正器４２０は、全てのスペクトル係数２５３−２５７の比較値に基づいてサブシーケンス２５３−２５７に対する代表値を決定することができる。

例えば、スペクトル修正器４２０は、サブシーケンスの全てのスペクトル係数の比較値を合計するように構成されることができる。（例えば、表２に関して、サブシーケンス２５３−２５７のための代表値は、次のように合計される：０．０５＋０．４８＋０．７３＋０．４５＋０．０３＝１．７４）。

または、例えば、スペクトル修正器４２０は、サブシーケンスの全てのスペクトル係数の比較値の二乗を合計するように構成されることができる。（例えば、表２に関して、サブシーケンス２５３−２５７のための代表値は、次のように合計するように構成されることができる：（０．０５）² ＋（０．４８）² ＋（０．７３）² ＋（０．４５）² ＋（０．０３）² ＝０．９６９２）。

または、例えば、スペクトル修正器４２０は、サブシーケンス２５３−２５７の全てのスペクトル係数の比較値の二乗の合計の平方根とするように構成されることができる。（例えば、表２に関して、代表値は、０．９８４４８である）。

いくつかの実施例によれば、スペクトル修正器４２０は、極値係数のスペクトル値（表中において、スペクトル係数２５３のスペクトル値）を所定の値に設定する。

しかしながら、他の実施例は、重心方法を使用する。表３は、スペクトル係数２８２−２８８を含むサブシーケンスを例示する。

極値係数はスペクトル位置２８５に位置しているが、重心方法によれば、重心は異なるスペクトル位置にある。

重心のスペクトル位置を決定するために、極値決定器４１０は、サブシーケンスの全てのスペクトル係数の加重スペクトル位置を合計して、その結果をサブシーケンスのスペクトル係数の比較値の合計で割る。重心を決定するために、商業的丸めが割り算の結果に適用される。スペクトル係数の加重スペクトル位置は、そのスペクトル位置およびその比較値の積である。

要するに：極値決定器は、以下によって重心を得ることができる。
１）サブシーケンスの各スペクトル係数に対して比較値およびスペクトル位置の積を決定する。
２）第１の合計を得るために、１）において決定された積を合計する。
３）第２の合計を得るために、サブシーケンスの全てのスペクトル係数の比較値を合計する。
４）中間結果を生成するために、第２の合計で第１の合計を割る。
５）重心を得るために、中間結果に近くへの丸めを適用する（近くへの丸め：８．４９は８に丸められ、８．５は９に丸められる）。

このように、表３の例に関して、重心は、以下によって得られる。
（０．０４・２８２＋０．１０・２８３＋０．２０・２８４＋０．９３・２８５＋０．９２・２８６＋０．９０・２８７＋０．０５・２８８）／（０．０４＋０．１０＋０．２０＋０．９３＋０．９２＋０．９０＋０．０５）＝８９７.２５／３．１４＝２８５．７５＝２８６．

このように、表３の例に関して、極値決定器４１０は、重心としてスペクトル位置２８６を決定するように構成される。

いくつかの実施例において、極値決定器４１０は、完全な比較スペクトル（例えば、パワースペクトル５２０）を分析しないかまたは完全な音声信号入力スペクトルを分析しない。その代わりに、極値決定器４１０は、比較スペクトルまたは音声信号入力スペクトルを部分的に分析するだけである。

図６は、このような例を示す。そこで、（比較スペクトルとして）パワースペクトル６２０は、係数５５で始まる極値決定器４１０によって分析された。５５より小さいスペクトル位置の係数は、分析されなかった。したがって、５５より小さいスペクトル位置のスペクトル係数は、置換されたＭＤＣＴスペクトル６３０において修正されていないままである。対照的に、図５は、すべてのＭＤＣＴスペクトルラインがスペクトル修正器４２０によって修正された置換されたＭＤＣＴスペクトル５３０を示す。

このように、音声信号入力スペクトルの少なくともいくつかのスペクトル係数のスペクトル値が修正されていないままにされるように、スペクトル修正器４２０は音声信号入力スペクトルを修正するように構成される。

いくつかの実施例において、スペクトル修正器４２０は、比較値のうちの１つまたは極値係数のうちの１つのスペクトル値の値の差が閾値より小さいかどうか、決定するように構成される。このような実施例では、スペクトル修正器４２０は、音声信号入力スペクトルの少なくともいくつかのスペクトル係数のスペクトル値が、値の差が閾値より小さいかどうかに依存して修正された音声信号スペクトルにおいて修正されていないままにされるように、音声信号入力スペクトルを修正するように構成される。

たとえば、実施例において、スペクトル修正器４２０は、極値係数の全てを修正または置換するのではなく、その代わりに、極値係数のいくつかだけを修正または置換するように構成されることができる。たとえば、極値係数（例えば局部的に極大）の比較値および次のおよび／または先行する極小値の比較値との差が閾値より小さいときに、スペクトル修正器はこれらのスペクトル値（そして、例えばそれら間のスペクトル係数のスペクトル値）を修正せず、その代わりにこれらのスペクトル値を修正された（置換された）ＭＤＣＴスペクトル６３０において修正されていないままにするように決定されることができる。図６の修正されたＭＤＣＴスペクトル６３０において、スペクトル係数１００〜１１２のスペクトル値およびスペクトル係数１２４〜１３６のスペクトル値は、修正されていない（置換された）スペクトル６３０においてスペクトル修正器によって修正されていないままにされた。

処理ユニットは、量子化されたＭＤＣＴスペクトル６３５を得るために、修正された（置換された）ＭＤＣＴスペクトル６３０の係数を量子化するように、さらに、構成されることができる。

実施例によれば、スペクトル修正器４２０は、微調整された情報を受信するように構成されることができる。音声信号入力スペクトルのスペクトル係数のスペクトル値は符号付きの値でもよく、各々が符号成分を含む。微調整情報が第１の微調整状態にあるとき、スペクトル修正器は１つ以上の極値係数の、または、擬似係数の１つの符号成分を第１の符号値に設定するように構成されることができる。そして、微調整情報が異なる第２の微調整状態にあるとき、スペクトル修正器は１つ以上の極値係数の、または、擬似係数の１つのスペクトル値の符号成分を異なる第２の符号値に設定するように構成されることができる。たとえば、表４において、

スペクトル係数のスペクトル値は、スペクトル係数２９１が第１の微調整状態にあり、スペクトル係数３０１が第２の微調整状態にあり、スペクトル係数３２１が第１の微調整状態にある等のことを示している。

たとえば、上で説明した重心の決定に戻ると、重心が２つのスペクトル位置の間にある（例えば、ほぼ中央にある）場合、スペクトル修正器は符号を設定して、第２の微調整状態が示されることができる。

実施例によれば、処理ユニット４３０は、量子化された音声信号スペクトルを得るために、修正された音声信号スペクトルを量子化するように構成されることができる。処理ユニット４３０は、さらに、符号化された音声信号スペクトルを得るために量子化された音声信号スペクトルを処理するように構成されることができる。

さらに、処理ユニット４３０は、そのスペクトル値が所定の値に等しい直近の先行点およびそのスペクトル値が所定の値に等しい直近の後続点を含む量子化された音声信号スペクトルのそれらのスペクトル係数のためだけに、前記係数が極値係数の１つであるかどうかを示すサイド情報を生成するように構成される。

このような情報は、極値決定器４１０によって処理ユニット４３０に提供される。

たとえば、このような情報は、そのスペクトル値が所定の値に等しい直近の先行点およびそのスペクトル値が所定の値に等しい直近の後続点を含む量子化された音声信号スペクトルのスペクトル係数の各々のため、前記係数が（例えば、ビット値１による）極値係数の１つであるか、または、前記係数が（例えば、ビット値０による）極値係数の１つでないかどうかを示す、ビットフィールドにおいて処理ユニット４３０によって格納されることができる。実施例において、復号器は、音声信号入力スペクトルを復元するためにこの情報を後ほど使用することができる。ビットフィールドは、固定長または信号に順応して選ばれた長さを有することができる。後者の場合、ビットフィールドの長さは、さらに、復号器に伝達される。

たとえば、処理ユニット４３０によって生成されるビットフィールド［０００１１１１１１］は、（連続して順序付けられた）（量子化された）音声信号スペクトルに現れる最初の３つの「独立型」係数（それらのスペクトル値は所定の値に等しくないが、それらの先行点の、そして、それらの後続点のスペクトル値は所定の値に等しい）が極値係数でなく、次の６つの「独立型」係数は極値係数であることを示すものであるかもしれない。このビットフィールドは、図６の量子化されたＭＤＣＴスペクトル６３５に見られるが、最初の３つの「独立型」係数５、８、２５は極値係数でなく、次の６つの「独立型」係数５９、７１、８３、９４、１１６、１４１が極値係数であるという状況を示す。

また、前記スペクトル係数の直近の先行点は量子化された音声信号スペクトルの範囲内で直ちに前記スペクトル係数に先行する他のスペクトル係数であり、そして、前記スペクトル係数の直近の後続点者は量子化された音声信号スペクトルの範囲内で直ちに前記スペクトル係数に続く別のスペクトル係数である。

以下に、実施例に従って符号化された音声信号スペクトルに基づいて音声出力信号を生成する装置が記載される。

図１は、実施例に従って符号化された音声信号スペクトルに基づいて音声出力信号を生成するこの種の装置を例示する。

装置は、復号化音声信号スペクトルを得るために符号化された音声信号スペクトルを処理するための処理ユニット１１０を含む。復号化音声信号スペクトルは複数のスペクトル係数を含み、スペクトル係数の各々は、符号化された音声信号スペクトルの範囲内でスペクトル位置およびスペクトル値を有し、スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は符号化された音声信号スペクトルの範囲内でそれらのスペクトル位置に従って連続して順序付けられる。

さらに、装置は、サイド情報（ｓｉｄｅｉｎｆｏ）を用いて復号化された音声信号スペクトルの１つ以上の擬似係数を決定するための擬似係数決定器１２０を含み、擬似係数の各々はスペクトル位置およびスペクトル値を有している。

さらに、装置は、修正された音声信号スペクトルを得るために、１つ以上の擬似係数を所定の値に設定するためのスペクトル修正ユニット１３０を含む。

さらに、装置は、時間領域変換信号を得るために、修正された音声信号スペクトルを時間領域に変換するためのスペクトル−時間変換ユニット１４０を含む。

さらに、装置は、時間領域発振器信号を生成するための制御可能な発振器１５０を含み、制御可能な発信器は１つ以上の擬似係数の少なくとも１つのスペクトル位置およびスペクトル値によって制御されている。

さらに、装置は、音声出力信号を得るために、時間領域変換信号と時間領域発信器信号とを混合するためのミキサー１６０を含む。

実施例において、ミキサーは、時間領域において、時間領域発信器信号に時間領域変換信号を加えることによって時間領域変換信号と時間領域発振器信号とを混合するように構成される。

処理ユニット１１０は、例えば、いかなる種類の音声復号器、例えば、ＭＰ３音声復号器、ＷＭＡのための音声復号器、ＷＡＶＥファイルのための音声復号器、ＡＡＣ音声復号器またはＵＳＡＣ音声復号器であってもよい。

処理ユニット１１０は、例えば、文献〔８〕（ISO/IEC 14496-3:2005(E) - Information technology - Coding of audio-visual objects - Part 3: Audio, Subpart 4）に記載されているような、また文献〔９〕（ISO/IEC 14496-3:2009(E) - Information technology - Coding of audio-visual objects - Part 3: Audio, Subpart 4）に記載されているような音声復号器であってもよい。たとえば、処理ユニット４３０は、量子化された値の再スケーリング（「非量子化」）および／または、例えば、文献〔８〕に記載されているような時間的ノイズ形成ツールを含み、および／または処理ユニット４３０は、例えば、文献〔８〕に記載されているような知覚的なノイズ置換ツールを含む。

実施例によれば、スペクトル係数の各々は、直近の先行点および直近の後続点のうちの少なくとも１つを有し、前記スペクトル係数の直近の先行点は、シーケンスの中で前記スペクトル係数のすぐ前に先行するスペクトル係数のうちの１つであってもよく、前記スペクトル係数の直近の後続点は、シーケンスの中で前記スペクトル係数のすぐ後に続くスペクトル係数のうちの１つであってもよい。

擬似係数決定器１２０は、所定の値と異なるスペクトル値を有し、そのスペクトル値が所定の値に等しい直近の先行点を含み、そのスペクトル値が所定の値に等しい直近の後続点を含む、シーケンスの少なくとも１つのスペクトル係数を決定することによって、復号化された音声信号スペクトルの１つ以上の擬似係数を決定するように構成されることができる。実施例において、所定の値はゼロでもよく、そして、所定の値はゼロでもよい。

換言すれば、擬似係数決定器１２０は、復号化された音声信号スペクトルの係数のいくつかまたは全てに対して、それぞれ考慮した係数が所定の値と異なる（好ましくは、０と異なる）かどうか、先行する係数のスペクトル値が所定の値に等しい（好ましくは、０に等しい）かどうか、および続く係数のスペクトル値が所定の値に等しい（好ましくは、０に等しい）かどうかを決定する。

いくつかの実施例において、このような決定された係数は、（常に）擬似係数である。

しかしながら、他の実施例において、このような決定された係数は擬似係数候補であり（あるだけであり）、擬似係数であるかもしれないし、そうでないかもしれない。これらの実施例において、擬似係数決定器１２０は、所定の値と異なるスペクトル値を有し、そのスペクトル値が所定の値に等しい直近の先行点を含み、そのスペクトル値が所定の値に等しい直近の後続点を含む、少なくとも１つの擬似係数候補を決定するように構成される。

擬似係数決定器１２０は、それから、擬似係数候補が擬似係数であることをサイド情報が示しているかどうかを決定することにより、擬似係数候補が擬似係数であるかどうかを決定するように構成される。

たとえば、このようなサイド情報は、そのスペクトル値が所定の値に等しい直近の先行点およびそのスペクトル値が所定の値に等しい直近の後続点を含む量子化された音声信号スペクトルのスペクトル係数の各々に対して、前記係数が極値係数の１つ（例えば、ビット値１による）であるかどうか、または前記係数が極値係数の１つではない（例えば、ビット値０による）であるかどうかを示す、ビットフィールドにおいて擬似係数決定器１２０によって受信されることができる。

たとえば、ビットフィールド［０００１１１１１１］は、（連続して順序付けられた）（量子化された）音声信号スペクトルに現れる最初の３つの「独立型」係数（それらのスペクトル値は所定の値に等しくないが、それらの先行点の、および、それらの後続点のスペクトル値は所定の値に等しい）は極値係数ではないが、次の６つの「独立型」係数は極値係数であることを示している。このビットフィールドは、図６の量子化されたＭＤＣＴスペクトル６３５に示されることができる状況を記載し、最初の３つの「独立型」係数５、８、２５は、極値係数でなく、次の６つの「独立型」係数５９、７１、８３、９４、１１６、１４１は極値係数である。

スペクトル修正ユニット１３０は、復号化音声信号スペクトルから擬似係数を「削除する」ように構成されることができる。事実、スペクトル修正ユニットは、復号化音声信号スペクトルの擬似係数のスペクトル値を所定の値（好ましくは０）に設定する。（少なくとも１つの）擬似係数が（少なくとも１つの）制御可能な発振器１５０を制御するために必要なだけであるので、これは合理的である。このように、例えば、図６の量子化されたＭＤＣＴスペクトル６３５を考慮する。スペクトル６３５が復号化音声信号スペクトルと考えられる場合、スペクトル修正ユニット１３０は修正された音声信号スペクトルを得るために極値係数５９、７１、８３、９４、１１６および１４１のスペクトル値を設定して、スペクトルの他の係数を修正されていないままにするであろう。

スペクトル−時間変換ユニット１４０は、修正された音声信号スペクトルをスペクトル領域から時間領域に変換する。たとえば、修正された音声信号スペクトルは、ＭＤＣＴスペクトルであってもよく、スペクトル−時間変換ユニット１４０はＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ（ＩＭＤＣＴ）フィルタバンクであってもよい。他の実施例において、スペクトルはＭＤＳＴスペクトルであってもよく、スペクトル−時間変換ユニット１４０はＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ（ＩＭＤＳＴ）フィルタバンクであってもよい。または、更なる実施例において、スペクトルはＤＦＴスペクトルでもあってよく、スペクトル−時間変換ユニット１４０はＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ（ＩＤＦＴ）フィルタバンクであってもよい。

制御可能な発振器１５０は発振器信号周波数を有する時間領域発振器信号を生成するように構成されることができ、その結果、発振器信号の発振器信号周波数が１つ以上の擬似係数のうちの１つのスペクトル位置に依存する。発振器によって生成される発振器信号は、時間領域正弦信号であってもよい。制御可能な発振器１５０は、１つ以上の擬似係数の１つのスペクトル値に応じて時間領域正弦信号の大きさを制御するように構成されることができる。

実施例によれば、擬似係数は符号付きの値であり、各々が符号成分を含む。発信器信号の発振器信号周波数が更に１つ以上の擬似係数の１つの符号成分に依存し、符号成分が第１の符号値を有するとき、発振器信号周波数が第１の周波数値を有し、符号成分が異なる第２の値を有するとき、発信器信号周波数が異なる第２の周波数値を有するように、制御可能な発振器１５０は時間領域発振器信号を生成するように構成される。

たとえば、図６のＭＤＣＴスペクトル６３５におけるスペクトル位置５９で擬似係数を考察する。周波数８２００Ｈｚがスペクトル位置５９に割り当てられる場合、および、周波数８４００Ｈｚがスペクトル位置６０に割り当てられる場合、制御可能な発振器は、擬似係数のスペクトル値の符号が正であれば、例えば、発信器周波数を８２００Ｈｚに設定するように構成され、擬似係数のスペクトル値の符号が負であれば、例えば、発信器周波数を８３００Ｈｚに設定するように構成される。

このように、擬似係数のスペクトル値の符号は、制御可能な発振器が発振器周波数を擬似係数（例えば、スペクトル位置５９）のスペクトル位置に割り当てられた周波数（例えば、８２００Ｈｚ）に、または、擬似係数（例えば、スペクトル位置５９）のスペクトル位置に割り当てられた周波数（例えば、８２００Ｈｚ）と擬似係数のスペクトル位置にすぐに続くスペクトル位置（例えば、スペクトル位置６０）に割り当てられた周波数（例えば、８４００Ｈｚ）との間の周波数（例えば、８３００Ｈｚ）に設定するかどうか、制御するために使用されることができる。

実施例において、制御可能な発振器１５０は、さらに、先行するフレームの擬似係数から引き出される１つ以上の外挿されたパラメータによって制御される。たとえば、制御可能な発振器１５０は、さらに、例えば、伝送の間のデータフレーム損失を隠すために、または、発振器制御の不安定な反応を滑らかにするために、前のフレームの擬似係数から引き出される外挿されたパラメータによって制御されることもできる。外挿されたパラメータは、例えば、スペクトル位置またはスペクトル値であってもよい。例えば、時間−周波数領域のスペクトル係数が考慮されるときに、瞬間ｔ−１に関するスペクトル係数は第１フレームによって含まれることができる、そして、瞬間ｔに関するスペクトル係数は第２フレームに割り当てられることができる。たとえば、瞬間ｔ−１に関する擬似係数のスペクトル値および／またはスペクトル位置は、瞬間ｔに関する現行フレームの外挿されたパラメータを得るために複製されることができる。

図２は、実施例を示し、装置は、１つ以上の擬似係数の更なる擬似係数のスペクトル位置およびスペクトル値によって制御される更なる時間領域発信器信号のための更なる制御可能な発振器２５２、２５４、２５６を含む。更なる制御可能な発振器２５２、２５４、２５６は、各々更なる時間領域発振器信号の１つを生成する。制御可能な発振器２５２、２５４、２５６の各々は、擬似係数の１つのスペクトル位置に基づいて発振器信号波長を進めるように構成される。および／または、制御可能な発振器２５２、２５４、２５６の各々は、擬似係数の１つのスペクトル値に基づいて発振器信号の大きさを進めるように構成される。

図１および図２のミキサー１６０は、音声出力信号を得るために、スペクトル時間の変換ユニット１４０によって生成される時間領域変換信号および１つ以上の制御可能な発振器１５０、２５２、２５４、２５６によって生成される１つ以上の時間領域発振器信号を混合するように構成される。ミキサー１６０は、時間領域変換信号および１つ以上の時間領域発振器信号の重ね合せによって、音声出力信号を生成することができる。

図３は、オリジナルの正弦波（左）とＭＤＣＴ／ＩＭＤＣＴチェーンによって処理された後の正弦波（右）とを比較する２つの線図を示す。ＭＤＣＴ／ＩＭＤＣＴチェーンによって処理された後に、正弦波は、小鳥のさえずりのようなアーチファクトを含む。上で与えられた概念は、正弦波がＭＤＣＴ／ＩＭＤＣＴチェーンによって処理され、その代わり、正弦波情報は擬似係数によって符号化され、および／または、正弦波は制御可能な発振器によって再生される。

いくつかの態様が装置の文脈に記載されているが、これらの態様も対応する方法の説明を表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈に記載されている態様も、対応する装置の対応するブロックまたは部材または特徴の説明を表す。

発明の分解される信号は、デジタル記憶媒体に保存されることができるか、または例えばワイヤレス伝送媒体または例えばインターネットなどの有線の伝送媒体のような伝送媒体上に送られることができる。

特定の実施要件に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアにおいて実施されることができる。実施はその上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行されることができ、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協働する（または協働することができる）。

本発明によるいくつかの実施例は、電子的に読み込み可能な制御信号を有する一時的でないデータキャリアを含み、それらは、本願明細書において記載されている方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる。

通常、本発明の実施例はプログラムコードを有するコンピュータプログラム製品として実施されることができ、コンピュータプログラム製品がコンピュータで動くときに、プログラムコードが方法の１つを実行するために実施される。プログラムコードは、例えば、機械読み取り可読キャリアに格納されることができる。

他の実施例は、本願明細書において記載されていて、機械読み取り可能キャリアに格納される方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、発明の方法の実施例は、コンピュータプログラムがコンピュータで動くとき、本願明細書において記載されている方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

発明の方法の更なる実施例は、その上に記録されて、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムを含むデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

発明の方法の更なる実施例は、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムを表しているデータ流または信号のシーケンスである。データ流または信号のシーケンスは、データ通信接続、例えばインターネットを介して転送されるように構成されることができる。

更なる実施例は、本願明細書に記載された方法の１つを実行するように構成または実行するのに適合した処理手段、例えばコンピュータまたはプログラム可能な論理装置を含む。

更なる実施例は、その上に、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施例において、プログラム可能な論理装置（例えばフィールド・プログラマブル・ゲート・アレイ）は、本願明細書において記載されている方法の機能のいくつかまたは全てを実行するために用いることができる。いくつかの実施例において、フィールド・プログラマブル・ゲート・アレイは、本願明細書において記載されている方法の１つを実行するために、マイクロプロセッサと協働することができる。通常、方法は、いかなるハードウェア装置によっても好ましくは実行される。

上記した実施例は、本発明の原理のために、単に説明されているだけである。配置の変更および修正および本願明細書において記載されている詳細が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許クレームの範囲だけによって制限され、本願明細書において実施例の説明および説明として示される具体的な詳細によって制限されないことが意図される。

Claims

符号化された音声信号スペクトルに基づいて音声出力信号を生成する装置であって、
複数のスペクトル係数を含む復号化音声信号スペクトルを得るために符号化された音声信号スペクトルを処理するための処理ユニット（１１０）であって、スペクトル係数の各々は符号化された音声信号スペクトルの範囲内でスペクトル位置およびスペクトル値を有し、スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は符号化された音声信号スペクトルの範囲内でそれらのスペクトル位置に基づいて連続して順序付けられる処理ユニット、
復号化音声信号スペクトルの１つ以上の擬似係数を決定するための擬似係数決定器（１２０）であって、擬似係数の各々がスペクトル位置およびスペクトル値を有する擬似係数決定器、
修正された音声信号スペクトルを得るために１つ以上の擬似係数を所定の値に設定するためのスペクトル修正ユニット（１３０）、
時間領域変換信号を得るために修正された音声信号スペクトルを時間領域に変換するためのスペクトル−時間変換ユニット（１４０）、
時間領域発振器信号を生成するための制御可能な発振器（１５０）であって、１つ以上の擬似係数の少なくとも１つのスペクトル位置およびスペクトル値によって制御される制御可能な発振器（１５０）、および
音声出力信号を得るために時間領域変換信号と時間領域発振器信号とを混合するためのミキサー（１６０）を含む、装置。
スペクトル係数の各々は直近の先行点および直近の後続点の少なくとも一方を有し、前記スペクトル係数の直近の先行点は、スペクトル係数のシーケンスの範囲内で前記スペクトル係数のすぐ前に先行するスペクトル係数の１つであり、前記スペクトル係数の直近の後続点は、シーケンスの範囲内で前記スペクトル係数のすぐ後に続くスペクトル係数のうちの１つであり、擬似係数決定器（１２０）は、所定の値と異なるスペクトル値を有し、そのスペクトル値が所定の値に等しい直近の先行点を有し、そのスペクトル値が所定の値に等しい直近の後続点を有するシーケンスの少なくとも１つのスペクトル係数を決定することにより復号化音声信号スペクトルの１つ以上の擬似係数を決定するように構成される、請求項１に記載の装置。
所定の値はゼロである、請求項２に記載の装置。
擬似係数決定器（１２０）は、そのスペクトル値が所定の値に等しい直近の先行点を含み、そのスペクトル値が所定の値に等しい直近の後続点を含む擬似係数候補としてシーケンスの少なくとも１つのスペクトル係数を決定することにより復号化音声信号スペクトルの１つ以上の擬似係数を決定するように構成され、
擬似係数決定器（１２０）は、擬似係数候補が擬似係数であることをサイド情報が示すかどうかを決定することにより、擬似係数候補が擬似係数であるかどうかを決定するように構成される、請求項２または請求項３に記載の装置
発振器信号の発振器信号周波数が１つ以上の擬似係数の１つのスペクトル位置に依存するように、制御可能な発振器（１５０）は発振器信号周波数を有する時間領域発振器信号を生成するように構成される、請求項１ないし請求項４のいずれかに記載の装置。
擬似係数は、各々が符号成分を有する符号付きの値であり、
制御可能な発振器（１５０）は、符号成分が第１の符号値を有するとき発振器信号周波数が第１の周波数値を有し、符号成分が異なる第２の値を有するとき発振器信号周波数が異なる第２の周波数値を有するように、発振器信号の発振器信号周波数がさらに１つ以上の擬似係数の１つの符号成分に依存するように、時間領域発振器信号を生成するように構成される、請求項５に記載の装置。
方法。
制御可能な発振器（１５０）は時間領域発振器信号を生成するように構成され、スペクトル値が第３の値を有するときに発振器信号の大きさが第１の振幅値を有し、スペクトル値が異なる第４の値を有するときに発振器信号の大きさは異なる第２の振幅値を有するように、発振器信号の大きさが１つ以上の擬似係数の１つのスペクトル値に依存し、第４の値が第３の値より大きいとき第２の振幅値は第１の振幅値より大きい、請求項１ないし請求項６のいずれかに記載の装置。
制御可能な発振器（１５０）は、さらに、先行するフレームの擬似係数から引き出される１つ以上の外挿パラメータによって制御される、請求項１ないし請求項７のいずれかに記載の装置。
修正された音声信号スペクトルはＭＤＣＴ係数を含むＭＤＣＴスペクトルであり、
スペクトル−時間変換ユニット（１４０）は、復号化された音声信号スペクトルの少なくともいくつかの係数を時間領域に変換することにより、ＭＤＣＴスペクトルをＭＤＣＴ領域から時間領域に変換するように構成された、請求項１ないし請求項８のいずれかに記載の装置。
ミキサー（１６０）は、時間領域において、時間領域発振器信号に時間領域変換信号を加えることにより、時間領域変換信号と時間領域発振器信号とを混合するように構成された、請求項１ないし請求項９のいずれかに記載の装置。
制御可能な発振器（１５０）によって生成される時間領域発振器信号は第１の時間領域発振器信号であり、
さらに、装置は、１つ以上の更なる時間領域発振器信号を生成するための１つ以上の更なる制御可能な発振器（２５２、２５４、２５６）を含み、１つ以上の更なる制御可能な発振器（２５２、２５４、２５６）の各々は、１つ以上の更なる時間領域発振器信号の１つを生成するように構成され、更なる制御可能な発振器（２５２、２５４、２５６）の各々は、１つ以上の擬似係数の少なくとも１つのスペクトル位置およびスペクトル値によって制御され、
ミキサー（１６０）は、音声出力信号を得るために、第１の時間領域発振器信号、１つ以上の更なる時間領域発振器信号および時間領域変換信号を混合するように構成される、請求項１ないし請求項９のいずれかに記載の装置。
音声信号の音声信号入力スペクトルを符号化するための装置であって、音声信号入力スペクトルは複数のスペクトル係数を含み、スペクトル係数の各々は音声信号入力スペクトルの範囲内でスペクトル位置とスペクトル値とを有し、スペクトル係数は音声信号入力スペクトルの範囲内のスペクトル位置に従って連続して順序付けられてスペクトル係数がスペクトル係数のシーケンスを形成し、スペクトル係数の各々は１つ以上の先行点と１つ以上の後続点の少なくとも１つを有し、前記スペクトル係数の各々の先行点はシーケンスの範囲内の前記スペクトル係数に先行するスペクトル係数の１つであり、前記スペクトル係数の各々の後続点はシーケンスの範囲内の前記スペクトル係数に続くスペクトル係数の１つである装置であって、装置は、
１つ以上の極値係数を決定するための極値決定器（４１０）、
極値係数の少なくとも１つの先行点の少なくとも１つまたは後続点の少なくとも１つのスペクトル値を所定の値に設定することによって修正された音声信号スペクトルを得るために音声信号入力スペクトルを修正するためのスペクトル修正器（４２０）であって、スペクトル修正器（４２０）が１つ以上の極値係数のスペクトル値を所定の値に設定せず、または１つ以上の極値係数の少なくとも１つを擬似係数で置換するように構成され、擬似係数のスペクトル値は所定の値とは異なるものであるスペクトル修正器、
符号化された音声信号スペクトルを得るために修正された音声信号スペクトルを処理するための処理ユニット（４３０）、および
サイド情報を生成して送信するためのサイド情報発生器（４４０）であって、サイド情報発生器（４４０）はスペクトル修正器（４２０）によって生成された修正された音声信号入力スペクトルの範囲内で１つ以上の擬似係数候補を位置付けるように構成され、サイド情報発生器（４４０）は選択された候補として擬似係数候補の少なくとも１つを選択するように構成され、サイド情報が擬似係数として選択された候補を示すようにサイド情報発生器（４４０）はサイド情報を生成するように構成されるサイド情報発生器を含み、
極値係数の各々は、そのスペクトル値がその先行点の少なくとも１つのスペクトル値より大きく、そのスペクトル値がその後続点の少なくとも１つのスペクトル値より大きいスペクトル係数の１つであるように、極値決定器（４１０）は１つ以上の極値係数を決定するように構成され、
スペクトル係数の各々は前記スペクトル係数と関連した比較値を有し、極値係数の各々は、その比較値がその先行点の少なくとも１つの比較値より大きく、その比較値がその後続点の少なくとも１つの比較値より大きいスペクトル係数の１つであるように、極値決定器（４１０）は１つ以上の極値係数を決定するように構成される、装置。
サイド情報発生器（４４０）はサイド情報のサイズを送信するように構成される、請求項１２に記載の装置。
音声信号入力スペクトルのスペクトル係数の少なくともいくつかが修正された音声信号スペクトルの中で修正されないままにされるように、スペクトル決定器（４２０）は音声信号入力スペクトルを修正するように構成される、請求項１２または請求項１３に記載の装置。
スペクトル係数の各々は、その先行点の１つとして直近の先行点およびその後続点の１つとして直近の後続点の少なくとも１つを有し、前記スペクトル係数の直近の先行点は、シーケンスの中で前記スペクトル係数のすぐ前に先行するスペクトル係数の１つであり、前記スペクトル係数の直近の後続点は、シーケンスの中で前記スペクトル係数のすぐ後に続くスペクトル係数の１つであり、
スペクトル修正器（４２０）は、修正された音声信号スペクトルを得るために極値係数の少なくとも１つの直近の先行点または直近の後続点のスペクトル値を所定の値に設定することにより音声信号入力スペクトルを修正するように構成され、スペクトル修正器（４２０）は、１つ以上の極値係数のスペクトル値を所定の値に設定しないように構成され、または、１つ以上の極値係数の少なくとも１つを擬似係数で置換するように構成され、擬似係数のスペクトル値は所定の値とは異なり、
極値係数の各々は、そのスペクトル値がその直近の先行点のスペクトル値より大きく、そのスペクトル値がその直近の後続点のスペクトル値より大きいスペクトル値の１つであるように、極値決定器（４１０）は１つ以上の極値係数を決定するように構成され、または、スペクトル係数の各々は、前記スペクトル係数に関連する比較値を有し、極値係数の各々は、その比較値がその直近の先行点の比較値より大きく、その比較値がその直近の後続手点の比較値より大きいスペクトル係数の１つであるように、極値決定器（４１０）は１つ以上の極値係数を決定するように構成される、請求項１２ないし請求項１４のいずれかに記載の装置。
１つ以上の極小係数の各々は、そのスペクトル値がその先行点の１つのスペクトル値より小さく、そのスペクトル値がその後続点の１つのスペクトル値より小さいスペクトル係数の１つであるように、極値決定器（４１０）は１つ以上の極小係数を決定するように構成され、または、スペクトル係数の各々は前記スペクトル係数に関連する比較値を有し、極値決定器（４１０）は１つ以上の極小係数を決定するように構成され、極小係数の各々は、その比較値がその先行点の１つの比較値より小さく、その比較値がその後続点の１つの比較値より小さいスペクトル係数の１つであり、
スペクトル修正器（４２０）は、極値係数の１つ以上および極小係数の１つ以上のスペクトル値または比較値に基づいて代表値を決定するように構成され、代表値は所定の値とは異なり、スペクトル修正器（４２０）は、前記スペクトル値を代表値に設定することにより音声信号入力スペクトルの係数の１つのスペクトル値を変えるように構成される、請求項１５に記載の装置。
スペクトル修正器（４２０）は、極値係数の１つの比較値またはスペクトル値の１つの間の値の差が閾値より小さいかどうかを決定するように構成され、
音声信号入力スペクトルのスペクトル係数の少なくともいくつかのスペクトル値が、値の差が閾値より小さいかどうかに応じて修正された音声信号スペクトルにおいて修正されていないままにされるように、スペクトル修正器（４２０）は音声信号入力スペクトルを修正するように構成される、請求項１６に記載の装置。
サブシーケンスのそれぞれは、複数の後続のスペクトル係数音声信号入力スペクトルを含み、後続のスペクトル係数はそれらのスペクトル位置に従ってサブシーケンスの範囲内で連続して順序付けられ、サブシーケンスの各々は前記連続して順序付けられたサブシーケンスにおいて最初である最初の成分と、前記連続して順序付けられたサブシーケンスにおいて最後である最後の成分とを含み、サブシーケンスの各々は極小係数の正確に２つおよび極値係数の正確に１つを含み、極小係数の１つはサブシーケンスの最初の成分であり、極小係数の他の１つはサブシーケンスの最後の成分であるように、極値決定器（４１０）はスペクトル値のシーケンスの１つ以上のサブシーケンスを決定するように構成され、
スペクトル修正器（４２０）はサブシーケンスの１つの係数のスペクトル値または比較値に基づいて代表値を決定するように構成され、スペクトル修正器（４２０）は前記スペクトル値を代表値に設定することによって前記サブシーケンスの係数の１つのスペクトル値を変えるように構成される、請求項１６または請求項１７に記載の装置。
スペクトル修正器（４２０）は、サブシーケンスの前記１つの係数の比較値の二乗の合計を決定することによって代表値を決定するように構成される、請求項１８に記載の装置。
極値決定器（４１０）は、複数の加重係数を得るためにサブシーケンスの各スペクトル係数のための比較値および位置値の積を決定することにより、第１の合計を得るために加重係数を合計することにより、第２の合計を得るためにサブシーケンスの全てのスペクトル係数の比較値を合計することにより、中間結果を得るために第１の合計を第２の合計で割ることにより、および重心係数を得るために中間結果に最も近い値への丸めを適用することにより、重心係数を決定するように構成され、スペクトル修正器（４２０）は、所定の値に対する重心係数ではない、サブシーケンスの全てのスペクトル係数のスペクトル値を設定するように構成され、または
極値決定器（４１０）は、複数の加重係数を得るためにサブシーケンスの各スペクトル係数のためのスペクトル値および位置値の積を決定することにより、第１の合計を得るために加重係数を合計することにより、第２の合計を得るためにサブシーケンスの全てのスペクトル係数のスペクトル値を合計することにより、中間結果を得るために第１の合計を第２の合計で割ることにより、および重心係数を得るために中間結果に最も近い値への丸めを適用することにより、重心係数を決定するように構成され、スペクトル修正器（４２０）は、所定の値に対する重心係数ではない、サブシーケンスの全てのスペクトル係数のスペクトル値を設定するように構成される、請求項１８または請求項１９に記載の装置。
所定の値はゼロである、請求項１２ないし請求項２０のいずれかに記載の装置。
各スペクトル係数の比較値は、音声信号のエネルギー保存変換から生じている更なるスペクトルの更なる係数の二乗値である、請求項１２ないし請求項２１のいずれかに記載の装置。
各スペクトル係数の比較値は、音声信号のエネルギー保存変換から生じている更なるスペクトルの更なる係数の振幅値である、請求項１２ないし請求項２２のいずれかに記載の装置。
更なるスペクトルはＣｏｍｐｌｅｘＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍスペクトルであり、エネルギー保存変換はＣｏｍｐｌｅｘＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍである、請求項１２ないし請求項２３のいずれかに記載の装置。
スペクトル修正器（４２０）は微調整情報を受信するように構成され、
音声信号入力スペクトルのスペクトル係数は、それぞれ符号成分を含む符号値であり、
微調整情報が修正された音声信号スペクトルを得るための第１の微調整状態であるとき、スペクトル修正器（４２０）は１つ以上の極値係数の、または、擬似係数の１つのスペクトル値の符号成分を第１の符号値に設定するように構成され、
微調整情報が修正された音声信号スペクトルを得るための異なる第２の微調整状態にあるとき、スペクトル修正器（４２０）は１つ以上の極値係数の、または、擬似係数の１つのスペクトル値の符号成分を異なる第２の符号値に設定するように構成される、請求項１２ないし請求項２４のいずれかに記載の装置。
音声信号入力スペクトルはＭＤＣＴ係数を含むＭＤＣＴスペクトルである、請求項１２ないし請求項２５のいずれかに記載の装置。
処理ユニット（４３０）は、量子化された音声信号スペクトルを得るために修正された音声信号スペクトルを量子化するように構成され、
処理ユニット（４３０）は、符号化された音声信号スペクトルを得るために量子化された音声信号スペクトルを処理するようにさらに構成され、
処理ユニット（４３０）は、そのスペクトル値が所定の値に等しい直近の先行点およびそのスペクトル値が所定の値に等しい直近の後続点を有する量子化された音声信号スペクトルのそれらのスペクトル係数のためにだけ前記スペクトル係数が極値係数の１つであるかどうかを示しているサイド情報を生成するように構成され、
前記スペクトル係数の直近の先行点は量子化された音声信号スペクトルの範囲内で前記スペクトル係数のすぐ前に先行する他のスペクトル係数であり、前記スペクトル係数の直近の後続点は量子化された音声信号スペクトルの範囲内で前記スペクトル係数のすぐ後に続く他のスペクトル係数である、請求項１２ないし請求項２６のいずれかに記載の装置。
スペクトル修正器（４２０）は、極値係数の１つを、前記極値係数のスペクトル値または比較値から、前記極値係数の先行点の１つの前記極値係数のスペクトル値または比較値から、または、前記極値係数の後続点の１つの前記極値係数のスペクトル値または比較値から引き出されたスペクトル値を有する擬似係数で置換するように構成される、請求項１２ないし請求項２７のいずれかに記載の装置。
符号化された音声信号スペクトルに基づいて音声出力信号を生成する方法であって、スペクトル係数の各々は、符号化された音声信号スペクトルの範囲内でスペクトル位置およびスペクトル値を有し、スペクトル係数がスペクトル係数のシーケンスを形成するように、スペクトル係数は符号化された音声信号スペクトルの範囲内でそれらのスペクトル位置に従って連続して順序付けられる方法であって、この方法は、
複数のスペクトル係数を含む復号化音声信号スペクトルを得るために符号化された音声信号スペクトルを処理するステップ、
復号化音声信号スペクトルの１つ以上の擬似係数であって、擬似係数の各々はスペクトル位置およびスペクトル値を有する擬似係数を決定するステップ、
修正された音声信号スペクトルを得るために１つ以上の擬似係数を所定の値に設定するステップ、
時間領域変換信号を得るために修正された音声信号スペクトルを時間領域に変換するステップ、
１つ以上の擬似係数の少なくとも１つのスペクトル位置およびスペクトル値によって制御される制御可能な発振器によって時間領域発振器信号を生成するステップ、および
音声出力信号を得るために時間領域変換信号と時間領域発振器信号とを混合するステップを含む、方法。
複数のスペクトル係数を含む音声信号入力スペクトルを符号化する方法であって、スペクトル係数の各々は、音声信号入力スペクトルの範囲内のスペクトル位置、スペクトル値および比較値を有し、スペクトル係数がスペクトル係数のシーケンスを形成するようにスペクトル係数は音声信号入力スペクトルの範囲内でそれらのスペクトル位置に従って連続して順序付けられ、スペクトル係数の各々は、１つ以上の先行点および１つ以上の後続点の少なくとも１つを有し、前記スペクトル係数の先行点の各々はシーケンスの範囲内で前記スペクトル係数に先行するスペクトル係数の１つであり、前記スペクトル係数の後続点の各々はシーケンスの範囲内で前記スペクトル係数に続くスペクトル係数の１つである方法であって、この方法は、
１つ以上の極値係数を決定するステップ、
極値係数の少なくとも１つの先行点の少なくとも１つまたは後続点の少なくとも１つのスペクトル値を所定の値に設定することによって修正された音声信号スペクトルを得るために音声信号入力スペクトルを修正するステップであって、音声信号入力スペクトルを修正することは、１つ以上の極値係数を所定の値に設定しないことによって、または、１つ以上の極値係数の少なくとも１つを擬似係数で置換することによって実行され、擬似係数のスペクトル値は所定の値と異なるものであるステップ、
符号化された音声信号スペクトルを得るために修正された音声信号スペクトルを処理するステップ、および
サイド情報を生成して送信するステップであって、サイド情報は、修正された音声信号入力スペクトルの範囲内で１つ以上の擬似係数候補の位置を決めることによって生成され、サイド情報は選択された候補として擬似係数候補の少なくとも１つを選択することによって生成され、サイド情報が擬似係数として選択された候補を示すようにサイド情報が生成されるステップを含み、
極値係数の各々は、そのスペクトル値がその先行点の少なくとも１つのスペクトル値より大きく、そのスペクトル値がその後続点の少なくとも１つのスペクトル値より大きいスペクトル係数の１つであるように、１つ以上の極値係数が決定され、または、
スペクトル係数の各々は、前記スペクトル係数に関連する比較値を有し、極値係数の各々は、その比較値がその先行点の少なくとも１つの比較値より大きく、その比較値がその後続点の少なくとも１つの比較値より大きいスペクトル係数の１つであるように、１つ以上の極値係数が決定される、方法。
コンピュータまたは信号処理器で実行されるときに、請求項２９または３０の方法を実行するためのコンピュータプログラム。