JP2016514857A

JP2016514857A - オーディオ・エンコーダおよびデコーダ

Info

Publication number: JP2016514857A
Application number: JP2016505841A
Authority: JP
Inventors: ヴィレモーズ，ラーシュ; クレイサ，ヤヌッシュ; ヘデリン，ペール
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2016-05-23
Anticipated expiration: 2034-04-04
Also published as: IL258331A; CA2908625A1; KR20150127654A; IL241739A; CA3029037C; AU2014247000A1; CA3029033C; CA2997882C; AU2018260843B2; US20180322886A1; RU2740359C2; KR101739789B1; CA2948694A1; BR112015025139A2; AU2017201874B2; IL252640B; IL278164A; KR102383819B1; MY176447A; CA2997882A1

Abstract

本稿はオーディオ・エンコードおよびデコード・システム（オーディオ・コーデック・システムと称される）に関する。詳細には、本稿は、声のエンコード／デコードに特に好適な変換ベースのオーディオ・コーデック・システムに関する。発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダ（１００、１７０）が記述される。エンコーダ（１００、１７０）は、ブロックの集合（１３２、３３２）を受領するよう構成されたフレーム構成ユニット（１０１）を有する。ブロックの集合（１３２、３３２）は、変換係数の複数の逐次的なブロック（１３１）を含み、該複数のブロック（１３１）は発話信号のサンプルを示す。変換係数のブロックは、対応する複数の周波数ビン（３０１）についての複数の変換係数を含む。さらに、エンコーダ（１００、１７０）は、変換係数の前記複数の逐次的なブロック（１３１）に基づいて現在の包絡（１３３）を決定するよう構成されている包絡推定ユニット（１０２）を有する。前記現在の包絡（１３３）は、前記対応する複数の周波数ビン（３０１）について複数のスペクトル・エネルギー値（３０３）を示す。さらに、エンコーダ（１００、１７０）は、現在の包絡（１３３）に基づいて、それぞれ変換係数の前記複数のブロック（１３１）について複数の補間された包絡（１３６）を決定するよう構成された包絡補間ユニット（１０４）を有する。さらに、エンコーダ（１００、１７０）は、それぞれ前記対応する複数の補間された包絡（１３６）を使って変換係数の前記対応する複数のブロック（１３１）を平坦化することによって、平坦化された変換係数の複数のブロック（１４０）を決定するよう構成された平坦化ユニット（１０８）を有する。前記ビットストリームは平坦化された変換係数の前記複数のブロック（１４０）に基づいて決定される。

Description

本稿はオーディオ・エンコードおよびデコード・システム（オーディオ・コーデック・システムと称される）に関する。詳細には、本稿は、声のエンコード／デコードに特に好適な変換ベースのオーディオ・コーデック・システムに関する。

汎用の知覚的オーディオ符号化器は、数十ミリ秒（たとえば20ms）をカバーするサンプルのブロック・サイズをもつ修正離散コサイン変換（MDCT）のような変換を使うことによって、比較的高い符号化利得を達成する。そのような変換ベースのオーディオ・コーデック・システムの例は先進オーディオ符号化（AAC）または高効率（HE）-AACである。しかしながら、そのような変換ベースのオーディオ・コーデック・システムを声信号に使うときは、声信号の品質は、より低ビットレートに向かって、音楽信号の品質より速く劣化する。特に、ドライな（非残響性の）発話信号の場合にそうである。

よって、変換ベースのオーディオ・コーデック・システムは、声信号の符号化のため、あるいは声成分を含むオーディオ信号の符号化のためには本来的に好適ではない。換言すれば、変換ベースのオーディオ・コーデック・システムは、声信号について達成される符号化利得に比べて音楽信号について達成される符号化利得に関して非対称性を示す。この非対称性は、変換ベースの符号化にアドオンを提供することによって対処されてもよい。ここで、該アドオンは、改善されたスペクトル整形または信号マッチングをねらいとする。そのようなアドオンの例は事前／事後整形、時間的ノイズ整形（TNS: Temporal Noise Shaping）および時間歪みMDCT（Time Warped MDCT）である。さらに、この非対称性は、短期的な予測フィルタリング（LPC）および長期的な予測（long term prediction）（LTP）に基づく古典的な時間領域発話符号化器の組み込みによって対処されてもよい。

変換ベースの符号化にアドオンを提供することによって得られる改善は典型的には、音楽信号と発話信号の間の性能ギャップをならすには不十分であることが示せる。他方、古典的な時間領域の発話符号化器の組み込みは性能ギャップを埋めるものの、性能の非対称性が逆方向に反転される限りにおいてである。これは、古典的な時間領域の発話符号化器は人間の発話生成系をモデル化するものであって、発話信号の符号化のために最適化されているという事実のためである。

上記に鑑み、変換ベースのオーディオ・コーデックは、古典的な時間領域の発話コーデックと組み合わせて使用されてもよく、ここで、古典的な時間領域の発話コーデックはオーディオ信号の発話セグメントのために使用され、変換ベースのコーデックはオーディオ信号の残りのセグメントのために使用される。しかしながら、単一のオーディオ・コーデック・システムにおける時間領域と変換領域のコーデックの併存は、オーディオ信号の属性に基づいて異なるコーデックの間で切り換えを行なうための信頼できるツールを必要とする。さらに、（発話コンテンツのための）時間領域コーデックと（残りのコンテンツのための）変換領域コーデックの間の実際の切り換えは、実装するのが難しいことがある。特に、時間領域のコーデックと変換領域のコーデックの間の（およびその逆の）なめらかな遷移を保証することが難しいことがある。さらに、たとえば器楽のバックグラウンドと一緒の歌声をエンコードするために非発話信号をエンコードすることが時折不可避となることについて、時間領域のコーデックを、より堅牢にするために、時間領域のコーデックへの修正が必要とされることがある。本稿は、オーディオ・コーデック・システムの上述した技術的課題に対処する。特に、本稿は、発話コーデックの枢要な特徴のみを移入し、それにより、変換ベースのコーデック・アーキテクチャ内に留まりながら発話および音楽についての均等な性能を達成するオーディオ・コーデック・システムを記述する。換言すれば、本稿は、変換ベースのオーディオ・コーデックであって、発話または声信号のエンコードに特に好適なものを記述する。

ある側面によれば、変換ベースの発話エンコーダが記述される。発話エンコーダは、発話信号をビットストリームにエンコードするよう構成されている。下記において、そのような変換ベースの発話エンコーダのさまざまな側面が記述されることを注意しておくべきである。それらのさまざまな側面はさまざまな仕方で互いに組み合わせることができることをはっきりと指摘しておく。特に、種々の独立請求項に従属して記述される側面を他の独立請求項と組み合わせることができる。さらに、エンコーダのコンテキストにおいて記述される側面は、対応するデコーダに類似の仕方で適用可能である。

発話エンコーダは、ブロックの集合を受領するよう構成されたフレーム構成ユニットを有していてもよい。ブロックの集合は、本稿の詳細な説明において記述されるシフトされたブロックの集合に対応していてもよい。あるいはまた、ブロックの集合は、本稿の詳細な説明において記述される現在のブロックの集合に対応していてもよい。ブロックの集合は、変換係数の複数の逐次的なブロックを含み、該複数の逐次的なブロックは発話信号のサンプルを示す。特に、ブロックの集合は変換係数の四つ以上のブロックを含んでいてもよい。前記複数の逐次的なブロックのうちのブロックは、発話信号の所定数のサンプルを時間領域から周波数領域に変換するよう構成されている変換ユニットを使って、発話信号から決定されたものであってもよい。特に、変換ユニットは、修正離散コサイン変換（MDCT）のような時間領域から周波数領域への変換を実行するよう構成されていてもよい。よって、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数（周波数係数またはスペクトル係数とも称される）を含んでいてもよい。特に、変換係数のブロックはMDCT係数を含んでいてもよい。

周波数ビンの数またはブロックのサイズは典型的には、変換ユニットによって実行される変換のサイズに依存する。ある好ましい例では、前記複数の逐次的なブロックからのブロックは、たとえば256個の周波数ビンを含むいわゆる短ブロックに対応する。短ブロックに加えて、変換ユニットはたとえば1024個の周波数ビンを含むいわゆる長ブロックを生成するよう構成されていてもよい。長ブロックは、入力オーディオ信号の静的なセグメントをエンコードするためにオーディオ・エンコーダによって使用されてもよい。しかしながら、発話信号（または入力オーディオ信号内に含まれる発話セグメント）をエンコードするために使われる前記複数の逐次的なブロックは、短ブロックのみを含んでいてもよい。特に、変換係数のブロックは256個の周波数ビンにおける256個の変換係数を含んでいてもよい。

より一般的な表現では、周波数ビンの数またはブロックのサイズは、変換係数のブロックが発話信号の3ないし7ミリ秒（たとえば発話信号の5ms）の範囲においてカバーするようなものであってもよい。ブロックのサイズは、発話エンコーダがビデオ・エンコーダによってエンコードされるビデオ・フレームと同期して動作しうるよう選択されてもよい。変換ユニットは、異なる数の周波数ビンをもつ変換係数のブロックを生成するよう構成されていてもよい。例として、変換ユニットは、48kHzのサンプリング・レートで、1920、960、480、240、120個の周波数ビンをもつブロックを生成するよう構成されていてもよい。発話信号の3ないし7ミリ秒の範囲においてカバーするブロック・サイズが発話エンコーダのために使われてもよい。上記の例では、240個の周波数ビンを含むブロックが発話エンコーダのために使われてもよい。

発話エンコーダはさらに、変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定するよう構成されている包絡推定ユニットを有していてもよい。現在の包絡は、ブロックの集合の前記複数の逐次的なブロックに基づいて決定されてもよい。追加的なブロックが考慮に入れられてもよい。たとえば、前記ブロックの集合の直前のブロックの集合の諸ブロックである。代替的または追加的に、いわゆる先読みブロックが考慮に入れられてもよい。全体として、これはブロックの一連の集合の間の連続性を提供するために有益でありうる。現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示してもよい。換言すれば、現在の包絡は、前記複数の逐次的なブロック内の各ブロックと同じ次元を有していてもよい。さらに別の言い方では、単一の現在の包絡が、発話信号の複数の（すなわち二つ以上の）ブロックについて決定されてもよい。これは、前記複数の逐次的なブロック内に含まれるスペクトル・データに関する有意な統計を提供するために有利である。

現在の包絡は、対応する複数の周波数帯域について複数のスペクトル・エネルギー値を示してもよい。周波数帯域は、一つまたは複数の周波数ビンを含んでいてもよい。特に、周波数帯域の一つまたは複数は二つ以上の周波数ビンを含んでいてもよい。周波数帯域当たりの周波数ビンの数は周波数が増すとともに増大してもよい。換言すれば、周波数帯域当たりの周波数ビンの数は音響心理学的な考察に依存してもよい。包絡推定ユニットは、特定の周波数帯域についてのスペクトル・エネルギー値を、その特定の周波数帯域内にはいる前記複数の逐次的なブロックの変換係数に基づいて決定するよう構成されていてもよい。特に、包絡推定ユニットは、その特定の周波数帯域内にはいる前記複数の逐次的なブロックの変換係数の二乗平均平方根値に基づいて決定するよう構成されていてもよい。よって、現在の包絡は、前記複数の逐次的なブロックのスペクトル包絡の平均スペクトル包絡を示していてもよい。さらに、現在の包絡は帯域化された（banded）周波数分解能を有していてもよい。

発話エンコーダはさらに、現在の包絡に基づいて、それぞれ変換係数の前記複数の逐次的なブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットを有していてもよい。特に、前記複数の補間された包絡は、対応するデコーダにおいても利用可能な量子化された現在の包絡に基づいて決定されてもよい。そうすることにより、前記複数の補間された包絡が発話エンコーダと対応する発話デコーダにおいて同じ仕方で決定されうることが保証される。よって、発話デコーダのコンテキストにおいて記述される包絡補間ユニットの特徴は発話エンコーダにも適用可能であり、逆に、発話エンコーダのコンテキストにおいて記述される包絡補間ユニットの特徴は発話デコーダにも適用可能である。全体として、包絡補間ユニットは、前記複数の逐次的なブロックのそれぞれのスペクトル包絡の近似（すなわち補間された包絡）を現在の包絡に基づいて決定するよう構成されていてもよい。

発話エンコーダはさらに、それぞれ対応する複数の補間された包絡を使って変換係数の対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定するよう構成された平坦化ユニットを有していてもよい。特に、特定のブロックについての補間された包絡（またはそれから導出される包絡）は、その特定のブロック内に含まれる変換係数を平坦化する、すなわち該変換係数のスペクトル形状を除去するために使われてもよい。平坦化（flattening）プロセスは、変換係数の特定のブロックに適用される白色化（whitening）動作とは異なることを注意しておくべきである。すなわち、平坦化された変換係数は、古典的な発話エンコーダのLPC（linear predictive coding［線形予測符号化］）解析によって典型的に生成される時間領域の白色化された信号の変換係数と解釈することはできない。比較的平坦なパワースペクトルをもつ信号を生成するという側面だけが共通である。しかしながら、そのような平坦なパワースペクトルを得るプロセスは異なる。本稿で概説されるように、変換係数のブロックを平坦化するための推定されるスペクトル包絡の使用は、推定されるスペクトル包絡がビット割り当て目的のために使用されうるので、有益である。

変換ベースの発話エンコーダはさらに、それぞれ変換係数の前記複数のブロックについて複数の包絡利得を決定するよう構成された包絡利得決定ユニットを有していてもよい。さらに、変換ベースの発話エンコーダは、それぞれ前記複数の包絡利得に従って前記複数の補間された包絡をシフトさせることによって、複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有していてもよい。包絡利得決定ユニットは、（前記複数の逐次的なブロックからの）変換係数の第一のブロックのための第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が、第一の補間された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散に比べて低減されるように、決定するよう構成されていてもよい。第一の調整された包絡は、第一の包絡利得を使って第一の補間された包絡をシフトさせることによって決定されてもよい。第一の補間された包絡は、変換係数の前記複数のブロックからの変換係数の前記第一のブロックについて、前記複数の補間された包絡からの前記補間された包絡であってもよい。

特に、包絡利得決定ユニットは、変換係数の前記第一のブロックについての前記第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が1になるように、決定するよう構成されていてもよい。平坦化ユニットは、平坦化された変換係数の前記複数のブロックを、それぞれ対応する複数の調整された包絡を使って変換係数の対応する複数のブロックを平坦化することによって決定するよう構成されていてもよい。結果として、平坦化された変換係数のブロックはそれぞれ分散1をもちうる。

包絡利得決定ユニットは、前記複数の包絡利得を示す利得データをビットストリーム中に挿入するよう構成されていてもよい。結果として、対応するデコーダは、エンコーダと同じ仕方で前記複数の調整された包絡を決定できるようにされる。

発話エンコーダは、前記ビットストリームを、平坦化された変換係数の前記複数のブロックに基づいて決定するよう構成されていてもよい。特に、発話エンコーダは、平坦化された変換係数の前記複数のブロックに基づいて係数データを決定するよう構成されていてもよく、該係数データが前記ビットストリームに挿入される。平坦化された変換係数の前記複数のブロックに基づいて係数データを決定するための例示的な手段は後述する。

変換ベースの発話エンコーダは、現在の包絡を量子化することによって量子化された現在の包絡を決定するよう構成された包絡量子化ユニットを有していてもよい。さらに、包絡量子化ユニットは、包絡データを前記ビットストリーム中に挿入するよう構成されていてもよく、該包絡データは量子化された現在の包絡を示す。結果として、対応するデコーダは、包絡データをデコードすることによって量子化された現在の包絡を知らされてもよい。包絡補間ユニットは、量子化された現在の包絡に基づいて前記複数の補間された包絡を決定するよう構成されていてもよい。そうすることにより、エンコーダおよびデコーダが同じ複数の補間された包絡を決定するよう構成されることが保証されうる。

変換ベースの発話エンコーダは複数の異なるモードで動作するよう構成されていてもよい。該異なるモードは、短ストライド・モードおよび長ストライド・モードを含んでいてもよい。前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、変換ベースの発話エンコーダが短ストライド・モードで動作させられるときは、変換係数の前記複数の逐次的なブロックを含むブロックの前記集合を処理するよう構成されていてもよい。よって、短ストライド・モードにあるときは、エンコーダは、オーディオ信号のセグメント／フレームを、エンコーダが逐次的な仕方で処理する逐次的なブロックのシーケンスに細分するよう構成されていてもよい。一方、前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、変換ベースの発話エンコーダが長ストライド・モードで動作させられるときは、変換係数の前記複数の単一のブロックのみを含むブロックの集合を処理するよう構成されていてもよい。よって、長ストライド・モードにあるときは、エンコーダは、オーディオ信号の完全なセグメント／フレームを、ブロックに細分することなく処理するよう構成されていてもよい。これは、オーディオ信号の短いセグメント／フレームについておよび／または音楽信号について有益でありうる。長ストライド・モードにあるとき、包絡推定ユニットは、ブロックの前記集合内に含まれる変換係数の前記単一のブロックの現在の包絡を決定するよう構成されていてもよい。包絡補間ユニットは、変換係数の前記単一のブロックについての補間された包絡を、変換係数の前記単一のブロックの前記現在の包絡として決定するよう構成されていてもよい。換言すれば、長ストライド・モードにあるときは本稿に記載される包絡補間がバイパスされてもよく、前記単一のブロックの現在の包絡が、（さらなる処理のために）補間された包絡であると設定されてもよい。

もう一つの側面によれば、再構成された発話信号を提供するためにビットストリームをデコードするよう構成された変換ベースの発話デコーダが記述される。上記ですでに示したように、デコーダは、対応するエンコーダのコンポーネントと類似のコンポーネントを有していてもよい。デコーダは、ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定するよう構成された包絡デコード・ユニットを有していてもよい。上記で示したように、量子化された現在の包絡は典型的には、諸周波数帯域の対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示す。さらに、ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータ（たとえば前記係数データ）を含んでいてもよい。再構成された平坦化された変換係数の前記複数の逐次的なブロックは、典型的には、エンコーダにおける平坦化された変換係数の前記対応する複数の逐次的なブロックに関連付けられている。前記複数の逐次的なブロックは、ブロックの集合の、たとえば後述するシフトされたブロックの集合の前記複数の逐次的なブロックに対応してもよい。再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む。

デコーダはさらに、量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットを有していてもよい。デコーダの包絡補間ユニットは典型的にはエンコーダの包絡補間ユニットと同じ仕方で動作する。包絡補間ユニットは、前記複数の補間された包絡を、量子化された以前の包絡にさらに基づいて決定するよう構成されていてもよい。量子化された以前の包絡は、再構成された変換係数の前記複数のブロックの直前の、再構成された変換係数の複数の以前のブロックに関連付けられていてもよい。よって、量子化された以前の包絡は、変換係数のブロックの以前の集合についての包絡データとしてデコーダによって受領されたものであってもよい（たとえばいわゆるPフレームの場合）。代替的または追加的に、ブロックの前記集合についての包絡データは、量子化された現在の包絡を示すことに加えて、量子化された以前の包絡を示してもよい（たとえばいわゆるIフレームの場合）。これは、以前のデータを知ることなくIフレームがデコードできるようにする。

包絡補間ユニットは、第一の補間された包絡のある特定の周波数ビンについてのスペクトル・エネルギー値を、第一の中間時点において、量子化された現在の包絡と量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されていてもよい。第一の補間された包絡は、再構成された平坦化された変換係数の前記複数の逐次的なブロックの第一のブロックに関連付けられているまたは対応する。上記で概説したように、量子化された以前および現在の包絡は典型的には帯域化された（banded）包絡である。特定の周波数帯域についてのスペクトル・エネルギー値は典型的には、その周波数帯域内に含まれるすべての周波数ビンについて一定である。

包絡補間ユニットは、前記第一の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、量子化された現在の包絡と量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値の間の補間を量子化することによって、決定するよう構成されていてもよい。よって、前記複数の補間された包絡は、量子化された補間された包絡であってもよい。

包絡補間ユニットは、第二の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、第二の中間時点において、量子化された現在の包絡と量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されていてもよい。第二の補間された包絡は、再構成された平坦化された変換係数の前記複数のブロックの第二のブロックに関連付けられているまたは対応するのでもよい。再構成された平坦化された変換係数の前記第二のブロックは、再構成された平坦化された変換係数の前記第一のブロックより後であってもよく、前記第二の中間時点は前記第一の中間時点より後であってもよい。特に、前記第二の中間時点と前記第一の中間時点との間の差は、再構成された平坦化された変換係数の前記第二のブロックと再構成された平坦化された変換係数の前記第一のブロックとの間の時間間隔に対応してもよい。

包絡補間ユニットは、線形補間、幾何的補間および調和的補間の一つまたは複数を実行するよう構成されていてもよい。さらに、包絡補間ユニットは、対数領域において補間を実行するよう構成されていてもよい。

さらに、デコーダは、それぞれ対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定するよう構成された逆平坦化ユニットを有していてもよい。上記で示したように、ビットストリームは、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて（前記利得データ内で）複数の包絡利得を示していてもよい。変換ベースの発話デコーダはさらに、それぞれ前記複数の補間された包絡に前記複数の包絡利得を適用することによって複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有していてもよい。逆平坦化ユニットは、それぞれ対応する複数の調整された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記複数のブロックを決定するよう構成されていてもよい。

デコーダは、再構成された変換係数の前記複数のブロックに基づいて、再構成された発話信号を決定するよう構成されていてもよい。

もう一つの側面によれば、発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダが記述される。本エンコーダは、本稿に記載されるエンコーダ関係の特徴および／またはコンポーネントの任意のものを有しうる。特に、本エンコーダは、変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットを有していてもよい。前記複数の逐次的なブロックは現在のブロックおよび一つまたは複数の以前のブロックを含む。上記で示したように、前記複数の逐次的なブロックは発話信号のサンプルを示している。

さらに、エンコーダは、それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の対応する現在のブロックおよび一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定するよう構成された平坦化ユニットを有していてもよい。ブロック包絡は、上述した調整された包絡に対応してもよい。

さらに、エンコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから（たとえば前記予測器を使って）導出されたものであってもよい。

予測器は、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器を有していてもよい。よって、該抽出器は、平坦化されていない領域で動作しうる（すなわち、抽出器は、スペクトル形状をもつ変換係数のブロックに対して動作しうる）。これは、推定された変換係数の現在のブロックを決定するために抽出器によって使用される信号モデルに関して有益でありうる。

さらに、予測器は、推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡のうちの少なくとも一つに基づき、かつ前記一つまたは複数の予測器パラメータのうちの少なくとも一つに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有していてもよい。よって、スペクトル整形器は、推定された変換係数の前記現在のブロックを平坦化領域に変換して、推定された平坦化された変換係数の前記現在のブロックを提供するよう構成されていてもよい。対応するデコーダのコンテキストにおいて概説したように、スペクトル整形器は、この目的のために前記複数の調整された包絡（または前記複数のブロック包絡）を利用してもよい。

上記で示したように、予測器（特に抽出器）は、信号モデルを使うモデル・ベースの予測器を有していてもよい。信号モデルは、一つまたは複数のモデル・パラメータを有していてもよく、前記一つまたは複数の予測器パラメータは、前記一つまたは複数のモデル・パラメータを示していてもよい。モデル・ベースの予測器の使用は、サブバンド（または周波数ビン）予測器によって使われる予測係数を記述するビットレート効率のよい手段を提供するために有益でありうる。特に、ほんの少数のモデル・パラメータを使って予測係数の完全な集合を決定することが可能でありうる。そのような少数のモデル・パラメータは、ビットレート効率のよい仕方で対応するデコーダに予測器データとして伝送されうる。よって、モデル・ベースの予測器は、（たとえばダービン・レヴィンソン（Durbin-Levinson）・アルゴリズムを使って）信号モデルの前記一つまたは複数のモデル・パラメータを決定するよう構成されていてもよい。

さらに、モデル・ベースの予測器は、前記信号モデルに基づき、かつ前記一つまたは複数のモデル・パラメータに基づいて、再構成された変換係数の以前のブロックの第一の周波数ビン内の第一の再構成された変換係数に適用されるべき予測係数を決定するよう構成されていてもよい。特に、複数の再構成された変換係数についての複数の予測係数が決定されてもよい。そうすることにより、推定された変換係数の現在のブロックの前記第一の周波数ビン内の第一の推定された変換係数の推定値が、前記第一の再構成された変換係数に前記予測係数を適用することによって決定されてもよい。特に、そうすることにより、推定された変換係数の現在のブロックの推定された変換係数が決定されうる。

例として、前記信号モデルは一つまたは複数の正弦波モデル成分を含んでいてもよく、前記一つまたは複数のモデル・パラメータは前記一つまたは複数の正弦波モデル成分の周波数を示していてもよい。特に、前記一つまたは複数のモデル・パラメータは、複数正弦波信号モデルの基本周波数を示していてもよい。そのような基本周波数は、時間領域における遅延に対応してもよい。予測器は、予測誤差係数の現在のブロックの予測誤差係数の平均平方値が低減される（たとえば最小化される）よう、前記一つまたは複数の予測パラメータを決定するよう構成されていてもよい。これはたとえば、ダービン・レヴィンソン・アルゴリズムを使って達成されてもよい。予測器は、前記一つまたは複数の予測器パラメータを示す予測器データをビットストリーム中に挿入するよう構成されていてもよい。結果として、対応するデコーダは、エンコーダと同じ仕方で、推定された平坦化された変換係数の現在のブロックを決定できるようにされる。

さらに、エンコーダは、平坦化された変換係数の現在のブロックに基づいて、かつ推定された平坦化された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットを有していてもよい。ビットストリームは、予測誤差係数の現在のブロックに基づいて決定されてもよい。特に、ビットストリームの係数データは、予測誤差係数の現在のブロックを示していてもよい。

あるさらなる側面によれば、ビットストリームをデコードして、再構成された発話信号を提供するよう構成された変換ベースの発話デコーダが記載される。本デコーダは、本稿に記載されるデコーダ関係の特徴および／またはコンポーネントの任意のものを有しうる。特に、本デコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリーム（の予測器データ）から導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。対応するエンコーダのコンテキストにおいて概説したように、予測器は、再構成された変換係数の前記一つまたは複数の以前のブロックのうちの少なくとも一つに基づき、かつ前記一つまたは複数の予測器パラメータのうちの少なくとも一つに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器を有していてもよい。さらに、予測器は、推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡（たとえば以前の調整された包絡）に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有していてもよい。

前記一つまたは複数の予測器パラメータは、ブロック遅延パラメータTを含んでいてもよい。ブロック遅延パラメータは、推定された平坦化された変換係数の前記現在のブロックに先行するブロック数を示していてもよい。特に、ブロック遅延パラメータTは、発話信号の周期性を示していてもよい。よって、ブロック遅延パラメータTは、再構成された変換係数の以前のブロックのどの一つまたは複数が変換係数の前記現在の係数に（最も）似ているかを示してもよく、よって、変換係数の前記現在のブロックを予測するために使われてもよい。すなわち、推定された変換係数の前記現在のブロックを決定するために使われてもよい。

スペクトル整形器は、現在の推定された包絡を使って推定された変換係数の前記現在のブロックを平坦化するよう構成されていてもよい。さらに、スペクトル整形器は、前記一つまたは複数の以前のブロック包絡のうちの少なくとも一つに基づき、かつ前記ブロック遅延パラメータに基づいて、現在の推定された包絡を決定するよう構成されていてもよい。特に、スペクトル整形器は、ブロック遅延パラメータTに基づいて整数遅延値T₀を決定するよう構成されていてもよい。整数遅延値T₀は、ブロック遅延パラメータTを最も近い整数に丸めることによって決定されてもよい。さらに、スペクトル整形器は、推定された平坦化された変換係数の現在のブロックより整数遅延値に対応するブロック数だけ先行する、再構成された変換係数の以前のブロックの以前のブロック包絡（たとえば以前の調整された包絡）として、前記現在の推定された包絡を決定するよう構成されていてもよい。デコーダのスペクトル整形器について記述される特徴は、エンコーダのスペクトル整形器にも適用可能であることを注意しておくべきである。

抽出器は、再構成された変換係数の前記一つまたは複数の以前のブロックのうちの少なくとも一つに基づき、かつブロック遅延パラメータTに基づいて、推定された変換係数の現在のブロックを決定するよう構成されていてもよい。この目的のために、抽出器は、対応するエンコーダのコンテキストにおいて概説したように、モデル・ベースの予測器を利用してもよい。このコンテキストにおいて、ブロック遅延パラメータTは、複数正弦波モデルの基本周波数を示してもよい。

さらに、発話デコーダは、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダを有していてもよい。この目的のために、スペクトル・デコーダは、本稿に記載される逆量子化器を利用してもよい。さらに、発話デコーダは、推定された平坦化された変換係数の現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットを有していてもよい。さらに、発話デコーダは、現在のブロック包絡を使って、再構成された平坦化された変換係数の現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有していてもよい。さらに、平坦化ユニットは、それぞれ前記一つまたは複数の以前のブロック包絡（たとえば以前の調整された包絡）を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記一つまたは複数の以前のブロックを決定するよう構成されていてもよい。発話デコーダは、再構成された変換係数の現在のブロックおよび一つまたは複数の以前のブロックに基づいて、再構成された発話信号を決定するよう構成されていてもよい。

変換ベースの発話デコーダは、一つまたは複数の以前のブロック包絡を記憶するよう構成された包絡バッファを有していてもよい。スペクトル整形器は、整数遅延値T₀を包絡バッファ内に記憶されている以前のブロック包絡の数に制限することによって、整数遅延値T₀を決定するよう構成されていてもよい。包絡バッファ内に記憶されている以前のブロック包絡の数は（たとえばIフレームの先頭において）変わりうる。スペクトル整形器は、包絡バッファに記憶されている以前の包絡の数を決定し、しかるべく整数遅延値T₀を制限するよう構成されていてもよい。そうすることにより、誤った包絡ループアップ（loop-ups）が回避されうる。

スペクトル整形器は、前記一つまたは複数の予測器パラメータの適用前に（特に、前記予測器利得の適用前に）、（たとえば周波数帯域の一部または全部において）平坦化された推定された変換係数の現在のブロックが分散1を示すよう、推定された変換係数の現在のブロックを平坦化するよう構成されていてもよい。この目的のために、ビットストリームは、分散利得パラメータを含んでいてもよく、スペクトル整形器は、分散利得パラメータを、推定された変換係数の現在のブロックに適用するよう構成されていてもよい。これは、予測の品質に関して有益でありうる。

あるさらなる側面によれば、発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダが記述される。上記ですでに示したように、本エンコーダは、本稿に記載されるエンコーダ関係の特徴および／またはコンポーネントの任意のものを有しうる。特に、本エンコーダは、変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットを有していてもよい。前記複数の逐次的なブロックは現在のブロックおよび一つまたは複数の以前のブロックを含む。さらに、前記複数の逐次的なブロックは発話信号のサンプルを示している。

さらに、発話エンコーダは、対応する現在のブロック包絡（たとえば対応する調整された包絡）を使って変換係数の対応する現在のブロックを平坦化することによって、平坦化された変換係数の現在のブロックを決定するよう構成された平坦化ユニットを有していてもよい。さらに、発話エンコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータ（たとえば予測器利得を含む）に基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものであってもよい。さらに、発話エンコーダは、平坦化された変換係数の現在のブロックに基づいて、かつ推定された平坦化された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットを有していてもよい。

予測器は、重み付けされた平均平方誤差基準を使って（たとえば重み付けされた平均平方誤差基準を最小化することによって）推定された平坦化された変換係数の現在のブロックを決定するよう構成されていてもよい。重み付けされた平均平方誤差基準は、現在のブロック包絡または現在のブロック包絡の何らかのあらかじめ定義された関数を、重みとして考慮に入れてもよい。本稿では、重み付けされた平均平方誤差基準を使って予測器利得を決定するさまざまな異なる方法が記述される。

さらに、発話エンコーダは、一組のあらかじめ決定された量子化器を使って、予測誤差係数の現在のブロックから導出される係数を量子化するよう構成された係数量子化ユニットを有していてもよい。係数量子化ユニットは、前記一つまたは複数の予測器パラメータのうちの少なくとも一つに依存して、前記一組のあらかじめ決定された量子化器を決定するよう構成されていてもよい。つまり、予測器の性能が、係数量子化ユニットによって使用される量子化器に影響をもちうる。係数量子化ユニットは、量子化された係数に基づいてビットストリームについての係数データを決定するよう構成されていてもよい。よって、係数データは、予測誤差係数の現在のブロックの量子化されたバージョンを示していてもよい。変換ベースの発話エンコーダはさらに、一つまたは複数のスケーリング規則を使って、予測誤差係数の現在のブロックに基づいて、再スケーリングされた誤差係数の現在のブロックを決定するよう構成されたスケーリング・ユニットを有していてもよい。平均で、再スケーリングされた誤差係数の現在のブロックの再スケーリングされた誤差係数の分散が、予測誤差係数の現在のブロックの予測誤差係数の分散より高くなるように、再スケーリングされた誤差係数の現在のブロックが決定されてもよく、および／または前記一つまたは複数のスケーリング規則がそのようになっていてもよい。特に、前記一つまたは複数のスケーリング規則は、予測誤差係数の分散がすべての周波数ビンまたは周波数帯域について1により近くなるようなものであってもよい。係数量子化ユニットは、係数データを与えるために、再スケーリングされた誤差係数の現在のブロックの、再スケーリングされた誤差係数を量子化するよう構成されていてもよい。

予測誤差係数の現在のブロックは典型的には、対応する複数の周波数ビンについての複数の予測誤差係数を含む。前記スケーリング規則に従って前記スケーリング・ユニットによって予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存していてもよい。さらに、スケーリング規則は、前記一つまたは複数の予測器パラメータに、たとえば予測器利得に依存してもよい。代替的または追加的に、スケーリング規則は、現在のブロック包絡に依存してもよい。本稿では、周波数ビン依存のスケーリング規則を決定するためのさまざまな異なる方法が記述される。

変換ベースの発話エンコーダはさらに、現在ブロック包絡に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニットを有していてもよい。割り当てベクトルは、予測誤差係数の現在ブロックから導出された第一の係数を量子化するために使われる前記一組のあらかじめ決定された量子化器からの第一の量子化器を示していてもよい。特に、割り当てベクトルは、それぞれ予測誤差係数の現在ブロックから導出された係数全部を量子化するために使われる量子化器を示していてもよい。例として、割り当てベクトルは、各周波数帯域について使われる異なる量子化器を示していてもよい。

ビット割り当てユニットは、予測誤差係数の現在ブロックについての係数データが所定のビット数を超えないよう割り当てベクトルを決定するよう構成されていてもよい。さらに、ビット割り当てユニットは、現在ブロック包絡から導出される（たとえば、現在の調整された包絡から導出される）割り当て包絡に適用されるべきオフセットを示すオフセット値を決定するよう構成されていてもよい。オフセット値は、対応するデコーダが、係数データを決定するために使われた量子化器を同定できるようにするために、ビットストリーム中に含められてもよい。

もう一つの側面によれば、ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダが記述される。発話デコーダは、本稿に記載される特徴および／またはコンポーネントの任意のものを有しうる。特に、本デコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。さらに、発話デコーダは、一組のあらかじめ決定された量子化器を使って、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数（またはその再スケーリングされたバージョン）の現在のブロックを決定するよう構成されたスペクトル・デコーダを有していてもよい。特に、スペクトル・デコーダは、対応する発話エンコーダによって使用される前記一組のあらかじめ決定された量子化器に対応する一組のあらかじめ決定された逆量子化器を利用してもよい。

スペクトル・デコーダは、一つまたは複数の予測器パラメータに依存して前記一組のあらかじめ決定された量子化器（および／または前記対応する一組のあらかじめ決定された逆量子化器）を決定するよう構成されていてもよい。特に、スペクトル・デコーダは、前記一組のあらかじめ決定された量子化器のために、対応する発話エンコーダの係数量子化ユニットと同じ選択プロセスを実行してもよい。前記一組のあらかじめ決定された量子化器を前記一つまたは複数の予測器パラメータに依存させることによって、再構成された発話信号の知覚的品質が改善されうる。

前記一組のあらかじめ決定された量子化器は、異なる信号対雑音比（および異なる関連したビットレート）をもつ異なる量子化器を含んでいてもよい。さらに、前記一組のあらかじめ決定された量子化器は、少なくとも一つのディザリングされる量子化器を含んでいてもよい。前記一つまたは複数の予測器パラメータは、予測器利得gを含んでいてもよい。予測器利得gは、再構成された変換係数の現在のブロックについての再構成された変換係数の前記一つまたは複数の以前のブロックの関連度を示してもよい。よって、予測器利得gは、予測誤差係数の現在のブロック内に含まれる情報の量の指標を提供してもよい。相対的に高い予測器利得gは相対的に低い情報量を示してもよく、相対的に低い予測器利得gは相対的に高い情報量を示してもよい。前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得に依存してもよい。特に、前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得が増すのとともに減少してもよい。

スペクトル・デコーダは、あらかじめ決定された量子化器の第一の集合および第二の集合へのアクセスを有していてもよい。第二の集合は、量子化器の第一の集合より、少数のディザリングされる量子化器を含んでいてもよい。スペクトル・デコーダは、予測器利得gに基づいて集合基準rfuを決定するよう構成されていてもよい。スペクトル・デコーダは、集合基準rfuが所定の閾値より小さければ、あらかじめ決定された量子化器の第一の集合を使うよう構成されていてもよい。さらに、スペクトル・デコーダは、集合基準rfuが前記所定の閾値以上であれば、あらかじめ決定された量子化器の第二の集合を使うよう構成されていてもよい。集合基準はrfu＝min(1,max(g,0))であってもよく、ここで、予測器利得はgである。この集合基準rfuは、0以上1以下の値を取る。所定の閾値は0.75であってもよい。

上記で示したように、集合基準は所定の制御パラメータrfuに依存してもよい。ある代替例では、制御パラメータrfuは、次の条件を使って決定されてもよい：g＜−1.0についてはrfu＝1.0；−1.0≦g＜0.0についてはrfu＝−g；0.0≦g＜1.0についてはrfu＝g；1.0≦g＜2.0についてはrfu＝2.0−g；および／またはg≧2.0についてはrfu＝0.0。

さらに、発話デコーダは、推定された平坦化された変換係数の現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットを有していてもよい。さらに、発話デコーダは、現在のブロック包絡を使って、再構成された平坦化された変換係数の現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有していてもよい。再構成された変換係数の現在のブロックに基づいて（たとえば逆変換ユニットを使って）、再構成された発話信号が決定されてもよい。

変換ベースの発話デコーダは、逆スケーリング規則を使って、量子化された予測誤差係数の現在のブロックの量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有していてもよい。逆スケーリング規則に従って逆スケーリング・ユニットによって前記量子化された予測誤差係数に適用されるスケーリング利得は、それぞれの量子化された予測誤差係数の周波数ビンに依存してもよい。換言すれば、逆スケーリング規則は周波数依存であってもよい。すなわち、スケーリング利得は周波数に依存してもよい。逆スケーリング規則は、種々の周波数ビンについての量子化された予測誤差係数の分散を調整するよう構成されていてもよい。

逆スケーリング規則は典型的には、対応する変換ベースの発話エンコーダのスケーリング・ユニットによって適用されるスケーリング規則の逆である。よって、本稿でスケーリング規則の決定および属性に関して述べた諸側面は、逆スケーリング規則にも（類似の仕方で）適用可能である。

その際、前記加算ユニットは、再スケーリングされた予測誤差係数の現在のブロックを、推定された平坦化された変換係数の現在のブロックに加えることによって、再構成された平坦化された変換係数の現在のブロックを決定するよう構成されていてもよい。

前記一つまたは複数の制御パラメータは分散保存フラグを含んでいてもよい。分散保存フラグは、量子化された予測誤差係数の現在のブロックの分散がどのように整形されるべきかを示してもよい。換言すれば、分散保存フラグは、量子化された予測誤差係数の現在のブロックの分散に影響をもつ、デコーダによって実行されるべき処理を示していてもよい。

例として、前記一組のあらかじめ決定された量子化器は、分散保存フラグに依存して決定されてもよい。特に、前記一組のあらかじめ決定された量子化器はノイズ合成量子化器を含んでいてもよい。このノイズ合成量子化器のノイズ利得が、分散保存フラグに依存してもよい。代替的または追加的に、前記一組のあらかじめ決定された量子化器はあるSNR範囲をカバーする一つまたは複数のディザリングされる量子化器を含む。SNR範囲は、分散保存フラグに依存して決定されてもよい。前記一つまたは複数のディザリングされる量子化器の少なくとも一つは、量子化された予測誤差係数を決定するときに、事後利得γを適用するよう構成されていてもよい。事後利得γは、分散保存フラグに依存してもよい。変換ベースの発話デコーダは、量子化された予測誤差係数の現在のブロックの量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有していてもよい。前記加算ユニットは、分散保存フラグに依存して、推定された平坦化された変換係数の現在のブロックに対して、再スケーリングされた予測誤差係数の現在のブロックを加えることによって、あるいは量子化された予測誤差係数の現在のブロックを加えることによって、再構成された平坦化された変換係数の現在のブロックを決定するよう構成されていてもよい。

分散保存フラグは、量子化器のノイズ性（noisiness）の度合いを予測の品質に適応させるために使われてもよい。この結果として、コーデックの知覚的品質が改善されうる。

もう一つの側面によれば、変換ベースのオーディオ・エンコーダが記述される。本オーディオ・エンコーダは、第一のセグメント（たとえば発話セグメント）を含むオーディオ信号をビットストリームにエンコードするよう構成される。特に、本オーディオ・エンコーダは、オーディオ信号の一つまたは複数の発話セグメントを、変換ベースの発話エンコーダを使ってエンコードするよう構成されていてもよい。さらに、本オーディオ・エンコーダは、オーディオ信号の一つまたは複数の非発話セグメントを、一般的な変換ベースのオーディオ・エンコーダを使ってエンコードするよう構成されていてもよい。

本オーディオ・エンコーダは、オーディオ信号から前記第一のセグメント（たとえば発話セグメント）を識別するよう構成された信号分類器を有していてもよい。より一般的な表現では、信号分類器は、オーディオ信号から、変換ベースの発話エンコーダによってエンコードされるべきセグメントを決定するよう構成されていてもよい。決定された第一のセグメントは、（該セグメントは必ずしも実際の発話を含んでいなくてもよいのではあるが）発話セグメントと称されてもよい。特に、信号分類器は、オーディオ信号の種々のセグメント（たとえばフレームまたはブロック）を発話または非発話に分類するよう構成されていてもよい。

上記で概説したように、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含んでいてもよい。さらに、オーディオ・エンコーダは、前記第一のセグメントに基づいて変換係数の複数の逐次的なブロックを決定するよう構成された変換ユニットを有していてもよい。変換ユニットは、発話セグメントおよび非発話セグメントを変換するよう構成されていてもよい。

変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。特に、サンプルの第一の数は1024であってもよく、サンプルの第二の数は256であってもよい。前記複数の逐次的なブロックの諸ブロックは、短ブロックであってもよい。特に、オーディオ・エンコーダは、オーディオ信号の、発話に分類されたすべてのセグメントを短ブロックに変換するよう構成されていてもよい。

さらに、オーディオ・エンコーダは、前記複数の逐次的なブロックをビットストリームにエンコードするよう構成された（本稿で記載されるような）変換ベースの発話エンコーダを有していてもよい。さらに、オーディオ・エンコーダは、オーディオ信号の前記第一のセグメント以外のセグメント（たとえば非発話セグメント）をエンコードするよう構成された一般的な変換ベースのオーディオ・エンコーダを有していてもよい。一般的な変換ベースのオーディオ・エンコーダは、AAC（Advanced Audio Coder［先進オーディオ符号化器］）またはHE（High Efficiency［高効率］）-AACエンコーダであってもよい。すでに上記で概説したように、変換ユニットはMDCTを実行するよう構成されていてもよい。よって、オーディオ・エンコーダは、（発話セグメントおよび非発話セグメントを含む）完全な入力オーディオ信号を変換領域で（単一の変換ユニットを使って）エンコードするよう構成されていてもよい。

もう一つの側面によれば、発話セグメント（すなわち、変換ベースの発話エンコーダを使ってエンコードされたセグメント）を含むオーディオ信号を示すビットストリームをデコードするよう構成された対応する変換ベースのオーディオ・デコーダが記述される。本オーディオ・デコーダは、ビットストリームに含まれるデータ（たとえば包絡データ、利得データ、予測器データおよび係数データ）に基づいて、再構成された変換係数の複数の逐次的なブロックを決定するよう構成された変換ベースの発話デコーダを有していてもよい。さらに、ビットストリームは、受領されたデータが発話デコーダを使ってデコードされることを示してもよい。

さらに、オーディオ・デコーダは、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定するよう構成された逆変換ユニットを有していてもよい。再構成された変換係数のブロックは、対応する複数の周波数ビンについて複数の再構成された変換係数を含んでいてもよい。逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。前記複数の逐次的なブロックの諸ブロックは短ブロックであってもよい。

あるさらなる側面によれば、発話信号をビットストリームにエンコードする方法が記述される。本方法は、一組のブロックを受領することを含んでいてもよい。前記一組のブロックは、変換係数の複数の逐次的なブロックを含んでいてもよい。前記複数の逐次的なブロックは、発話信号のサンプルを示していてもよい。さらに、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含んでいてもよい。本方法は、変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定することにおいて進んでもよい。現在の包絡は、対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示してもよい。さらに、本方法は、現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定することを含んでいてもよい。さらに、本方法は、それぞれ対応する複数の補間された包絡を使って変換係数の対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定することを含んでいてもよい。ビットストリームは、平坦化された変換係数の前記複数のブロックに基づいて決定されてもよい。

もう一つの側面によれば、ビットストリームをデコードして再構成された発話信号を提供する方法が記述される。本方法は、ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定することを含んでいてもよい。量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示していてもよい。ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータ（たとえば前記係数データおよび／または予測器データ）を含んでいてもよい。再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含んでいてもよい。さらに、本方法は、量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定することを含んでいてもよい。本方法は、それぞれ対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定することにおいて進んでもよい。再構成される発話信号は、再構成された変換係数の前記複数のブロックに基づいていてもよい。

もう一つの側面によれば、発話信号をビットストリームにエンコードする方法が記述される。本方法は、現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領することを含んでいてもよい。前記複数の逐次的なブロックは発話信号のサンプルを示している。本方法は、それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の対応する現在のブロックおよび一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定することにおいて進んでもよい。

さらに、本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定することを含んでいてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものであってもよい。推定された平坦化された変換係数の現在のブロックを決定するステップは、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し、推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定することを含んでいてもよい。

さらに、本方法は、平坦化された変換係数の現在のブロックに基づいて、かつ推定された平坦化された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定することを含んでいてもよい。ビットストリームは、予測誤差係数の現在のブロックに基づいて決定されてもよい。

あるさらなる側面によれば、ビットストリームをデコードして、再構成された発話信号を提供する方法が記載される。本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリームから導出される予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定することを含んでいてもよい。推定された平坦化された変換係数の現在のブロックを決定するステップは、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し；推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含んでいてもよい。

さらに、本方法は、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定することを含んでいてもよい。本方法は、推定された平坦化された変換係数の現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定することにおいて進んでもよい。再構成された変換係数の現在のブロックが、現在のブロック包絡（たとえば現在の調整された包絡）を使って、再構成された平坦化された変換係数の現在のブロックにスペクトル形状を与えることによって決定されてもよい。さらに、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ前記一つまたは複数の以前のブロック包絡（たとえば前記一つまたは複数の以前の調整された包絡）を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、決定されてもよい。さらに、本方法は、再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、再構成された発話信号を決定することを含んでいてもよい。

あるさらなる側面によれば、発話信号をビットストリームにエンコードする方法が記述される。本方法は、現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領することを含んでいてもよい。前記複数の逐次的なブロックは発話信号のサンプルを示していてもよい。

さらに、本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定することを含んでいてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものであってもよい。本方法は、変換係数の現在のブロックに基づいて、かつ推定された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定することにおいて進んでもよい。

さらに、本方法は、一組のあらかじめ決定された量子化器を使って、予測誤差係数の現在のブロックから導出される係数を量子化することを含んでいてもよい。前記一組のあらかじめ決定された量子化器は、前記予測器パラメータに依存していてもよい。さらに、本方法は、量子化された係数に基づいてビットストリームについての係数データを決定することを含んでいてもよい。

もう一つの側面によれば、ビットストリームをデコードして、再構成された発話信号を提供する方法が記載される。本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリームから導出される予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定することを含んでいてもよい。さらに、本方法は、一組のあらかじめ決定された量子化器を使って、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定することを含んでいてもよい。前記一組のあらかじめ決定された量子化器は、前記予測器パラメータの関数であってもよい。本方法は、推定された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された変換係数の現在のブロックを決定することにおいて進んでもよい。再構成された発話信号は、再構成された変換係数の現在のブロックに基づいて決定されてもよい。

あるさらなる側面によれば、発話セグメントを含むオーディオ信号をビットストリームにエンコードする方法が記述される。本方法は、オーディオ信号から前記発話セグメントを識別することを含んでいてもよい。さらに、本方法は、変換ユニットを使って、前記発話セグメントに基づいて変換係数の複数の逐次的なブロックを決定することを含んでいてもよい。変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。前記複数の逐次的なブロックの諸ブロックは、短ブロックであってもよい。さらに、本方法は、前記複数の逐次的なブロックをビットストリームにエンコードすることを含んでいてもよい。

もう一つの側面によれば、発話セグメントを含むオーディオ信号を示すビットストリームをデコードする方法が記述される。本方法は、ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定することを含んでいてもよい。さらに、本方法は、逆変換ユニットを使って、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定することを含んでいてもよい。逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。前記複数の逐次的なブロックの諸ブロックは短ブロックであってもよい。

あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために、かつ該プロセッサによって実行されたときに本稿において概説される方法段階を実行するために適応されていてもよい。

もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のために、かつ該プロセッサによって実行されたときに本稿において概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。

さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿において概説される方法段階を実行するための実行可能命令を含んでいてもよい。

本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独で、あるいは本稿に開示される他の方法およびシステムとの組み合わせで使われてもよいことを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、さまざまな仕方で組み合わされうる。特に、請求項の特徴は、任意の仕方で互いに組み合わされうる。

本発明は、付属の図面を参照して例示的な仕方で下記に説明される
一定ビットレートでビットストリームを提供する例示的なオーディオ・エンコーダのブロック図である。可変ビットレートでビットストリームを提供する例示的なオーディオ・エンコーダのブロック図である。変換係数の複数のブロックに基づく例示的な包絡の生成を示す図である。変換係数のブロックの例示的な包絡を示す図である。例示的な補間された包絡の決定を示す図である。量子化器の例示的な諸集合を示す図である。例示的なオーディオ・デコーダのブロック図である。図５ａのオーディオ・デコーダの例示的な包絡デコーダのブロック図である。図５ａのオーディオ・デコーダの例示的なサブバンド予測器のブロック図である。図５ａのオーディオ・デコーダの例示的なスペクトル・デコーダのブロック図である。

背景セクションにおいて概説したように、発話または声信号について相対的に高い符号化利得を示す変換ベースのオーディオ・コーデックを提供することが望ましい。そのような変換ベースのオーディオ・コーデックは、変換ベースの発話コーデックまたは変換ベースの声コーデックと称されてもよい。変換ベースの発話コーデックは、やはり変換領域で動作するので、AACまたはHE-AACのような一般的な変換ベースのオーディオ・コーデックと便利に組み合わされうる。さらに、入力オーディオ信号のセグメント（たとえばフレーム）の発話または非発話への分類およびその後の一般的オーディオ・コーデックと特定的発話コーデックとの間の切り換えは、両方のコーデックが変換領域で動作するという事実のため、簡略化されうる。

図１ａは、例示的な変換ベースの発話エンコーダ１００のブロック図を示している。エンコーダ１００は、入力として、変換係数のブロック１３１（符号化単位とも称される）を受領する。変換係数のブロック１３１は、入力オーディオ信号のサンプルのシーケンスを時間領域から変換領域に変換するよう構成された変換ユニットによって得られたものであってもよい。変換ユニットは、MDCTを実行するよう構成されていてもよい。変換ユニットは、AACまたはHE-AACのような一般的オーディオ・コーデックの一部であってもよい。そのような一般的オーディオ・コーデックは、異なるブロック・サイズ、たとえば長ブロックおよび短ブロックを利用してもよい。例示的なブロック・サイズは長ブロックについては1024サンプル、短ブロックについては256サンプルである。サンプリング・レート44.1kHzおよび50%の重複を想定すると、長ブロックは入力オーディオ信号の約20msをカバーし、短ブロックは入力オーディオ信号の約5msをカバーする。長ブロックは典型的には、入力オーディオ信号の静的セグメントのために使われ、短ブロックは典型的には入力オーディオ信号の過渡的セグメントのために使われる。

発話信号は、約20msの時間的セグメントにおいて静的であると考えられてもよい。特に、発話信号のスペクトル包絡は、約20msの時間的セグメントにおいて静的であると考えられてもよい。そのような20msセグメントについて変換領域において意味のある統計量を導出できるためには、変換ベースの発話エンコーダ１００に、変換係数の（たとえば5msの長さをもつ）諸短ブロック１３１を提供することが有用でありうる。そうすることにより、複数の短ブロック１３１は、たとえば20msの時間セグメント（たとえば長ブロックまたはフレームの時間セグメント）に関して統計を導出するために使用されることができる。さらに、これは、発話信号について十分な時間分解能を提供する利点がある。

よって、変換ユニットは、入力オーディオ信号の現在セグメントが発話に分類される場合には、変換係数の短ブロック１３１を提供するよう構成されていてもよい。エンコーダ１００は、ブロック１３１の集合１３２と称される変換係数の複数のブロック１３１を抽出するよう構成されたフレーミング・ユニット１０１を有していてもよい。ブロックの集合１３２はフレームと称されてもよい。例として、ブロック１３１の集合１３２は、256個の変換係数の四つの短ブロックを含んでいてもよく、それにより入力オーディオ信号の約20msのセグメントをカバーする。

変換ベースの発話エンコーダ１００は複数の異なるモード、たとえば短ストライド・モードおよび長ストライド・モードで動作するよう構成されていてもよい。短ストライド・モードで動作させられるときは、変換ベースの発話エンコーダ１００は、オーディオ信号（たとえば発話信号）のセグメントまたはフレームを、（上記で概説したような）短ブロック１３１の集合１３２に細分するよう構成されていてもよい。他方、長ストライド・モードで動作させられるときは、変換ベースの発話エンコーダ１００は、オーディオ信号のセグメントまたはフレームを直接処理するよう構成されていてもよい。例として、短ストライド・モードで動作させられるときは、エンコーダ１００はフレーム当たり四つのブロック１３１を処理するよう構成されていてもよい。エンコーダ１００のフレームは、ビデオ・フレーム同期動作のある種のセッティングのために、物理的時間において比較的短くてもよい。これは、発話信号のセグメントまたはフレームの時間的長さの縮小につながる増大したビデオ・フレーム周波数（たとえば50Hzに対して100Hz）について当てはまる。そのような場合、フレームの複数の（短）ブロック１３１への細分は、変換領域における分解能低下のため、不都合であることがある。よって、フレーム当たり一つのブロック１３１のみを使うようにするために長ストライド・モードが使用されてもよい。フレーム当たり単一のブロック１３１の使用は、（比較的長いフレームについてでも）音楽を含むオーディオ信号をエンコードするためにも有益である。この恩恵は、フレーム当たり単一のブロック１３１のみを使うときまたはフレーム当たり低減した数のブロック１３１を使うときの、変換領域における分解能向上のためでありうる。

以下では、短ストライド・モードでのエンコーダ１００の動作がさらに詳細に記述される。ブロックの集合１３２は、包絡推定ユニット１０２に提供されてもよい。包絡推定ユニット１０２は、ブロックの集合１３２に基づいて包絡１３３を決定するよう構成されていてもよい。包絡１３３は、ブロックの集合１３２内に含まれる複数のブロック１３１の対応する変換係数の二乗平均平方根（RMS）値に基づいていてもよい。ブロック１３１は典型的には、対応する複数の周波数ビン３０１（図３ａ参照）において複数の変換係数（たとえば256個の変換係数）を与える。複数の周波数ビン３０１は、複数の周波数帯域３０２にグループ化されてもよい。複数の周波数帯域３０２は、音響心理学的考察に基づいて選択されてもよい。例として、周波数ビン３０１は、対数スケールまたはバーク・スケールに従って周波数帯域３０２にグループ化されてもよい。ブロックの現在集合１３２に基づいて決定された包絡１３４は、それぞれ複数の周波数帯域３０２についての複数のエネルギー値を含んでいてもよい。特定の周波数帯域３０２についての特定のエネルギー値は、その特定の周波数帯３０２内にはいる周波数ビン３０１に対応する、集合１３２の諸ブロック１３１の変換係数に基づいて決定されてもよい。特定のエネルギー値は、これらの変換係数のRMS値に基づいて決定されてもよい。よって、ブロックの現在の集合１３２についての包絡１３３（現在の包絡１３３とも称される）は、ブロックの現在集合１３２内に含まれる変換係数の諸ブロック１３１の平均包絡を示してもよく、あるいは包絡１３３を決定するために使われる変換係数の諸ブロック１３２の平均包絡を示してもよい。

現在の包絡１３３が、ブロックの現在集合１３２に隣接する変換係数の一つまたは複数のさらなるブロック１３１に基づいて決定されてもよいことを注意しておくべきである。これは図２において示されている。そこでは、現在の包絡１３３（量子化された現在の包絡１３４によって示される）がブロックの現在集合１３２の諸ブロック１３１に基づき、かつブロックの現在集合１３２に先行するブロックの集合からのブロック２０１に基づいて決定される。図示した例では、現在の包絡１３３は、五つのブロック１３１に基づいて決定される。現在の包絡１３３を決定するときに隣接するブロックを考慮に入れることにより、ブロックの隣接する諸集合１３２の諸包絡の連続性が保証されうる。

現在の包絡１３３を決定するとき、異なるブロック１３１の変換係数が重み付けされてもよい。特に、現在の包絡１３３を決定するために考慮に入れられる最も外側のブロック２０１、２０２は、残りのブロック１３１より低い重みを有していてもよい。例として、最も外側のブロック２０１、２０２の変換係数は、0.5で重み付けされてもよく、他のブロック１３１の変換係数は1で重み付けされてもよい。

ブロックの先行する集合１３２の諸ブロック２０１を考慮するのと同様の仕方で、ブロックの直後の集合１３２の一つまたは複数のブロック（いわゆる先読みブロック）が、現在の包絡１３３を決定するために考慮されてもよいことを注意しておくべきである。

現在の包絡１３３のエネルギー値は、対数スケールで（たとえばdBスケールで）表わされてもよい。現在の包絡１３３は、現在の包絡１３３のエネルギー値を量子化するよう構成されている包絡量子化ユニット１０３に提供されてもよい。包絡量子化ユニット１０３は、所定の量子化器分解能、たとえば3dBの分解能を提供してもよい。包絡１３３の量子化インデックスは、エンコーダ１００によって生成されたビットストリーム内の包絡データ１６１として提供されてもよい。さらに、量子化された包絡１３４、すなわち包絡１３３の量子化されたエネルギー値を有する包絡は、補間ユニット１０４に提供されてもよい。

補間ユニット１０４は、量子化された現在の包絡１３４に基づき、かつ量子化された以前の包絡１３５（ブロックの現在集合１３２の直前のブロックの集合１３２について決定されたもの）に基づいてブロックの現在の集合１３２の各ブロック１３１について包絡を決定するよう構成されている。補間ユニット１０４の動作は図２、図３ａおよび図３ｂに示されている。図２は、変換係数の諸ブロック１３１のシーケンスを示している。ブロック１３１のシーケンスはブロックの相続く諸集合１３２にグループ化される。ここで、ブロックの各集合１３２は、量子化された包絡、たとえば量子化された現在の包絡１３４および量子化された以前の包絡１３５を決定するために使われる。図３ａは、量子化された以前の包絡１３５および量子化された現在の包絡１３４の例を示している。上記で示したように、これらの包絡は、スペクトル・エネルギー３０３を（たとえばdBスケールで）示していてもよい。同じ周波数帯域３０２についての量子化された以前の包絡１３５および量子化された現在の包絡１３４の対応するエネルギー値３０３が（たとえば線形補間を使って）補間されて、補間された包絡１３６を決定してもよい。換言すれば、ある特定の周波数帯域３０２の諸エネルギー値３０３が補間されて、その特定の周波数帯域３０２内の補間された包絡１３６のエネルギー値３０３を提供してもよい。

補間された包絡１３６が決定され、適用されるブロックの集合は、量子化された現在の包絡１３４が決定されるもとになったブロックの現在の集合１３２とは異なることがあることを注意しておくべきである。これは図２に示されている。図２は、ブロックのシフトされた集合３３２を示している。これは、ブロックの現在の集合１３２に比してシフトされており、ブロックの以前の集合１３２のブロック３および４（それぞれ参照符号２０３および２０１によって示されている）およびブロックの現在の集合１３２のブロック１および２（それぞれ参照符号２０４および２０５によって示されている）を含む。実のところ、量子化された現在の包絡１３４に基づき、かつ量子化された以前の包絡１３５に基づいて決定された補間された包絡１３６は、ブロックの現在の集合１３２のブロックについての関連性に比べ、ブロックのシフトされた集合３３２のブロックについて増大した関連性を有することがある。

よって、図３ｂに示される補間された包絡が、ブロックのシフトされた集合３３２のブロック１３１を平坦化するために使われてもよい。これは、図２と組み合わせて図３ｂによって示されている。図３ｂの補間された包絡３４１が図２のブロック２０３に適用されてもよいこと、図３ｂの補間された包絡３４２が図２のブロック２０１に適用されてもよいこと、図３ｂの補間された包絡３４３が図２のブロック２０４に適用されてもよいこと、図３ｂの補間された包絡３４４（図示した例ではこれは量子化された現在の包絡１３６に対応）が図２のブロック２０５に適用されてもよいこと、が見て取れる。よって、量子化された現在の包絡１３４を決定するためのブロックの集合１３２は、補間された包絡１３６がそれについて決定され、補間された包絡１３６が（平坦化のために）それに適用されるところのブロックのシフトされた集合３３２とは異なることがある。特に、量子化された現在の包絡１３４は、ブロックのシフトされた集合３３２のブロック２０３、２０１、２０４、２０５に関してある種の先読みを使って決定されてもよい。これらのブロックは、量子化された現在の包絡１３４を使って平坦化される。これは、連続性の観点から有益である。

補間された包絡１３６を決定するためのエネルギー値３０３の補間は、図３ｂに示される。量子化された以前の包絡１３５のエネルギー値から量子化された現在の包絡１３４の対応するエネルギー値の間の補間により、補間された包絡１３６のエネルギー値が、ブロックのシフトされた集合３３２の諸ブロック１３１について決定されうることが見て取れる。特に、シフトされた集合３３２の各ブロック１３１について、補間された包絡１３６が決定されてもよく、それによりブロックのシフトされた集合３３２の複数のブロック２０３、２０１、２０４、２０５について複数の補間された包絡１３６を提供する。変換係数のあるブロック１３１（たとえば、ブロックのシフトされた集合３３２のブロック２０３、２０１、２０４、２０５のうちの任意のもの）の補間された包絡１３６は、変換係数のブロック１３１をエンコードするために使われてもよい。現在の包絡１３３の量子化インデックス１６１がビットストリーム内の対応するデコーダに提供されることを注意しておくべきである。結果として、対応するデコーダは、エンコーダ１００の補間ユニット１０４と類似の仕方で前記複数の補間された包絡１３６を決定するよう構成されていてもよい。

フレーミング・ユニット１０１、包絡推定ユニット１０３、包絡量子化ユニット１０３および補間ユニット１０４はブロックの集合（すなわち、ブロックの現在の集合１３２および／またはブロックのシフトされた集合３３２）に対して動作する。他方、変換係数の実際のエンコードはブロックごとに実行されてもよい。以下では、ブロックのシフトされた集合３３２（または変換ベースの発話エンコーダ１００の他の実装において可能性としてはブロックの現在の集合１３２）の複数のブロック１３１のうちの任意のものであってよい変換係数の現在ブロック１３１のエンコードが参照される。
さらに、エンコーダ１００はいわゆる長ストライド・モードにおいて動作させられてもよいことを注意しておくべきである。このモードでは、オーディオ信号のセグメントのフレームは、細分されず、単一のブロックとして処理される。よって、フレーム当たり、変換係数の単一のブロック１３１だけが決定される。長ストライド・モードで動作するときは、フレーミング・ユニット１０１は、オーディオ信号のセグメントまたはフレームについて変換係数の単一の現在のブロック１３１を抽出するよう構成されていてもよい。包絡推定ユニット１０２は、現在のブロック１３１について現在の包絡１３３を決定するよう構成されていてもよく、包絡量子化ユニット１０３は、単一の現在の包絡１３３を量子化して量子化された現在の包絡１３４を決定する（そして現在のブロック１３１についての包絡データ１６１を決定する）よう構成されていてもよい。長ストライド・モードにあるときは、包絡補間は典型的には無用である。よって、現在のブロック１３１についての補間された包絡１３６は典型的には量子化された現在の包絡１３４に対応する（エンコーダ１００が長ストライド・モードで動作させられるとき）。

現在ブロック１３１についての現在の補間された包絡１３６は、現在ブロック１３１の変換係数のスペクトル包絡の近似を提供してもよい。エンコーダ１００は、事前平坦化ユニット１０５および包絡利得決定ユニット１０６を有していてもよい。これらは、現在の補間された包絡１３６に基づき、かつ現在ブロック１３１に基づいて、現在ブロック１３１についての調整された包絡１３９を決定するよう構成される。特に、現在ブロック１３１の平坦化された変換係数の分散が調整されるよう、現在ブロック１３１についての包絡利得が決定されてもよい。X(k)、k＝1,…,Kは現在ブロック１３１の変換係数であってもよく（たとえばK＝256）、E(k)、k＝1,…,Kは現在の補間された包絡１３６の平均スペクトル・エネルギー値３０３であってもよい（同じ周波数帯域３０２のエネルギー値E(k)は等しい）。包絡利得aは、平坦化された変換係数

の分散が調整されるよう決定されてもよい。特に、包絡利得aは分散が1になるよう決定されてもよい。

包絡利得aが、変換係数の現在ブロック１３１の完全な周波数範囲のサブ範囲について決定されてもよいことを注意しておくべきである。換言すれば、包絡利得aは、周波数ビン３０１の部分集合のみに基づいておよび／または周波数帯域３０２の部分集合のみに基づいて決定されてもよい。例として、包絡利得aは、開始周波数ビン３０４（開始周波数ビンは0または1より大きい）より大きい諸周波数ビン３０１に基づいて決定されてもよい。結果として、現在ブロック１３１についての調整された包絡１３９は、包絡利得aを、開始周波数ビン３０４より上にある諸周波数ビン３０１に関連付けられた現在の補間された包絡１３６の平均スペクトル・エネルギー値３０３にのみ適用することによって決定されてもよい。よって、現在のブロック１３１についての調整された包絡１３９は、開始周波数ビン以下の諸周波数ビン３０１については現在の補間された包絡１３６に対応してもよく、開始周波数より上の諸周波数ビン３０１については現在の補間された包絡１３６を包絡利得aによりオフセットしたものに対応してもよい。これは、調整された包絡３３９によって図３ａに示されている（破線で示す）。

包絡利得a １３７（レベル補正利得とも称される）の、現在の補間された包絡１３６への適用は、現在の補間された包絡１３６の調整またはオフセットに対応し、それにより図３ａに示されるように調整された包絡１３９が与えられる。包絡利得a １３７は、利得データ１６２として、ビットストリーム中にエンコードされてもよい。

エンコーダ１００はさらに、包絡利得a １３７に基づき、かつ現在の補間された包絡１３６に基づいて、調整された包絡１３９を決定するよう構成される包絡洗練ユニット１０７を有していてもよい。調整された包絡１３９は、変換係数のブロック１３１の信号処理のために使われてもよい。包絡利得a １３７は、（3dBのきざみで量子化されていてもよい）現在の補間された包絡１３６に比べ、より高い分解能に（たとえば1dBきざみで）量子化されてもよい。よって、調整された包絡１３９は、包絡利得a １３７の前記より高い分解能まで（たとえば、1dBきざみで）量子化されてもよい。

さらに、包絡洗練ユニット１０７は、割り当て包絡１３８を決定するよう構成されていてもよい。割り当て包絡１３８は、調整された包絡１３９の量子化されたバージョン（たとえば3dB量子化レベルまで量子化）に対応してもよい。割り当て包絡１３８は、ビット割り当て目的のために使われてもよい。特に、割り当て包絡１３８は、――現在ブロック１３１のある特定の変換係数について――所定の一組の量子化器からある特定の量子化器を決定するために使われてもよい。ここで、前記特定の量子化器が、前記特定の変換係数を量子化するために使われる。

エンコーダ１００は、調整された包絡１３９を使って現在ブロック１３１を平坦化し、それにより平坦化された変換係数のブロック１４０を与えるよう構成されている平坦化ユニット１０８を有する。平坦化された変換係数のブロック１４０は、変換領域内で予測ループを使ってエンコードされてもよい。よって、ブロック１４０は、サブバンド予測器１１７を使ってエンコードされてもよい。予測ループは、平坦化された変換係数

のブロック１４０に基づき、かつ推定された変換係数

のブロック１５０に基づき、予測誤差係数Δ(k)のブロック１４１を決定するよう構成された差分ユニット１１５を有する。たとえば、

である。ブロック１４０が平坦化された変換係数、すなわち調整された包絡１３９のエネルギー値３０３を使って正規化または平坦化された変換係数を含むという事実のため、推定された変換係数のブロック１５０も平坦化された変換係数の推定値を含むことを注意しておくべきである。換言すれば、差分ユニット１１５はいわゆる平坦化領域（flattened domain）で動作する。結果として、予測誤差係数Δ(k)のブロック１４１は平坦化された領域で表わされる。

予測誤差係数Δ(k)のブロック１４１は、1とは異なる分散を示すことがある。エンコーダ１００は、予測誤差係数Δ(k)を再スケーリングして、再スケーリングされた誤差係数のブロック１４２を与えるよう構成された再スケーリング・ユニット１１１を有していてもよい。再スケーリング・ユニット１１１は、再スケーリングを実行するために一つまたは複数の所定のヒューリスティック規則を利用してもよい。結果として、再スケーリングされた誤差係数のブロック１４２は、（予測誤差係数のブロック１４１に比べて）（平均で）1により近い分散を示す。これは、その後の量子化およびエンコードにとって有益であることがある。

エンコーダ１００は、予測誤差係数のブロック１４１または再スケーリングされた誤差係数のブロック１４２を量子化するよう構成された係数量子化ユニット１１２を有する。係数量子化ユニット１１２は、一組の所定の量子化器を有していてもよく、あるいはそれを利用してもよい。前記一組の所定の量子化器は、異なる精密度または異なる分解能をもつ諸量子化器を提供してもよい。このことは、種々の量子化器３２１、３２２、３２３が示される図４に示されている。種々の量子化器は異なるレベルの精度（異なるdB値によって示される）を提供しうる。前記複数の量子化器３２１、３２２、３２３のうちの特定の量子化器が、割り当て包絡１３８の特定の値に対応してもよい。よって、割り当て包絡１３８のエネルギー値は、前記複数の量子化器の対応する量子化器をポイントしてもよい。よって、割り当て包絡１３８の決定は、ある特定の誤差係数について使われるべき量子化器の選択プロセスを簡略化しうる。換言すれば、割り当て包絡１３８はビット割り当てプロセスを簡略化しうる。

前記一組の量子化器は、量子化誤差をランダム化するためのディザリングを利用する一つまたは複数の量子化器３２２を有していてもよい。これは図４に示されている。この図は、ディザリングされる量子化器（dithered quantizer）の部分集合３２４を含む所定の量子化器の第一の集合３２６と、ディザリングされる量子化器の部分集合３２５を含む所定の量子化器の第二の集合３２７とを示している。よって、係数量子化ユニット１１２は、所定の量子化器の異なる集合３２６、３２７を利用しうる。ここで、係数量子化ユニット１１２によって使用される所定の量子化器の集合は、予測器１１７によって提供される制御パラメータ１４６に依存してもよい。特に、係数量子化ユニット１１２は、制御パラメータ１４６に基づいて、再スケーリングされた誤差係数のブロック１４２を量子化するための所定の量子化器の集合３２６、３２７を選択するよう構成されていてもよい。ここで、制御パラメータ１４６は、予測器１１７によって提供される一つまたは複数の予測器パラメータに依存してもよい。前記一つまたは複数の予測器パラメータは、予測器１１７によって提供される推定される変換係数のブロック１５０の品質を示してもよい。

量子化された誤差係数は、たとえばハフマン符号を使ってエントロピー符号化されてもよく、それによりエンコーダ１００によって生成されるビットストリーム中に含められる係数データ１６３を与える。

エンコーダ１００は、ビット割り当てプロセスを実行するよう構成されていてもよい。この目的のために、エンコーダ１００は、ビット割り当てユニット１０９、１１０を有していてもよい。ビット割り当てユニット１０９は、再スケーリングされた誤差係数の現在ブロック１４２をエンコードするために利用可能である総ビット数１４３を決定するよう構成されていてもよい。総ビット数１４３は、割り当て包絡１３８に基づいて決定されてもよい。ビット割り当てユニット１１０は、割り当て包絡１３８における対応するエネルギー値に依存して、種々の再スケーリングされた誤差係数へのビットの相対的な割り当てを提供するよう構成されていてもよい。

ビット割り当てプロセスは、逐次反復的な割り当て手順を利用してもよい。割り当て手順の過程で、割り当て包絡１３８は、オフセット・パラメータを使ってオフセットされてもよい。それにより、増大／減少した分解能をもつ量子化器が選択される。よって、オフセット・パラメータは、全体的な量子化を洗練するまたは粗くするために使われてもよい。オフセット・パラメータは、オフセット・パラメータおよび割り当て包絡１３８によって与えられる量子化器を使って得られる係数データ１６３が、現在ブロック１３１に割り当てられた総ビット数１４３に対応する（またはそれを超えない）ビット数を含むように決定されてもよい。現在ブロック１３１をエンコードするためにエンコーダ１００によって使われたオフセット・パラメータは、係数データ１６３としてビットストリーム中に含められる。結果として、対応するデコーダは、再スケーリングされた誤差係数のブロック１４２を量子化するために係数量子化ユニット１１２によって使用された量子化器を決定することができるようにされる。

再スケーリングされた誤差係数の量子化の結果として、量子化された誤差係数のブロック１４５が得られる。量子化された誤差係数のブロック１４５は、対応するデコーダにおいて利用可能な誤差係数のブロックに対応する。結果として、量子化された誤差係数のブロック１４５は推定された変換係数のブロック１５０を決定するために使用されうる。エンコーダ１００は、再スケーリング・ユニット１１３によって実行された再スケーリング動作の逆を実行して、それによりスケーリングされた量子化された誤差係数のブロック１４７を与えるよう構成された逆再スケーリング・ユニット１１３を有していてもよい。推定された変換係数のブロック１５０をスケーリングされた量子化された誤差係数のブロック１４７に加えることによって、再構成された平坦化された係数のブロック１４８を決定するために、加算ユニット１１６が使われてもよい。さらに、再構成された平坦化された係数のブロック１４８に調整された包絡１３９を適用し、それにより再構成された係数のブロック１４９を与えるために、逆平坦化ユニット１１４が使われてもよい。再構成された係数のブロック１４９は、対応するデコードにおいて利用可能な変換係数のブロック１３１のバージョンに対応する。結果として、再構成された係数のブロック１４９は、予測器１１７において、推定された係数のブロック１５０を決定するために使われてもよい。

再構成された係数のブロック１４９は、平坦化されていない領域で表現されている。すなわち、再構成された係数のブロック１４９は、現在ブロック１３１のスペクトル包絡をも表わす。下記で概説するように、これは、予測器１１７のパフォーマンスにとって有益であることがある。

予測器１１７は、再構成された係数の一つまたは複数の以前のブロック１４９に基づいて、推定された変換係数のブロック１５０を推定するよう構成されていてもよい。特に、予測器１１７は、所定の予測誤差基準が低減される（たとえば最小化される）よう一つまたは複数の予測器パラメータを決定するよう構成されていてもよい。例として、前記一つまたは複数の予測器パラメータは、予測誤差係数のブロック１４１のエネルギーまたは知覚的に重み付けされたエネルギーが低減される（たとえば最小化される）よう決定されてもよい。前記一つまたは複数の予測器パラメータは、予測器データ１６４として、エンコーダ１００によって生成されるビットストリーム中に含められてもよい。

予測器データ１６４は、前記一つまたは複数の予測器パラメータを示していてもよい。本稿で概説するように、予測器１１７は、オーディオ信号のフレームまたはブロック１３１の部分集合についてのみ使われてもよい。特に、予測器１１７は、典型的には以前のブロックとは独立してエンコードされるIフレーム（独立フレーム）の最初のブロック１３１については使われなくてもよい。これに加え、予測器データ１６４は、特定のブロック１３１についての予測器１７１の存在を示す一つまたは複数のフラグを含んでいてもよい。予測器の寄与が事実上有意でないブロックについては（たとえば、予測器利得が0に量子化されるとき）、予測器存在フラグを使ってこの状況を信号伝達することが有益であることがある。それが必要とするビット数は、典型的には、0利得を伝送するのに比べて、有意に低くなる。換言すれば、ブロック１３１についての予測器データ１６４は、一つまたは複数の予測器パラメータが決定されたか（そして予測器データ１６４に含まれているか）どうかを示す一つまたは複数の予測器存在フラグを含んでいてもよい。一つまたは複数の予測器存在フラグの使用は、特定のブロック１３１について予測器１１７が使われない場合にビットを節約するために使用されうる。よって、予測器１１７を使わずにエンコードされるブロック１３１の数に依存して、一つまたは複数の予測器存在フラグの使用は、デフォルトの（たとえば値0の）予測器パラメータの伝送より、（平均では）ビットレート効率がよいことがある。

予測器１１７の存在は、ブロック毎に明示的に伝送されてもよい。これは、予測器が使われないときにビットを節約することを許容する。例として、Iフレームについては、三つの予測器存在フラグだけが使用されうる。Iフレームの最初のブロックは予測を使うことができないからである。換言すれば、特定のブロック１３１がIフレームの最初のブロックであることがわかっていれば、この特定のブロック１３１について予測器存在フラグが伝送される必要はないことがある（その特定のブロック１３１が予測器１１７を利用しないことが対応するデコーダにすでにわかっているので）。

予測器１１７は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において記述されているような信号モデルを利用してもよい。前記一つまたは複数の予測器パラメータは、信号モデルの一つまたは複数のモデル・パラメータに対応してもよい。

図１ｂは、さらなる例示的な変換ベースの発話エンコーダ１７０のブロック図を示している。図１ｂの変換ベースの発話エンコーダ１７０は、図１ａのエンコーダ１００のコンポーネントの多くを有するが、図１ｂの変換ベースの発話エンコーダ１７０は可変ビットレートをもつビットストリームを生成するよう構成されている。この目的のために、エンコーダ１７０は、先行する諸ブロック１３１のためにビットストリームによってすでに使用されたビットレートを追跡するよう構成された平均ビットレート（ABR: Average Bit Rate）状態ユニット１７２を有する。ビット割り当てユニット１７１は、変換係数の現在ブロック１３１をエンコードするために利用可能な総ビット数１４３を決定するためにこの情報を使う。

全体的に、変換ベースの発話エンコーダ１００、１７０は、以下を示すまたは以下を含むビットストリームを生成するよう構成される。
・量子化された現在の包絡１３４を示す包絡データ１６１。量子化された現在の包絡１３４は、変換係数のブロックの現在の集合１３２またはシフトされた集合３３２の諸ブロックの包絡を記述するために使われる。
・変換係数の現在ブロック１３１の補間された包絡１３６を調整するためのレベル補正利得aを示す利得データ１６２。典型的には、ブロックの現在の集合１３２またはシフトされた集合３３２の各ブロック１３１について異なる利得aが提供される。
・現在ブロック１３１についての予測誤差係数のブロック１４１を示す係数データ１６３。特に、係数データ１６３は、量子化された誤差係数のブロック１４５を示す。さらに、係数データ１６３は、デコーダにおいて逆量子化を実行するための量子化器を決定するために使われてもよいオフセット・パラメータを示してもよい。
・再構成された係数の以前のブロック１４９から、推定された係数のブロック１５０を決定するために使われるべき一つまたは複数の予測器係数を示す予測器データ１６４。

以下では、対応する変換ベースの発話デコーダ５００が図５ａないし５ｄのコンテキストにおいて記述される。図５ａは、例示的な変換ベースの発話デコーダ５００のブロック図を示している。ブロック図は、再構成された係数のブロック１４９を変換領域から時間領域に変換し、それによりデコードされたオーディオ信号のサンプルを与えるために使われる合成フィルタバンク５０４（逆変換ユニットとも称される）を示している。合成フィルタバンク５０４は、所定のストライド（たとえば、約5msまたは256サンプルのストライド）をもつ逆MDCTを利用してもよい。

デコーダ５００の主ループは、このストライドの単位で動作する。各ステップは、システムの所定の帯域幅設定に対応する長さまたは次元をもつ変換領域ベクトル（ブロックとも称される）を生成する。合成フィルタバンク５０４の変換サイズにするゼロ・パディングに際し、変換領域ベクトルは、合成フィルタバンク５０４の重複／加算プロセスへの所定の長さ（たとえば5ms）の時間領域信号更新を合成するために使われる。

上記で示したように、一般的な変換ベースのオーディオ・コーデックは、典型的には、過渡成分の扱いのための5ms範囲の短ブロックのシーケンスをもつ諸フレームを用いる。よって、一般的な変換ベースのオーディオ・コーデックは、短ブロックおよび長ブロックのシームレスな共存のための必要な変換および窓切り換えツールを提供する。したがって、図５ａの合成フィルタバンク５０４を省略することによって定義される声スペクトル・フロントエンドは、追加的な切り換えツールを導入する必要なしに、汎用の変換ベースのオーディオ・コーデックに便利に統合されうる。換言すれば、図５ａの変換ベースの発話デコーダ５００は、一般的な変換ベースのオーディオ・デコーダと便利に組み合わされてもよい。特に、図５ａの変換ベースの発話デコーダ５００は、一般的な変換ベースのオーディオ・デコーダ（たとえばAACまたはHE-AACデコーダ）によって提供される合成フィルタバンク５０４を利用してもよい。

はいってくるビットストリームから（特にビットストリーム内に含まれる包絡データ１６１からおよび利得データ１６２から）、包絡デコーダ５０３によって、信号包絡が決定されてもよい。特に、包絡デコーダ５０３は、包絡データ１６１および利得データ１６２に基づいて、調整された包絡１３９を決定するよう構成されてもよい。よって、包絡デコーダ５０３は、エンコーダ１００、１７０の補間ユニット１０４および包絡洗練ユニット１０７と同様のタスクを実行してもよい。上記で概説したように、調整された包絡１０９は、あらかじめ定義された周波数帯域３０２の集合における信号分散のモデルを表わす。

さらに、デコーダ５００は、調整された包絡１３９を、名目上分散1であってもよい要素をもつ平坦化領域ベクトルに適用するよう構成されている逆平坦化ユニット１１４を有する。平坦化領域ベクトルは、エンコーダ１００、１７０のコンテキストにおいて記述された再構成された平坦化された係数のブロック１４８に対応する。逆平坦化ユニット１１４の出力において、再構成された係数のブロック１４９が得られる。再構成された係数のブロック１４９は、（デコードされたオーディオ信号を生成するための）合成フィルタバンク５０４およびサブバンド予測器５１７に与えられる。

サブバンド予測器５１７は、エンコーダ１００、１７０の予測器１１７と同様の仕方で動作する。特に、サブバンド予測器５１７は、（ビットストリーム内で信号伝達される前記一つまたは複数の予測器パラメータを使って）再構成された係数の一つまたは複数の以前のブロック１４９に基づいて、（平坦化された領域における）推定された変換係数のブロック１５０を決定するよう構成されている。換言すれば、サブバンド予測器５１７は、予測器ラグ〔予測器遅延〕および予測器利得のような予測器パラメータに基づいて、以前にデコードされた出力ベクトルおよび信号包絡のバッファから、予測された平坦化領域ベクトルを出力するよう構成されている。デコーダ５００は、予想器データ１６４をデコードして前記一つまたは複数の予測器パラメータを決定するよう構成された予測器デコーダ５０１を有する。

デコーダ５００はさらに、典型的にはビットストリームの最大の部分に基づいて（すなわち、係数データ１６３に基づいて）予測された平坦化領域ベクトルに加算的補正を備えるよう構成されているスペクトル・デコーダ５０２を有する。スペクトル・デコード・プロセスは、前記包絡および伝送された割り当て制御パラメータ（オフセット・パラメータとも称される）から導出される割り当てベクトルによって主として制御される。図５ａに示されるように、スペクトル・デコーダ５０２の予測器パラメータ５２０への直接的な依存性があってもよい。よって、スペクトル・デコーダ５０２は、受領された係数データ１６３に基づいて、スケーリングされた量子化された誤差係数のブロック１４７を決定するよう構成されていてもよい。エンコーダ１００、１７０のコンテキストで概説したように、再スケーリングされた誤差係数のブロック１４２を量子化するために使われる量子化器３２１、３２２、３２３は、典型的には、割り当て包絡１３８（これは調整された包絡１３９から導出できる）およびオフセット・パラメータに依存する。さらに、量子化器３２１、３２２、３２３は、予測器１１７によって提供される制御パラメータ１４６に依存してもよい。制御パラメータ１４６は、（エンコーダ１００、１７０と類似の仕方で）予測器パラメータ５２０を使ってデコーダ５００によって導出されてもよい。

上記で示したように、受領されるビットストリームは、包絡データ１６１および利得データ１６２を含み、これは調整された包絡１３９を決定するために使用されうる。特に、包絡デコーダ５０３のユニット５３１は、包絡データ１６１から、量子化された現在の包絡１３４を決定するよう構成されていてもよい。例として、量子化された現在の包絡１３４は、（図３ａに示されるように）あらかじめ定義された周波数帯域３０２における3dBの分解能を有していてもよい。量子化された現在の包絡１３４は、ブロックの集合１３２、３３２毎に（たとえば四つの符号化単位、すなわちブロック毎に、あるいは20ms毎に）、特にブロックのシフトされた集合３３２毎に更新されてもよい。量子化された現在の包絡１３４の周波数帯域３０２は、人間の聴覚の属性に適合するために、周波数の関数として、周波数ビン３０１の増大する数を有していてもよい。

量子化された現在の包絡１３４は、ブロックのシフトされた集合３３２の（あるいは可能性としてはブロックの現在の集合１３２の）各ブロック１３１について、量子化された以前の包絡１３５から、補間された包絡１３６に、線形に補間されてもよい。補間された包絡１３６は、量子化された3dB領域で決定されてもよい。これは、補間されたエネルギー値３０３が最も近い3dBレベルに丸められてもよいことを意味する。例示的な補間された包絡１３６は図３ａの点線のグラフによって示されている。各量子化された現在の包絡１３４について、四つのレベル補正利得a １３７（包絡利得とも称される）が利得データ１６２として提供される。利得デコード・ユニット５３２は、利得データ１６２からレベル補正利得a １３７を決定するよう構成されていてもよい。レベル補正利得は、1dBきざみで量子化されてもよい。各レベル補正利得は、種々のブロック１３１について調整された包絡１３９を提供するために対応する補間された包絡１３６に適用される。レベル補正利得１３７の増大した分解能のため、調整された包絡１３９は増大した分解能（たとえば1dB分解能）をもつことがある。

図３ｂは、量子化された以前の包絡１３５と量子化された現在の包絡１３４との間の例示的な線形または幾何的補間を示している。包絡１３５、１３４は、対数スペクトルの平均レベル部分および形状部分に分離されてもよい。これらの部分は、線形、幾何的または調和的（並列な抵抗器）戦略のような独立な戦略を用いて補間されてもよい。よって、補間された包絡１３６を決定するために種々の補間方式が使用されうる。デコーダ５００によって使われる補間方式は典型的には、エンコーダ１００、１７０によって使われた補間方式に対応する。

包絡デコーダ５０３の包絡洗練ユニット１０７は、調整された包絡１３９を（たとえば3dBきざみに）量子化することによって、調整された包絡１３９から割り当て包絡１３８を決定するよう構成されていてもよい。割り当て包絡１３８は、割り当て制御パラメータまたはオフセット・パラメータ（係数データ１６３内に含まれる）との関連で使われて、スペクトル・デコード、すなわち係数データ１６３のデコードを制御するために使用される名目整数割り当てベクトルを生成してもよい。特に、名目整数割り当てベクトルは、係数データ１６３内に含まれる量子化インデックスを逆量子化するための量子化器を決定するために使われてもよい。割り当て包絡１３８および名目整数割り当てベクトルは、エンコーダ１００、１７０においてとデコーダ５００においてとで類似の仕方で決定されてもよい。

デコーダ５００が受領されたビットストリームと同期できるようにするために、種々の型のフレームが伝送されうる。フレームは、ブロックの集合１３２、３３２、特にブロックのシフトされたブロック３３２に対応しうる。特に、以前のフレームに対して相対的な仕方でエンコードされる、いわゆるPフレームが伝送されてもよい。上記において、デコーダ５００は量子化された以前の包絡１３５を知っていることが想定された。量子化された以前の包絡１３５は以前のフレーム内で与えられてもよく、よって、現在の集合１３２または対応するシフトされた集合３３２がPフレームに対応しうる。しかしながら、スタートアップ・シナリオでは、デコーダ５００は典型的には量子化された以前の包絡１３５を知らない。この目的のために、（たとえばスタートアップ時にまたは定期的に）Iフレームが伝送されてもよい。Iフレームは二つの包絡を含んでいてもよく、その一方が量子化された以前の包絡１３５として使われ、他方が量子化された現在の包絡１３４として使われる。Iフレームは、声スペクトル・フロントエンドの（すなわち、変換ベースの発話デコーダ５００の）スタートアップの場合のために、たとえば異なるオーディオ符号化モードを用いるフレームに続くときに、および／またはオーディオ・ビットストリームの接合点を明示的に可能にするためのツールとして、使われてもよい。

サブバンド予測器５１７の動作が図５ｄに示されている。図示した例では、予測器パラメータ５２０はラグ・パラメータおよび予測器利得パラメータgである。予測器パラメータ５２０は、ラグ・パラメータおよび予測器利得パラメータについての可能な値の所定のテーブルを使って、予測器データ１６４から決定されてもよい。これは、予測器パラメータ５２０のビットレート効率のよい伝送を可能にする。

前記一つまたは複数の以前にデコードされた変換係数ベクトル（すなわち、再構成された係数の前記一つまたは複数の以前のブロック１４９）は、サブバンド（またはMDCT）信号バッファ５４１内に記憶されてもよい。バッファ５４１は、ストライドに従って（たとえば5ms毎に）更新されてもよい。予測器抽出器５４３は、規格化されたラグ・パラメータTに依存してバッファ５４１に対して作用するよう構成されていてもよい。規格化されたラグ・パラメータTは、ラグ・パラメータ５２０をストライド単位に（たとえばMDCTストライド単位に）規格化することによって決定されてもよい。ラグ・パラメータTが整数であれば、抽出器５４３は、T時間単位バッファ５４１にはいったところの一つまたは複数の以前にデコードされた変換係数ベクトルを取ってきてもよい。換言すれば、ラグ・パラメータTは、再構成された係数の前記一つまたは複数の以前のブロック１４９のうちのどれが推定される変換係数のブロック１５０を決定するために使われるかを示してもよい。抽出器５４３の可能な実装に関する詳細な議論は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において提供されている。

抽出器５４３は、フル信号包絡を担持するベクトル（またはブロック）に対して作用してもよい。他方、（サブバンド予測器５１７によって与えられる）推定された変換係数のブロック１５０は、平坦化された領域で表わされてもよい。結果的に、抽出器５４３の出力は、平坦化領域ベクトルに整形されてもよい。これは、再構成された係数の前記一つまたは複数の以前のブロック１４９の調整された包絡１３９を利用する整形器５４４を使って達成されてもよい。再構成された係数の前記一つまたは複数の以前のブロック１４９の調整された包絡１３９は、包絡バッファ５４２に記憶されていてもよい。整形器ユニット５４４は、T₀時間単位だけ包絡バッファ５４２にはいったところから平坦化において使われる遅延された信号包絡を取ってくるよう構成されていてもよい。ここで、T₀はTに最も近い整数である。次いで、平坦化領域ベクトルは、利得パラメータgによってスケーリングされて、（平坦化領域での）推定された変換係数のブロック１５０を与えてもよい。

整形器ユニット５４４は、整形器ユニット５４４の出力における平坦化領域ベクトルが各周波数帯域において1の分散を示すよう、平坦化領域ベクトルを決定するよう構成されていてもよい。整形器ユニット５４４は、この目標を達成するために完全に包絡バッファ５４２内のデータに依拠してもよい。例として、整形器ユニット５４４は、整形器ユニット５４４の出力における平坦化領域ベクトルが各周波数帯域において1の分散を示すよう、遅延された信号包絡を選択するよう構成されていてもよい。代替的または追加的に、整形器ユニット５４４は、整形器ユニット５４４の出力における平坦化領域ベクトルの分散を測定し、分散1の属性に向けてそれらのベクトルの分散を調整するよう構成されていてもよい。規格化の一つの可能な型は、平坦化領域ベクトルを分散1のベクトルに規格化する、（スロット毎の）単一の広帯域の利得を利用してもよい。前記利得は、エンコーダ１００から対応するデコーダ５００にビットストリーム内において（量子化され、エンコードされた形で）伝送されてもよい。

代替として、平坦化領域で作用するサブバンド予測器５１７、たとえば再構成された平坦化された係数のブロック１４８に対して作用するサブバンド予測器５１７を使うことによって、整形器５４４によって実行される遅延された平坦化プロセスは省略されてもよい。しかしながら、平坦化領域ベクトル（またはブロック）のシーケンスが、変換（たとえばMDCT変換）の時間エイリアシングされた（time-aliased）諸側面のため、時間信号にはうまくマップしないことが見出されている。結果として、抽出器５４３の根底にある信号モデルへのフィットが低減され、より高いレベルの符号化ノイズがこの代替構成から帰結する。換言すれば、サブバンド予測器５１７によって使用される信号モデル（たとえば正弦波または周期的モデル）は、（平坦化された領域に比して）平坦化されない領域において増大したパフォーマンスを与えることが見出されている。

ある代替的な例では、予測器５１７の出力（すなわち、推定された変換係数のブロック１５０）は、逆平坦化ユニット１１４の出力において（すなわち再構成された係数のブロック１４９に）加えられてもよいことを注意しておくべきである（図５ａ参照）。その場合、図５ｃの整形器ユニット５４４は、遅延された平坦化および逆平坦化の組み合わされた動作を実行するよう構成されていてもよい。

受領されたビットストリーム中の要素が、サブバンド・バッファ５４１および包絡バッファ５４１を、たとえばIフレームの最初の符号化単位（すなわち、最初のブロック）の場合に、時折フラッシュすることを制御してもよい。これは、以前のデータを知ることなくIフレームをデコードすることを可能にする。最初の符号化単位は典型的には予測寄与を利用できないが、それでも予測器情報５２０を伝達するために相対的により少数のビットを使ってもよい。予測利得の喪失は、この最初の符号化単位の予測誤差符号化により多くのビットを割り当てることによって補償されてもよい。典型的には、予測器寄与はIフレームの第二の符号化単位（すなわち第二のブロック）についてやはり実質的である。これらの側面のため、たとえIフレームを非常に頻繁に使ったとしても、比較的小さなビットレート増で品質を維持できる。

換言すれば、ブロックの集合１３２，３３２（フレームとも称される）は、予測符号化を使ってエンコードされうる複数のブロック１３１を含む。Iフレームをエンコードするとき、ブロックの集合３３２の最初のブロック２０３だけは、予測エンコーダによって達成される符号化利得を使ってエンコードされることができない。すでに直後のブロック２０１は予測エンコードの恩恵を利用しうる。つまり、符号化効率に関するIフレームの欠点は、フレーム３３２の変換係数の最初のブロック２０３のエンコードに限定され、フレーム３３２の他のブロック２０１、２０４、２０５には当てはまらないということである。よって、本稿に記載される変換ベースの発話符号化方式は、符号化効率に対する著しい影響なしに、Iフレームの比較的頻繁な使用を許容する。よって、本稿に記載される変換ベースの発話符号化方式は、比較的高速および／またはデコーダとエンコーダの間の比較的頻繁な同期を必要とする用途に特に好適である。

上記で示したように、Iフレームの初期化の間、予測器信号バッファ、すなわちサブバンド・バッファ５４１は、0でフラッシュされてもよく、包絡バッファ５４２は一時間スロットの値で埋められてもよい、すなわち（当該Iフレームの最初のブロック１３１に対応する）単一の調整された包絡１３９で埋められてもよい。Iフレームの最初のブロック１３１は典型的には予測を使わない。二番目のブロック１３１は、包絡バッファ５４２の二つの時間スロットへの（最初および二番目のブロック１３１の包絡１３９への）アクセスをもつだけである。三番目のブロックは三つの時間スロットのみ（すなわち三つのブロック１３１の包絡１３９）、四番目のブロックは四つの時間スロットのみ（すなわち四つのブロック１３１の包絡１３９）へのアクセスをもつだけである。

（（平坦化領域における）推定された変換係数のブロック１５０を決定するための包絡を識別するための）スペクトル整形器５４４の遅延された平坦化規則は、ブロック・サイズKの単位（ここで、ブロック・サイズの単位は時間スロットまたはスロットと称されることがある）の予測器ラグ・パラメータTを最も近い整数に丸めることによって決定される整数ラグ値T₀に基づく。しかしながら、Iフレームの場合、この整数ラグ値T₀は、包絡バッファ５４２内の利用不能な項目をポイントすることがある。これに鑑み、スペクトル整形器５４４は、整数ラグ値T₀が、包絡バッファ５４２内に記憶されている包絡１３９の数に制限されるよう、すなわち、整数ラグ値T₀が包絡バッファ５４２内で利用可能でない包絡１３９をポイントしないように、整数ラグ値T₀を決定するよう構成されていてもよい。この目的のために、整数ラグ値T₀は、現在フレーム内のブロック・インデックスの関数である値に制限されてもよい。例として、整数ラグ値T₀は、現在フレーム内の（エンコードされるべき）現在ブロック１３１のインデックス値に（たとえば、フレームの最初のブロック１３１については1に、二番目のブロック１３１については2に、三番目のブロック１３１については3に、四番目のブロックについては4に）制限されてもよい。そうすることにより、平坦化プロセスに起因する望ましくない状態および／または歪みが回避されうる。

図５ｄは、例示的なスペクトル・デコーダ５０２のブロック図を示している。スペクトル・デコーダ５０２は、エントロピー符号化された係数データ１６３をデコードするよう構成されている無損失デコーダ５５１を有する。さらに、スペクトル・デコーダ５０２は、係数データ１６３内に含まれる量子化インデックスに係数値を割り当てるよう構成されている逆量子化器５５２を有する。エンコーダ１００、１７０のコンテキストにおいて概説したように、所定の量子化器の集合、たとえばモデル・ベースのスカラー量子化器の有限な集合から選択される異なる量子化器を使って異なる変換係数が量子化されてもよい。図４に示されるように、量子化器３２１、３２２、３２３の集合は、量子化器の種々の型を含んでいてもよい。量子化器の集合は、（0ビットレートの場合）ノイズ合成を提供する量子化器３２１、（比較的低い信号対雑音比SNRのためおよび中間的なビットレートのための）一つまたは複数のディザリングされる量子化器３２２および／または（比較的高いSNRおよび比較的高いビットレートのための）一つまたは複数の普通の量子化器３２３を含んでいてもよい。

包絡洗練ユニット１０７は、割り当てベクトルを与えるために係数データ１６３内に含まれるオフセット・パラメータと組み合わされてもよい割り当て包絡１３８を提供するよう構成されていてもよい。割り当てベクトルは、各周波数帯３０２について整数値を含む。特定の周波数帯域３０２についての整数値は、特定の周波数帯域３０２の変換係数の逆量子化のために使われるべきレート‐歪み点を指す。換言すれば、特定の周波数帯域３０２についての整数値は、特定の周波数帯域３０２の変換係数の逆量子化のために使われるべき量子化器を指す。整数値が1増すことは、SNRにおける1.5dBの増加に対応する。ディザリングされる量子化器３２２および普通の量子化器３２３について、ラプラシアン確率分布モデルが、算術符号化を用いてもよい無損失符号化において使われてもよい。低ビットレートと高ビットレートの場合の間でシームレスな仕方でギャップを埋めるために、一つまたは複数のディザリングされる量子化器３２２が使われてもよい。ディザリングされる量子化器３２２は、静的なノイズ様信号について十分になめらかな出力オーディオ品質を生成することにおいて有益でありうる。

換言すれば、逆量子化器５２２は、変換係数の現在のブロック１３１の係数量子化インデックスを受領するよう構成されていてもよい。特定の周波数帯域３０２の前記一つまたは複数の係数量子化インデックスは、所定の一組の量子化器からの対応する量子化器を使って決定されている。特定の周波数帯域３０２についての（オフセット・パラメータを用いて割り当て包絡１３８をオフセットすることによって決定されうる）割り当てベクトルの値は、特定の周波数帯域３０２の前記一つまたは複数の係数量子化インデックスを決定するために使われた量子化器を示す。量子化器を同定したら、前記一つまたは複数の係数量子化インデックスは、逆量子化されて、量子化された誤差係数のブロック１４５を与えてもよい。

さらに、スペクトル・デコーダ５０２は、スケーリングされた量子化された誤差係数のブロック１４７を提供する逆再スケーリング・ユニット１１３を有していてもよい。図５ｄの無損失デコーダ５５１および逆量子化器５５２のまわりの追加的なツールおよび相互接続は、図５ａに示される全体的なデコーダ５００におけるその使用にスペクトル・デコードを適応させるために使われてもよい。ここで、スペクトル・デコーダ５０２の出力（すなわち量子化された誤差係数のブロック１４５）は、予測された平坦化領域ベクトルに（すなわち、推定された変換係数のブロック１５０に）加算的補正を提供するために使われる。特に、追加的なツールは、デコーダ５００によって実行される処理がエンコーダ１００、１７０によって実行された処理に対応することを保証してもよい。

特に、スペクトル・デコーダ５０２は、ヒューリスティック・スケーリング・ユニット１１１を有していてもよい。エンコーダ１００、１７０との関連で示したように、ヒューリスティック・スケーリング・ユニット１１１はビット割り当てに対する影響をもつことがある。エンコーダ１００、１７０では、予測誤差係数の現在ブロック１４１が、ヒューリスティック規則によって分散1までスケール・アップされてもよい。結果として、デフォルトの割り当ては、ヒューリスティック・スケーリング・ユニット１１１の最終的なダウンスケーリングされた出力の細かすぎる量子化につながることがある。よって、割り当ては、予測誤差係数の修正と同様の仕方で修正されるべきである。

しかしながら、下記で概説するように、低周波数ビン（または低周波数帯域）の一つまたは複数についての符号化資源の低減を避けることが有益であることがある。特に、これは、実は有声状況において（すなわち、比較的大きな制御パラメータ１４６、rfuをもつ信号について）最も顕著であるLF（低周波数）ランブル／ノイズ・アーチファクトに対抗するために有益であることがある。よって、後述する制御パラメータ１４６に依存したビット割り当て／量子化器選択は、「有声適応LF品質ブースト」と考えられてもよい。

スペクトル・デコーダは、rfuと名付けられる制御パラメータ１４６に依存してもよい。rfuは予測器利得gの制限されたバージョンであってもよく、たとえば
rfu＝min(1,max(g,0))
である。制御パラメータ１４６ rfuを決定するための代替的な諸方法が使われてもよい。特に、制御パラメータ１４６は、表１において与えられる擬似コードを使って決定されてもよい。

変数f_gainおよびf_predは等しく設定されてもよい。特に変数f_gainは予測器利得gに対応してもよい。制御パラメータ１４６ rfuは表１ではf_rfuとして言及されている。利得f_gainは実数であってもよい。

制御パラメータ１４６の最初の定義に比較して、（表１による）後者の定義は、1より大きな予測器利得について制御パラメータ１４６ rfuを低減し、負の予測器利得については制御パラメータ１４６ rfuを増大させる。

制御パラメータ１４６を使って、エンコーダ１００、１７０の係数量子化ユニット１１２において使われるおよび逆量子化器５５２において使われる量子化器の集合が適応されてもよい。特に、量子化器の集合のノイズ性が、制御パラメータ１４６に基づいて適応されてもよい。例として、1に近い制御パラメータ１４６ rfuの値は、ディザリングされる量子化器を使って割り当てレベルの範囲の制限をトリガーしてもよく、ノイズ合成レベルの分散の低減をトリガーしてもよい。一例では、rfu＝0.75におけるディザ決定閾値および1−rfuに等しいノイズ利得が設定されてもよい。ディザ適応は、無損失デコードおよび逆量子化器の両方に影響しうる一方、ノイズ利得適応は典型的には逆量子化器のみに影響する。

予測器寄与は有声／トーン性状況について実質的であることが想定されてもよい。よって、比較的高い予測器利得g（すなわち、比較的高い制御パラメータ１４６）は有声またはトーン性の発話信号を示していてもよい。そのような状況では、ディザに関係したまたは明示的な（0割り当ての場合）ノイズの追加は、経験的に、エンコードされた信号の知覚される品質に対して逆効果であることが示されている。結果として、ディザリングされる量子化器３２２の数および／またはノイズ合成量子化器３２１のために使われるノイズの型は、予測器利得gに基づいて適応され、それによりエンコードされた発話信号の知覚される品質を改善してもよい。

よって、制御パラメータ１４６は、ディザリングされる量子化器３２２が使用されるSNRの範囲３２４、３２５を修正するために使われてもよい。例として、制御パラメータ１４６ rfu＜0.75である場合には、ディザリングされる量子化器の範囲３２４が使われてもよい。換言すれば、制御パラメータ１４６が所定の閾値より下であれば、量子化器の第一の集合３２６が使用されてもよい。他方、制御パラメータ１４６ rfu≧0.75であれば、ディザリングされる量子化器のための範囲３２５が使われてもよい。換言すれば、制御パラメータ１４６が前記所定の閾値以上であれば、量子化器の第二の集合３２７が使用されてもよい。

さらに、制御パラメータ１４６は、分散およびビット割り当ての修正のために使われてもよい。その理由は、典型的には、うまくいった予測では必要とされる補正も小さく、特に0〜1kHzの低周波数範囲ではそうであるということである。より高い周波数帯域３０２に符号化資源を解放するために、単位分散モデルからのこの逸脱を量子化器に明示的に知らせることが有利であることがありうる。このことは、その内容が参照によって組み込まれるWO2009/086918の図１７ｃのパネルｉｉｉのコンテキストにおいて記述されている。デコーダ５００では、この修正は、（スケーリング・ユニット１１１を使うことによって適用される）ヒューリスティック・スケーリング規則に従って名目割り当てベクトルを修正し、同時に、逆スケーリング・ユニット１１３を使って逆ヒューリスティック・スケーリング規則に従って逆量子化器５５２の出力をスケーリングすることによって実装されてもよい。WO2009/086918の理論に従い、ヒューリスティック・スケーリング規則および逆ヒューリスティック・スケーリング規則は緊密にマッチされるべきである。しかしながら、有声の信号成分についてLF（低周波数）ノイズに関わる時折の問題に対抗するために、一つまたは複数の最低周波数帯域３０２については割り当て修正を打ち消すことが有利であることが経験的に見出されている。割り当て修正の打ち消しは、予測器利得gおよび／または制御パラメータ１４６の値に依存して実行されてもよい。特に、割り当て修正の打ち消しは、制御パラメータ１４６がディザ決定閾値を超える場合にのみ実行されてもよい。

上記で概説したように、エンコーダ１００、１７０および／またはデコーダ５００は予測誤差係数Δ(k)を再スケーリングして再スケーリングされた誤差係数のブロック１４２を与えるよう構成されたスケーリング・ユニット１１１を有していてもよい。再スケーリング・ユニット１１１は、再スケーリングを実行するために一つまたは複数の所定のヒューリスティック規則を利用してもよい。一例では、再スケーリング・ユニット１１１は、利得d(f)、たとえば

を含むヒューリスティック・スケーリング規則を利用してもよい。ここで、ブレーク周波数f₀はたとえば1000Hzに設定されてもよい。よって、再スケーリング・ユニット１１１は、予測誤差係数に周波数依存の利得d(f)を適用して再スケーリングされた誤差係数のブロック１４２を与えるよう構成されていてもよい。逆再スケーリング・ユニット１１３は、周波数依存の利得d(f)の逆を適用するよう構成されていてもよい。周波数依存の利得d(f)は、制御パラメータrfu １４６に依存していてもよい。上記の例において、利得d(f)は低域通過特性を示し、よって予測誤差係数は、低周波数より高周波数においてより減衰されるおよび／または予測誤差係数は高周波数より低周波数においてより強調される。上述した利得d(f)は常に1以上である。よって、ある好ましい実施形態では、ヒューリスティック・スケーリング規則は、予測誤差係数が（周波数に依存して）因数1によってまたはそれ以上強調されるというものである。

周波数依存利得がパワーまたは分散を示していてよいことを注意すべきである。そのような場合、スケーリング規則および逆スケーリング規則は、周波数依存の利得の平方根に基づいて、たとえば√d(f)に基づいて導出されるべきである。

強調および／または減衰の度合いは、予測器１１７によって達成される予測の品質に依存してもよい。予測器利得gおよび／または制御パラメータrfu １４６は、予測の品質を示していてもよい。特に、制御パラメータrfu １４６の比較的低い値（比較的0に近い）は、予測の低い品質を示しうる。そのような場合、予測誤差係数がすべての周波数にわたって比較的高い（絶対的な）値を有することが期待される。制御パラメータrfu １４６の比較的高い値（比較的1に近い）は、予測の高い品質を示しうる。そのような場合、予測誤差係数が（予測がより難しい）高周波数について比較的高い（絶対的な）値を有することが期待される。よって、再スケーリング・ユニット１１１の出力における単位分散を達成するためには、利得d(f)は、予測の比較的低い品質の場合に利得d(f)がすべての周波数について実質的に平坦であり、予測の比較的高い品質の場合には利得d(f)は低域通過特性をもち、低周波数での分散を増大またはブーストするようなものであってもよい。これは、上述したrfu依存の利得d(f)について当てはまる。

上記で概説したように、ビット割り当てユニット１１０は、割り当て包絡１３８における対応するエネルギー値に依存して、異なる再スケーリングされた誤差係数にビットの相対的な割り当てを提供するよう構成されていてもよい。ビット割り当てユニット１１０は、ヒューリスティック再スケーリング規則を考慮に入れるよう構成されていてもよい。ヒューリスティック再スケーリング規則は、予測の品質に依存してもよい。予測の比較的高い品質の場合には、低周波数での係数のエンコードよりも、高周波数での予測誤差係数（または再スケーリングされた誤差係数のブロック１４２）のエンコードに、相対的に増大した数のビットを割り当てることが有益でありうる。これは、予測の高い品質の場合、低周波数係数はすでによく予測されており、一方、高周波数係数は典型的にはそれほどよく予測されないという事実のためでありうる。他方、予測の比較的低い品質の場合には、ビット割り当ては不変のままであるべきである。

上記の振る舞いは、予測の品質を考慮に入れる割り当て包絡１３８を決定するために、現在の調整された包絡１３９にヒューリスティック規則／利得d(f)の逆を適用することによって実装されうる。

調整された包絡１３９、予測誤差係数および利得d(f)は、対数またはdB領域で表わされてもよい。そのような場合、予測誤差係数への利得d(f)の適用は、「加算」演算に対応してもよく、調整された包絡１３９への利得d(f)の逆の適用は、「減算」演算に対応してもよい。

ヒューリスティック規則／利得d(f)のさまざまな変形が可能であることを注意しておくべきである。特に、低域通過特性の固定した周波数依存曲線（1＋(f/f₀)³）^-1は、包絡データに（たとえば現在ブロック１３１についての調整された包絡１３９に）依存する関数によって置き換えられてもよい。修正されたヒューリスティック規則は、制御パラメータrfu １４６および包絡データの両方に依存してもよい。

以下では、予測器利得gに対応しうる予測器利得ρを決定するための種々の方法が記述される。予測器利得ρは、予測の品質の指示として使われてもよい。予測残差ベクトル（すなわち、予測誤差係数のブロック１４１）zは、z＝x−ρyによって与えられてもよい。ここで、xはターゲット・ベクトル（たとえば、平坦化された変換係数の現在のブロック１４０または変換係数の現在のブロック１３１）であり、yは予測のための選ばれた候補を表わすベクトル（たとえば再構成された係数の以前のブロック１４９）であり、ρは（スカラー）予測器利得である。

w≧0が予測器利得ρの決定のために使われる重みベクトルであってもよい。いくつかの実施形態では、重みベクトルは信号包絡の関数（たとえば、エンコーダ１００、１７０において推定され、次いでデコーダ５００に伝送されてもよい、調整された包絡１３９の関数）である。重みベクトルは典型的には、ターゲット・ベクトルおよび候補ベクトルと同じ次元をもつ。ベクトルxのi番目の要素はx_iによって表わされてもよい（たとえばi＝1,…,K）。

予測器利得ρを定義するための種々の仕方がある。ある実施形態では、予測器利得ρは、最小平均平方誤差基準に従って定義されるMMSE（最小平均平方誤差）利得である。この場合、予測器利得ρは次の公式を使って計算されてもよい。

そのような予測器利得ρは典型的には

として定義される平均平方誤差を最小化する。

平均平方誤差Dの定義に重み付けを導入することがしばしば（知覚上）有益である。重み付けは、信号スペクトルの知覚的に重要な部分についてはxとyの間のマッチの重要性を強調し、比較的重要でない信号スペクトルの部分についてはxとyの間のマッチの重要性を脱強調するために使われてもよい。そのようなアプローチは、次のような誤差基準を与える：

これは（重み付けされた平均平方誤差の意味での）最適予測器利得の次の定義につながる：

予測器利得の上記の定義は典型的には、制限されない利得を与える。上記で示したように、重みベクトルwの重みw_iは調整された包絡１３９に基づいて決定されてもよい。たとえば、重みベクトルwは、調整された包絡１３９のあらかじめ定義された関数を使って決定されてもよい。あらかじめ定義された関数は、エンコーダおよびデコーダにおいて既知であってもよい（これは調整された包絡１３９についても成り立つ）。よって、重みベクトルは、エンコーダおよびデコーダにおいて同じ仕方で決定されうる。

もう一つの可能な予測器利得公式は次式によって与えられる：

予測器利得のこの定義は、常に区間[−1,1]内である利得を与える。この公式によって指定される予測器利得の重要な特徴は、予測器利得ρがターゲット信号のエネルギーxと残差信号のエネルギーzの間の扱える関係を容易にするということである。LTP残差エネルギーは、

と表わされてもよい。

制御パラメータrfu １４６は、上述した公式を使って予測器利得gに基づいて決定されてもよい。予測器利得gは、上述した公式の任意のものを使って決定される予測器利得ρに等しくてもよい。

上記で概説したように、エンコーダ１００、１７０は、残差ベクトルz（すなわち予測誤差係数のブロック１４１）を量子化し、エンコードするよう構成されている。量子化プロセスは典型的は信号包絡によって（たとえば割り当て包絡１３８によって）、根底にある知覚モデルに従って、利用可能なビットを知覚的に意味のある仕方で信号のスペクトル成分の間で分配するために、案内される。レート割り当てのプロセスは、入力信号から（たとえば変換係数のブロック１３１から）導出される信号包絡によって（たとえば割り当て包絡１３８によって）案内される。予測器１１７の動作は典型的には信号包絡を変える。量子化ユニット１１２は典型的には、単位分散源に対する作用を想定して設計される量子化器を利用する。特に、高品質予測の場合（すなわち、予測器１１７がうまくいっているとき）、単位分散属性はもはや成り立たないことがあり、すなわち、予測誤差係数のブロック１４１は単位分散を示さないことがある。

予測誤差係数のブロック１４１の（すなわち残差zについての）包絡を推定し、この包絡をデコーダに伝送する（そして推定された包絡を使って予測誤差係数のブロック１４１を再平坦化する）ことは典型的には効率的ではない。その代わりに、エンコーダ１００およびデコーダ５００は、（上記で概説したように）予測誤差係数のブロック１４１を再スケーリングするためのヒューリスティック規則を利用してもよい。ヒューリスティック規則は、予測誤差係数のブロック１４１を再スケーリングするために使われてもよい。それにより、再スケーリングされた係数のブロック１４２は単位分散に近づく。この結果として、（単位分散を想定する量子化器を使って）量子化結果は改善されうる。

さらに、すでに概説したように、ヒューリスティック規則は、ビット割り当てプロセスのために使われる割り当て包絡１３８を修正するために使われてもよい。割り当て包絡１３８の修正および予測誤差係数のブロック１４１の再スケーリングは、典型的にはエンコーダ１００およびデコーダ５００によって同じ仕方で（同じヒューリスティック規則を使って）実行される。

可能なヒューリスティック規則d(f)が上記で記載された。以下では、ヒューリスティック規則を決定するための別のアプローチが記載される。重み付けされた領域のエネルギー予測利得の逆が、‖z‖² _w＝p‖x‖² _wとなるようにp∈[0,1]によって与えられてもよい。ここで、‖z‖² _wは、重み付け領域における残差ベクトル（すなわち、予測誤差係数のブロック１４１）の平方エネルギーを示し、‖x‖² _wは、重み付け領域におけるターゲット・ベクトル（すなわち、平坦化された変換係数のブロック１４０）の平方エネルギーを示す。

以下の想定がなされてもよい。
１．ターゲット・ベクトルxの要素は単位分散をもつ。これは、平坦化ユニット１０８によって実行される平坦化の結果であってもよい。この想定は、平坦化ユニット１０８によって実行される包絡ベースの平坦化の品質に依存して充足される。
２．予測残差ベクトルzの要素の分散は、i＝1,…,Kおよび何らかのt≧0について、E{z²(i)}＝min{t/w(i),1}の形である。この想定は、最小二乗指向の予測器探索は重み付け領域において均等に分布した誤差寄与につながり、残差ベクトル(√w)zは多少なりとも平坦になるというヒューリスティックに基づいている。さらに、予測器候補は平坦に近いことが期待されてもよく、これは合理的な限界E{z²(i)}≦1につながる。この第二の想定のさまざまな修正が使用されうることを注意しておくべきである。

パラメータtを推定するために、上述した二つの想定を予測誤差公式（たとえばD＝Σ_i(x_i−ρy_i)²w_i）に挿入し、それにより「水位型」の次式を与えてもよい。

上記の式には区間t∈[0,max(w(i))]内に解があることを示すことができる。パラメータtを見出すための方程式は、ソーティング・ルーチンを使って解くことができる。

すると、ヒューリスティック規則はd(i)＝max{w(i)/t,1}によって与えられてもよい。ここで、i＝1,…,Kは周波数ビンを同定する。ヒューリスティック・スケーリング規則の逆が、1/d(i)＝min{t/w(i),1}によって与えられる。ヒューリスティック・スケーリング規則の逆は、逆再スケーリング・ユニット１１３によって適用される。周波数依存のスケーリング規則は重みw(i)＝w_iに依存する。上記で示したように、重みw(i)は変換係数の現在ブロック１３１（または調整された包絡１３９または該調整された包絡１３９の何らかのあらかじめ定義された関数）に依存していてもよく、あるいはそれに対応していてもよい。

予測器利得を決定するために公式ρ＝2C/{E_x＋E_y}を使うとき、関係p＝1−ρ²が成り立つことが示せる。

よって、ヒューリスティック・スケーリング規則がさまざまな異なる仕方で決定されてもよい。実験的に、上述した二つの想定に基づいて決定されるスケーリング規則（スケーリング方法Bと称される）が固定したスケーリング規則d(f)に比べて有利であることが示されている。特に、上記二つの想定に基づいて決定されるスケーリング規則は、予測器候補探索の過程で使われる重み付けの効果を考慮に入れてもよい。残差の分散と信号の分散の間の解析的に扱える関係（これは上記で概説したようにpの導出を容易にする）のため、スケーリング方法Bは、利得の定義ρ＝2C/{E_x＋E_y}と便利に組み合わされる。

以下では、変換ベースのオーディオ符号化器のパフォーマンスを改善するためのさらなる側面が記述される。特に、いわゆる分散保存フラグの使用が提案される。分散保存フラグは、ブロック１３１毎に決定され、伝送されてもよい。分散保存フラグは、予測の品質を示していてもよい。ある実施形態では、予測の比較的高い品質の場合には分散保存フラグはオフであり、予測の比較的低い品質の場合には分散保存フラグはオンである。分散保存フラグは、エンコーダ１００、１７０によって、たとえば予測器利得ρに基づいておよび／または予測器利得gに基づいて決定されてもよい。例として、分散保存フラグは、予測器利得ρまたはg（またはそれから導出されるパラメータ）が所定の閾値（たとえば2dB）より低い場合に「オン」に設定されてもよい。逆もまたしかりである。上記で概説したように、重み付け領域のエネルギー予測利得の逆pは、典型的には予測器利得に依存する。たとえば、p＝1−ρ²である。パラメータpの逆数は、分散保存フラグの値を決定するために使われてもよい。例として、1/p（たとえばdBで表わされる）は、分散保存フラグの値を決定するために、所定の閾値（たとえば2dB）と比較されてもよい。1/pが該所定の閾値より大きければ、分散保存フラグは「オフ」に設定されてもよい（予測の比較的高い品質を示す）。逆もまたしかりである。

分散保存フラグは、エンコーダ１００およびデコーダ５００のさまざまな異なる設定を制御するために使われてもよい。特に、分散保存フラグは、複数の量子化器３２１、３２２、３２３のノイズ性の度合いを制御するために使われてもよい。特に、分散保存フラグは、次の設定のうちの一つまたは複数に影響してもよい。
・0ビット割り当てのための適応的なノイズ利得。換言すれば、ノイズ合成量子化器３２１のノイズ利得は分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の範囲。換言すれば、ディザリングされる量子化器３２２が使われるSNRの範囲３２４、３２５が、分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の事後利得。ディザリングされる量子化器の平均平方誤差パフォーマンスに影響するために、ディザリングされる量子化器の出力に対して事後利得が適用されてもよい。事後利得は、分散保存フラグに依存してもよい。
・ヒューリスティック・スケーリングの適用。（再スケーリング・ユニット１１１および逆再スケーリング・ユニット１１３における）ヒューリスティック・スケーリングの使用が分散保存フラグに依存してもよい。

分散保存フラグがエンコーダ１００および／またはデコーダ５００の一つまたは複数の設定をどのように変えうるかの例を表２に与えておく。

事後利得についての公式において、σ_X＝E{X²}は（量子化されるべき）予測誤差係数のブロック１４１の係数のうち一つまたは複数の係数の分散であり、Δは事後利得が適用されるディザリングされる量子化器のスカラー量子化器（６１２）の量子化器きざみサイズである。

表２の例から見て取れるように、ノイズ合成量子化器３２１のノイズ利得g_N（すなわち、ノイズ合成量子化器３２１の分散）は分散保存フラグに依存してもよい。上記で概説したように、制御パラメータrfu １４６は範囲[0,1]内にあってもよく、rfuの比較的低い値は予測の比較的低い品質を示し、rfuの比較的高い値は予測の比較的高い品質を示す。[0,1]の範囲内のrfu値について、左の列の公式は右の列の公式より低いノイズ利得g_Nを与える。よって、分散保存フラグがオンであるとき（予測の比較的低い品質を示す）は、分散保存フラグがオフであるとき（予測の比較的高い品質を示す）よりも高いノイズ利得が使われる。実験的に、これが全体的な知覚的品質を改善することが示されている。

上記で概説したように、ディザリングされる量子化器３２２の３２４、３２５のSNR範囲は、制御パラメータrfuに依存して変わりうる。表２によれば、分散保存フラグがオンのとき（予測の比較的低い品質を示す）、ディザリングされる量子化器３２２の固定した大きな範囲が使われる（たとえば範囲３２４）。他方、分散保存フラグがオフのとき（予測の比較的高い品質を示す）は、制御パラメータrfuに依存して異なる範囲３２４、３２５が使われる。

量子化された誤差係数のブロック１４５の決定は、ディザリングされる量子化器３２２を使って量子化された、量子化された誤差係数への事後利得γの適用に関わってもよい。事後利得γは、ディザリングされる量子化器３２２（たとえば減算的ディザのある量子化器）のMSEパフォーマンスを改善するために導出されてもよい。

事後利得は

によって与えられてもよい。

実験的に、事後利得を分散保存フラグに依存させるとき、知覚的な符号化品質が改善できることが示されている。上述したMSE最適事後利得は、分散保存フラグがオフのとき（予測の比較的高い品質を示す）に使われる。他方、分散保存フラグがオンのとき（予測の比較的低い品質を示す）は、（表２の右側の公式に従って決定される、）より高い事後利得を使うことが有益であることがある。

上記で概説したように、予測誤差係数のブロック１４１より単位分散属性により近い再スケーリングされた誤差係数のブロック１４２を与えるために、ヒューリスティック・スケーリングが使われてもよい。ヒューリスティック・スケーリング規則は、制御パラメータ１４６に依存させられてもよい。換言すれば、ヒューリスティック・スケーリング規則は予測の品質に依存させられてもよい。ヒューリスティック・スケーリングは、予測の比較的高い品質の場合に特に有益であることがある。一方、その恩恵は予測の比較的低い品質の場合には限られていることがある。これに鑑み、分散保存フラグがオフであるとき（予測の比較的高い品質を示す）にのみヒューリスティック・スケーリングを使うことが有益でありうる。

本稿では、変換ベースの発話エンコーダ１００、１７０および対応する変換ベースの発話デコーダ５００が記述されてきた。変換ベースの発話コーデックは、エンコードされた発話信号の品質を改善することを許容するさまざまな側面を利用しうる。発話コーデックは、たとえば5m程度の比較的短いブロック（符号化単位とも称される）を利用し、それにより適切な時間分解能および発話信号のための意味のある統計を保証してもよい。さらに、発話コーデックは、符号化単位の時間変化するスペクトル包絡の十分な記述を提供してもよい。さらに、発話コーデックは、変換領域での予測を利用してもよい。ここで、予測は、符号化単位のスペクトル包絡を考慮に入れてもよい。よって、発話コーデックは、符号化単位に対して、包絡を意識した予測的な更新を提供しうる。さらに、発話コーデックは、予測の結果に適応する、あらかじめ決定された量子化器を利用してもよい。換言すれば、発話コーデックは、予測適応的なスカラー量子化器を利用してもよい。

本稿で記述された方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアおよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体上に記憶されてもよい。それらの信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。

Claims

発話信号をビットストリームにエンコードするよう構成されている変換ベースの発話エンコーダであって、当該エンコーダは：
・ブロックの集合を受領するよう構成されたフレーム構成ユニットであって、ブロックの集合は、変換係数の複数の逐次的なブロックを含み、該複数のブロックは発話信号のサンプルを示し、変換係数のブロックは対応する複数の周波数ビンについての変換係数を含む、フレーム構成ユニットと；
・変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定するよう構成されている包絡推定ユニットであって、前記現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示す、包絡推定ユニットと；
・前記現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットと；
・それぞれ前記対応する複数の補間された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定するよう構成された平坦化ユニットとを有しており、
前記ビットストリームは平坦化された変換係数の前記複数のブロックに基づいて決定される、
変換ベースの発話エンコーダ。
・当該変換ベースの発話エンコーダはさらに、それぞれ変換係数の前記複数のブロックについて複数の包絡利得を決定するよう構成された包絡利得決定ユニットを有しており；
・当該変換ベースの発話エンコーダはさらに、それぞれ前記複数の包絡利得に従って前記複数の補間された包絡をシフトさせることによって、複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有しており；
・前記平坦化ユニットは、それぞれ前記対応する複数の調整された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の前記複数のブロックを決定するよう構成されている、
請求項１記載の変換ベースの発話エンコーダ。
前記包絡利得決定ユニットは、変換係数の第一のブロックのための第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が、第一の補間された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散に比べて調整されるように、決定するよう構成されている、請求項２記載の変換ベースの発話エンコーダ。
前記包絡利得決定ユニットは、変換係数の前記第一のブロックについての前記第一の包絡利得を、前記第一の調整された包絡を使って導出される平坦化された変換係数の前記対応する第一のブロックの平坦化された変換係数の分散が1になるように、決定するよう構成されている、請求項３記載の変換ベースの発話エンコーダ。
前記包絡利得決定ユニットは、前記複数の包絡利得を示す利得データを前記ビットストリーム中に挿入するよう構成されている、請求項２ないし４のうちいずれか一項記載の変換ベースの発話エンコーダ。
・前記現在の包絡が、対応する複数の周波数帯域についての複数のスペクトル・エネルギー値を示し；
・周波数帯域が一つまたは複数の周波数ビンを含み；
・前記包絡推定ユニットが、特定の周波数帯域についてのスペクトル・エネルギー値を、その特定の周波数帯域についての前記複数の逐次的なブロックの変換係数に基づいて決定するよう構成されている、
請求項１ないし５のうちいずれか一項記載の変換ベースの発話エンコーダ。
周波数帯域毎の周波数ビンの数が周波数が増すとともに増大する、請求項６記載の変換ベースの発話エンコーダ。
前記包絡推定ユニットは、前記特定の周波数帯域についてのスペクトル・エネルギー値を、前記特定の周波数帯域についての前記複数の逐次的なブロックの変換係数の二乗平均平方根値に基づいて、決定するよう構成されている、請求項６または７記載の変換ベースの発話エンコーダ。
・前記現在の包絡を量子化することによって、量子化された現在の包絡を決定し；
・前記量子化された現在の包絡を示す包絡データを前記ビットストリーム中に挿入するよう構成された包絡量子化ユニットをさらに有する、
請求項１ないし８のうちいずれか一項記載の変換ベースの発話エンコーダ。
前記包絡補間ユニットは、前記量子化された現在の包絡に基づいて前記複数の補間された包絡を決定するよう構成されている、請求項９記載の変換ベースの発話エンコーダ。
・変換係数のブロックはMDCT係数を含む；および／または
・変換係数のブロックは256個の周波数ビン内の256個の変換係数を含む；および／または
・ブロックの集合は変換係数の四つ以上のブロックを含む、
請求項１ないし１０のうちいずれか一項記載の変換ベースの発話エンコーダ。
・変換ベースの発話エンコーダが、短ストライド・モードおよび長ストライド・モードを含む複数の異なるモードで動作するよう構成されており；
・前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、前記変換ベースの発話エンコーダが短ストライド・モードで動作させられるときは、変換係数の前記複数の逐次的なブロックを含むブロックの前記集合を処理するよう構成されており；
・前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、前記変換ベースの発話エンコーダが長ストライド・モードで動作させられるときは、変換係数の単一のブロックを含むブロックの集合を処理するよう構成されている、
請求項１ないし１１のうちいずれか一項記載の変換ベースの発話エンコーダ。
長ストライド・モードにあるとき、
・前記包絡推定ユニットは、ブロックの前記集合内に含まれる変換係数の前記単一のブロックの現在の包絡を決定するよう構成されており；
・前記包絡補間ユニットは、変換係数の前記単一のブロックについての補間された包絡を、変換係数の前記単一のブロックの前記現在の包絡として決定するよう構成されている、
請求項１２記載の変換ベースの発話エンコーダ。
再構成された発話信号を提供するためにビットストリームをデコードするよう構成された変換ベースの発話デコーダであって、
・前記ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定するよう構成された包絡デコード・ユニットであって、前記量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示し、前記ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータを含み、再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む、包絡デコード・ユニットと；
・前記量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットと；
・それぞれ前記対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定するよう構成された逆平坦化ユニットとを有しており、
再構成された変換係数の前記複数のブロックに基づいて、前記再構成された発話信号が決定される、
変換ベースの発話デコーダ。
前記包絡補間ユニットは、前記複数の補間された包絡を、量子化された以前の包絡にさらに基づいて決定するよう構成されている、請求項１４記載の変換ベースの発話デコーダ。
前記量子化された以前の包絡は、再構成された変換係数の前記複数のブロックの直前の、再構成された変換係数の複数の以前のブロックに関連付けられている、請求項１５記載の変換ベースの発話デコーダ。
・前記包絡補間ユニットは、第一の補間された包絡のある特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と第一の中間時点における前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されており；
・前記第一の補間された包絡は、再構成された平坦化された変換係数の第一のブロックに関連付けられる、
請求項１５または１６記載の変換ベースの発話デコーダ。
前記包絡補間ユニットは、線形補間、幾何的補間および調和的補間の一つまたは複数を実行するよう構成されている、請求項１７記載の変換ベースの発話デコーダ。
前記包絡補間ユニットは、対数領域において前記補間を実行するよう構成されている、請求項１７または１８記載の変換ベースの発話デコーダ。
前記包絡補間ユニットは、前記第一の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値の間の補間を量子化することによって、決定するよう構成されている、請求項１７ないし１９のうちいずれか一項記載の変換ベースの発話デコーダ。
・前記包絡補間ユニットは、第二の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と第二の中間時点における前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されており；
・前記第二の補間された包絡は、再構成された平坦化された変換係数の第二のブロックに関連付けられ；
・再構成された平坦化された変換係数の前記第二のブロックは、再構成された平坦化された変換係数の前記第一のブロックより後であり；
・前記第二の中間時点は前記第一の中間時点より後である、
請求項１７ないし２０のうちいずれか一項記載の変換ベースの発話デコーダ。
前記第二の中間時点と前記第一の中間時点との間の差は、再構成された平坦化された変換係数の前記第二のブロックと再構成された平坦化された変換係数の前記第一のブロックとの間の時間間隔に対応する、請求項２１記載の変換ベースの発話デコーダ。
・前記ビットストリームは、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の包絡利得を示し；
・当該変換ベースの発話デコーダはさらに、それぞれ前記複数の補間された包絡に前記複数の包絡利得を適用することによって複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有し；
・前記逆平坦化ユニットは、それぞれ前記対応する複数の調整された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記複数のブロックを決定するよう構成されている、
請求項１４ないし２２のうちいずれか一項記載の変換ベースの発話デコーダ。
発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットであって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、フレーム構成ユニットと；
・それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の前記対応する現在のブロックおよび前記一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定するよう構成された平坦化ユニットと；
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器であって、前記予測器は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器；および
・推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有している、
予測器と；
・平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットとを有しており、
前記ビットストリームは、予測誤差係数の前記現在のブロックに基づいて決定される、
変換ベースの発話エンコーダ。
・前記予測器は、信号モデルを使うモデル・ベースの予測器を有し；
・前記信号モデルは、一つまたは複数のモデル・パラメータを有し；
・前記一つまたは複数の予測器パラメータは、前記一つまたは複数のモデル・パラメータを示す、
請求項２４記載の変換ベースの発話エンコーダ。
前記モデル・ベースの予測器は、
・前記信号モデルの前記一つまたは複数のモデル・パラメータを決定し；
・前記信号モデルに基づき、かつ前記一つまたは複数のモデル・パラメータに基づいて、再構成された変換係数の以前のブロックの第一の周波数ビン内の第一の再構成された変換係数に適用されるべき予測係数を決定し；
・前記第一の再構成された変換係数に前記予測係数を適用することによって、推定された変換係数の前記現在のブロックの前記第一の周波数ビン内の第一の推定された変換係数の推定値を決定するよう構成されている、
請求項２５記載の変換ベースの発話エンコーダ。
・前記信号モデルは一つまたは複数の正弦波モデル成分を含み；
・前記一つまたは複数のモデル・パラメータは前記一つまたは複数の正弦波モデル成分の周波数を示す、
請求項２５または２６記載の変換ベースの発話エンコーダ。
前記一つまたは複数のモデル・パラメータは、複数正弦波信号モデルの基本周波数を示す、請求項２７記載の変換ベースの発話エンコーダ。
前記予測器は、予測誤差係数の前記現在のブロックの前記予測誤差係数の平均平方値が低減されるよう、前記一つまたは複数の予測パラメータを決定するよう構成されている、請求項２４ないし２８のうちいずれか一項記載の変換ベースの発話エンコーダ。
前記予測器は、前記一つまたは複数の予測器パラメータを示す予測器データを前記ビットストリーム中に挿入するよう構成されている、請求項２４ないし２９のうちいずれか一項記載の変換ベースの発話エンコーダ。
ビットストリームをデコードして、再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、該予測器は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器；および
・推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有する、
予測器と；
・前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダと；
・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットと；
・現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成されており、それぞれ前記一つまたは複数の以前のブロック包絡を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記一つまたは複数の以前のブロックを決定するよう構成されている逆平坦化ユニットとを有しており、
再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、前記再構成された発話信号が決定される、
変換ベースの発話デコーダ。
・前記一つまたは複数の予測器パラメータは、ブロック遅延パラメータを含み；
・前記ブロック遅延パラメータは、推定された平坦化された変換係数の前記現在のブロックに先行するブロック数を示す、
請求項３１記載の変換ベースの発話デコーダ。
前記スペクトル整形器は、
・現在の推定された包絡を使って、推定された変換係数の前記現在のブロックを平坦化し；
・前記一つまたは複数の以前のブロック包絡に基づき、かつ前記ブロック遅延パラメータに基づいて、前記現在の推定された包絡を決定するよう構成されている、
請求項３２記載の変換ベースの発話デコーダ。
前記スペクトル整形器は、
・前記ブロック遅延パラメータに基づいて整数遅延値を決定し；
・推定された平坦化された変換係数の前記現在のブロックより前記整数遅延値だけ先行する、再構成された変換係数の前記以前のブロックの前記以前のブロック包絡として、前記現在の推定された包絡を決定するよう構成されている、
請求項３３記載の変換ベースの発話デコーダ。
前記スペクトル整形器は、前記整数遅延値を、前記ブロック遅延パラメータを最も近い整数に丸めることによって決定するよう構成されている、請求項３４記載の変換ベースの発話デコーダ。
・当該変換ベースの発話デコーダが、一つまたは複数の以前のブロック包絡を記憶するよう構成された包絡バッファを有し；
・前記スペクトル整形器が、前記整数遅延値を、前記包絡バッファ内に記憶されている以前のブロック包絡の数に制限することによって、整数遅延値を決定するよう構成されている、
請求項３５記載の変換ベースの発話デコーダ。
前記スペクトル整形器は、前記一つまたは複数の予測器パラメータの適用前に、平坦化された推定された変換係数の前記現在のブロックが分散1を示すよう、推定された変換係数の前記現在のブロックを平坦化するよう構成されている、請求項３３ないし３６のうちいずれか一項記載の変換ベースの発話デコーダ。
・前記ビットストリームが、分散利得パラメータを含み；
・前記スペクトル整形器が、前記分散利得パラメータを、推定された変換係数の前記現在のブロックに適用するよう構成されている、
請求項３７記載の変換ベースの発話デコーダ。
前記抽出器は、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記ブロック遅延パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成されている、請求項３２ないし３８のうちいずれか一項記載の変換ベースの発話デコーダ。
発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットであって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、フレーム構成ユニットと；
・対応する現在のブロック包絡を使って変換係数の前記対応する現在のブロックを平坦化することによって、平坦化された変換係数の現在のブロックを決定するよう構成された平坦化ユニットと；
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器と；
・平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットと；
・一組のあらかじめ決定された量子化器を使って、予測誤差係数の前記現在のブロックから導出される係数を量子化するよう構成された係数量子化ユニットであって、前記係数量子化ユニットは、前記一つまたは複数の予測器パラメータに依存して、前記一組のあらかじめ決定された量子化器を決定するよう構成されており、前記係数量子化ユニットは、前記量子化された係数に基づいて前記ビットストリームについての係数データを決定するよう構成されている、係数量子化ユニットとを有する、
変換ベースの発話エンコーダ。
平均で、再スケーリングされた誤差係数の現在のブロックの再スケーリングされた誤差係数の分散が、予測誤差係数の前記現在のブロックの予測誤差係数の分散より高くなるように、一つまたは複数のスケーリング規則を使って、予測誤差係数の前記現在のブロックに基づいて、再スケーリングされた誤差係数の現在のブロックを決定するよう構成されたスケーリング・ユニットをさらに有する、請求項４０記載の変換ベースの発話エンコーダ。
・予測誤差係数の前記現在のブロックは、対応する複数の周波数ビンについての複数の予測誤差係数を含み、
・前記一つまたは複数のスケーリング規則に従って前記スケーリング・ユニットによって前記予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存する、
請求項４１記載の変換ベースの発話エンコーダ。
前記スケーリング規則は、前記一つまたは複数の予測器パラメータに依存する、請求項４１または４２記載の変換ベースの発話エンコーダ。
前記スケーリング規則は、前記現在のブロック包絡に依存する、請求項４１ないし４３のうちいずれか一項記載の変換ベースの発話エンコーダ。
・前記予測器は、重み付けされた平均平方誤差基準を使って、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されており、
・前記重み付けされた平均平方誤差基準は、前記現在のブロック包絡を重みとして考慮に入れる、
請求項４０ないし４４のうちいずれか一項記載の変換ベースの発話エンコーダ。
前記係数量子化ユニットは、再スケーリングされた誤差係数の前記現在のブロックの再スケーリングされた誤差係数を量子化するよう構成されている、請求項４１ないし４５のうちいずれか一項記載の変換ベースの発話エンコーダ。
・変換ベースの発話エンコーダはさらに、前記現在のブロック包絡に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニットを有しており、
・前記割り当てベクトルは、予測誤差係数の前記現在のブロックから導出された第一の係数を量子化するために使われる前記一組のあらかじめ決定された量子化器からの第一の量子化器を示す、
請求項４０ないし４６のうちいずれか一項記載の変換ベースの発話エンコーダ。
前記割り当てベクトルは、それぞれ予測誤差係数の前記現在のブロックから導出された係数全部について使われる量子化器を示す、請求項４７記載の変換ベースの発話エンコーダ。
前記ビット割り当てユニットは、
・予測誤差係数の前記現在のブロックについての係数データが所定のビット数を超えないよう前記割り当てベクトルを決定し；
・前記現在のブロック包絡から導出される割り当て包絡に適用されるべきオフセットを示すオフセット値を決定するよう構成されており、前記オフセット値は、前記ビットストリーム中に含められる、
請求項４７または４８記載の変換ベースの発話エンコーダ。
ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器と；
・一組のあらかじめ決定された量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダであって、前記スペクトル・デコーダは、前記一つまたは複数の予測器パラメータに依存して前記一組のあらかじめ決定された量子化器を決定するよう構成されている、スペクトル・デコーダと；
・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットと；
・現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有しており、
前記再構成された発話信号は、再構成された変換係数の前記現在のブロックに基づいて決定される、
変換ベースの発話デコーダ。
前記一組のあらかじめ決定された量子化器は、
・異なる信号対雑音比をもつ異なる量子化器；および
・少なくとも一つのディザリングされる量子化器を含む、
請求項５０記載の変換ベースの発話デコーダ。
・前記一つまたは複数の予測器パラメータは予測器利得を含み；
・前記予測器利得は、再構成された変換係数の前記現在のブロックについての再構成された変換係数の前記一つまたは複数の以前のブロックの関連度を示し；
・前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、前記予測器利得に依存する、
請求項５１記載の変換ベースの発話デコーダ。
前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得が増すとともに減少する、請求項５２記載の変換ベースの発話デコーダ。
・前記スペクトル・デコーダは、あらかじめ決定された量子化器の第一の集合および第二の集合へのアクセスをもち、
・第二の集合は、量子化器の前記第一の集合より少数のディザリングされる量子化器を含み、
・前記スペクトル・デコーダは、前記予測器利得に基づいて集合基準を決定するよう構成されており、
・前記スペクトル・デコーダは、前記集合基準が所定の閾値より小さければあらかじめ決定された量子化器の前記第一の集合を使うよう構成されており、
・前記スペクトル・デコーダは、前記集合基準が前記所定の閾値以上であればあらかじめ決定された量子化器の前記第二の集合を使うよう構成されている、
請求項５２または５３記載の変換ベースの発話デコーダ。
・前記集合基準は前記予測器利得gに依存する所定の制御パラメータrfuを含み、
・前記所定の閾値は0.75である、
請求項５４記載の変換ベースの発話デコーダ。
前記制御パラメータが
・rfu＝min(1,max(g,0))である；または
・g＜−1.0についてはrfu＝1.0；−1.0≦g＜0.0についてはrfu＝−g；0.0≦g＜1.0についてはrfu＝g；1.0≦g＜2.0についてはrfu＝2.0−g；および／またはg≧2.0についてはrfu＝0.0である、
請求項５５記載の変換ベースの発話デコーダ。
・当該変換ベースの発話デコーダは、逆スケーリング規則を使って、量子化された予測誤差係数の前記現在のブロックの前記量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有しており；
・前記加算ユニットは、再スケーリングされた予測誤差係数の前記現在のブロックを、推定された平坦化された変換係数の前記現在のブロックに加えることによって、再構成された平坦化された変換係数の前記現在のブロックを決定するよう構成されている、
請求項５０ないし５６のうちいずれか一項記載の変換ベースの発話デコーダ。
・前記逆スケーリング規則に従って前記逆スケーリング・ユニットによって前記量子化された予測誤差係数に適用されるスケーリング利得は、それぞれの量子化された予測誤差係数の周波数ビンに依存し；
・前記逆スケーリング規則は、対応する変換ベースの発話エンコーダのスケーリング・ユニットによって適用されるスケーリング規則の逆である、
請求項５７記載の変換ベースの発話デコーダ。
・前記一つまたは複数の制御パラメータは分散保存フラグを含み；
・前記分散保存フラグは、量子化された予測誤差係数の前記現在のブロックの分散がどのように整形されるべきかを示し；
・前記一組のあらかじめ決定された量子化器は前記分散保存フラグに依存して決定される、
請求項５０ないし５８のうちいずれか一項記載の変換ベースの発話デコーダ。
・前記一組のあらかじめ決定された量子化器はノイズ合成量子化器を含み；
・前記ノイズ合成量子化器のノイズ利得が、前記分散保存フラグに依存する、
請求項５９記載の変換ベースの発話デコーダ。
・前記一組のあらかじめ決定された量子化器はあるSNR範囲をカバーする一つまたは複数のディザリングされる量子化器を含み；
・前記SNR範囲は、前記分散保存フラグに依存して決定される、
請求項５９ないし６０のうちいずれか一項記載の変換ベースの発話デコーダ。
・前記一組のあらかじめ決定された量子化器は少なくとも一つのディザリングされる量子化器を有し；
・前記少なくとも一つのディザリングされる量子化器は、量子化された予測誤差係数を決定するときに、事後利得γを適用するよう構成されており；
・前記事後利得γは、前記分散保存フラグに依存する、
請求項５９ないし６１のうちいずれか一項記載の変換ベースの発話デコーダ。
・当該変換ベースの発話デコーダは、量子化された予測誤差係数の前記現在のブロックの前記量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有しており；
・前記加算ユニットは、前記分散保存フラグに依存して、推定された平坦化された変換係数の前記現在のブロックに対して、再スケーリングされた予測誤差係数の前記現在のブロックを加えることによって、あるいは量子化された予測誤差係数の前記現在のブロックを加えることによって、再構成された平坦化された変換係数の前記現在のブロックを決定するよう構成されている、
請求項５９ないし６２のうちいずれか一項記載の変換ベースの発話デコーダ。
第一のセグメントを含むオーディオ信号をビットストリームにエンコードするよう構成された変換ベースのオーディオ・エンコーダであって、当該オーディオ・エンコーダは、
・前記オーディオ信号から前記第一のセグメントを識別するよう構成された信号分類器であって、前記第一のセグメントは、変換ベースの発話エンコーダによってエンコードされるべきものである、信号分類器と；
・前記第一のセグメントに基づいて変換係数の複数の逐次的なブロックを決定するよう構成された変換ユニットであって、変換係数のブロックは対応する複数の周波数ビンについての複数の変換係数を含み、前記変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、変換ユニットと；
・前記複数の逐次的なブロックを前記ビットストリームにエンコードするよう構成された変換ベースの発話エンコーダとを有する、
変換ベースのオーディオ・エンコーダ。
前記オーディオ信号の前記第一のセグメント以外のセグメントをエンコードするよう構成された一般的な変換ベースのオーディオ・エンコーダをさらに有する、請求項６４記載の変換ベースのオーディオ・エンコーダ。
前記一般的な変換ベースのオーディオ・エンコーダは、AACまたはHE-AACエンコーダである、請求項６５記載の変換ベースのオーディオ・エンコーダ。
・前記変換ユニットはMDCTを実行するよう構成されている；および／または
・サンプルの前記第一の数は1024個である；および／または
・サンプルの前記第二の数は256個である、
請求項６４ないし６６のうちいずれか一項記載の変換ベースのオーディオ・エンコーダ。
第一のセグメントを含むオーディオ信号を示すビットストリームをデコードするよう構成された変換ベースのオーディオ・デコーダであって、当該オーディオ・デコーダは、
・前記ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定するよう構成された変換ベースの発話デコーダと；
・再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された第一のセグメントを決定するよう構成された逆変換ユニットであって、再構成された変換係数のブロックは、対応する複数の周波数ビンについて複数の再構成された変換係数を含み、前記逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、逆変換ユニットとを有する、
変換ベースのオーディオ・デコーダ。
発話信号をビットストリームにエンコードする方法であって、
・一組のブロックを受領する段階であって、前記一組のブロックは、変換係数の複数の逐次的なブロックを含み、前記複数の逐次的なブロックは、前記発話信号のサンプルを示し、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含む、段階と；
・変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定する段階であって、前記現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示す、段階と；
・前記現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定する段階と；
・それぞれ前記対応する複数の補間された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定する段階と；
・前記ビットストリームを、平坦化された変換係数の前記複数のブロックに基づいて決定する段階とを含む、
方法。
ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・前記ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定する段階であって、前記量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示し、前記ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示し、再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む、段階と；
・前記量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定する段階と；
・それぞれ前記対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定する段階と；
・前記再構成された発話信号を、再構成された変換係数の前記複数のブロックに基づいて決定する段階とを含む、
方法。
発話信号をビットストリームにエンコードする方法であって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、段階と；
・それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の前記対応する現在のブロックおよび前記一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定する段階と；
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものであり、推定された平坦化された変換係数の前記現在のブロックを決定する該段階は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し、
・推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含む、段階と；
・
平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定する段階と；
・前記ビットストリームを、予測誤差係数の前記現在のブロックに基づいて決定する段階とを含む、
方法。
ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定する段階であって、推定された平坦化された変換係数の前記現在のブロックを決定する該段階は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し；
・推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含む、段階と；
・前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定する段階と；
・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定する段階と；
・再構成された変換係数の現在のブロックを、現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって決定する段階と；
・再構成された変換係数の前記一つまたは複数の以前のブロックを、それぞれ前記一つまたは複数の以前のブロック包絡を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、決定する段階と；
・再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、前記再構成された発話信号を決定する段階とを含む、
方法。
発話信号をビットストリームにエンコードする方法であって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、段階と；
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、段階と；
・変換係数の前記現在のブロックに基づいて、かつ推定された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定する段階と；
・一組のあらかじめ決定された量子化器を使って、予測誤差係数の前記現在のブロックから導出される係数を量子化する段階であって、前記一組のあらかじめ決定された量子化器は、前記予測器パラメータに依存する、段階と；
・前記量子化された係数に基づいて前記ビットストリームについての係数データを決定する段階とを含む、
方法。
ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定する段階と；
・一組のあらかじめ決定された量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定する段階であって、前記一組のあらかじめ決定された量子化器は、前記予測器パラメータの関数である、段階と；
・推定された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された変換係数の現在のブロックを決定する段階と；
・前記再構成された発話信号を、再構成された変換係数の前記現在のブロックに基づいて決定する段階とを含む、
方法。
発話セグメントを含むオーディオ信号をビットストリームにエンコードする方法であって、
・前記オーディオ信号から前記発話セグメントを識別する段階と；
・変換ユニットを使って、前記発話セグメントに基づいて変換係数の複数の逐次的なブロックを決定する段階であって、前記変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは、短ブロックである、段階と；
・前記複数の逐次的なブロックを前記ビットストリームにエンコードする段階とを含む、
方法。
発話セグメントを含むオーディオ信号を示すビットストリームをデコードする方法であって、
・前記ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定する段階と；
・逆変換ユニットを使って、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定する段階であって、再構成された変換係数のブロックは対応する複数の周波数ビンについての複数の再構成された変換係数を含み、前記逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、
方法。