JP6744363B2

JP6744363B2 - スペクトルエンベロープのサンプル値のコンテキストベースエントロピー復号化器、パラメトリック復号化器、コンテキストベースエントロピー符号化器、復号化方法、符号化方法およびコンピュータプログラム

Info

Publication number: JP6744363B2
Application number: JP2018135773A
Authority: JP
Inventors: フローリンギード; アンドレーアスニーダーマイアー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2013-07-22
Filing date: 2018-07-19
Publication date: 2020-08-19
Anticipated expiration: 2034-07-15
Also published as: EP3025338A1; JP7260509B2; US20220208202A1; CA2918851C; ES2665646T3; EP3333849B1; KR101797407B1; WO2015010966A1; US9947330B2; JP2020190747A; CN110895945A; US20200395026A1; US11250866B2; JP2023098967A; CN105556599A; US20240079020A1; JP2018200475A; PT3333849T; CN110895945B; TWI557725B

Description

本発明は、スペクトルエンベロープのサンプル値のコンテキストベースエントロピー符号化および音声符号化／圧縮におけるその使用に関する。

例えば、〔１〕および〔２〕に記載されているように、多くの現代の最高水準の技術である非可逆音声符号化器は、ＭＤＣＴ変換に基づいて、既定の知覚品質のための必要なビットレートを最小化するために、無関係性削減および冗長性削減を使用する。無関係性削減は、概して、表示精度を減らすかまたは知覚的に関連しない周波数情報を削減するために、人間の聴覚システムの知覚的制限を利用する。冗長性削減は、概してエントロピー符号化と関連した統計モデルを用いて、残りのデータの最小コンパクト表現を達成するために統計的構造または相関を利用するために適用される。

特に、パラメトリック符号化概念は、音声コンテンツを効率的に符号化するために使用される。パラメトリック符号化を使用して、音声信号の部分、例えばそのスペクトログラムの部分は、実際の時間領域音声サンプル等を使用するよりはむしろ、パラメータを使用して記述されている。例えば、音声信号のスペクトログラムの部分は、合成されたスペクトログラムの部分を送信されたスペクトルエンベロープに適合させるために、単に例えばスペクトルエンベロープなどのパラメータおよび任意には合成を制御するさらなるパラメータから成るデータストリームを有する復号化器側で合成され得る。この種の新規な技術は、核となるコーデックが音声信号の低周波成分を符号化して、送信するために用いるスペクトル帯域複製（ＳＢＲ）であるが、伝送されたスペクトルエンベロープは、復号化側で、音声信号の高周波帯成分を合成するために音声信号の低周波帯成分の再生のスペクトル複製をスペクトル的に成形／形成するために復号化側で用いられる。

上記の概略のように、符号化技術のフレームワークの範囲内のスペクトルエンベロープは、若干の適切な時間スペクトル分解能で、データストリームの中で伝送される。スペクトルエンベロープのサンプル値の伝送と類似した方法において、ＭＤＣＴ係数のようなスペクトル線係数または周波数領域係数をスケーリングするためのスケーリング係数は、元のスペクトル線解像度より粗くて、スペクトルの意味における実施例のためにより粗い若干の適切なスペクトル時間分解能において、同様に伝送される。

固定されたハフマン符号化テーブルは、スペクトルエンベロープまたはスケーリング係数または周波数領域係数を記述しているサンプルに関する情報を伝達するために使用され得る。改良された方法は、例えば、〔２〕および〔３〕に記載された、コンテキスト符号化を使用することであり、ここで、値を符号化するための確率分布を選択するために使用されるコンテキストは、時間および周波数全体にわたる。ＭＤＣＴ係数値のような個々のスペクトル線は、複合スペクトル線の実際の投射であり、そして、複合スペクトル線の大きさが時間全体で一定のときでも、それは事実上幾分ランダムに見え得る、しかし、位相は、１つのフレームから次まで変化する。これは、〔３〕に記載されたように、良い結果のためのコンテキスト選択、量子化およびマッピングの極めて複雑な方式を必要とする。

画像符号化において、使用するコンテキストは、例えば〔４〕に記載されたように、画像のｘおよびｙ軸にわたって通常は二次元である。画像符号化において、値は、例えばガンマ調整の使用による線形領域またはべき乗領域において存在する。加えて、単一の固定された線形予測が、平面近似および基本的なエッジ検出メカニズムとして各コンテキストにおいて使用され得る、そして、予測エラーは符号化され得る。パラメートリックゴロムまたはゴロム−ライス符号化が、予測エラーを符号化するために使用され得る。ランレングス符号化が、例えばビットベース符号化器を使用して、１サンプルにつき１ビット以下で、超低エントロピー信号を直接符号化することの困難さを補償するために、加えて使用される。

しかしながら、スケーリング係数および／またはスペクトルエンベロープの符号化と関連した改良にもかかわらず、スペクトルエンベロープのサンプル値を符号化するための改良された概念が、依然必要である。従って、本発明の目的は、スペクトルエンベロープの符号化スペクトル値の概念を提供することである。

この目的は、係属中の独立クレームの主題によって達成される。

本願明細書において記載されている実施例は、スペクトルエンベロープの符号化サンプル値のための改良された概念が、一方ではスペクトル時間予測および、他方では、残差のコンテキストベースエントロピー符号化を結合することによって得られ得る、との発見に基づき、その一方で、現在のサンプル値のスペクトル時間近傍のスペクトルエンベロープのすでに符号化／復号化されたサンプル値のペアの間の偏差のための測定に依存している現在のサンプル値のためのコンテキストを特に決定する。一方のスペクトル時間予測および他方の偏差測定に依存してコンテキストを選択することを伴う予測残差のコンテキストベースエントロピー符号化との組合せは、スペクトルエンベロープの性質と調和する。スペクトル時間相互相関が予測の後、ほぼ完全に除去されて、かつ予測結果のエントロピー符号化に関してコンテキスト選択において無視され得るように、スペクトルエンベロープの平滑性が、コンパクトな予測残差分布において生じる。これは、次に、コンテキストを管理するためのオーバーヘッドを低下させる。現在のサンプル値のスペクトル時間近傍におけるすでに符号化／復号化されたサンプル値の間の偏差測定の使用は、しかしながら、このことにより引き起こされる付加的なオーバーヘッドを正当化する態様におけるエントロピー符号化効率を改善するコンテキスト適応性の提供を、依然可能にする。

以下に記載されている実施例によれば、線形予測は、偏差測定としての差分値の使用と結合され、それにより、符号化のためのオーバーヘッドを低く保つ。

実施例により、コンテキストを選択／決定するために最後に使用される差分値を決定するために使用されるすでに符号化／復号化されたサンプル値の位置は、それらが互いに、スペクトル的に、または、時間的に、現在のサンプル値と一列に並ぶ態様で、隣接し、すなわち、それらが時間あるいはスペクトル軸と平行して１本の線に沿って存在し、そして、コンテキストを決定／選択するときに、差分値の符号がさらに考慮されるように、選択される。この測定により、予測残差における一種の「傾向」は、単にコンテキストを管理しているオーバーヘッドを相当に増加させるだけであると共に、現在のサンプル値のためのコンテキストを決定／選択するときに、考慮され得る。

本出願の好ましい実施例は、図面に関して以下に述べられる：

図１は、スペクトルエンベロープの概略を示し、かつ、スペクトルエンベロープの現在符号化／復号化されたサンプル値のための可能なスペクトル時間近傍のみならずサンプル値からのその成分およびそれらの間で定義された可能な復号化順序を示す図である。図２は、実施例によるスペクトルエンベロープのサンプル値を符号化するためのコンテキストベースエントロピー符号化器のブロック図を示す図である。図３は、偏差測定を量子化する際に使用され得る量子化機能を例示しているブロック線図を示す図である。図４は、図２の符号化器に適合しているコンテキストベースエントロピー復号化器のブロック図を示す図である。図５は、更なる実施例によるスペクトルエンベロープのサンプル値を符号化するためのコンテキストベースエントロピー符号化器のブロック図を示す図である。図６は、エスケープ符号化を使用する実施例による予測残差の可能な値の全体の間隔と関連して予測残差のエントロピー符号化された可能な値の区間の配置を例示している回路図を示す図である。図７は、図５の符号化器に適合しているコンテキストベースエントロピー復号化器のブロック図を示す図である。図８は、特定の表記法を使用しているスペクトル時間近傍の可能な定義を示す図である。図９は、実施例によるパラメトリック音声復号化器のブロック図を示す図である。図１０は、一方ではスペクトルエンベロープによりカバーされた周波数間隔および他方では全体の音声信号の周波数レンジの他の間隔をカバーしている微細構造の間の関係を示すことにより図９のパラメトリック復号化器の可能な実施変形例を模式的に示す図である。図１１は、図１０の変形による図９のパラメトリック音声復号化器に適合している音声符号化器のブロック図を示す図である。図１２は、ＩＧＦ（Intelligent Gap Filling；インテリジェントギャップ充填）をサポートするときに、図９のパラメトリック音声復号化器の変形を例示しているブロック線図を示す図である。図１３は、微細構造スペクトログラム、すなわちスペクトルスライス、スペクトルのＩＧＦ充填および実施例によるスペクトルエンベロープによるその成形、からスペクトルを例示している回路図を示す図である。図１４は、図１２による図９のパラメトリック復号化器の変形例に適合している、ＩＧＦをサポートしている音声符号化器のブロック図を示す図である。

以下で本願明細書において概説される実施例の一種の動機付けとして、それは通常、スペクトルエンベロープの符号化に適用でき、以下で概説される有利な実施例につながる若干の考えは、例証として、インテリジェントギャップ充填（ＩＧＦ）を使用して現在提示される。ＩＧＦは、超低ビットレートでさえ符号化信号の品質を大幅に向上させる新規な方法である。参考文献は、詳細については、以下の説明を参照されたい。いずれにせよ、ＩＧＦは、高周波領域のスペクトルの重要な部分が典型的に不充分なビット配分のためにゼロに量子化されるという事実に対処する。可能な限り保存するために、低周波領域におけるＩＧＦ情報において、より高周波領域の微細構造は、大部分がゼロに量子化された高周波領域における目的領域を適応的に置換えるためのソースとして使用される。良好な知覚的品質を達成するための重要な要求は、オリジナル信号のそれを有するスペクトル係数の復号化されたエネルギーエンベロープの整合である。これを達成するために、平均的スペクトルエネルギーは、一つ以上の連続的なＡＡＣスケーリング係数帯から、スペクトル係数を元に算出される。スケーリング係数帯により定義された境界を使用している平均エネルギーを計算することは、重要な帯域の一部までそれらの境界のすでに存在する細心の調整によって動機付けされ、それは人間の聴覚に特徴的である。平均エネルギーは、ＡＡＣスケーリング係数のための一つと類似した公式を使用しているｄＢスケール表現に変換されて、その後、一様に量子化される。ＩＧＦにおいて、異なる量子化精度が、要求された全ビットレートに応じて任意に使用され得る。平均エネルギーは、ＩＧＦによって発生された情報の重要な部分を構成するので、その効率的な表現は、ＩＧＦの全体のパフォーマンスのために重要性が高い。

従って、ＩＧＦにおいて、スケーリング係数エネルギーは、スペクトルエンベロープを記述する。スケーリング係数エネルギー（ＳｃａｌｅＦａｃｔｏｒＥｎｅｒｇｉｅｓ；ＳＦＥ）は、スペクトル値がスペクトルエンベロープを記述していることを表す。同上を復号化するときに、ＳＦＥの特別な性質を利用し得る。特に、〔２〕および〔３〕とは対照的に、ＳＦＥがＭＤＣＴスペクトル線の平均値を表し、そして、従って、それらの値は、ずっと「滑らか」で、対応する複合スペクトル線の平均的大きさに線形に相関があると理解された。この状況を利用して、以下の実施例は、一方ではスペクトルエンベロープサンプル値予測および他方ではスペクトルエンベロープの隣接したすでに符号化／復号化されたサンプル値のペアの偏差の測定に応じたコンテキストを使用する予測残差のコンテキストベースエントロピー符号化の組合せを使用する。この組合せの使用は、符号化されるべきこの種のデータ、すなわちスペクトルエンベロープ、に特に適している。

更に以下で概説される実施例の理解を容易にするために、図１は、特定のスペクトル時間分解能で音声信号のスペクトルエンベロープ１０のサンプルをとるサンプル値１２からのスペクトルエンベロープ１０およびその成分を示す。図１において、サンプル値１２は、時間軸１４およびスペクトル軸１６に沿って例示的に配置される。各サンプル値１２は、音声信号のスペクトログラムの空間時間領域の、例えば、特定の長方形をカバーしている対応する空間時間タイル内で、スペクトルエンベロープ１０の高さを記述あるいは定義する。サンプル値は、このように、その関連するスペクトル時間タイル上のスペクトログラムを集積することによって得られた統合的な値である。サンプル値１２は、エネルギーまたはいくつかの他の物理的な測定に関してスペクトルエンベロープ１０の高さまたは強さを測定し得て、非対数あるいは線形領域において、または、対数領域において定義され得て、対数領域はさらに、それぞれ、軸１４および１６に沿ってサンプル値を付加的に平滑化するその特徴のために付加的な効果を提供し得る。

以下の説明に関する限り、サンプル値１２がスペクトル的に、かつ、時間的に規則的に配置されることのみが、すなわちサンプル値１２に対応する対応空間時間タイルが、音声信号のスペクトログラムから、定期的に周波数帯１８をカバーすることが、この種の規則性は、義務的でないことが、説明の便宜上仮定される点に留意する必要がある。むしろ、サンプル値１２によるスペクトルエンベロープ１０の不規則なサンプリングも使用され得る。そして、各サンプル値１２が、その対応する空間時間タイル内でスペクトルエンベロープ１０の高さの平均を表す。更に以下で概説される近傍定義は、それにもかかわらずスペクトルエンベロープ１０の不規則なサンプリングのこの種の別の実施例に転送され得る。この種の可能性に関する短い陳述が、以下で提供される。

以前には、しかしながら、上述したスペクトルエンベロープが、さまざまな理由のために、符号化器から復号化器までの伝送のための符号化および復号化の対象になり得ることに注意されたい。例えば、スペクトルエンベロープが、音声信号の低周波帯のコア符号化を拡張するために、すなわち低周波帯をより高い周波数、すなわちスペクトルエンベロープに関する高周波帯、に向かって延長するために、スケーラビリティ目的のために使用され得る。その場合、例えば、後述するコンテキストベースエントロピー復号化器／符号化器は、例えば、ＳＢＲ復号化器／符号化器の一部であり得た。あるいは、同上は、既に上述したように、ＩＧＦを使用している音声符号化器／復号化器の一部であり得た。ＩＧＦにおいて、音声信号スペクトログラムの高周波部分は、スペクトルエンベロープを使用している高周波部分の範囲内でスペクトログラムのゼロ量子化された領域を満たし得るためにスペクトログラムの高周波部分のスペクトルエンベロープを記述しているスペクトル値を使用して付加的に記述されている。この点に関する詳細は、更に以下で記述されている。

図２は、本出願の実施例による音声信号のスペクトルエンベロープ１０のサンプル値１２を符号化するためのコンテキストベースエントロピー符号化器を示す。

図２のコンテキストベースエントロピー符号化器は、通常、参照符号２０を用いて示されて、予測器２２、コンテキスト決定器２４、エントロピー符号化器２６および残差決定器２８を含む。コンテキスト決定器２４および予測器２２は、同上がスペクトルエンベロープ（図１）のサンプル値１２にアクセスする入力を有する。エントロピー符号化器２６は、コンテキスト決定器２４の出力に接続された制御入力を有し、かつ、残差決定器２８の出力に接続されたデータ入力を有する。残差決定器２８は、２つの入力を有し、その一つは予測器２２の出力に接続され、かつ、他の一つは、残差決定器２８にスペクトルエンベロープ１０のサンプル値１２へのアクセスを提供する。特に、残差決定器２８は、その入力で現在符号化されるべきサンプル値ｘを受信し、その一方で、コンテキスト決定器２４および予測器２２は、それらの入力で、すでに符号化されていて、現在のサンプル値ｘのスペクトル時間近傍内に存在しているサンプル値１２を受信する。

すでに上記で概説されるように、サンプル値１２は、時間およびスペクトル軸１４および１６に沿って規則正しく配置されると仮定されるにもかかわらず、この規則性は、義務的でなく、かつ、近傍の定義および隣接したサンプル値の識別は、この種の不規則なケースにまで拡張され得る。例えば、隣接サンプル値“ａ”は、左上角に時間的に先行している時間軸に沿って現在のサンプルのスペクトル時間タイルの左上角に隣接するものとして定義され得る。同様の定義は、他の隣接、例えばｅに対する隣接ｂ、を定義するために使用され得る。

以下でより詳細に概説されるように、予測器２２は、現在のサンプル値ｘのスペクトル時間位置に応じて、スペクトル時間近傍、すなわち｛ａ、ｂ、ｃ、ｄ、ｅ｝のサブセットの中で、すべてのサンプル値の異なるサブセットを使用し得る。どのサブセットが、実際に使用されるかは、例えば、セット｛ａ、ｂ、ｃ、ｄ、ｅ｝により定義されたスペクトル時間近傍内の隣接したサンプル値の入手可能性に依存し得る。隣接するサンプル値ａ，ｄおよびｃは、ランダムなアクセスポイント、すなわち、スペクトルエンベロープ１０の以前の部分への依存が禁制／禁止されるように、復号化器が復号化を開始することを可能にする時点、に直接続いている現在のサンプル値ｘのために例えば利用し得ない。あるいは、それぞれの隣接するサンプル値の位置が、外側の区間１８に収まるように、隣接したサンプル値ｂ、ｃおよびｅは、区間１８の低周波端を表す現在のサンプル値ｘのために利用し得ない。いずれにせよ、予測器２２は、スペクトル近傍内ですでに符号化されたサンプル値を線形結合することにより、現在のサンプル値ｘをスペクトル時間的に予測し得る。

中間の注釈として、スペクトル時間近傍の定義が、コンテキストベースエントロピー符号化器２０がサンプル値１２を順次符号化する符号化／復号化順序に適合し得ることが述べられなければならない。図１に示すように、例えば、コンテキストベースエントロピー符号化器は、最低周波数から最高周波数まで進む、各時刻において、時刻ごとに、サンプル値１２を横断する復号化順序３０を使用しているサンプル値１２を順次符号化するように構成され得る。以下に、「時刻」は「フレーム」として示される、しかし、時刻は、あるいは、タイムスロット、タイムユニット等と呼ばれ得る。いずれにせよ、時間的フィードフォワードの前にこの種のスペクトル横断を使用するときに、先行する時間に、そして、低周波の方へ伸びるスペクトル時間近傍の定義は、対応するサンプル値がすでに符号化／復号化されかつ利用され得るという最も大きな実現可能性を提供する。この場合、それらが存在する場合、近傍内の値は、常にすでに符号化／復号化されている、しかし、これは、他の近傍および復号化順序ペアのために異なり得る。当然、復号化器は、同じ復号化順序３０を使用する。

サンプル値１２は、すでに上記に示されたように、対数領域のスペクトルエンベロープ１０を表し得る。特に、スペクトル値１２は、対数関数的量子化関数を使用している整数値まで、すでに量子化され得た。従って、量子化のため、コンテキスト決定器２４で決定された偏差測定は、本質的にすでに整数でもよい。これは、例えば偏差測定として差分を使用するときの場合である。コンテキスト決定器２４で測定された偏差測定の固有の整数の性質にかかわりなく、コンテキスト決定器２４は、偏差測定を量子化に従属させ得て、量子化された測定を使用しているコンテキストを決定し得る。特に、以下で概説されるように、コンテキスト決定器２４によって使用される量子化関数は、例えば、所定の区間、所定の区間はゼロを含む、の外側で偏差測定の値のために一定であり得る。

図３は、非量子化偏差測定を、この例では、ちょうど言及された所定区間３４が−２．５から２．５まで伸びる量子化された偏差測定にマップするこの種の量子化関数３２を、例示的に示し、区間より大きい非量子化偏差測定値は、常に量子化偏差測定値３にマップされ、かつ区間３４より小さい非量子化偏差測定値は、常に量子化偏差測定値−３にマップされる。従って、単に７つのコンテキストが、区別されて、コンテキストベースエントロピー符号化器でサポートされるべきである。以下で概説される実施例において、ちょうど例示されるように、区間３４の長さは、５であり、スペクトルエンベロープのサンプル値の可能な値のセットの基数は、２ⁿ（例えば＝１２８）、すなわち区間の長さの１６倍より大きい。以後で説明するように、使用されているエスケープ符号化の場合には、スペクトルエンベロープのサンプル値の可能な値の範囲は、［０；２ⁿ［に定義され得る。但し、ｎは、２ⁿ⁺¹が、後述する特定の実施例によれば、３１１である予測残差値の符号化可能な値の基数より小さいように選択された整数である。

完全性のために、図２は、すでに例えば、非量子化サンプル値ｘに適用された対数量子化関数を用いて、量子化器３６が、例えば上記で概説されるように、現在のサンプル値ｘが現在のサンプル値ｘを得るために到来する残差決定器２８の入力の前に接続され得ることを示す。

図４は、実施例によるコンテキストベースエントロピー復号化器を示し、それは図２のコンテキストベースエントロピー符号化器に適合する。

エントロピー復号化器４６は、エントロピー符号化器２６によって実行されたエントロピー符号化を逆変換させる。すなわち、エントロピー復号化器も多くのコンテキストを管理し、かつ、現在のサンプル値ｘのために、コンテキスト決定器４４によって選択されたコンテキストを使用し、各コンテキストは、エントロピー符号化器２６のためにコンテキスト決定器２４により選択されたものと同じ特定の確率ｒの各可能な値に割り当てる関連付けされた対応する確率分布を有する。

算術符号化を使用するときに、エントロピー復号化器４６は、例えば、エントロピー符号化器２６の区間再分割シーケンスを逆転させる。エントロピー復号化器４６の内部状態は、例えば、現在の区間の確率間隔幅により定義され、かつ、オフセット値は、現在の確率間隔内で、現在のサンプル値ｘのｒの実際の値が対応する同上からの部分区間を示す。エントロピー復号化器４６は、エントロピー符号化器２６によって出力された到着する算術符号化ビットストリームを使用して、例えば再正規化プロセスにより、確率間隔およびオフセット値を更新し、かつ、オフセット値を検査して、同上が該当する部分区間を確認することによって、ｒの実際値を得る。

すでに前述した様に、予測残差ｒの可能な値のいくつかの小さい部分区間上へ残差値のエントロピー符号化を制限することは、有益であり得る。図５は、これを実現するために、図２のコンテキストベースエントロピー符号化器の変形例を示す。図２に示される要素に加えて、図５のコンテキストエントロピー符号化器は、制御６０を介して制御されるエスケープ符号化ハンドラ６２と同様に、残差決定器２８およびエントロピー符号化器２６、すなわち、制御６０、の間に接続される制御から成る。

区間６８内に存在する初期の予測残差ｒの場合には、制御６０は、エントロピー符号化器２６に、直接この初期の予測残差ｒをエントロピー符号化させる。特別な措置は、とられないことになっている。しかしながら、残差決定器２８により提供されたように、ｒが区間６８の外側に存在する場合、エスケープ符号化手続は、制御６０により初期化される。特に、区間６８の区間境界７０および７２に直接隣接している直接隣接値は、一実施例により、エントロピー符号化器２６のシンボルアルファベットに属し得て、エスケープ符号自身として機能する。すなわち、中かっこ７４で示されるように、エントロピー符号化器２６のシンボルアルファベットは、区間６８のすべての値およびその区間６８以下のおよび以上の直接隣接した値を含み、かつ、区間６８の下限７０より小さい初期の予測残差のｒの場合、制御６０は、区間６８の上限７２より大きい残差値ｒの場合、区間６８の上限７２に直接隣接している最大のアルファベット値７６にいたるまでエントロピー符号化されるべき値を単に減少し、初期予測残差ｒが区間６８の下限より小さい場合、エントロピー符号化器２６に、区間６８の下限７０に直接隣接している、最小のアルファベット値７８を送る。

明らかに、エスケープ符号化は、区間６８内に存在している通常の予測残差の符号化より複雑ではない。コンテキスト適応は、例えば、使用されない。むしろ、エスケープの場合において符号化された値の符号化は、単に、直接、バイナリ表現を、｜ｒ｜さらにｘのような値のためのバイナリ表現を単に記述することによって実行され得る。しかしながら、エスケープ手順が統計的にほとんど発生せず、単にサンプル値ｘの統計上の「異常値」を表すだけであるように、区間６８は、好ましくは選択される。

図７は、図４のコンテキストベースエントロピー復号化器の変形例を示し、図５のエントロピー符号化器に対応、または、適合する。図５のエントロピー符号化器と同様に、制御７１が一方ではエントロピー復号化器４６および他方では結合器４８の間に接続されるという点で、図７のコンテキストベースエントロピー復号化器は、図４に示されるものと異なり、図７のエントロピー復号化器は、さらに、エスケープ符号ハンドラ７３を含む。図５と同様に、制御７１は、エントロピー復号化器４６により出力されたエントロピー復号化値ｒが、区間６８の中に存在するか、あるいは若干のエスケープコードに対応するか否かのチェック７４を実行する。後者の状況が当てはまる場合、エスケープ符号ハンドラ７３は、エントロピー復号化器４６によってエントロピー復号化されたエントロピー符号化データストリームを運搬もするデータストリームから抽出するために、制御７１によって起動し、前述の符号は、例えば、エントロピー復号化値ｒにより示されたエスケープ符号から独立した自己充足的な態様におけるまたはエントロピー復号化値ｒが図６と関連して既に説明されたように仮定する現実のエスケープ符号に従属した態様における現実の予測残差ｒを示し得る充分なビット長のバイナリ表現を、エスケープ符号ハンドラ６２により挿入される。例えば、エスケープ符号ハンドラ７３は、データストリームからの値のバイナリ表現を読み込むと、エスケープ符号の絶対値、すなわち上限または下限の絶対値、に同上をそれぞれ付け加え、そして、それぞれの境界の符号、すなわち上限のためのプラス符号、下限のためのマイナス符号、を読まれた値の符号として使用する。条件つき符号化が、使用され得る。すなわち、エントロピー復号化器４６によるエントロピー復号化値ｒ出力が、区間６８の外側に位置する場合、エスケープ符号ハンドラ７３は、最初に、例えば、データストリームからｐ−ビット絶対値を読み込み得て、同上が、２^p−１であるかに関して照合し得る。そうでなければ、エントロピー復号化値ｒは、エスケープ符号が上限７２である場合、ｐ−ビット絶対値をエントロピー復号化値ｒに加えることによって、かつ、エスケープ符号が下限７０である場合、ｐ−ビット絶対値をエントロピー復号化値ｒから減算することによって、更新される。しかしながら、ｐ−ビット絶対値が、２^p−１である場合、他のｑ−ビット絶対値は、ビットストリームから読込まれ、かつ、エスケープ符号が、上限７２である場合、エントロピー復号化値ｒはｑ−ビット絶対値＋２^p−１をエントロピー復号化値ｒに加えることにより更新される、そして、エスケープ符号が下限７０である場合、エントロピー復号化値ｒからｐ−ビット絶対値＋２^p−１を引くことにより更新される。

しかしながら、図７は、また、他の変形例を示す。この変形例によれば、エスケープ符号の場合において、推定値が必要以上であるように、エスケープ符号ハンドラ６２および７２によって実現されるエスケープ符号手続は、直接完全なサンプル値ｘを符号化する。例えば、２ⁿビット表現は、その場合十分であり得て、ｘの値を示し得る。

予防措置のみとして、エスケープ符号化を実現する他の方法がスペクトル値のために何かをエントロピー復号化しないことによりこれらの別の実施例によって同様に可能であることに注意されたい。そして、その予測残差は、区間６８を超えるかあるいは外側に存在する。例えば、構文要素ごとに、フラグは、同上がエントロピー符号化を使用して符号化されるか、または、エスケープ符号化が使用されるかを示して送信され得る。その場合、各サンプル値ごとに、フラグは、符号化の選択された方法を示す。

以下に、前記実施例を実現するための具体的な実施例が、記載されている。特に、以下に提示された明確な実施例は、スペクトル時間近傍における特定の以前に符号化／復号化されたサンプル値の上述した入手困難性を取扱う方法を例証する。更に、具体例は、可能な値の範囲６６、区間６８、量子化機能３２、範囲３４その他を設定するために示される。後ほど、具体的な実施例が、ＩＧＦと関連して使用され得ることが、記載されている。しかしながら、以下に提示される説明は、スペクトルエンベロープのサンプル値が配置される時間的格子が、例えば、ＱＭＦスロットのグループのようなフレームより他の時間単位によって定義される他のケースへ容易に移され得ることに注意されたい、そして、スペクトル解像度は、スペクトル時間タイルへのサブバンドのサブグループ化によって同様に定義される。

時間全体のフレーム番号をｔ（時間）によって、かつ、スケール係数（またはスケール係数群）全体のスペクトルエンベロープのそれぞれのサンプル値の位置をｆ（周波数）によって示すものとする。サンプル値は、以下でＳＦＥ値と呼ばれている。我々は、位置（ｔ−１）（ｔ−２），…，ですでに復号化されたフレームから、そして周波数（ｆ−１），（ｆ−２），…で、位置（ｔ）で現行フレームから、既に利用可能な情報を使用して、ｘの値を符号化したい。その状況は、再び図８において、表される。

独立フレームのために、我々は、ｔ＝０をセットした。独立フレームは、復号化実体のためのランダムなアクセスポイントとして適するフレームである。それは、このように、復号化へのランダムアクセスが復号化側で可能である時間を表す。スペクトル軸１６に関する限り、最低周波数と関連した第１のＳＦＥ１２は、ｆ＝０を有する。図８において、コンテキストを計算するために使われる時間および周波数における近隣は（符号化器および復号化器の双方で利用できる）、図１におけるａ、ｂ、ｃ、ｄおよびｅの場合のようである。

以下の図に関して、さまざまな可能性が、上述したコンテキストベースエントロピー符号化器／復号化器が、どのようにそれぞれのオーディオ復号化器／符号化器に組込まれ得るかに関して記述されている。図９は、例えば、上記概説された実施例のいずれかによるコンテキストベースエントロピー復号化器４０が有利に組み込み得るパラメトリック復号化器８０を示す。パラメトリック復号化器８０は、コンテキストベースエントロピー復号化器４０の他に、微細構造決定器８２およびスペクトル成形器８４から成る。任意には、パラメトリック復号化器８０は、逆変換器８６から成る。コンテキストベースエントロピー符号化器４０は、上記で概説されるように、コンテキストベースエントロピー符号化器の上記で概説された実施例のいずれかにより符号化されたエントロピー符号化データストリーム８８を受信する。データストリーム８８は、従って、そこに符号化されるスペクトルエンベロープを有する。コンテキストベースエントロピー復号化器４０は、上記で概説される方法で、パラメトリック復号化器８０が再生しようとする音声信号のスペクトルエンベロープのサンプル値を復号化する。微細構造決定器８２は、この音声信号のスペクトログラムの微細構造を決定するように構成される。この目的で、微細構造決定器８２は、外部、例えばまた、データストリーム８８からも成っているデータストリームの他の部分、から、情報を受取り得る。更なる変形例が、以下で説明される。他の変形例において、しかしながら、微細構造決定器８２は、確率あるいは疑似確率過程を使用して、単独で微細構造を決定し得る。コンテキストベースエントロピー復号化器４０によって復号化されるスペクトル値によって定義されるように、スペクトル成形器８４は、次に、スペクトルエンベロープにより微細構造を成形するように構成される。換言すれば、それぞれ、一方では、スペクトル成形器８４の入力は、一方では同上からスペクトルエンベロープを受信するために、他方では音声信号のスペクトログラムの微細構造を受信するために、それぞれ、コンテキストベースエントロピー復号化器４０および微細構造決定器８２の出力に接続され、かつスペクトル成形器８４は、その出力で、スペクトルエンベロープにより成形されたスペクトログラムの微細構造を出力する。逆変換器８６は、その出力で音声信号の再構成を出力するために成形された微細構造上に逆変換を実行し得る。

特に、微細決定器８２は、スペクトル予測および／またはスペクトルエントロピーコンテキスト導出を使用する人工乱数生成、スペクトル再生およびスペクトル線方向復号化の少なくとも１つを使用するスペクトログラムの微細構造を決定するように構成され得る。最初の２つの可能性は、図１０に関して記載されている。図１０は、コンテキストベースエントロピー復号化器４０により復号化されたスペクトルエンベロープ１０が、低周波区間９０のより高周波拡張を形成する周波数区間１８、すなわち、区間１８は、より低周波区間９０をより高周波に拡張し、すなわち、区間１８は後者のより高周波側で区間１９に接する、に関連するという可能性を説明する。従って、図１０は、実際にパラメトリックデコーダ８０によって再生されるべき音声信号が、区間１８が単に全体の周波数区間９２の高周波部分を表す周波数区間９２を実際にカバーするという可能性を示す。図９に示すように、パラメトリックデコーダ８０は、例えば、加えて、その出力で音声信号の低周波帯バージョンを得るためにデータストリーム８８を伴っている低周波データストリーム９６を復号化するように構成される低周波復号化器９４を付加的に含み得る。この低周波バージョンのスペクトログラムは、図１０において参照符号９８を使用して表される。まとめると、音声信号のこの周波数バージョン９８および区間１８内に成形された微細構造は、完全な周波数区間９２の、すなわち完全な周波数区間９２全体のそのスペクトログラムの、音声信号再生を生じる。図９の点線によって示されるように、逆変換器８６は、完全な区間９２上へ逆変換を実行し得る。このフレームワークにおいて、微細構造決定器８２は、時間領域または周波数領域における復号化器９４から、低周波バージョン９８を受取り得る。第１のケースにおいて、微細構造決定器８２は、スペクトログラム９８を得るために、かつ、矢印１００を用いて図示されたように、スペクトル再生を使用しているコンテキストベースエントロピー復号化器４０により提供されたスペクトルエンベロープによりスペクトル成形器８４によって成形されるべき微細構造を得るために、受信された低周波バージョンをスペクトル領域への変換を行わせ得る。しかしながら、すでに上記で概説されたように、微細構造決定器８２は、ＬＦ復号化器９４から音声信号の低周波バージョンを受け取ることさえできず、単に確率あるいは疑似確率過程を使用しているだけの微細構造を生成することさえできない。

図９および１０によるパラメトリック復号化器に適合している対応するパラメトリック符号化器は、図１１において表される。図１１のパラメトリック符号化器は、符号化されるべき音声信号１１２を受信している周波数クロスオーバー１１０と、高周波帯符号化器１１４と、低周波帯符号化器１１６とを含む。周波数クロスオーバー１１０は、インバウンド音声信号１１２を２つの成分、すなわちインバウンド音声信号１１２のハイパスフィルタ処理バージョンに対応する第１の信号１１８、および、インバウンド音声信号１１２のローパスフィルタ処理バージョンに対応する低周波信号１２０、に分解し、高周波信号１１８および低周波信号１２０によりカバーされた周波数帯は、いくつかのクロスオーバー周波数で互いに隣接する（図１０の１２２と比較されたい）。低周波帯符号化器１１６は、低周波信号１２０を受信して、同上を低周波データストリーム、すなわち、９６に符号化する、そして、高周波帯エンコーダ１１４は、高周波区間１８内で高周波信号１１８のスペクトルエンベロープを記載しているサンプル値を計算する。高周波帯符号化器１１４も、スペクトルエンベロープのこれらのサンプル値を符号化するための上述のコンテキストベースエントロピー符号化器が具備されている。低周波帯符号化器１１６は、例えば変換符号化器でもよく、かつ、低周波帯符号化器１１６が、低周波信号１２０の変換またはスペクトログラムを符号化するスペクトル時間分解能は、サンプル値１２が高周波信号１１８のスペクトルエンベロープを分解するスペクトル時間分解能より大きくてもよい。従って、高周波帯符号化器１１４は、特に、データストリーム８８を出力する。図１１の点線１２４で示されたように、低周波帯符号化器１１６は、例えばスペクトルエンベロープを記述しているサンプル値のこの生成に関して高周波帯符号化器１１４を制御するために、または、少なくともサンプル値がスペクトルエンベロープのサンプルをとるスペクトル時間分解能の選択に関して、高周波帯符号化器１１４に、情報を出力し得る。

図１２は、図９のパラメトリック復号化器８０および特に微細構造決定器８２を実現する他の可能性を示す。特に、図１２の実施例によれば、微細構造決定器８２そのものは、データストリームを受信して、その上に基づいて、スペクトル予測および／またはスペクトルエントロピー−コンテキスト導出を使用しているスペクトル線方向復号化を使用している音声信号スペクトログラムの微細構造を決定する。すなわち、微細構造決定器８２そのものは、データストリームから、例えば、重複変換のスペクトラムの時間シーケンスから成るスペクトログラムの形の微細構造を回復する。しかしながら、図１２の場合、このように微細構造８２により決定された微細構造は、第１の周波数間隔１３０に関連し、かつ、音声信号、すなわち９２の完全な周波数間隔と一致する。

図１２の実施例において、スペクトルエンベロープ１０が関連する周波数区間１８は、区間１３０と完全に重複する。特に、区間１８は、区間１３０の高周波部分を形成する。例えば、スペクトログラム１３２の範囲内のスペクトル線の多くは、微細構造決定器８２によって回復され、かつ、周波数区間１３０をカバーすることは、特に高周波部分１８の範囲内で、ゼロに量子化される。それにもかかわらず、高品質で音声信号を再生するために、手ごろなビットレートで、高周波部分１８の範囲内でさえ、パラメトリック復号化器８０は、スペクトルエンベロープ１０を活用する。スペクトルエンベロープ１０のスペクトル値１２は、微細構造決定器８２により復号化されたスペクトログラム１３２のスペクトル時間分解能より粗いスペクトル時間分解能で、高周波部分１８の範囲内で音声信号のスペクトルエンベロープを記述する。例えば、スペクトルエンベロープ１０のスペクトル時間分解能は、スペクトル項においてより粗い、すなわち、そのスペクトル分解能は、微細構造１３２のスペクトル線精度より粗い。上述の通り、スペクトル的に、スペクトルエンベロープ１０のサンプル値１２は、スペクトルエンベロープ１０を、例えば、スペクトログラム１３２のスペクトル線がスペクトル線係数のスケーリング係数バンド方向スケーリングのために分類された周波数帯１３４に記述し得る。

スペクトル成形器８４は、それから、サンプル値１２を使用して、スペクトル再生または人工ノイズ生成のような機構を使用しているそれぞれのサンプル値１２に対応するスペクトル線群またはスペクトル時間タイルの範囲内でスペクトル線を充填し得て、スペクトルエンベロープを記述している対応するサンプル値に従ってそれぞれのスペクトル時間タイル／スケーリング係数群内で生じる微細構造レベルまたはエネルギーを調整する。図１３を参照されたい。図１３は、１つのフレームまたはその時間、例えば図１２の時間１３６、に対応するスペクトログラム１３２からスペクトルを例示する。スペクトルは、参照符号１４０を使用して、例示される。図１３にて図示したように、そのいくつかの部分１４２は、ゼロに量子化される。図１３は、高周波部分１８、および、中かっこによって示されたスケーリング係数帯へのスペクトル１４０のスペクトル線の再分割、を示す。“ｘ”および“ｂ”および“ｅ”を使用して、図１３は、３つのサンプル値１２が時間１３６− 各スケーリング係数帯のための１つ− の高周波部分１８の範囲内でスペクトルエンベロープを記述することを例示する。これらのサンプル値ｅ、ｂおよびｘに対応する各スケーリング係数帯の範囲内で、微細構造決定器８２は、ハッチングを付された領域１４４で示されたように、スペクトル１４０の少なくともゼロ量子化部分１４２の範囲内で、例えば完全な周波数区間１３０のより低周波部分１４６からのスペクトル再生により、微細構造を生成し、かつ、サンプル値ｅ、ｂおよびｘに応じたまたはサンプル値ｅ、ｂおよびｘを使用することによる人工微細構造１４４をスケーリングすることによるスペクトルにより生じるエネルギーを調整する。興味深いことに、中間的な、または、高周波部分１８のスケーリング係数帯の範囲内のスペクトル１４０の非ゼロ量子化された部分１４８がある、そして、したがって、図１２によるインテリジェントギャップ充填を用いて、それはスペクトル線分解能でかつ任意のスペクトル線位置で完全な周波数区間１３０の高周波部分１８においてさえスペクトル１４０の範囲内でピークを配置することが可能である、そして、それにもかかわらず、これらゼロ量子化された部分１４２の範囲内で挿入された微細構造を成形するためのサンプル値ｘ，ｂおよびｅを用いるゼロ量子化された部分１４２を満たすための機会がある。

最後に、図１２および１３の説明により実施されるときに、図１４は、図９のパラメトリック復号化器を給電するための可能なパラメトリック符号化器を示す。特に、その場合、パラメトリック符号化器は、インバウンド音声信号１５２を完全な周波数間隔１３０をカバーしている完全なスペクトログラムにスペクトル的に分解するように構成される変換器１５０を含み得る。可変変換長を有する重複変換が、使用され得る。スペクトル線符号化器１５４は、スペクトル線分解能で、このスペクトログラムを符号化する。この目的を達成するために、スペクトル線符号化器１５４は、変換器１５０からの高周波部分１８および残りの低周波部分を、両部分が隙間なくかつ重複することなく、完全な周波数区間１３０をカバーするように受信する。パラメトリック高周波符号化器１５６は、単に変換器１５０からスペクトログラム１３２の高周波部分１８を受け取って、少なくとも、データストリーム８８、すなわち高周波部分１８の範囲内でスペクトルエンベロープを記述しているサンプル値を生成する。

すなわち、図１２〜１４の実施例によれば、音声信号のスペクトログラム１３２は、スペクトル線符号化器１５４によってデータストリーム１５８に符号化される。従って、スペクトル線符号化器１５４は、時間またはフレーム１３６につき、完全な区間１３０のスペクトル線につき１つのスペクトル線値を符号化し得る。図１２の小さい箱１６０は、これらのスペクトル線値を示す。スペクトル軸１６に沿って、スペクトル線は、スケーリング係数帯に分類され得る。換言すれば、周波数区間１６は、スペクトル線のグループから成るスケーリング係数帯に再分割され得る。スペクトル線符号化器１５４は、データストリーム１５８を介して符号化される量子化されたスペクトル線値１６０をスケーリングするために、各時間の中で各スケーリング係数帯ごとにスケーリング係数を選択し得る。スペクトル線値１６０が規則的に配置される時間およびスペクトル線により定義されたスペクトル時間格子より少なくとも粗く、かつスケール係数分解能により定義されたラスターと一致し得るスペクトル時間分解能で、パラメトリック高周波符号化器１５６は、高周波部分１８の範囲内でスペクトルエンベロープを記述する。興味深いことに、非ゼロ量子化されたスペクトル線値１６０は、それらが陥るスケーリング係数帯のスケーリング係数によりスケーリングされ、スペクトル線解像度で、高周波部分１８の範囲内でいかなる位置でも散在し得る、そして、従って、微細構造決定器８２およびスペクトル成形器８４が、例えば、スペクトログラム１３２の高周波部分１８の範囲内でそれらの微細構造合成および成形を、ゼロ量子化された部分１４２に制限するように、それらは高周波部分の範囲内でスペクトルエンベロープを記述しているサンプル値を使用しているスペクトル成形器８４の範囲内で、復号化側で高周波合成を生じる。結局、一方では費やされるビットレートおよび他方では入手できる品質の間の非常に効果的な妥協が生じる。

１６４で示された、図１４中の破線の矢によって示されるように、スペクトル線符号化器１５４は、データストリーム１５８から再構成可能として、例えば、スペクトログラム１３２の再構成可能なバージョンに関してパラメトリック高周波符号化器１５６に通知し得て、パラメトリック高周波符号化器１５６は、例えば、サンプル値１２および／またはスペクトルエンベロープ１０の表現のスペクトル時間解像度をサンプル値１２により制御するために、この情報を使用する。

上記を要約すれば、上記実施例は、スペクトルエンベロープのサンプル値の特別な特性を利用する。ここで、〔２〕および〔３〕とは対照的に、この種のサンプル値は、スペクトル線の平均値を表す。上記で概説されるすべての実施例において、変換は、ＭＤＣＴを使用し得る、そして、従って、逆ＭＤＣＴがすべての逆変換のために使用され得る。いずれにせよ、スペクトルエンベロープのこの種のサンプル値は、ずっと「滑らかで」、対応する複合スペクトル線の平均値に、線形に相関する。加えて、少なくとも前記実施例のいくつかによれば、以下でＳＦＥ値と呼ばれる、スペクトルエンベロープのサンプル値は、実際ｄＢ領域またはより一般的に対数関数的領域であり、それは、対数関数的表現である。これは、スペクトル線のための線形領域またはべき法則領域の値と比較して更に「平滑性」を改良する。例えば、ＡＡＣで、べき乗指数は、０．７５である。〔４〕とは対照的に、少なくとも若干の実施例において、スペクトルエンベロープサンプル値は、対数関数的領域中に存在し、特性および符号化分布の構造は、著しく異なる（その大きさに応じて、１つの対数関数的領域値は、概して、線形領域値の指数的に増加している数にマッピングする）。従って、少なくとも、上記した実施例のいくつかは、コンテキスト（コンテキストのより少ない数が、典型的に存在する）の量子化におけるおよび各コンテキスト（各分布の裾は、より広い）における分布の裾を符号化する際における対数関数的表現を利用する。〔２〕とは対照的に、量子化されたコンテキストを計算する際に使用されたように、同一データに基づいて、前記実施例のいくつかは、各コンテキストにおいて固定されたあるいは適応的な線形予測をさらに使用する。依然、最適パフォーマンスを得る間に、この方法は、コンテキストの数を大幅に削減することに役立つ。例えば〔４〕とは対照的に、実施例の少なくともいくつかの中で、対数関数的領域における線形予測は、著しく異なる使用および重要性を有する。例えば、恒常的なエネルギースペクトル領域、更には信号のフェードインおよびフェードアウトスペクトル領域の両方を完全に予測することは、可能である。〔４〕とは対照的に、上記した実施例のいくつかは、任意の分布の最適符号化が代表的なトレーニングデータセットから抽出された情報を使用するのを可能にする算術符号化を使用する。同様に算術符号化を使用する〔２〕とは対照的に、前記実施例によれば、オリジナル値よりむしろ、予測誤差値が、符号化される。さらに、前記実施例で、ビットプレーン符号化は、使用される必要はない。ビットプレーン符号化は、しかしながら、整数値ごとにいくつかの算術符号化ステップを必要とする。それに比べて、前記実施例によれば、スペクトルエンベロープの各サンプル値は、上述のように、全サンプル値分布の中央より外側の値をエスケープ符号化する選択的使用を含む１ステップを含む範囲内で符号化／復号化され得て、それは非常に高速である。

図９、１２および１３に関して上述されたように、再びＩＧＦをサポートするパラメータ復号化器の実施例を手短に要約すれば、この実施例によれば、微細構造決定器８２は、第１の周波数区間１３０、すなわち完全な周波数区間内の音声信号のスペクトログラムの微細構造１３２を導出するためにスペクトル予測および／またはスペクトルエントロピーコンテキスト導出を使用したスペクトル線方向の復号化を使用するように構成される。周波数−線方向の復号化は、微細構造決定器８２が、スペクトル的に、スペクトル行ピッチ内に配置されるデータストリームからスペクトル線値１６０を受け取るという事実を示し、それによって、それぞれの時間部分に対応する時間ごとにスペクトル１３６を形成する。スペクトル予測の使用は、例えば、スペクトル軸１６に沿ったこれらのスペクトル線値の差動符号化を含み得る、すなわち、単に直ちにスペクトル的に先行するスペクトル線値に対する差分だけは、データストリームから復号化されて、この先行値に加えられる。スペクトルエントロピー−コンテキスト導出は、それぞれのスペクトル線値１６０をエントロピー復号化するためのコンテキストが、現在復号化されたスペクトル線値１６０の、スペクトル時間近傍において、または少なくともスペクトル近傍で、既に復号化されたスペクトル線値に依存し得る、すなわち、既に復号化されたスペクトル線値に基づいて加算的に選択され得るという事実を意味し得る。微細構造のゼロ量子化された部分１４２を充填するために、微細構造決定器８２は、人工ランダムノイズ生成および／またはスペクトル再生を使用し得る。微細構造決定器８２は、例えば、全体の周波数区間１３０の高周波部分に制限され得る第２の周波数区間１８の中で、単にこれを実行する。スペクトル的に再生された部分は、例えば、残りの周波数部分１４６から取得され得る。スペクトル成形器は、それから、このように、ゼロ量子化された部分でサンプル値１２によって記述されているスペクトルエンベロープに従って得られる微細構造の成形を実行する。特に、区間１８内の微細構造の非ゼロ量子化部分の成形後の微細構造の結果への寄与は、実際のスペクトルエンベロープ１０から独立している。これは、以下を意味する：すなわち、最終的な微細構造スペクトルにおいて、単に部分１４２は、人工ランダムノイズ生成および／またはスペクトルエンベロープ成形を使用するスペクトル再生により充填され、それらが残っている非ゼロ寄与１４８は、部分１４２間に散在するように、人工ランダムノイズ生成および／またはスペクトル再生すなわち充填は、完全にゼロ量子化部分１４２に制限されるか、あるいは、全ての人工ランダムノイズ生成および／またはスペクトル生成は、交互に生じる、すなわち、スペクトルエンベロープ１０により合成された微細構造を生じることを形成することによって、それぞれ合成された微細構造は、付加的な態様において、部分１４８上に置かれるか、を意味する。しかしながら、その場合でさえ、元の復号化された微細構造の非ゼロ量子化された部分１４８としての貢献は、維持される。

図１２〜１４の実施例に関して、これらの図に関して記載されているＩＧＦ（インテリジェントギャップ充填）手順または概念が、超低ビットレートでさえ符号化信号の品質を大幅に向上させる点に最終的に注意すべきであり、高周波領域１８におけるスペクトルの重要な部分は、典型的に不十分なビット割当てのためにゼロに量子化される。より高周波領域１８、ＩＧＦ情報、の微細構造を可能な限り保存するために、低周波領域が、大部分はゼロ、まで量子化された高周波領域、すなわち領域１４２の目的領域を適応的に置き換えるソースとして使われる。良好な知覚的な品質を成し遂げるために重要な要件は、オリジナルの信号のそれを有するスペクトル係数の復号化エネルギーエンベロープのマッチングである。これを達成するために、平均スペクトルエネルギーは、一つ以上の連続的なＡＡＣスケーリング係数帯から、スペクトル係数上に算出される。結果の値は、スペクトルエンベロープを記述しているサンプル値１２である。スケーリング係数帯によって定義された境界を使用している平均を計算することは、臨界帯域の一部までそれらの境界の既存の慎重なチューニングによって動機づけされ、それは人間の聴覚に特徴的である。上記の通り、平均エネルギーは、例えば、すでにＡＡＣスケーリング係数で知られていて、一様に量子化されるものと類似し得る式を使用して、対数関数的な、例えば、ｄＢスケール表現に変換され得る。ＩＧＦにおいて、異なる量子化精度が、要求された総ビットレートに応じて任意に使用され得る。平均エネルギーが、ＩＧＦによって発生する情報の重要な部分を構成し、それで、データストリーム８８内のその効率的な表現は、ＩＧＦ概念の全体のパフォーマンスにとって、極めて重要である。

若干の態様が、装置の文脈において記載されていたにもかかわらず、これらの態様は、対応する方法の説明を表すことも明らかであり、ここで、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈にも記載されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップのいくつかまたは全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のような、ハードウェア装置により（またはハードウェア装置を使用することで）実行され得る。いくつかの実施形態では、最も重要な方法ステップの一つ以上は、この種の装置によって実行され得る。

特定の実施要件に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアにおいて実施され得る。実施は、その上に格納される電子的に読込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ハードディスク、ＤＶＤ、Blu-Ray（登録商標）、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリ、を使用して実行され得る。そして、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協同する（または協同され得る）。従って、デジタル記憶媒体は、計算機可読でもよい。

本発明によるいくつかの実施例は、本願明細書において記載されている方法のうちの１つを実行するような、プログラム可能なコンピュータシステムと協同し得る、電子的に読み込み可能な制御信号を有するデータキャリアを含む。

通常、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実施され得て、コンピュータプログラム製品がコンピュータ上で動くときに、プログラムコードが方法の１つを実行するために作動する。プログラムコードは、例えば機械可読キャリアに格納され得る。

他の実施例は、本願明細書において記載され、機械可読キャリアに格納された方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、本発明の方法の実施例は、従って、コンピュータプログラムがコンピュータで実行されるとき、本願明細書において記載されている方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法の更なる実施例は、従って、その上に記録されて、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを含むデータ担体（またはデジタル記憶媒体またはコンピュータ可読媒体）である。データ担体、デジタル記憶媒体または記録媒体は、典型的に有形でおよび／または、非遷移である。

本発明の方法の更なる実施例は、従って、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連のシーケンスは、データ通信接続、例えばインターネットを介して転送されるように例えば構成され得る。

更なる実施例は、本願明細書において記載されている方法の１つを実行するために構成され、あるいは適合された処理手段、例えば、コンピュータまたはプログラム可能な論理装置、を含む。

更なる実施例は、その上に、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムがその上にインストールされたコンピュータを含む。

本発明による更なる実施例は、レシーバに、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムを転送する（例えば、電子的に、または、光学的に）ように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリデバイス等でもよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを含み得る。

いくつかの実施形態では、プログラム可能な論理装置（例えば、フィールドプログラマブルゲートアレイ）は、本願明細書において記載されている方法の機能のいくつかまたは全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書において記載されている方法のうちの１つを実行するために、マイクロプロセッサと協同され得る。通常、方法は、任意のハードウェア装置によって好ましくは実行される。

上記した実施例は、本発明の原理のために、単に図示するだけである。装置の修正変更および本願明細書において記載された詳細は、当業者にとって明らかであるものと理解される。従って、差し迫った特許請求の範囲だけによって制限され、そして、明細書および実施例の説明により示される具体的な詳細だけで制限されないことが、意図される。

参考文献

[1] International Standard ISO/IEC 14496-3:2005, Information technology - Coding of audio-visual objects - Part 3: Audio, 2005.

[2] International Standard ISO/IEC 23003-3:2012, Information technology - MPE G audio technologies - Part 3: Unified Speech and Audio Coding, 2012.

[3] B. Edler and N. Meine: Improved Quantization and Lossless Coding for Subb and Audio Coding, AES 118th Convention, May 2005.

[4] M.J. Weinberger and G. Seroussi: The LOCO-I Lossless Image Compression Al gorithm: Principles and Standardization into JPEG-LS, 1999. Available online at http://www.hpl.hp.com/research/info#theory/loco/HPL-98-193R1.pdf

Claims

音声信号のスペクトルエンベロープ（１０）のサンプル値（１２）を復号化するためのコンテキストベースエントロピー復号化器であって、
前記スペクトルエンベロープの現在のサンプル値をスペクトル時間的に予測（４２）して、前記現在のサンプル値の推定値を取得し、
前記現在のサンプル値のスペクトル時間的近傍における前記スペクトルエンベロープのすでに復号化されたサンプル値のペアの間の差に依存して、前記現在のサンプル値のためのコンテキストを決定し（４４）、
決定された前記コンテキストを使用して、前記現在のサンプル値の予測残差値をエントロピー復号化し（４６）、
前記推定値および前記予測残差値を結合（４８）して前記現在のサンプル値を取得するように構成された、コンテキストベースエントロピー復号化器。
前記スペクトル時間的予測を線形予測によって実行するように更に構成される、請求項１に記載のコンテキストベースエントロピー復号化器。
前記差の符号および大きさに依存して前記コンテキストを決定するように構成される、請求項１又は２に記載のコンテキストベースエントロピー復号化器。
前記現在のサンプル値に隣接する前記スペクトルエンベロープのすでに復号化されたサンプル値の第１のペアの間の第１の差および前記現在のサンプル値に隣接する前記スペクトルエンベロープのすでに復号化されたサンプル値の第２のペアの間の第２の差、に依存して前記現在のサンプル値のための前記コンテキストを決定するように更に構成され、前記第１のペアは互いにスペクトル的に隣接し、前記第２のペアは互いに時間的に隣接する、請求項１ないし３のいずれかに記載のコンテキストベースエントロピー復号化器。
前記第１および第２のペアの前記すでに復号化されたサンプル値を線形に結合することにより、前記スペクトルエンベロープの前記現在のサンプル値をスペクトル時間的に予測するように更に構成された、請求項４に記載のコンテキストベースエントロピー復号化器。
前記音声信号が符号化されるビットレートが所定の閾値よりも大きい場合には、異なるコンテキストについて係数が等しく、かつ、前記ビットレートが前記所定の閾値より小さい場合には、前記係数が前記異なるコンテキストについて個別に設定されるように、前記線型結合の前記係数を設定するように更に構成される、請求項５に記載のコンテキストベースエントロピー復号化器。
前記スペクトルエンベロープの前記サンプル値を復号化する際に、前記サンプル値が各時間を横切るようにさらに構成され、かつ、各時間において最低周波数から最高周波数に通じる復号化順序（３０）を使用して前記サンプル値を順次復号化するように構成される、請求項１ないし６のいずれかに記載のコンテキストベースエントロピー復号化器。
前記コンテキストを決定する際に、前記差を量子化し、前記量子化された差を使用して前記コンテキストを決定するようにさらに構成された、請求項１ないし７のいずれかに記載のコンテキストベースエントロピー復号化器。
前記差の前記量子化において、所定区間（３４）の外側の前記差の値について一定な量子化関数（３２）を使用するようにさらに構成され、前記所定区間はゼロを含む、請求項８に記載のコンテキストベースエントロピー復号化器。
前記スペクトルエンベロープの値は整数として表わされ、かつ、前記所定区間（３４）の長さは、前記スペクトルエンベロープの値の整数表現の表現可能な状態の数の１／１６より小さいか、または等しい、請求項９に記載のコンテキストベースエントロピー復号化器。
前記結合より導き出された前記現在のサンプル値を、対数関数的領域から線形領域まで移行（５０）するように更に構成される、請求項１ないし１０のいずれかに記載のコンテキストベースエントロピー復号化器。
前記コンテキストベースエントロピー復号化器は多数のコンテキストを管理し、各コンテキストには、前記予測残差値の各可能値にそれぞれの確率を割当てる確率分布が関連付けられ、
前記コンテキストベースエントロピー復号化器は、前記残差値をエントロピー復号化する際に、復号化順序に沿って前記サンプル値を順次復号化し、かつ、スペクトルエンベロープの前記サンプル値を順次復号化する間は一定である、コンテキスト別の確率分布のセットを使用するようにさらに構成される、請求項１ないし１１のいずれかに記載のコンテキストベースエントロピー復号化器。
前記残差値をエントロピー復号化する際に、前記残差値が所定の値の範囲（６８）の外側にある場合にエスケープ符号化機構を使用するようにさらに構成される、請求項１ないし１２のいずれかに記載のコンテキストベースエントロピー復号化器。
前記スペクトルエンベロープの前記サンプル値は整数として表わされ、かつ、前記予測残差は整数として表わされ、また、前記所定の値の範囲の区間境界（７０、７２）の絶対値は、前記予測残差値の表現可能な状態の数の１／８より小さいか、または等しい、請求項１３に記載のコンテキストベースエントロピー復号化器。
請求項１ないし１４のいずれかに記載の音声信号のスペクトルエンベロープのサンプル値を復号化するためのコンテキストベースエントロピー復号化器（４０）と、
スペクトル線ピッチ内にスペクトル的に配置されたデータストリームからスペクトル線値（１６０）を受信して、前記音声信号のスペクトログラムの微細構造を決定するように構成された微細構造決定器（８２）と、
前記スペクトルエンベロープに従って前記微細構造を成形するように構成されたスペクトル成形器（８４）とを含む、パラメトリック復号化器。
前記微細構造決定器は、人工ランダムノイズ生成、スペクトル再生、およびスペクトル予測および／またはスペクトルエントロピー―コンテキスト導出を使用したスペクトル線方向の復号化のうちの少なくとも１つを使用して、前記スペクトログラムの前記微細構造を決定するように構成される、請求項１５に記載のパラメトリック復号化器。
前記音声信号のスペクトログラムのより低い周波数区間（９８）を復号化するように構成された低周波区間復号化器（９４）をさらに含み、前記コンテキストベースエントロピー復号化器、前記微細構造決定器および前記スペクトル成形器は、前記スペクトルエンベロープに係る前記微細構造の前記成形が、前記より低い周波数区間のスペクトル高周波拡張（１８）内で実行されるように構成される、請求項１５または１６に記載のパラメトリック復号化器。
前記低周波区間復号化器（９４）は、スペクトル予測および／またはスペクトルエントロピー−コンテキスト導出を使用したスペクトル線方向の復号化を使用して、または復号化された時間領域低周波帯音声信号のスペクトル分解を使用して、前記スペクトログラムの前記微細構造を決定するように構成される、請求項１７に記載のパラメトリック復号化器。
前記微細構造決定器は、スペクトル予測および／またはスペクトルエントロピー−コンテキスト導出を使用したスペクトル線方向の復号化を使用して、第１の周波数区間（１３０）内での前記音声信号の前記スペクトログラムの前記微細構造を導出し、前記第１の周波数区間に重複する第２の周波数区間（１８）内での前記微細構造のゼロ量子化された部分（１４２）を検出し、かつ、前記ゼロ量子化された部分（１４２）に人工ランダムノイズ生成および／またはスペクトル再生を適用するように構成され、前記スペクトル成形器（８４）は、前記ゼロ量子化された部分（１４２）で前記スペクトルエンベロープに従って前記微細構造の前記成形を実行するように構成される、請求項１５または１６に記載のパラメトリック復号化器。
音声信号のスペクトルエンベロープのサンプル値を符号化するためのコンテキストベースエントロピー符号化器であって、
前記スペクトルエンベロープの現在のサンプル値をスペクトル時間的に予測して、前記現在のサンプル値の推定値を取得し、
前記現在のサンプル値のスペクトル時間的近傍における前記スペクトルエンベロープのすでに符号化されたサンプル値のペアの間の差に依存して、前記現在のサンプル値のためのコンテキストを決定し、
前記推定値および前記現在のサンプル値の間の偏差に基づいて予測残差値を決定し、
前記決定されたコンテキストを使用して、前記現在のサンプル値の前記予測残差値をエントロピー符号化するように構成される、コンテキストベースエントロピー符号化器。
コンテキストベースエントロピー復号化を使用して、音声信号のスペクトルエンベロープのサンプル値を復号化するための方法であって、
前記スペクトルエンベロープの現在のサンプル値をスペクトル時間的に予測して、前記現在のサンプル値の推定値を取得するステップと、
前記現在のサンプル値のスペクトル時間的近傍における前記スペクトルエンベロープのすでに復号化されたサンプル値のペアの間の差に依存して、前記現在のサンプル値のためのコンテキストを決定するステップと、
決定された前記コンテキストを使用して、前記現在のサンプル値の予測残差値をエントロピー復号化するステップと、
前記推定値と前記予測残差値を結合して、前記現在のサンプル値を取得するステップとを含む、方法。
コンテキストベースエントロピー符号化を使用して、音声信号のスペクトルエンベロープのサンプル値を符号化するための方法であって、
前記スペクトルエンベロープの現在のサンプル値をスペクトル時間的に予測して、前記現在のサンプル値の推定値を取得するステップと、
前記現在のサンプル値のスペクトル時間的近傍における前記スペクトルエンベロープのすでに符号化されたサンプル値のペアの間の差に依存して、前記現在のサンプル値のためのコンテキストを決定するステップと、
前記推定値と前記現在のサンプル値の間の偏差に基づいて予測残差値を決定するステップと、
決定された前記コンテキストを使用して、前記現在のサンプル値の前記予測残差値をエントロピー符号化するステップとを含む、方法。
コンピュータ上で動作するときに、請求項２１または２２に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。