JP2012505423A

JP2012505423A - マルチ分解能切替型のオーディオ符号化及び復号化スキーム

Info

Publication number: JP2012505423A
Application number: JP2011530415A
Authority: JP
Inventors: マックスノイエンドルフ; ステファンバイエル; ジェレミーレコンテ; ギロームフッハス; ジュリアンロビラード; ニコラスレッテルバッハ; フレデリックナーゲル; ラルフガイガー; マルクスムルトラス; ベルンハルトグリル; フィリッペグールネイ; レドワンサラミ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン; ヴォイスエイジ・コーポレーション
Priority date: 2008-10-08
Filing date: 2009-10-07
Publication date: 2012-03-01
Anticipated expiration: 2029-10-07
Also published as: CA2739736A1; CO6362072A2; CN102177426B; KR20110081291A; RU2011117699A; CN102177426A; JP5555707B2; MY154633A; RU2520402C2; EP2345030A2; AR076060A1; KR20130133917A; ZA201102537B; TWI419148B; TW201142827A; CA2739736C; AU2009301358A1; TWI520128B; KR20130069833A; AU2009301358A8

Abstract

オーディオ信号を符号化するオーディオ符号器は、信号を時間ドメインから周波数ドメインへと変換する第１変換器（４１０）を持つ第１符号化分枝（４００）を備える。さらにオーディオ符号器は第２の時間／周波数変換器（５２３）を持つ第２符号化分枝（５００）と、オーディオ信号を分析する信号分析器（３００／５２５）とを備える。信号分析器は、一方では、あるオーディオ部分が符号器出力信号の中で第１符号化分枝からの第１符号化済信号として有効か、第２符号化分枝からの第２符号化済信号として有効かを決定する。他方では、信号分析器は、前記符号化済信号を生成するときに変換器（４１０，５２３）により適用される時間／周波数分解能を決定する。出力インターフェイスは、第１符号化済信号と第２符号化済信号に加え、第１時間／周波数変換器と第２時間／周波数変換器とにより使用される分解能を示す分解能情報を含む。
【選択図】図１１ａ

Description

本発明は、オーディオ符号化に関し、特に低ビットレートでのオーディオ符号化スキームに関する。

当該分野では、ＭＰ３やＡＡＣ（高効率オーディオ圧縮符号化）のような周波数ドメインの符号化スキームが公知である。これら周波数ドメインの符号器は、時間ドメイン／周波数ドメインの変換を基礎とし、その次に、聴覚心理モジュールからの情報を用いて量子化誤差を制御する量子化ステージと、量子化されたスペクトル係数及び対応するサイド情報を符号テーブルを用いてエントロピー符号化する符号化ステージとを有する。

一方、非特許文献１の中で記述されているＡＭＲ−ＷＢ＋（適応型マルチレート・広帯域）のように、スピーチ処理に非常に適合する符号器も存在する。このようなスピーチ符号化スキームは、時間ドメイン信号のＬＰ（線形予測）濾波を実行する。このＬＰ濾波は、入力された時間ドメイン信号の線形予測分析から導出される。結果として得られるＬＰフィルタ係数は、次に量子化／符号化され、サイド情報として伝送される。このプロセスは、線形予測符号化（ＬＰＣ）として知られる。フィルタの出力では、励振信号として知られる予測残余信号又は予測誤差信号は、ＡＣＥＬＰ（代数符号励振線形予測）のＡｂＳ（合成による分析）ステージを用いて符号化されるか、その代わりに、オーバーラップを伴うフーリエ変換を使用する変換符号器を用いて符号化される。ＡＣＥＬＰ符号化と、ＴＣＸ（変換符号化済励振）符号化とも呼ばれる変換符号化された励振符号化との間の切替は、閉ループ又は開ループのアルゴリズムを用いて実行される。

ＡＡＣ符号化スキームとスペクトル帯域複製（ＳＢＲ）の技術とを組み合わせた高効率ＡＡＣ（ＨＥ−ＡＣＣ）符号化スキーム等の周波数ドメイン・オーディオ符号化スキームは、「ＭＰＥＧサラウンド」として知られるジョイントステレオや多チャネル符号化ツールとも組み合わせることができる。

他方、ＡＭＲ−ＷＢ＋等のようなスピーチ符号器もまた、高周波拡張ステージ及びステレオ機能を備えている。

周波数ドメイン符号化スキームは、音楽信号を低ビットレートで高品質に符号化できるという点で有利である。しかし他方、低ビットレートにおけるスピーチの品質が問題となる。

スピーチ符号化スキームは、スピーチ信号に対しては低ビットレートでも高品質を達成できるが、他方、音楽信号に対しては低ビットレートでは低品質しか達成できない。

3GPP TS 26.290 3GPP TS 26.190 "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No. 10, October 1994, pages 1541-1582 ISO/IEC 14496-3, subpart 4.1.1.2. ISO/IEC 14496-3, subpart 4, subclause 4.5.2.3.4 Table 4.110 to Table 4.128, in ISO/IEC 14496-3, subpart 4, section 4.5.4 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate _ Wideband (AMR-WB+) codec; Transcoding functions ISO/IEC 14496-3, subpart 4, section 4.5.4 Table 4.129 to Table 4.147 ISO/IEC 14496-3:2005, Information technology _ Coding of audio-visual objects _ Part 1: Systems ISO/IEC 11172-3:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio. ITU-T Rec.H.222.0(1995) | ISO/IEC 13818-1:2000, Information technology - Generic coding of moving pictures and associated audio information: _ Part 1: Systems. ISO/IEC 13818-3:1998, Information technology - Generic coding of moving pictures and associated audio information: - Part 3: Audio. ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC). ISO/IEC 14496-3:2005, Information technology _ Coding of audio-visual objects _ Part 3: Audio ISO/IEC 23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate _ Wideband (AMR-WB+) codec; Transcoding functions 3GPP TS 26.190, Adaptive Multi-Rate _ Wideband (AMR-WB) speech codec; Transcoding functions 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions ISO/IEC 14496-3, subpart 1, subclause 1.3 (Terms and definitions) 3GPP TS 26.290, section 3 (Definitions and abbreviations)

本発明の目的は、符号化及び復号化の改良された概念を提供することである。

本発明の目的は、請求項１に記載のオーディオ符号器、請求項９に記載のオーディオ符号化方法、請求項１０に記載のオーディオ復号器、請求項１９に記載のオーディオ復号化方法、請求項２０に記載の符号化された信号、又は請求項２１に記載のコンピュータプログラムにより達成される。

本発明は、ハイブリッドモード又はデュアルモードで切り替えられる符号化／復号化スキームが、ある信号特性に対して常に最適な符号化アルゴリズムを選択できるという点で有利である、という知見に基づいている。換言すれば、本発明は、全ての信号の特性に対して完全に適合する１つの信号符号化アルゴリズムを探しているわけではない。そのような全般型のスキームは、音楽オーディオ符号器を一方とし、スピーチ符号器を他方とする状態の相互間に大きな差異があることから分かるように、常にある妥協の産物となるであろう。代わりに、本発明は、スピーチ符号化アルゴリズムを一方とし、オーディオ符号化アルゴリズムを他方として、ある切替型のスキーム内で様々な符号化アルゴリズムを組み合わせるものであり、その結果、各オーディオ信号部分のために最も適合する符号化アルゴリズムが選択される。さらに、本発明のもう１つの特徴は、両方の符号化分枝が時間／周波数変換器を含み、片方の分枝がＬＰＣ処理器などの追加のドメイン変換器をも備えていることである。このドメイン変換器により、ある信号特性にとっては第１分枝よりも第２分枝の方がより適合することが確実となる。本発明の他の特徴として、このドメイン処理器により出力された信号がスペクトル表示へと変換されることも挙げられる。

両方の変換器、即ち第１符号化分枝の第１変換器と第２符号化分枝の第２変換器とは、マルチ分解能の変換符号化を適用する。そこでは、対応する変換器の分解能はオーディオ信号に依存するよう設定されており、特に、対応する符号化分枝内で実際に符号化されたオーディオ信号に依存する。その結果、品質を一方としビットレートを他方とする場合の良好な妥協点、又は、ある一定の品質を考慮した場合における最低のビットレート若しくは一定のビットレートを考慮した場合における最高の品質を取得することができる。

本発明に従えば、２つの変換器の時間／周波数分解能は、好適には互いに独立するよう設定されており、その結果、各時間／周波数変換器は対応する信号の時間／周波数分解能の要件に対して最適に適合することができる。ビット効率、即ち有用ビットとサイド情報ビットとの間の関係は、より長いブロックサイズ／ウインドウ長の方が高くなる。そのため、両方の変換器がより長いウインドウを偏重する方が好ましい。なぜなら、基本的に、同量のサイド情報は、短いブロックサイズ／ウインドウ長／変換長を適用する場合に比べ、オーディオ信号のより長い時間部分を反映するからである。好適には、符号化分枝内の時間／周波数分解能は、これらの分枝内に位置する他の符号化／復号化ツールからの影響を受けても良い。好適には、ＬＰＣ処理器などのドメイン変換器を含む第２符号化分枝は、ＡＣＥＬＰ分枝を一方としＴＣＸスキームを他方とする、もう一つのハイブリッドスキームを含み、そこでは第２変換器はＴＣＸスキーム内に含まれる。好適には、ＴＣＸ分枝に位置する時間／周波数分解能変換器は符号化の判定からも影響を受け、その結果、第２符号化分枝内の信号の１つの部分は、第２変換器を持つＴＣＸ分枝内で処理されるか、又は時間／周波数変換器を持たないＡＣＥＬＰ分枝内で処理される。

基本的に、ドメイン変換器も第２符号化分枝も、特に、第２符号化分枝内の第１処理分枝及び第２符号化分枝内の第２処理分枝も、スピーチに関連した要素である必要はない。このスピーチに関連した要素とは、ドメイン変換器としてのＬＰＣ分析器や、第２処理分枝としてのＴＣＸ符号器や、第１処理分枝としてのＡＣＥＬＰ符号器などである。スピーチを一方とし音楽を他方とするようなオーディオ信号特性とは異なる、他の信号特性が評価されるときには、他のアプリケーションもまた有用である。任意のドメイン変換器や符号化分枝の構成も使用でき、最適なアルゴリズムは、「合成による分析」のスキームにより発見できる。その結果、符号器側では、オーディオ信号の各部分について符号化の選択肢全てが実行され、最適な結果が選択される。このとき、最適な結果とは、符号化の結果に対してある目標関数を適用することで発見されても良い。次に、符号化されたオーディオ信号の所定の部分の根底にある符号化アルゴリズムを復号器に対して指示するサイド情報が、符号器出力インターフェイスによって、その符号化されたオーディオ信号に添付される。その結果、復号器は、符号器側のどの判定又はどの信号特性に対しても注意を払う必要がなく、伝送されたサイド情報に基づいてその復号化分枝を単に選択する。さらに、復号器は、単に正しい復号化分枝を選択するだけでなく、符号化された信号内にある符号化されたサイド情報に基づき、対応する第１復号化分枝と対応する第２復号化分枝とにどの時間／周波数分解能を適用すべきか、を選択する。

従って、本発明は１つの符号化／復号化スキームを提供し、このスキームは全ての異なる符号化アルゴリズムの利点を結合し、これらの符号化アルゴリズムの欠点、即ち、所定の符号化アルゴリズムには適さないアルゴリズムによって信号部分を符号化せざるを得なかったときに発生するような欠点を防止する。さらに本発明は、異なる符号化分枝内の異なるオーディオ信号部分によって挙げられた異なる時間／周波数分解能の要件が考慮されなかった場合に、招来するであろうあらゆる欠点を回避できる。代わりに、両方の分枝における時間／周波数変換器の可変的な時間／周波数分解能のために、同じ時間／周波数分解能が両方の符号化分枝に適用された場合、又は１つの固定的な時間／周波数分解能だけがどちらの符号化分枝でも使用可能である場合において発生するであろう、あらゆるアーチファクトが少なくとも低減され、あるいは完全に防止される。

第２のスイッチも２つの処理分枝の間で切り替えを実行するが、しかし、「外側の」第１分枝のドメインとは異なるドメインにおいて実行する。「内側」の分枝の一方では、主としてソースモデルやＳＮＲ計算が使用され、「内側」の分枝の他方では、シンクモデル及び／又は聴覚心理モデル、即ちマスキングが使用されても良く、或いは、少なくとも周波数／スペクトルドメイン符号化の態様を含む。一例として、一方の「内側」分枝は周波数ドメイン符号器／スペクトル変換器を備え、他方の分枝は、ＬＰＣドメイン等の他のドメインで符号化を実行する符号器、例えばスペクトル変換なしで入力信号を処理するＣＥＬＰ（符号励振線形予測）やＡＣＥＬＰの量子化器／スケーラを備える。

本発明の他の好適な実施例は、スペクトルドメイン符号化分枝のような情報シンク指向の第１符号化分枝と、ＬＰＣドメイン符号化分枝のような情報ソース又はＳＮＲ指向の第２符号化分枝と、これら第１符号化分枝と第２符号化分枝との間で切り替えを実行するスイッチと、を備えたオーディオ符号器である。この第２符号化分枝は、励振信号を生成するＬＰＣ分析ステージのような、時間ドメインとは異なる特定ドメインへの変換器を有し、さらに、この第２符号化分枝は、ＬＰＣドメイン処理分枝のような特定のドメインと、ＬＰＣスペクトルドメイン処理分枝のような特定のスペクトルドメインと、これら特定ドメイン処理分枝と特定スペクトルドメイン処理分枝との間で切り替えを実行する追加的なスイッチと、を備えている。

本発明の他の好適な実施例は、スペクトルドメインのような第１ドメインの復号化分枝と、励振信号等の信号をＬＰＣドメインのような第２ドメインで復号化する復号化分枝と、励振信号等の信号をＬＰＣスペクトルドメインのような第３ドメインで復号化する復号化分枝と、を備えたオーディオ復号器であり、この第３ドメインは第２ドメインからの周波数変換により取得される。このオーディオ復号器は、第２ドメイン信号と第３ドメイン信号との間を切り替える第１スイッチと、第１ドメインの復号器と第２ドメイン又は第３ドメインの復号化器との間を切り替える第２スイッチと、を含む。

次に、本発明の好適な実施の形態を、添付の図面を参照しながら説明する。

本発明の第１実施形態に係る符号化スキームのブロック図である。本発明の第１実施形態に係る復号化スキームのブロック図である。本発明の他の実施形態に係る符号化スキームのブロック図である。本発明の第２実施形態に係る符号化スキームのブロック図である。本発明の第２実施形態に係る復号化スキームの概要ブロック図である。本発明の他の実施形態に係る符号化スキームのブロック図である。本発明の他の実施形態に係る符号化スキームのブロック図である。本発明の他の実施形態に係る復号化スキームのブロック図である。縦列型スイッチを有する符号化装置／方法の概要図である。縦列型結合器を使用する復号化装置又は方法の概要図である。時間ドメイン信号と、符号化済信号の対応する表示とを示し、２つの符号化済信号に含まれた短いクロスフェード領域を示す図である。符号化分枝の前にスイッチを配置したブロック図である。符号化分枝の次にスイッチを配置した符号化スキームのブロック図である。図５ａは時間ドメインのスピーチ部分の波形を、準周期的又はインパルス状の信号部分として示す図であり、図５ｂは図５ａの信号分節のスペクトルを示す図である。図５ｃは無声音スピーチの時間ドメインスピーチ部分をノイズ状部分の一例として示す図であり、図５ｄは図５ｃの時間ドメイン波形のスペクトルを示す図である。合成による分析ＣＥＬＰ符号化手段のブロック図である。スピーチ生成システムの線形モデルを示す図である。スピーチ生成システムの全極フィルタモデルを示す図である。有声音の励振信号をインパルス状の信号の一例として示す。無声音の励振信号をインパルス状の信号の一例として示す。短期間予測情報及び予測誤差（励振）信号を提供する符号器側のＬＰＣステージを示す。重み付き信号を生成するＬＰＣ装置のさらなる実施例を示す。図２ｂの変換器５３７において必要な、逆重み付け操作と後続の励振分析との適用による、重み付き信号から励振信号への変換の構成を示す。本発明のある実施形態に係るジョイント多チャネルアルゴリズムのブロック図である。帯域拡張アルゴリズムの好適なある実施形態を示す。開ループの切替判定を実行する場合のスイッチを詳細に示す。閉ループの切替判定モードで操作する場合のスイッチを示す。本発明の他の態様に従うオーディオ符号器のブロック図を示す。本発明のオーディオ復号器の他の実施例のブロック図を示す。本発明の符号器の他の実施例を示す。本発明の復号器の他の実施例を示す。分解能とウインドウ／変換長との間の相互関係を示す。第１符号化分枝のための変換ウインドウのセットと、第１符号化分枝から第２符号化分枝への遷移を概略的に示す。第１符号化分枝のためのウインドウシーケンスと第２符号化分枝への遷移のためのシーケンスとを含む、複数の異なるウインドウシーケンスを示す。第２符号化分枝の好適な実施例のフレーミングを示す。第２符号化分枝に適用された短いウインドウを示す。第２符号化分枝に適用された中程度のサイズのウインドウを示す。第２符号化分枝に適用された長いウインドウを示す。１つのスーパーフレーム分割におけるＡＣＥＬＰフレームとＴＣＸフレームの例示的なシーケンスを示す。第２符号化分枝のための様々な時間／周波数分解能に対応する様々な変換長を示す。図１４ｆの定義を使用したウインドウの構築を示す。

図１１ａはオーディオ信号を符号化するオーディオ符号器の一実施例を示す。この符号器は、第１符号化アルゴリズムを用いてオーディオ信号を符号化して第１符号化済信号を取得するための、第１符号化分枝４００を含む。

オーディオ符号器はさらに、第２符号化アルゴリズムを用いてオーディオ信号を符号化して第２符号化済信号を取得するための、第２符号化分枝５００を含む。第１符号化アルゴリズムは第２符号化アルゴリズムとは異なる。さらに、オーディオ信号の１つの部分について第１符号化済信号又は第２符号化済信号のいずれかが符号器出力信号８０１の中に存在するように、第１符号化分枝と第２符号化分枝との間を切り替えるためのスイッチ２００が設けられている。

図１１ａに示すオーディオ符号器は、信号分析器３００／５２５をさらに備え、この分析器はオーディオ信号の一部分を分析し、オーディオ信号のその部分が符号器出力信号８０１において第１符号化済信号として表現されるか、又は第２符号化済信号として表現されるかを決定する。

信号分析器３００／５２５はさらに、第１符号化分枝４００内の第１変換器４１０の時間／周波数分解能、又は第２符号化分枝５００内の第２変換器５２３の時間／周波数分解能をそれぞれ可変的に決定する。オーディオ信号のある部分を表現する第１符号化済信号又は第２符号化済信号が生成されたとき、この時間／周波数分解能が適用される。

オーディオ符号器は、オーディオ信号の前記部分の符号化済表現と、そのオーディオ信号の表現が第１符号化済信号であるか第２符号化済信号であるかを示し且つその第１符号化済信号及び第２符号化済信号を復号化するために使用する時間／周波数分解能を示す情報と、を含む符号器出力信号８０１を生成するための、出力インターフェイス８００をさらに備えている。

第２符号化分枝は、好適には以下の点において第１符号化分枝とは異なる。即ち、第２符号化分枝は、オーディオ信号が第１符号化分枝内で処理されるドメインからある別のドメインへとそのオーディオ信号を変換するためのドメイン変換器をさらに備えている。好適には、このドメイン変換器はＬＰＣ処理器５１０であるが、しかし、このドメイン変換器は、第１変換器４１０及び第２変換器５２３とから異なる限り、任意の方法で構成されても良い。

第１変換器４１０は時間／周波数変換器であり、好適にはウインドウ化手段４１０ａと変換手段４１０ｂとを備える。ウインドウ化手段４１０ａは、入力されたオーディオ信号に対して分析ウインドウを適用し、変換手段４１０ｂはそのウインドウ化された信号をスペクトル表示へと変換する。

同様に、第２変換器５２３は、好適にはウインドウ化手段５２３ａとその次に接続された変換手段５２３ｂとを備える。ウインドウ化手段５２３ａはドメイン変換器５１０から出力された信号を受け取り、そのウインドウ化された表現を出力する。ウインドウ化手段５２３ａにより適用された１つの分析ウインドウの結果は、変換手段５２３ｂへと入力され、あるスペクトル表現を形成する。この変換手段はＦＦＴでも良く、又は好適にはＭＤＣＴ処理器でも良く、ソフトウエア内、ハードウエア内又はハードウエア／ソフトウエアが混合した構成内において、対応するアルゴリズムを実行する。代替的に、この変換手段は、プロトタイプフィルタの実数値又は複素の変調に基づく、例えばＱＭＦフィルタバンクのようなフィルタバンク構成であっても良い。特定のフィルタバンク構成に対し、あるウインドウが適用される。しかし、他のフィルタバンク構成に対しては、ＦＦＴ又はＭＤＣＴに基づく変換アルゴリズムのために必要とされるようなウインドウ処理は使用されない。もし、可変分解能フィルタバンクが使用された場合、そのフィルタバンクは周波数分解能を制御し且つ時間分解能をも制御するか、又は、周波数分解能だけを制御して時間分解能は制御しない。しかし、この変換器がＦＦＴ、ＭＤＣＴ又は他の対応する任意の変換器として構成された場合には、時間的に大きなブロック長により得られた周波数分解能の増大分が、低い時間分解能に自動的に対応し、その逆もまた真となるという方法で、周波数分解能と時間分解能とが関連付けられている。

さらに、第１符号化分枝は量子化器／符号器ステージ４２１を含んでも良く、第２符号化分枝も、１つ又は複数の追加的符号化ツール５２４を含んでも良い。

重要な点は、前記信号分析器が第１変換器５１０及び第２変換器５２３のための分解能制御信号を生成するという点である。それにより、一方では低いビットレートを提供し、他方ではその低いビットレートから見た最高品質を提供するような符号化のスキームを達成できるように、両方の符号化分枝において独立した分解能制御が実行される。低いビットレートという目的を達成するためには、長いウインドウ長又は長い変換長が好ましい。しかし、これら長いウインドウ長や長い変換長が、低い時間分解能に起因するアーチファクトを招く場合には、短いウインドウ長や短い変換長が適用され、それらは低い周波数分解能をもたらす。好適には、前記信号分析器は、符号化分枝内の対応するアルゴリズムに適したある統計的分析又は他の任意の分析を適用する。第１符号化分枝がＡＡＣベースの符号器などのような周波数ドメインの符号化分枝であり、第２符号化分枝がＬＰＣ処理器５１０をドメイン変換器として含む、ある実施モードにおいては、信号分析器がスピーチ／音楽の判別を実行し、その結果、オーディオ信号のスピーチ部分が第２符号化分枝へと送られるようにスイッチ２００が制御される。オーディオ信号の音楽部分は、図中にスイッチ制御ラインで示すように、第１符号化分枝４００へと伝送されるようにスイッチ２００が制御される。代替的に、図１Ｃ又は図４Ｂに関して後述するように、このスイッチは出力インターフェイス８００の前に配置されても良い。

さらに、前記信号分析器は、スイッチ２００へと入力されたオーディオ信号を受け取ることができ、或いはこのスイッチ２００により出力されたオーディオ信号を受け取ることができる。さらに、信号分析器は、前記オーディオ信号を対応する符号化分枝へと供給するためだけではなく、信号分析器と変換器とを接続している分解能制御ラインにより示されるように、対応する符号化分枝内の各変換器（第１変換器４１０と第２変換器５２３）の適切な時間／周波数分解能を決定するためにも、分析を実行する。

図１１ｂは、図１１ａのオーディオ符号器に適合するオーディオ復号器の好適な実施例を示す。

図１１ｂの復号器は、図１１ａの出力インターフェイス８００により出力された符号器出力信号８０１のような、符号化されたオーディオ信号を復号化する。符号化された信号は、第１符号化アルゴリズムに従って符号化された第１符号化済オーディオ信号と、第１符号化アルゴリズムとは異なる第２符号化アルゴリズムに従って符号化された第２符号化済オーディオ信号と、第１符号化済信号及び第２符号化済信号を復号化するために、第１符号化アルゴリズム又は第２符号化アルゴリズムを使用するか否かを指示する情報と、第１符号化済オーディオ信号及び第２符号化済オーディオ信号のための時間／周波数分解能情報と、を含む。

オーディオ復号器は、第１符号化アルゴリズムに基づいて第１符号化済信号を復号化するための第１復号化分枝４３１，４４０を含む。さらに、オーディオ復号器は、第２符号化アルゴリズムを用いて第２符号化済信号を復号化するための第２復号化分枝を含む。

第１復号化分枝は、スペクトルドメインから時間ドメインへと変換するための制御可能な第１変換器４４０を備える。この制御可能な変換器は、第１符号化済信号からの時間／周波数分解能情報を使用して制御され、第１復号化済信号を取得する。

第２復号化分枝は、スペクトル表示から時間表示へと変換するための制御可能な第２変換器を備え、この制御可能な第２変換器５３４は第２符号化済信号のための時間／周波数分解能情報９９１を使用して制御される。

この復号器は、時間／周波数分解能情報９９１に従って第１変換器５４０と第２変換器５３４とを制御するための、制御手段９９０をさらに備える。

さらにこの復号器は、図１１ａの符号器内のドメイン変換器５１０によって適用されたドメイン変換をキャンセルするように、第２復号化済信号を使用して合成信号を生成するための、ドメイン変換器を備える。

好適には、このドメイン変換器５４０はＬＰＣ合成処理器であり、符号化済信号の中に含まれたＬＰＣフィルタ情報を使用して制御される。このＬＰＣフィルタ情報は図１１ａ内のＬＰＣ処理器５１０によって生成されたものであり、符号器の出力信号の中にサイド情報として挿入されたものである。最後に、オーディオ復号器は結合器６００を備え、第１ドメイン変換器４４０により出力された第１復号化済信号と、前記合成信号とを結合し、復号化されたオーディオ信号６０９を取得する。

この好適な実施例においては、第１復号化分枝は逆量子化／復号化ステージ４３１をさらに備え、このステージは、対応する符号化ステージ４２１によって実行された操作を逆戻しするか、又は少なくとも部分的に逆戻しする。しかし、量子化は損失が多い操作であるため、量子化を逆戻しできないことは明らかである。とはいえ、逆量子化器は、対数(logarithmic)又は圧伸(companding)量子化のような量子化における所定の不均一性を逆戻しする。

第２復号化分枝においては、ステージ５２４により適用された所定の符号化操作をもとに戻すための対応するステージ５３３が適用される。好適には、ステージ５２４は均一な量子化を含む。そして、対応するステージ５３３は、所定の均一な量子化をもとに戻すための特定の逆量子化ステージを持たないであろう。

第１変換器４４０及び第２変換器５３４は、それぞれ逆変換手段ステージ４４０ａ，５３４ａと、合成ウインドウステージ４４０ｂ，５３４ｂと、次に接続されたオーバーラップ／加算ステージ４４０ｃ，５３４ｃとを備える。変換器、詳しくは変換手段ステージ４４０ａ，５３４ａが、変形離散コサイン変換などのエイリアシングを導入する変換を適用した場合には、オーバーラップ／加算ステージが必要となる。次に、オーバーラップ／加算操作は、時間ドメインのエイリアシング・キャンセル操作（ＴＤＡＣ）を実行する。しかし、変換手段が、逆ＦＦＴなどのエイリアシングを導入しない変換を適用した場合には、オーバーラップ／加算ステージ４４０ｃは不要となる。そのような構成においては、ブロッキングアーチファクトを防止するためのクロスフェーディング操作が適用されても良い。

同様に、結合器６００は、切替型の結合器若しくはクロスフェード型の結合器であっても良く、又は、ブロッキングアーチファクトを防止するためにエイリアシングが使用された場合には、その分枝そのものの中にあるオーバーラップ／加算ステージと同様に、遷移(transition)ウインドウ処理操作が結合器によって実行される。

図１ａは、２つの縦列型スイッチを有する本発明の一実施例を示す。モノラル信号、ステレオ信号若しくは多チャネル信号が、スイッチ２００へと入力される。スイッチ２００は判定ステージ３００により制御される。ブロック２００へと入力される信号は、判定ステージにも入力として受け取られる。代替的に、判定ステージ３００は、上記モノラル信号、ステレオ信号若しくは多チャネル信号の中に含まれたサイド情報を受け取っても良く、又は、例えば上記モノラル信号、ステレオ信号若しくは多チャネル信号を元々製造した時に生成された信号であって情報が存在する信号に対して、少なくとも関連付けられたサイド情報を受け取っても良い。

判定ステージ３００はスイッチ２００を活性化して、図１ａの上側の分枝で示す周波数符号化部分４００か、又は図１ａの下側の分枝で示すＬＰＣドメイン符号化部分５００かのいずれかに対して信号を送る。周波数ドメイン符号化分枝の鍵となる要素は、（後述するような）共通前処理ステージの出力信号をスペクトルドメインへと変換する、スペクトル変換ブロック４１０である。このスペクトル変換ブロックは、ＭＤＣＴアルゴリズム、ＱＭＦ、ＦＦＴアルゴリズム、ウェーブレット分析などを含んでも良く、又は、所定個数のフィルタバンクチャネルを備え、このフィルタバンク内のサブバンド信号が実数値信号或いは複素値信号でも良い、臨界的にサンプリングされたフィルタバンクを含んでも良い。このスペクトル変換ブロック４１０の出力は、スペクトルオーディオ符号器４２１を用いて符号化され、この符号器はＡＡＣ符号化のスキームから知られる処理ブロックを含んでもいても良い。

一般的に、分枝４００内の処理は知覚ベースモデル又は情報シンクモデルにおける処理である。従って、この分枝は音を受け取る人間の聴覚システムをモデル化したものである。対照的に、分枝５００内の処理は、励振、残余又はＬＰＣドメインにおいて信号を生成するためのものである。一般的に、この分枝５００の処理はスピーチモデル又は情報生成モデルにおける処理である。スピーチ信号に対しては、このモデルは音を生成する人間のスピーチ／音生成システムのモデルである。しかし、もし異なる音生成モデルを必要とする異なるソースからの音を符号化すべき場合には、分枝５００における処理も異なっていても良い。

下方の符号化分枝５００において、鍵となる要素はＬＰＣ装置５１０であり、この装置５１０はＬＰＣフィルタの特性を制御するために使用されるＬＰＣ情報を出力する。このＬＰＣ情報は復号器に伝達される。ＬＰＣステージ５１０の出力信号は、励振信号及び／又は重み付き信号からなるＬＰＣドメイン信号である。

ＬＰＣ装置は一般的にＬＰＣドメイン信号を出力し、この信号は、図７ｅの励振信号や図７ｆの重み付き信号、又は他の信号等、ＬＰＣドメイン内のいかなる信号であっても良く、これらの信号はＬＰＣフィルタ係数をオーディオ信号へと適用することで生成されたものである。ＬＰＣ装置は、これらの係数を決定することができ、これらの係数を量子化／符号化することもできる。

判定ステージ３００における判定は信号適応型であっても良く、判定ステージは音楽／スピーチ判別を実行し、音楽信号は上方の分枝４００へと入力され、スピーチ信号は下方の分枝５００へと入力されるようにスイッチ２００を制御する。一実施例においては、判定ステージはその判定情報を出力ビットストリームへと提供し、その結果、復号器はこの判定情報を使用して正確な復号操作が実行可能になる。

図１ｂはこのような復号器を示す。スペクトルオーディオ符号化手段４２１から出力された信号は、伝送後、スペクトルオーディオ復号器４３１へと入力される。スペクトルオーディオ復号器４３１の出力は、時間ドメインの変換器４４０へと入力される。同様に、図１ａのＬＰＣドメイン符号化分枝５００の出力は、復号器側で受信され、要素５３１，５３３，５３４，５３２によって処理され、ＬＰＣ励振信号が取得される。ＬＰＣ励振信号はＬＰＣ合成ステージ５４０に入力され、この合成ステージは、さらなる入力として、対応するＬＰＣ分析ステージ５１０により生成されたＬＰＣ情報を受け取る。時間ドメインの変換器４４０の出力及び／又はＬＰＣ合成ステージ５４０の出力は、スイッチ６００へと入力される。このスイッチ６００はスイッチ制御信号を介して制御されるが、スイッチ制御信号は、例えば判定ステージ３００により生成されたか、又は、オリジナルのモノラル信号、ステレオ信号若しくは多チャネル信号の作成者等により外部的に提供されたものである。スイッチ６００の出力は、完全なモノラル信号、ステレオ信号又は多チャネル信号である。

スイッチ２００と判定ステージ３００への入力は、モノラル信号、ステレオ信号、多チャネル信号などの一般的なオーディオ信号で良い。スイッチ２００の入力信号、又はスイッチ２００の入力信号の根底にあるオリジナルオーディオ信号の作成者等の外部的なソース、から導出される判定に従い、スイッチは周波数符号化分枝４００とＬＰＣ符号化分枝５００との間で切替を実行する。周波数符号化分枝４００は、スペクトル変換ステージ４１０と、後続の量子化／符号化ステージ４２１とを有する。量子化／符号化ステージは、ＡＡＣ符号化手段のような現代の周波数ドメイン符号化手段では公知であるいかなる機能を含んでも良い。さらに、量子化／符号化ステージ４２１内の量子化操作は、周波数に係る聴覚心理マスキング閾値等の聴覚心理情報を生成する聴覚心理モジュールを介して制御されても良く、この場合、その情報はステージ４２１へと入力される。

ＬＰＣ符号化分枝５００では、スイッチからの出力信号は、ＬＰＣサイド情報及びＬＰＣドメイン信号を生成するＬＰＣ分析ステージ５１０を介して処理される。本発明の励振符号器は、次に、ＬＰＣドメイン信号を量子化／符号化ステージ５２２においてＬＰＣドメインで処理するか、或いは量子化／符号化ステージ５２４においてＬＰＣスペクトルドメインで処理するか、の間で切替を実行する追加的なスイッチ５２１を有する。このＬＰＣスペクトルドメイン処理のために、スペクトル変換器５２３が量子化／符号化ステージ５２４の入力側に設けられる。スイッチ５２１は、例えばＡＭＲ−ＷＢ＋の技術仕様書に記載されたような特定の設定に依存して、開ループ状態又は閉ループ状態で制御される。

閉ループの制御モードのために、本発明の符号器は、ＬＰＣドメイン信号のための逆の量子化／符号化器５３１と、ＬＰＣスペクトルドメイン信号のための逆の量子化／符号化器５３３と、この逆の量子化／符号化器５３３の出力を受け入れる逆スペクトル変換器５３４と、をさらに備える。第２符号化分枝の２つの処理分枝内にある符号化され再度逆符号化された両方の信号は、スイッチ制御装置５２５へと入力される。スイッチ制御装置５２５内では、これら２つの出力信号は互いに比較され、及び／又は目標関数と比較される。目標関数は両方の信号内の歪の比較に基づいて計算されても良く、その結果、スイッチ５２１の切替位置は、より低い歪を有する信号を使用して決定される。代替的に、両方の分枝が一定でないビットレートを提供する場合には、より低いビットレートを提供する分枝の方を、たとえその分枝の信号対雑音比が他の分枝の信号対雑音比よりも低い場合であっても、選択しても良い。代替的に、目標関数は、各信号の信号対雑音比と各信号のビットレート及び／又は追加的な基準を入力として使用し、特定の目的のための最良の判定を見つけるようにしても良い。もし、例えばこの目的が「ビットレートをできる限り低くすること」であれば、目標関数は、要素５３１と５３４から出力される２つの信号のビットレートに大きく依存することになるであろう。しかし、主目的が「所定のビットレートで最高品質を有すること」であれば、スイッチ制御装置５２５は、例えば許容ビットレートを超える各信号を捨て去り、もし両方の信号が許容ビットレート以下であれば、スイッチ制御装置は、より良好な信号対雑音比を有する信号、即ちより小さい量子化／符号化歪を有する信号を選択するであろう。

上述したように、本発明に従う復号化のスキームを図１ｂに示す。上述の発生可能な３種類の各出力信号のために、特別な復号化／逆量子化ステージ４３１，５３１，５３３が存在する。ステージ４３１は時間スペクトル(周波数ドメイン信号)を出力し、周波数／時間変換器４４０を使用して時間ドメインへと変換される一方で、ステージ５３１はＬＰＣドメイン信号を出力し、装置５３３はＬＰＣスペクトルを出力する。スイッチ５３２への入力信号の両方がＬＰＣドメインであることを確保するため、ＬＰＣスペクトル／ＬＰＣ変換器５３４が設けられている。スイッチ５３２の出力データは、ＬＰＣ合成ステージ５４０を用いて時間ドメインへと逆変換され、この合成ステージは、符号器側で生成され伝送されたＬＰＣ情報を介して制御されている。ブロック５４０の後では両方の分枝が時間ドメイン情報を備えており、スイッチ制御信号に従って切替が実行され、最終的には、図１ａに記載の符号化スキームに入力された信号に依存してモノラル信号、ステレオ信号又は多チャネル信号等のオーディオ信号が取得される。

図１ｃは、図４ｂの原理に近いスイッチ５２１の異なる配置を備えた他の実施例を示す。

図２ａは本発明の第２の態様に従う好適な符号化スキームを示す。スイッチ２００の入力側に接続された共通前処理のスキームは、サラウンド／ジョイントステレオブロック１０１を含み、このブロック１０１はジョイントステレオパラメータとモノラル出力信号とを出力として生成し、このモノラル出力信号は、２つ以上のチャネルを有する入力信号をダウンミックスすることで生成したものである。一般的に、ブロック１０１の出力における信号は２つ以上のチャネルを有する信号であっても良いが、ブロック１０１のダウンミックス機能により、ブロック１０１の出力におけるチャネル数はブロック１０１へ入力されたチャネル数よりも小さくなるであろう。

共通前処理のスキームは、ブロック１０１に対して代替的に、或いはブロック１０１に対して追加的に、帯域拡張ステージ１０２を含む。図２ａに示す実施例では、ブロック１０１の出力は帯域拡張ブロック１０２へと入力され、このブロック１０２は、図２ａの符号器においては、低帯域信号又は低域通過信号等の帯域制限された信号を出力する。好適には、この信号はさらに（例えば係数２で）ダウンサンプルされる。加えて、ブロック１０２に入力された信号の高帯域のために、スペクトル包絡パラメータ，逆濾波パラメータ，ノイズフロアパラメータ等、ＭＰＥＧ−４のＨＥ−ＡＡＣプロファイルから公知である帯域拡張（ＢＷＥ）パラメータが生成され、ビットストリームマルチプレクサ８００へと入力される。

好適には、判別ステージ３００はブロック１０１に入力された信号やブロック１０２に入力された信号を受け取り、例えば音楽モードかスピーチモードかの間で判定を実行する。音楽モードの場合には上方の符号化分枝４００が選択され、スピーチモードの場合には下方の符号化分枝５００が選択される。好適には、判定ステージはジョイントブロック１０１及び／又は帯域拡張ブロック１０２をさらに制御し、これらブロックの機能を特定の信号に対して適合させる。つまり、判定ステージが、入力信号の所定の時間部分は音楽モードのような第１モードであると判定した場合には、ブロック１０１及び／又はブロック１０２の所定の特性を判別ステージ３００により制御することができる。一方、判定ステージ３００が、入力信号はスピーチモード又は一般的には第２のＬＰＣドメインモードであると判定した場合には、ブロック１０１及び１０２の所定の特性を判別ステージの出力に従って制御することができる。

好適には、符号化分枝４００のスペクトル変換は、ＭＤＣＴ操作、さらに好適には時間ワープされたＭＤＣＴ操作を使用して実行されてもよく、このとき、強度又は一般的にはワーピング強度は、ゼロから一定の高さのワーピング強度までの間に制御されても良い。ワーピング強度がゼロの場合、ブロック４１１におけるＭＤＣＴ操作は当業者の中では公知の単純なＭＤＣＴ操作である。時間ワーピング強度と時間ワーピングサイド情報とが一緒に、サイド情報としてビットストリームマルチプレクサ８００へと伝送／入力されても良い。

ＬＰＣ符号化分枝においては、ＬＰＣドメインの符号化手段は、ピッチゲイン、ピッチラグ及び／又はコードブック指標やゲインのようなコードブック情報を計算する、ＡＣＥＬＰコア５２６を含んでも良い。非特許文献１から知られるようなＴＣＸモードでは、聴覚心理的に重み付けられた信号が変換ドメインで処理される。フーリエ変換された重み付き信号は、ノイズファクタ量子化を伴う分離マルチレート格子(split multi-rate lattice) 量子化（代数ＶＱ）を使用して量子化される。変換は、１０２４，５１２又は２０５６サンプルのウインドウの中で計算される。励振信号は、量子化された重み付き信号を逆の重み付けフィルタを通して逆濾波することで回復される。

第１符号化分枝４００においては、スペクトル変換器は、好適には、所定の窓関数を有する特別に適合化されたＭＤＣＴ操作と、それに続く量子化／エントロピー符号化ステージとを含んでいる。この量子化／エントロピー符号化ステージは単一のベクトル量子化ステージで構成されても良いが、好適には、周波数ドメイン符号化分枝内、即ち図２ａのステージ４２１内の量子化／符号化器に類似した結合型のスカラー量子化／エントロピー符号化器が望ましい。

第２符号化分枝には、ＬＰＣブロック５１０とそれに続くスイッチ５２１があり、さらにＡＣＥＬＰブロック５２６又はＴＣＸブロック５２７が続いている。ＡＣＥＬＰは非特許文献２に記載され、ＴＣＸは非特許文献１に記載されている。一般的に、ＡＣＥＬＰブロック５２６は図７ｅに記載の処理によって計算されたＬＰＣ励振信号を受け取り、ＴＣＸブロック５２７は図７ｆによって生成された重み付き信号を受け取る。

ＴＣＸにおいては、ＬＰＣベースの重み付けフィルタを通じて入力信号を濾波することで計算された重み付き信号に対し、変換が適用される。本発明の好適な実施例において使用される重み付けフィルタは、（１−Ａ（ｚ／γ））／（１−μｚ^-1）である。従って、重み付き信号はＬＰＣドメイン信号であり、その変換型はＬＰＣスペクトルドメインである。ＡＣＥＬＰブロック５２６により処理された信号は励振信号であり、ブロック５２７により処理された信号とは異なるが、両方の信号ともＬＰＣドメインである。

図２ｂに示す復号器側では、ブロック５３７における逆スペクトル変換の後で、重み付けフィルタの逆、即ち（１−μｚ^-1）／（１−Ａ（ｚ／γ））が適用される。その後、この信号は（１−Ａ（ｚ））を通して濾波され、ＬＰＣ励振ドメインになる。このようにＬＰＣドメインブロック５３４とＴＣＸ^-1ブロック５３７への変換は、逆変換と、その後の

を通した濾波とを含み、重み付きドメインから励振ドメインへと変換される。

図１ａ，図１ｃ，図２ａ，図２ｃにおける装置５１０は単一のブロックを示しているが、ブロック５１０はＬＰＣドメインである限り様々な信号を出力できる。励振信号モードや重み付き信号モード等、ブロック５１０の実際のモードは実際のスイッチの状態に依存する。代替的に、ブロック５１０は２つの平行処理装置を持つことができ、この場合、１つの装置は図７ｅに類似する構成を持ち、他の装置は図７ｆのような構成を持つ。そのため、装置５１０の出力におけるＬＰＣドメインは、ＬＰＣ励振信号、ＬＰＣ重み付き信号、又は他のいずれかのＬＰＣドメイン信号を表現することができる。

図２ａ又は図２ｃに示す第２符号化分枝（ＡＣＥＬＰ／ＴＣＸ）において、信号は、符号化の前にフィルタ（１−０．６８ｚ^-1）により事前強調されてもよい。図２ｂのＡＣＥＬＰ／ＴＣＸ復号器においては、合成された信号はフィルタ１／（１−０．６８ｚ^-1）により非強調される。この事前強調は、信号をＬＰＣ分析及び量子化の前に事前強調するＬＰＣブロック５１０の一部で実施することができる。同様に、非強調はＬＰＣ合成ブロックＬＰＣ^-1５４０の一部で実施することができる。

図２ｃは図２ａに示す構成の他の実施例を示すが、スイッチ５２１の配置は異なり、図４ｂの原理に近い。

好適な実施例では、第１スイッチ２００（図１ａ又は図２ａを参照）は（図４ａのように）開ループ判定を通じて制御され、第２スイッチは（図４ｂのように）閉ループ判定を通じて制御される。

例えば、図２ｃでは、第２スイッチ５２１は図４ｂのようにＡＣＥＬＰ及びＴＣＸ分枝の後に配置されている。第１処理分枝では、第１ＬＰＣドメインはＬＰＣ励振信号を表し、第２処理分枝では、第２ＬＰＣドメインはＬＰＣ重み付き信号を表す。つまり、第１ＬＰＣドメイン信号は、フィルタ（１−Ａ（ｚ））を介した濾波によりＬＰＣ残余ドメインへと変換することで取得され、他方、第２ＬＰＣドメイン信号は、フィルタ（１−Ａ（ｚ／γ））／（１−μｚ^-1）を介した濾波によりＬＰＣ重み付きドメインへと変換することで取得される。

図２ｂは、図２ａの符号化スキームに対応する復号化スキームを示す。図２ａのビットストリームマルチプレクサ８００により生成されるビットストリームは、ビットストリーム・デマルチプレクサ９００へと入力される。例えばモード検出ブロック６０１を介してビットストリームから導出される情報に依存して、復号器側スイッチ６００は、上方の分枝からの信号又は下方の分枝からの信号のどちらかを帯域拡張ブロック７０１へと送り出す。帯域拡張ブロック７０１は、ビットストリーム・デマルチプレクサ９００からサイド情報を受け取り、このサイド情報とモード判定６０１の出力とに基づき、スイッチ６００から出力された低帯域に基づいた高帯域を再構築する。

ブロック７０１により生成されたフル帯域信号は、ジョイントステレオ／サラウンド処理ステージ７０２へと入力され、ここで、２チャネル即ちステレオチャネル、又は複数チャネル即ち多チャネルが再構築される。一般的に、ブロック７０２は、このブロックに入力されたチャネル数よりも多い数のチャネルを出力する。アプリケーションに依るが、このブロックからの出力が入力よりも多数のチャネルを有する限り、ブロック７０２への入力はステレオモード等のように２チャネルを含んでいても良く、さらに２以上のチャネルを含んでいても良い。

これまで、スイッチ２００は２つの分枝の間で切替を実行し、その結果、１つの分枝だけが処理すべき信号を受け取り、他の分枝は処理すべき信号を受け取らないと説明してきた。しかし、代替的な実施例においては、このスイッチは例えばオーディオ符号化手段４２１及び励振符号化手段５２２，５２３，５２４の後に配置されても良い。つまり、両方の分枝４００と５００とが同じ信号を並行処理しても良い。しかし、ビットレートが２倍にならないように、これら符号化分枝４００，５００のうちの１つによって出力された信号だけが選択され、出力ビットストリームの中へと書き込まれる。この場合、判定ステージは、ビットストリームへと書き込まれた信号が所定のコスト関数を最小化するように作動してもよい。このコスト関数とは、生成されたビットレート、生成された知覚的歪、又はレートと歪との組合せのいずれかのコスト関数であっても良い。このように、このモード又は図示するモードにおいて、判定ステージは閉ループモードでも作動することができ、その結果、与えられた知覚的歪に対しては最小のビットレートで、又は、与えられたビットレートに対しては最小の知覚的歪を持つような符号化分枝出力だけが、最終的にビットストリームへと書き込まれる。閉ループモードでは、フィードバック入力は、図１ａの３つの量子化器／スケーラブロック４２１，５２２，５２４の出力から導出されても良い。

２つのスイッチを有する実施形態においては、即ち、第１スイッチ２００と第２スイッチ５２１とを有する実施形態においては、第１スイッチのための時間分解能が第２スイッチのための時間分解能よりも低いことが好ましい。換言すれば、スイッチ操作を介して切替可能な第１スイッチへの入力信号のブロックは、ＬＰＣドメインで作動する第２のスイッチによって切り替えられるブロックよりも大きい。例として、周波数ドメイン／ＬＰＣドメイン・スイッチ２００は１０２４個のサンプルから成る長さのブロックを切り替え、第２のスイッチ５２１は各２５６個のサンプルを持つブロックを切り替えても良い。

図１ａから図１０ｂまでのいくつかは装置のブロック図として表されているが、これらの図は方法を示す図でもあり、各ブロック機能は各方法ステップに対応する。

図３ａは第１符号化分枝４００と第２符号化分枝５００の出力として符号化されたオーディオ信号を生成するオーディオ符号器を示す。さらに、符号化されたオーディオ信号は、共通前処理ステージからの前処理パラメータや、上述した図に関連して説明したようにスイッチ制御情報等のサイド情報を含むのが好ましい。

第１符号化分枝はオーディオ中間信号１９５を第１符号化アルゴリズムに従って符号化し、このとき第１符号化アルゴリズムは情報シンクモデルを有するのが好ましい。第１符号化分枝４００は第１符号化手段出力信号を生成し、この信号はオーディオ中間信号１９５の符号化されたスペクトル情報表示である。

さらに、第２符号化分枝５００はオーディオ中間信号１９５を第２符号化アルゴリズムに従って符号化し、このとき第２符号化アルゴリズムは情報ソースモデルを有し、第２符号化手段出力信号の中にオーディオ中間信号を表示する情報ソースモデルのための符号化されたパラメータを生成するのが好ましい。

オーディオ符号器は、オーディオ入力信号９９を前処理してオーディオ中間信号１９５を取得するための共通前処理ステージ１００をさらに備える。具体的には、この共通前処理ステージは、オーディオ入力信号９９を処理してオーディオ中間信号１９５即ちこの共通前処理アルゴリズムの出力が、オーディオ入力信号の圧縮済バージョンとなるように処理する。

符号化されたオーディオ信号を生成するための好適なオーディオ符号化方法は、次のステップを備える。オーディオ中間信号１９５を第１符号化アルゴリズムに従って符号化するステップ４００であって、第１符号化アルゴリズムは情報シンクモデルを有し、第１出力信号の中に、オーディオ信号の符号化されたスペクトル情報表示を生成するステップと、オーディオ中間信号１９５を第２符号化アルゴリズムに従って符号化するステップ５００であって、第２符号化アルゴリズムは情報ソースモデルを有し、第２出力信号の中に、オーディオ中間信号１９５を表示する情報ソースモデルのための符号化されたパラメータを生成するステップと、オーディオ入力信号９９に共通前処理を施してオーディオ中間信号１９５を取得するステップ１００であって、この共通前処理ステップは、オーディオ入力信号９９に対し、オーディオ中間信号１９５がオーディオ入力信号９９の圧縮済バージョンとなるように処理するステップと、を備える。符号化されたオーディオ信号は、そのオーディオ信号の所定の部分に第１出力信号又は第２出力信号のいずれかを含む。この方法は、オーディオ中間信号の所定の部分を第１符号化アルゴリズム若しくは第２符号化アルゴリズムのいずれかを使用して符号化するか、又はその信号を両方のアルゴリズムを使用して符号化するステップと、第１符号化アルゴリズムの結果若しくは第２符号化アルゴリズムの結果のいずれかを符号化済信号として出力するステップと、をさらに備えるのが好ましい。

一般的には、第１符号化分枝４００で使用されるオーディオ符号化アルゴリズムは、オーディオシンク内の状態を反映し且つモデル化する。オーディオ情報のシンクとは、通常、人間の耳である。人間の耳は周波数分析器としてモデル化されることが可能である。従って、第１符号化分枝は符号化されたスペクトル情報を出力する。好適には、第１符号化分枝は、聴覚心理的マスキング閾値を追加的に適用するための聴覚心理モデルをさらに備える。聴覚心理的マスキング閾値は、オーディオスペクトル値を量子化する際に使用される。スペクトルオーディオ値を量子化することで量子化ノイズが導入されるが、このノイズが聴覚心理マスキング閾値の下で隠されるように、量子化を実行するのが望ましい。

第２符号化分枝は情報ソースモデルを表し、オーディオ音響の生成を反映する。情報ソースモデルはスピーチモデルを含んでも良く、このスピーチモデルはＬＰＣ分析ステージによって反映される。即ち、時間ドメイン信号をＬＰＣドメインへと変換し、次にＬＰＣ残余信号、即ち励振信号を処理する中で反映される。代替的な音響ソースモデルは、所定の楽器又は現実の世界に存在する特定の音響ソース等、他のいかなる音響生成物であっても良い。複数の音響ソースモデルが有効である場合には、異なる音響ソースモデル間の選択が例えばＳＮＲ計算に基づいて実行されても良い。即ち、オーディオ信号の所定の時間部分及び／又は周波数部分を符号化するために、どのソースモデルが最も適切であるかという計算に基づいて実行されても良い。しかし、好適には符号化分枝間の切替は時間ドメインで実行される。即ち、中間信号の所定の時間部分は１つのモデルを使用して符号化され、異なる所定の時間部分は他の符号化分枝を使用して符号化される。

情報ソースモデルは所定のパラメータにより表示される。ＡＭＲ−ＷＢ＋のような現代的なスピーチ符号器を考慮した場合、スピーチモデルに関しては、パラメータはＬＰＣパラメータであり、符号化された励振パラメータである。ＡＭＲ−ＷＢ＋はＡＣＥＬＰ符号器とＴＣＸ符号器を含む。この場合、符号化された励振パラメータは、グローバルゲイン，ノイズフロア，及び可変長符号であっても良い。

図３ｂは図３ａの符号器に対応する復号器を示す。全体として図３ｂは、符号化されたオーディオ信号を復号化し、復号化されたオーディオ信号７９９を取得する復号器を示している。この復号器は、情報シンクモデルを有する第１符号化アルゴリズムに従って符号化された符号化済信号を復号化するための第１復号化分枝４５０を含む。また、この復号器は、情報ソースモデルを有する第２符号化アルゴリズムに従って符号化された符号化済情報信号を復号化するための第２復号化分枝５５０をさらに含む。また、このオーディオ復号器は、第１復号化分枝４５０及び第２復号化分枝５５０からの出力信号を結合し、結合済信号を得るための結合器６００をさらに含む。この結合済信号は、図３ｂでは復号化済オーディオ中間信号６９９として示され、共通後処理ステージ７００へと入力される。この共通後処理ステージにおいて、復号化済オーディオ中間信号６９９であり結合器６００から出力された結合済信号である信号は、この後処理ステージからの出力信号が結合済信号の拡張済バージョンになるように後処理される。その結果、復号化済オーディオ信号７９９は、復号化済オーディオ中間信号６９９と比較してより強化された情報内容を持つ。このような情報拡張は、共通後処理ステージにより前／後処理パラメータを用いて実行されるが、これらのパラメータは、符号器から復号器へと伝送されるか、又は復号化済オーディオ中間信号そのものから導出されても良い。しかし、前／後処理パラメータは符号器から復号器へと伝送されることが好ましい。なぜなら、その方が復号化されたオーディオ信号の品質を向上させることができるからである。

図３ｃはオーディオ入力信号１９５を符号化するオーディオ符号器を示し、この入力信号は本発明の好適な実施例に従う図３ａのオーディオ中間信号１９５と等しくても良い。オーディオ入力信号１９５は、例えば時間ドメインでも良い第１ドメインにおいて存在するが、この第１ドメインはまた、周波数ドメイン，ＬＰＣドメイン，ＬＰＣスペクトルドメイン又は他のいかなるドメインでも良い。概して、１つのドメインから他のドメインへの変換は、時間／周波数変換アルゴリズム又は周波数／時間変換アルゴリズムのいずれかのような公知の変換アルゴリズムによって実行される。

時間ドメインからの変換の代替的な変換として、例えばＬＰＣドメインへの変換があり、このＬＰＣドメインへの変換は、時間ドメイン信号をＬＰＣ濾波した結果であり、ＬＰＣ残余信号又は励振信号として得られる。場合によっては、濾波された信号を生成する操作であり、変換前の信号サンプル数に実質的な影響を与える操作であれば、他のいかなる濾波操作でも変換アルゴリズムとして使用することができる。従って、ＬＰＣベースの重み付けフィルタを使用してオーディオ信号を重み付けする操作も、ＬＰＣドメインでの信号を生成する他の一変換方法である。時間／周波数変換では、１つのスペクトル値を修正すると、変換前の全ての時間ドメイン値に対して影響を与えることになる。同様に、いかなる時間ドメインサンプルを１つ修正しても、各周波数ドメインサンプルに対して影響を与えるであろう。同様に、ＬＰＣドメイン状態の励振信号のサンプルを修正しても、ＬＰＣフィルタの長さのために、ＬＰＣ濾波前の実質的なサンプル数に対して影響を与えることになる。また同様に、ＬＰＣ変換の前にサンプルを修正しても、ＬＰＣフィルタの生来の記憶効果のために、このＬＰＣ変換により取得される多くのサンプルに対して影響を与えるであろう。

図３ｃのオーディオ符号器は、第１符号化済信号を生成する第１符号化分枝４００を含む。この第１符号化済信号は、第４ドメイン、即ちこの好適な実施例においては時間スペクトルドメイン(周波数ドメイン)であっても良い。つまり、時間ドメイン信号を時間／周波数変換を介して処理することで得られるドメインであっても良い。

このように、オーディオ信号を符号化するための第１符号化分枝４００は、第１符号化アルゴリズムを使用して第１符号化済信号を取得する。この第１符号化アルゴリズムは、時間／周波数変換アルゴリズムを含んでも含まなくても良い。

オーディオ符号器は、オーディオ信号を符号化するための第２符号化分枝５００をさらに含む。この第２符号化分枝５００は、第１符号化アルゴリズムとは異なる第２符号化アルゴリズムを使用して、第２符号化済信号を取得する。

オーディオ符号器は、第１符号化分枝４００と第２符号化分枝５００との間で切替を実行する第１スイッチ２００をさらに含み、その結果、オーディオ入力信号の一部分については、ブロック４００の出力である第１符号化済信号、又は第２符号化分枝の出力である第２符号化済信号のいずれかが、符号器の出力信号の中に含まれるようになる。つまり、オーディオ入力信号１９５の所定の部分について、第４ドメインの第１符号化済信号が符号器出力信号の中に含まれている場合には、第２符号化済信号、即ち第２ドメインの第１処理済信号又は第３ドメインの第２処理済信号は符号器出力信号の中に含まれない。これにより、当該符号器の高いビットレート効率が保証される。本発明の実施例においては、図３ｅに関して後述するように、２つの異なる符号化済信号に含まれるオーディオ信号のいかなる時間部分も、１つのフレームのフレーム長に比べれば小さい。これらの小さな部分は、切替イベントの中で、１つの符号化済信号から他の符号化済信号へのクロスフェードのために有用であり、クロスフェードが無い場合に発生する可能性のあるアーチファクトを低減させるのに役立つ。従って、クロスフェード領域を除けば、各時間ドメインブロックは単一ドメインの符号化済信号によって表示される。

図３ｃに示すように、第２符号化分枝５００は、第１ドメインのオーディオ信号即ち信号１９５を第２ドメインへと変換するための変換器５１０を備える。第２符号化分枝５００は、第２ドメインのオーディオ信号を処理して第１処理済信号を得るための第１処理分枝５２２をさらに備え、好適には、この第１処理済信号も第２ドメインであって、第１処理分枝５２２はドメイン変換を実行しない。

第２符号化分枝５００は、第２ドメインのオーディオ信号を第３ドメインへと変換するための第２処理分枝５２３，５２４をさらに備え、この第３ドメインは第１ドメインとも第２ドメインとも異なり、オーディオ信号を第３ドメインで処理し、第２処理分枝５２３，５２４の出力において第２処理済信号を取得する。

第２符号化分枝は、第１処理分枝５２２と第２処理分枝５２３，５２４との間で切替を実行する第２のスイッチ５２１をさらに備え、その結果、第２符号化分枝へと入力されたオーディオ信号の一部分については、第２ドメインの第１処理済信号或いは第３ドメインの第２処理済信号のいずれかが第２符号化済信号の中に存在することになる。

図３ｄは、図３ｃの符号器により生成された符号化されたオーディオ信号を復号化するための対応する復号器を示す。一般的に、第１ドメインオーディオ信号の各ブロックは、任意のクロスフェード領域は別として、第２ドメイン信号，第３ドメイン信号，又は第４ドメイン符号化済信号のうちのいずれかにより表示される。このクロスフェード領域は、臨界サンプリングの制限において最高のシステムを得るために、１つのフレームよりも短い方が望ましい。符号化されたオーディオ信号は、第１符号化済信号と、第２ドメインの第２符号化済信号と、第３ドメインの第３符号化信号とを含み、これら第１符号化済信号，第２符号化済信号，及び第３符号化済信号は全て、復号化されたオーディオ信号の異なる時間部分に関連し、また、復号化されたオーディオ信号に係る第２ドメイン，第３ドメイン及び第１ドメインは互いに異なる。

この復号器は、第１符号化アルゴリズムに基づいて復号化する第１復号化分枝を備える。この第１復号化分枝は、図３ｄでは４３１，４４０により示され、好適には周波数／時間変換器を含む。第１符号化済信号は好適には第４ドメインであり、復号化された出力信号のドメインである第１ドメインへと変換される。

図３ｄの復号器は、複数の要素を含む第２復号化分枝をさらに備える。これらの要素は、第２符号化済信号を逆処理する第１逆処理分枝５３１を含み、このブロック５３１の出力において第１逆処理済信号を第２ドメインで取得する。この第２復号化分枝は、第３符号化済信号を逆処理する第２逆処理分枝５３３，５３４をさらに備え、第２逆処理済信号を第２ドメインで取得する。この第２逆処理分枝は第３ドメインから第２ドメインへの変換を実行する変換器を含む。

この第２復号化分枝は第１結合器５３２をさらに備え、第１逆処理済信号と第２逆処理済信号とを結合し、第２ドメインにおいて１つの信号を取得する。この結合済信号は、第１の時間的瞬間には第１逆処理済信号によってのみ影響を受け、その後のある時間的瞬間には第２逆処理済信号によってのみ影響を受ける。

第２復号化分枝は、結合済信号を第１ドメインへと変換する変換器５４０をさらに備える。

最後に、図３ｄに示す復号器は、ブロック４３１，４４０から出力された第１復号化済信号と、変換器５４０の出力信号とを結合し、復号化された出力信号を第１ドメインで取得する第２結合器６００をさらに備える。この復号化された第１ドメインの出力信号は、第１の時間的瞬間には変換器５４０により出力された信号のみの影響を受け、その後のある時間的瞬間には、ブロック４３１，４４０により出力された第１復号化済信号のみの影響を受ける。

図３ｅはこの状態を符号器側の視点から説明する。図３ｅの上側部分は、概略図的な表現で、時間ドメインオーディオ信号等の第１ドメインオーディオ信号を示し、時間指標は左から右へと増大し、項目３は図３ｃの信号１９５を表示するオーディオサンプルのストリームとして捉えられても良い。図３ｅは、第１符号化済信号と第１処理済信号と第２処理済信号との間で項目４に示されるように切替を実行することで生成されても良い、フレーム３ａ，３ｂ，３ｃ，３ｄを示す。第１符号化済信号と第１処理済信号と第２処理済信号とは全て異なるドメインにあり、異なるドメイン間での切替が復号器側でのアーチファクトをもたらすことがないようにするために、時間ドメイン信号のフレーム３ａと３ｂとはクロスフェード領域として示されるオーバーラップ領域を有し、このようなクロスフェード領域はフレーム３ｂと３ｃとの間にも存在する。しかし、このようなクロスフェード領域はフレーム３ｃと３ｄとの間には存在しない。つまり、フレーム３ｄもまた第２処理済信号、即ち第３ドメインにおける信号により表示されており、フレーム３ｃと３ｄとの間にはドメイン変化は存在しないという意味である。従って、一般的には、ドメイン変化がない場合にはクロスフェード領域を設けず、ドメイン変換がある場合つまり２つのスイッチのいずれかの切替動作がある場合には、クロスフェード領域、即ちオーディオ信号の部分であって２つの連続する符号化済／処理済信号により符号化される部分を設けることが望ましい。好適には、クロスフェードは他のドメインへの変化のために実行される。

第１符号化済信号又は第２処理済信号が、例えば５０％のオーバーラップを有するＭＤＣＴ処理により生成された場合の本発明の実施例においては、各時間ドメインサンプルは２つの連続するフレームの中に含まれる。しかし、この点は、ＭＤＣＴの特徴により、つまりＭＤＣＴが臨界的にサンプリングされたシステムであるから、オーバーヘッドをもたらすことはない。ここで、臨界的にサンプリングされたとは、スペクトル値の数が時間ドメイン値の数と同じであることを意味する。ＭＣＤＴは次のような利点を持つ。即ち、特別なクロスオーバー領域が無い状態でクロスオーバー効果が提供されるので、あるＭＤＣＴブロックから次のＭＤＣＴブロックへのクロスオーバーを、臨界サンプリングの条件に違反するいかなるオーバーヘッドも無い状態で提供できる。

好適には、第１符号化分枝の中の第１符号化アルゴリズムは情報シンクモデルに基づき、第２符号化分枝の中の第２符号化アルゴリズムは情報ソース又はＳＮＲモデルに基づく。ＳＮＲモデルとは、特定の音響生成メカニズムに関連するものではなく、複数の符号化モードの中から例えば閉ループ判定に基づいて選択可能な１つの符号化モードである。このようにＳＮＲモデルは有効な符号化モデルの１つであるが、音響生成器の物理的な構成とは必ずしも関係がなく、情報シンクモデルとは異なるパラメータ化された符号化モデルの１つであり、閉ループ判定に基づいて、特に様々なモデルからの様々なＳＮＲの結果を比較することで選択可能である。

図３ｃに示すように、制御器３００，５２５が設けられる。この制御器は、図１ａの判定ステージ３００の機能を含んでも良く、さらには図１ａのスイッチ制御装置５２５の機能を含んでも良い。一般的には、この制御器は、第１スイッチ及び第２スイッチを信号適応型の方法で制御する。この制御器は、第１スイッチへと入力された信号や、第１又は第２符号化分枝により出力された信号や、第１及び第２符号化分枝から符号化及び復号化によって得られた信号を、ある目標関数に対して分析する。代替的に又は追加的に、この制御器は、第２スイッチへと入力された信号や、第１処理分枝又は第２処理分枝から出力された信号や、第１処理分枝及び第２処理分枝から処理と逆処理とによって得られた信号を、ある目標関数に対して分析する。

１つの実施例においては、第１符号化分枝又は第２符号化分枝は、ＭＤＣＴ又はＭＤＳＴ（変形離散サイン変換）アルゴリズム等のエイリアシングを導入する時間／周波数変換アルゴリズムを含み、このアルゴリズムはエイリアシング効果をもたらさない単純なＦＦＴとは異なるものである。さらに、１つ又は両方の分枝は量子化／エントロピー符号化ブロックを備える。具体的には、第２符号化分枝の第２処理分枝だけがエイリアシング操作を導入する時間／周波数変換器を含み、第２符号化分枝の第１処理分枝は量子化及び／又はエントロピー符号化器を含むが、いかなるエイリアシング効果も導入しない。エイリアシングを導入する時間／周波数変換器は、好適には、分析ウインドウ及びＭＤＣＴ変換アルゴリズムを適用するためのウインドウ化手段を備える。さらに具体的には、このウインドウ化手段は連続するフレームに対してオーバーラップする方法で窓関数を適用し、その結果、ウインドウ化された信号の１つのサンプルが少なくとも２つの連続するウインドウ化済フレームの中に生成される。

ある実施例においては、第１処理分枝はＡＣＥＬＰの符号化手段を備え、第２処理分枝は、スペクトル成分を量子化して量子化済スペクトル成分を得るＭＤＣＴスペクトル変換器及び量子化器を備える。この時、各量子化済スペクトル成分はゼロであるか、又は複数の異なる発生可能な量子化指標の中の１つの量子化指標により定義される。

さらに、第１スイッチ２００は開ループ方式で、第２スイッチは閉ループ方式で作動することが望ましい。

上述したように、両方の符号化分枝はオーディオ信号をブロック単位の方法で符号化する。この場合、第１スイッチ又は第２スイッチはブロック単位で切替を実行し、その結果、切替動作は最低でも信号の所定数のサンプルから成る１つのブロックの後で実行されることになり、この所定数とは対応するスイッチのための１つのフレーム長を形成する数である。このように、第１スイッチによる切替の１単位は例えば２０４８個か１０２８個のサンプルから成るブロックであっても良く、第１スイッチ２００の切替の基になるフレーム長は可変的でも良いが、好適にはこのように長い期間に固定される。

これとは対照的に、第２スイッチ５２１のためのブロック長、即ち第２スイッチ５２１が１つのモードから他のモードへと切替を実行する時間は、第１スイッチのブロック長よりも実質的に短い。好適には、両方のスイッチの各ブロック長は、長いブロック長が短いブロック長の整数倍になるように選択される。好適な実施例においては、第１スイッチのブロック長は２０４８又は１０２４であり、第２スイッチのブロック長は１０２４であるか、より好適には５１２であり、さらに好適には１２８サンプルである。その結果、第１スイッチがたった１回の切替を実行する間に、第２スイッチは最大では１６回の切替を実行できる。しかし、好ましい最大ブロック長比率は、４：１である。

他の実施例においては、制御器３００，５２５は、第１スイッチのためのスピーチ・音楽の識別を、スピーチへの判定が音楽への判定に対して優先されるような方法で実行する。この実施例では、第１スイッチへ入力される１つのフレームの５０％未満がスピーチであり、フレームの５０％を超える比率が音楽である場合でも、スピーチへの判定が実行される。

さらに、第１フレームのかなり小さな部分がスピーチである場合でも、具体的には、第１フレームのある部分がスピーチであって、この部分がより小さな第２フレームの長さの５０％である場合でも、この制御器はスピーチへと切り替える。従って、好適なスピーチ優先切替判定は、例えば第１スイッチのフレーム長に対応するブロックのたった６％又は１２％がスピーチである場合でも、スピーチへの切替を実行する。

このような処理は、ある実施例においては有声音のスピーチコアを有しているような第１処理分枝のビットレート節約能力を十分に活用するために好ましく、また、大きな第１フレームの非スピーチである残りの部分についても全く品質低下を招かないためにも好ましい。第２処理分枝は変換器を含み、従って非スピーチ信号をも有するオーディオ信号にとって有益である。好ましくは、この第２処理分枝は臨界サンプリングされたオーバーラップＭＤＣＴを含み、このＭＤＣＴは、オーバーラップ及び加算等のような時間ドメインのエイリアシング除去処理によって、小さいウインドウサイズであっても高効率でエイリアシングのない操作を復号器側において提供する。さらに、好適にはＡＡＣのようなＭＤＣＴ符号化分枝である第１符号化分枝に対しては、大きなブロック長が有益である。なぜなら、非スピーチ信号は通常かなり静的であり、長い変換ウインドウが高い周波数分解能、つまり高品質を提供し、加えて、聴覚心理的に制御された量子化モジュールによってビットレート効率を提供するからである。このモジュールはまた、第２符号化分枝の第２処理分枝における変換ベースの符号化モードに対しても適用することができる。

図３ｄの復号器に関しては、伝送された信号が図３ｅに示すサイド情報４ａのような明示的な指標を含むことが好ましい。このサイド情報４ａは、図３ｄには示されていないビットストリームパーサによって抽出され、対応する第１符号化済信号，第１処理済信号，又は第２処理済信号を、図３ｄに記載の第１復号化分枝，第１逆処理分枝又は第２逆処理分枝のような処理器へと正しく出力する。従って、符号化済信号は、符号化済／処理済信号だけではなく、これらの信号に関連するサイド情報も含む。しかし、他の実施例においては、復号化側のビットストリームパーサが所定の信号の間に読み取ることができるような暗示的な信号化があっても良い。図３ｅに関して説明すれば、第１処理済信号又は第２処理済信号が第２符号化分枝の出力であり、従って、第２符号化済信号である。

好適には、第１復号化分枝及び／又は第２逆処理分枝は、スペクトルドメインから時間ドメインへ変換するためのＭＤＣＴ変換を含む。このためオーバーラップ・加算器が設けられ、時間ドメイン・エイリアシング除去機能を実行し、同時にクロスフェード効果を提供し、ブロッキングアーチファクトを防止する。一般的に、第１復号化分枝は第４ドメインで符号化された信号を第１ドメインへと変換し、第２逆処理分枝は第３ドメインから第２ドメインへの変換を実行し、第１結合器の次に接続された変換器は第２ドメインから第１ドメインへの変換を実行する。その結果、結合器６００の入力においては第１ドメインの信号だけが存在し、これらの信号が図３ｄの実施例においては復号化された出力信号を表示する。

図４ａと図４ｂは２つの異なる実施例を示し、その相違点はスイッチ２００の位置である。図４ａでは、スイッチ２００は共通前処理ステージ１００の出力と２つの符号化分枝４００，５００の入力との間に配置される。図４ａの実施例では、オーディオ信号が単一の符号化分枝にだけ入力されることが保証され、共通前処理ステージの出力に接続されない他の符号化分枝は作動せず、よってスイッチオフか又はスリープ状態となる。この実施例は次のような利点がある。即ち、非作動の符号化分枝が電力及び演算資源を消費せず、この点がモバイルアプリケーション、特に電池式電源であることから消費電力には全体的な制限があるアプリケーションに対して有益である。

しかし、他方、図４ｂの実施例は消費電力が問題ではない場合には好適と言える。この実施例では、両方の分枝４００と５００とが常に作動状態であり、所定の時間部分及び／又は所定の周波数部分のために選択された符号化分枝の出力だけがビットストリームフォーマッタへと出力される。このフォーマッタはビットストリームマルチプレクサ８００として構成されても良い。つまり、図４ｂの実施例では、両方の符号化分枝が常に作動しており、判定ステージ３００により選択された符号化分枝の出力だけが出力ビットストリームの中へ組み込まれ、選択されない他の符号化分枝の出力は放棄される。即ち、出力ビットストリームであり符号化されたオーディオ信号の中へは組み込まれない。

好適には、第２符号化規則／復号化規則はＬＰＣベースの符号化アルゴリズムである。ＬＰＣベースのスピーチ符号化においては、準周期的(quasi-periodic)インパルス状の励振信号分節又は信号部分と、ノイズ状の励振信号分節又は信号部分との間の区別が行われる。これは、図７ｂのような非常に低いビットレートのＬＰＣボコーダ（２．４ｋｂｐｓ）に対して実行される。しかし、中位のレートのＣＥＬＰ符号化手段においては、適応型コードブック及び固定型コードブックからのスケールされたベクトルの足し算によって励振信号が得られる。

準周期的インパルス状の励振信号分節、即ち特定のピッチを持つ信号分節は、ノイズ状の励振信号分節とは異なるメカニズムを用いて符号化される。準周期的インパルス状の励振信号が有声音のスピーチに関連する一方で、ノイズ状信号は無声音のスピーチに関連する。

例示的に図５ａ〜図５ｄを参照する。ここでは、準周期的インパルス状の信号分節又は信号部分と、ノイズ状の信号分節又は信号部分とについて例示的に説明する。具体的には、図５ａでは時間ドメインで示され、図５ｂでは周波数ドメインで示される有声音スピーチは、準周期的インパルス状の信号部分の一例として説明し、ノイズ状信号の一例としての無声音スピーチは、図５ｃと図５ｄに関連して説明する。スピーチは、一般的に、有声音、無声音又はそれらの混合として分類される。サンプル化された有声音及び無声音の分節についての時間及び周波数ドメインの図表を図５ａ〜図５ｄに示す。有声音のスピーチは、時間ドメインにおいては準周期的であり、周波数ドメインにおいてはハーモニックに構成されている一方で、無声音スピーチは、ランダム状で広帯域である。有声音スピーチの短時間スペクトルは、その繊細でハーモニックなフォルマント構成により特徴付けられる。この繊細でハーモニックな構成は、スピーチの準周期的な性格の結果であり、振動する声帯に起因すると言っても良い。フォルマント構成（スペクトル包絡）は、ソース及び発声経路の相互作用によるものである。発声経路は、咽頭と口腔から成る。有声音スピーチの短時間スペクトルに「適合」するスペクトル包絡の形は、発声経路の変換特性と音門パルスによるスペクトル傾斜（６ｄＢ／オクターブ）とに関連する。スペクトル包絡は、フォルマントと呼ばれるピークの集合体により特徴付けられる。フォルマントは発声経路の反響モードである。平均的な発声経路に対し、５ｋＨｚ未満の３〜５個のフォルマントが存在する。通常は３ｋＨｚ未満で発生する初めの３つのフォルマントの振幅と位置は、スピーチ合成と知覚との両方において非常に重要である。これより高いフォルマントも、広帯域で無声音のスピーチ表現にとって重要である。スピーチの特性は、以下のような物理的なスピーチ生成システムに関連している。つまり、有声音のスピーチは、声帯を振動させることで生成される準周期的な声門空気パルスにより、発声経路を励振することで生成される。周期的パルスの周波数は、基本周波数又はピッチと呼ばれている。無声音スピーチは、発声経路内の狭窄に対して呼気を強制通過させることで生成される。鼻音は鼻孔経路を発声経路に音響的に結合させることで生成され、破裂音は発声経路の中にある閉鎖部分の後部に形成された呼気圧力を急激に解放することで生成される。

図５ｃや図５ｄに示すようなオーディオ信号のノイズ状部分は、いかなるインパルス状の時間ドメイン構造もハーモニックな周波数ドメイン構造も示さず、例えば図５ａや図５ｂに示すような準周期的インパルス状部分とも異なる。しかし、後段で説明するように、ノイズ状部分と準周期的インパルス状部分との間の区別は、励振信号のためのＬＰＣの後で実行されても良い。ＬＰＣとは、発声経路をモデル化し、その信号から発声経路の励振を抽出する方法である。

さらに、準周期的インパルス状部分とノイズ状部分とは時間的な挙動で発生可能である。即ち、オーディオ信号の時間的なある部分はノイズ状であり、オーディオ信号の時間的な他の部分は準周期的、即ち調性があるという意味である。代替的に又は追加的に、異なる周波数帯域では信号の特性も異なる可能性がある。従って、オーディオ信号がノイズ状か又は調性を有するかという判別もまた、ある所定の周波数帯域又は複数の所定の周波数帯域がノイズ状と判別され、他の周波数帯域が調性を有すると判別されるように、周波数選択的に実行されても良い。この場合には、オーディオ信号のある時間部分が調性要素とノイズ要素とを含んでいても良い。

図７ａはスピーチ生成システムの線形モデルを示す。このシステムは２段階の励振を想定している。即ち、図７ｃに示すような有声音スピーチのためのインパルス列と、図７ｄに示すような無声音スピーチのためのランダムノイズである。発声経路は全極フィルタ７０としてモデル化され、このフィルタは声門モデル７２により生成された図７ｃ又は図７ｄに示すようなパルスを処理する。よって、図７ａに示すシステムは図７ｂの全極フィルタモデルに削減されることができ、このモデルは、ゲインステージ７７、前方向経路７８、フィードバック経路７９、及び加算ステージ８０を備える。フィードバック経路７９には予測フィルタ８１が設けられ、図７ｂに示す全体のソースモデル合成システムはＺドメイン関数を用いて次のように表現できる。
Ｓ（ｚ）＝ｇ／（１−Ａ（ｚ））・Ｘ（ｚ）
ここで、ｇはゲインを示し、Ａ（ｚ）はＬＰ分析により決定された予測フィルタであり、Ｘ（ｚ）は励振信号であり、Ｓ（ｚ）は合成スピーチ出力である。

図７ｃと図７ｄは、線形ソースシステムモデルを使用した有声音と無声音のスピーチ合成を時間ドメインで図示したものである。このシステムと上記等式における励振パラメータとは未知であり、スピーチサンプルの有限セットから決定される必要がある。Ａ（ｚ）の係数は入力信号の線形予測とフィルタ係数の量子化とを使用して取得される。ｐ次の前方線形予測においては、スピーチシーケンスの現在のサンプルは、ｐ個の通過サンプルの線形結合から予測される。予測器の係数は、Levinson-Durbinアルゴリズム等の公知のアルゴリズムか、又は一般的には自動相関法(autocorrelation method)や反射法(reflection method)により決定することができる。

図７ｅは、ＬＰＣ分析ブロック５１０のさらに詳細な構成を示す。オーディオ信号は、フィルタ情報Ａ（ｚ）を決定するフィルタ決定ブロック８３へと入力される。この情報は、復号器のために必要な短期間予測情報として出力される。この短期間予測情報は現実の予測フィルタ８５にとって必要である。減算器８６においては、オーディオ信号の現時点のサンプルが入力され、その現時点のサンプルに対する予測値が減算され、その結果、このサンプルのための予測誤差信号がライン８４において生成される。図７ｃや図７ｄはこのような予測誤差信号サンプルのシーケンスを非常に概略的に示している。従って、図７ａ，図７ｂは一種の調整されたインパルス状信号として見ることもできる。

図７ｅは励振信号を計算する好適な方法を示す。他方、図７ｆは重み付き信号を計算する好適な方法を示し、図７ｅとは対照的に、γが１でないときにはフィルタ８５は異なる。γは１よりも小さな値が好ましい。さらにブロック８７が存在し、μは１よりも小さい数が好ましい。一般的に、図７ｅ及び図７ｆの構成要素は、非特許文献２又は非特許文献１に従って構成されても良い。

図７ｇは逆処理を示し、この逆処理は、復号器側において図２ｂに示す要素５３７等に対して適用されても良い。特に、ブロック８８は重み付き信号から非重み付き信号を生成し、ブロック８９はこの非重み付き信号から励振信号を計算する。一般的に、図７ｇの非重み付き信号を除く全ての信号はＬＰＣドメインであるが、励振信号と重み付き信号とは同じドメイン内の異なる信号である。ブロック８９は励振信号を出力し、その後、この出力信号とブロック５３６の出力信号とを一緒に使用することができる。その後、共通逆ＬＰＣ変換が図２ｂのブロック５４０において実行される。

次に、合成による分析ＣＥＬＰ符号器を図６に関連して説明し、このアルゴリズムに適用される修正について説明する。このＣＥＬＰ符号器は非特許文献３の中で詳細に記載されている。図６に示すＣＥＬＰ符号器は、長期間予測要素６０と短期間予測要素６２とを含む。さらに、コードブック６４も使用される。知覚的重み付けフィルタＷ（ｚ）６６と、誤差最小化制御器６８とが設けられている。ｓ（ｎ）は時間ドメイン入力信号である。知覚的に重み付けされた後に、重み付き信号は減算器６９へと入力され、この減算器は、ブロック６６の出力における重み付きの合成信号と、元の重み付き信号ｓ_w（ｎ）との間の誤差を計算する。一般的に、短期間予測フィルタ係数Ａ（ｚ）はＬＰ分析ステージで計算され、その係数は図７ｅに示すようにＡ（ｚ）で量子化される。長期間予測ゲインｇとベクトル量子化指標、即ちコードブック参照表とを含む長期間予測情報Ａ_L（ｚ）は、図７ｅの中で番号１０ａとして示されるＬＰＣ分析ステージの出力において、その予測誤差信号について計算される。ＬＴＰ（長期間予測）パラメータはピッチ遅延とゲインである。ＣＥＬＰにおいては、これは通常、過去の励振信号（残余ではない）を含む適応型コードブックとして構成されている。適応型コードブックの遅延及びゲインは、平均二乗重み付き誤差を（閉ループピッチ探索により）最小化することで求められる。

次に、ＣＥＬＰアルゴリズムは、例えばガウス列のコードブックを使用して、短期間予測及び長期間予測の後で得られた残余信号を符号化する。「代数」を表す「Ａ」を持つＡＣＥＬＰアルゴリズムは、特定の代数的に設計されたコードブックを有する。

コードブックはいくつかのベクトルを持ち、各ベクトルの長さはいくつかのサンプルの長さを表す。ゲインファクタｇはコードベクトルをスケールし、その利得コードは長期間予測合成フィルタと短期間予測合成フィルタとにより濾波される。減算器６９の出力における知覚的な重み付き平均二乗誤差が最小となるように、「最適な」コードベクトルが選択される。ＣＥＬＰにおける探索プロセスは、図６に示すような合成による分析の最適化によって実行される。

１つのフレームが無声音スピーチと有声音スピーチの混合である場合、又は音楽の上にスピーチが載っている場合のような特異な場合には、ＴＣＸ符号化がＬＰＣドメインにおける励振信号を符号化するためにより適切であり得る。ＴＣＸ符号化は、周波数ドメインにおける重み付き信号を、励振生成を全く想定することなく処理する。ゆえに、ＴＣＸ符号化は、ＣＥＬＰ符号化に比べてより一般的であり、励振の有声音又は無声音ソースモデルに限定されることはない。ＴＣＸは、スピーチ状信号のフォルマントをモデル化するための、線形予測的フィルタを使用するソース指向のモデル符号化である。

ＡＭＲ−ＷＢ＋のような符号化においては、ＡＭＲ−ＷＢ＋解説書から知られるように、様々なＴＣＸモード及びＡＣＥＬＰの間の選択が行われる。ＴＣＸモードには、異なるモードに対してブロック毎の離散フーリエ変換の長さが異なるという点から様々なものがあり、合成による分析の手法や直接的な「フィードフォワード」モードによって最適なモードが選択可能である。

図２ａと図２ｂに関連して説明したように、共通前処理ステージ１００は、好適にはジョイント多チャネル（サラウンド／ジョイントステレオ装置）１０１を備え、帯域拡張ステージ１０２をさらに備える。これに対応して、復号器は、帯域拡張ステージ７０１と、次に接続されたジョイント多チャネルステージ７０２とを含む。好適には、信号処理方向において、符号器では、ジョイント多チャネルステージ１０１が帯域拡張ステージ１０２の前に接続され、復号器側では、帯域拡張ステージ７０１がジョイント多チャネルステージ７０２の前に接続される。しかし、代替的に、共通前処理ステージは、後続の帯域拡張を持たないジョイント多チャネルステージを含んでも良いし、又は、後続のジョイント多チャネルステージを持たない帯域拡張ステージを含んでも良い。

符号器側のジョイント多チャネルステージ１０１ａと１０１ｂと、復号器側のジョイント多チャネルステージ７０２ａと７０２ｂのための好適な例を、図８に関連して説明する。Ｅ個のオリジナル入力チャネルがダウンミキサ１０１ａへと入力され、その結果、ダウンミキサはＫ個の伝送チャネルを生成する。ここで、Ｋは１以上であり且つＥ以下の数である。

好適には、Ｅ個の入力チャネルは、パラメトリック情報を生成するジョイント多チャネルパラメータ分析器１０１ｂへと入力される。このパラメトリック情報は、好適には、差分符号化の後にハフマン符号化を続けるか、又は代わりに算術符号化を続けるか等の操作により、エントロピー符号化されている。ブロック１０１ｂにより出力された符号化済パラメトリック情報は、パラメータ復号器７０２ｂへと伝送され、この復号器は図２ｂに示す装置７０２の一部であっても良い。パラメータ復号器７０２ｂは伝送されたパラメトリック情報を復号化し、復号化されたパラメトリック情報をアップミキサ７０２ａへと出力する。アップミキサ７０２ａは、Ｋ個の伝送されたチャネルを受け取り、Ｌ個の出力チャネルを生成する。ここで、Ｌの数はＫ以上であり、且つＥ以下である。

パラメトリック情報は、ＢＣＣ技術から知られ、或いはＭＰＥＧサラウンド標準において公知であり且つ詳細に記述されている、チャネル間レベル差，チャネル間時間差，チャネル間位相差，及び／又はチャネル間コヒーレンスを含んでも良い。伝送されるチャネルの数は、超低ビットレートアプリケーションのための単一モノラルチャネルであっても良く、又は、互換性のあるステレオアプリケーション或いは互換性のあるステレオ信号、即ち２つのチャネルを含んでいても良い。典型的には、Ｅ個の入力チャネルの個数とは５又はそれ以上であっても良い。代替的に、Ｅ個の入力チャネルの個数は、空間オーディオオブジェクト符号化（ＳＡＯＣ）において知られるＥ個のオーディオオブジェクトの個数であっても良い。

ある実施形態においては、ダウンミキサは、オリジナルのＥ個の入力チャネルの重み付き又は非重み付きの加算、又はＥ個の入力オーディオオブジェクトの加算を実行する。入力チャネルがオーディオオブジェクトの場合には、ジョイント多チャネルパラメータ分析器１０１ｂは、オーディオオブジェクトの間の相関行列等のオーディオオブジェクトパラメータを、好適には各時間部分に対し、さらに好適には各周波数帯域に対して計算する。この目的のために、全体の周波数領域は、少なくとも１０個、好適には３２個或いは６４個の周波数帯域に分割されても良い。

図９は、図２ａの帯域拡張ステージ１０２と、これに対応する図２ｂの帯域拡張ステージ７０１との構成の好適な実施例を示す。符号器側では、帯域拡張ブロック１０２は、低域通過フィルタブロック１０２ｂとダウンサンプルブロックと高帯域分析器１０２ａとを備えることが好ましく、ダウンサンプルブロックは、低域通過フィルタの後に続くか、又はＱＭＦ帯域の半分だけについて作動する逆ＱＭＦの一部である。帯域拡張ブロック１０２へと入力されたオリジナルオーディオ信号は低域通過濾波され、低帯域信号を生成し、次に符号化分枝及び／又はスイッチへと入力される。この低域通過フィルタは、３ｋＨｚ〜１０ｋＨｚの領域でも良いカットオフ周波数を持つ。さらに、帯域拡張ブロック１０２は、スペクトル包絡パラメータ情報，ノイズフロアパラメータ情報，逆濾波パラメータ情報，高帯域内の所定のハーモニックラインに関連する他のパラメトリック情報，及びＭＰＥＧ４標準のスペクトル帯域複製に関連する章に詳細に記載されている他の追加的なパラメータ等の帯域拡張パラメータを計算するための、高域分析器をさらに含む。

復号器側においては、帯域拡張ブロック７０１は、パッチャ７０１ａと調整器７０１ｂと結合器７０１ｃとを備える。結合器７０１ｃは、復号化された低帯域信号と、調整器７０１ｂにより出力された再構築済及び調整済の高帯域信号とを結合する。調整器７０１ｂへの入力はパッチャにより供給されるが、このパッチャは、スペクトル帯域複製や一般的には帯域拡張により低帯域信号から高帯域信号を導出する。パッチャ７０１ａにより実行されるパッチングは、ハーモニックな方法で実行されるパッチングでも、又は非ハーモニックな方法で実行されるパッチングでも良い。このパッチャ７０１ａにより生成された信号は、次に、伝送されたパラメトリック帯域拡張情報を使用して調整器７０１ｂにより調整される。

好適な実施例においては、図８及び図９に示すように、上述のブロックがモード制御入力を備えても良い。このモード制御入力は、判定ステージ３００の出力信号から導出される。このような好適な実施例においては、判定ステージの出力、即ちオーディオ信号の所定の時間部分がスピーチか音楽かという判定に対し、対応するブロックの特性を順応させても良い。好適には、このモード制御はこれらブロックの１つ以上の機能に関連しても良いが、しかし、ブロックの全ての機能に対して関連したものではない。例えば、上記判定はパッチャ７０１ａにだけ影響を与えるが、図９の他のブロックに対しては影響を与えなくても良いし、例えば図８のジョイント多チャネルパラメータ分析器１０１ｂにだけ影響を与えるが、図８の他のブロックに対しては影響を与えなくても良い。このような構成は、好適には、共通前処理ステージに柔軟性を持たせることで、高い柔軟性と高い品質と低ビットレートの出力信号とを得ることを目的としている。しかし、他方、共通前処理ステージにおいて両方の種類の信号に対してアルゴリズムを使用することで、効率的な符号化／復号化スキームの実行を可能になる。

図１０ａと図１０ｂは、判定ステージ３００の２つの異なる構成を示す。図１０ａにおいては、開ループの判定が示される。ここでは、判定ステージ内の信号分析器３００ａが所定の規則を持ち、入力信号の所定の時間部分又は所定の周波数部分の特性を分析し、この信号部分は第１符号化分枝４００で符号化すべきか、又は第２符号化分枝５００で符号化すべきかについての判定を行う。この目的のため、信号分析器３００ａは、共通前処理ステージへのオーディオ入力信号を分析しても良く、共通前処理ステージによる出力信号即ちオーディオ中間信号を分析しても良く、又は図８に示すようにモノラル信号やｋ個のチャネルを持つ信号でも良いダウンミキサからの出力信号等の共通前処理ステージ内の中間信号を分析しても良い。出力側では、信号分析器３００ａは、符号器側のスイッチ２００と、復号器側の対応するスイッチ又は結合器６００とを制御するための切替判定を生成する。

第２スイッチ５２１については詳細に説明していないが、図４ａ，図４ｂに関連して説明したように、第２スイッチ５２１も第１スイッチ２００と同様の方法で配置されても良い。従って、図３ｃにおけるスイッチ５２１は、両方の処理分枝５２２と５２３，５２４との出力側に代替的に配置してもよく、その場合、両方の分枝が並行して作動し、１つの処理分枝の出力だけが図３ｃには示されていないビットストリーム形成器を介してビットストリームへと書き込まれる。

さらに、第２結合器６００は図４ｃで説明したような特定のクロスフェード機能を持っても良い。代替的又は追加的に、第１結合器５３２も同じクロスフェード機能を持っても良い。さらにまた、両方の結合器が同じクロスフェード機能を持っても良く、異なるクロスフェード機能を持っても良く、或いは、クロスフェード機能が全くない、つまり両方の結合器がクロスフェード機能を全く持たないスイッチであっても良い。

既に上述したが、両方のスイッチは、図１０ａ及び図１０ｂに関連して説明したように、開ループの判定を介しても、又は閉ループの判定を介しても制御することができる。このとき、図３ｃの制御器３００，５２５は、両方のスイッチに対し異なる機能を持っても良いし、同じ機能を持っても良い。

さらに、信号適応型の時間ワーピング機能は、第１符号化分枝又は第１復号化分枝に存在できるだけではなく、符号器側の第２符号化分枝の第２処理分枝にも、さらには復号器側にも存在しても良い。処理済信号に依存して、両方の時間ワーピング機能が同じ時間ワーピング情報を持ち、第１ドメインにおいても第２ドメインにおいても同じ時間ワーピングが適用されても良い。この場合には処理の負担が軽減されるので、いくつかの場合、即ち連続するブロックが類似する時間ワーピングの時間特性を持つ場合に役立つであろう。しかし、他の実施例においては、第１符号化分枝と第２符号化分枝の第２処理分枝とのために、それぞれ独立した時間ワープ評価器を持つことが望ましい。

本発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることが可能であり、インターネットのような無線伝送媒体又は有線伝送媒体等、伝送媒体を介して伝送されることも可能である。

他の実施例では、図１ａ又は図２ａのスイッチ２００が、２つの符号化分枝４００，５００の間で切替を行う。さらに他の実施例では、第３符号化分枝，第４符号化分枝，又はそれ以上の符号化分枝等、追加的な符号化分枝を持つことができる。復号器側においては、図１ｂ又は図２ｂのスイッチ６００が２つの復号化分枝の間、即ち分枝４３１，４４０と、分枝５３１，５３２，５３３，５３４，５４０との間で切替を実行する。さらに他の実施例では、第３復号化分枝，第４復号化分枝又はそれ以上の復号化分枝等、追加的な復号化分枝を持つことができる。同様に、そのように追加的な符号化／復号化分枝が有る場合には、他のスイッチ５２１又は５３２は、２つ以上の異なる符号化アルゴリズムの間で切替を行っても良い。

図１２ａは符号器の構成の好適な一実施例を示し、図１２ｂは対応する復号器の構成の好適な一実施例を示す。対応する参照番号について上述した要素に加え、図１２ａの実施例は、個別の聴覚心理モジュール１２００を備え、さらに、図１１ａではブロック４２１で示された、追加的な符号化ツールの好適な構成を備えている。これらの追加的なツールとは、時間ノイズシェーピンク（ＴＮＳ）ツール１２０１と、中央／サイド符号化ツール（Ｍ／Ｓ）１２０２である。さらに、上記要素４２１／５２４の追加的機能は、ブロック４２１／５４２において、スケーリング，ノイズ充填分析，量子化，及びスペクトル値の算術符号化が組合せられた構成として示される。

図１２ｂに示す対応する復号器の構成も追加的な要素を備えている。それらは、Ｍ／Ｓ復号化ツール１２０３とＴＮＳ−復号器ツール１２０４である。さらに、これまでの図には示されていない、低音ポストフィルタ(bass postfilter)１２０５も備えている。遷移ウインドウ化(transition windowing)ブロック５３２は、図２Ｂでスイッチとして示される要素５３２に対応し、オーバーサンプリングされたクロスフェード又は臨界サンプリングされたクロスフェードのいずれかで良い、ある種のクロスフェードを実行する。後者は、あるＭＤＣＴ操作として実行され、そこでは二つの時間エイリアシングされた部分がオーバーラップされ且つ加算される。この臨界サンプリングされた遷移処理は適切な場所で使用されることが望ましい。なぜなら、品質において全く損失がない状態で、全体のビットレートを低減できるからである。追加的な遷移ウインドウ化ブロック６００は図２Ｂの結合器６００に対応し、ここでもスイッチとして示されていたが、しかし、この要素は明らかに、臨界サンプリング又は非臨界サンプリングされたある種のクロスフェードを実行し、その結果、１つのブロックが第１分枝で処理され他のブロックが第２分枝で処理された場合に、ブロッキングアーチファクト、具体的にはスイッチングアーチファクトの発生を防止する。しかし、両方の分枝における処理が互いに完璧に一致する場合には、このクロスフェード操作はあるハードスイッチへと「降格」できる一方で、クロスフェード操作は両分枝間の「ソフト」スイッチとして理解される。

図１２ａと図１２ｂに示す概念により、スピーチとオーディオコンテンツの任意の混合を有する信号を符号化することが可能になり、この概念は、スピーチ又は一般的なオーディオコンテンツのいずれかの符号化のために特別仕様された最良の符号化技術に匹敵するか又はそれ以上の優れた機能を発揮する。符号器及び復号器の構造を一般的に説明すれば、ステレオ又は多チャネル処理を実行するＭＰＥＧサラウンド（ＭＰＥＧＳ）機能ユニットと、入力信号内の高いオーディオ周波数のパラメトリック表示を処理する強化されたスペクトル帯域複製（ｅＳＢＲ）ユニットと、からなる共通の前‐後処理が存在する構造と言うことができる。さらに、２つの分枝が存在し、１つの分枝は修正された高効率オーディオ符号化（ＡＡＣ）ツールの経路からなり、他の分枝は線形予測符号化（ＬＰ又はＬＰＣドメイン）ベースの経路から成る。後者の経路は、次に、ＬＰＣ残余の周波数ドメイン表示又は時間ドメイン表示を有する。ＡＡＣとＬＰＣとの両方に伝送された全てのスペクトルは、量子化と算術符号化に続いてＭＤＣＴドメインで表示される。時間ドメイン表示は、ＡＣＥＬＰ励振符号化スキームを使用する。これらの基本的構造は符号器については図１２ａ、復号器については図１２ｂで示す。これらの図においてデータは、左から右、上から下への方向で流れる。この復号器の機能は、ビットストリームペイロード内の量子化されたオーディオスペクトル又は時間ドメイン表示の記述を発見し、その量子化された値や他の再構築情報を復号化することである。

スペクトル情報が伝送された場合には、復号器は量子化されたスペクトルを再構築し、その再構築されたスペクトルをビットストリームペイロード内の何らかの活性化したツールを用いて処理することで、入力されたビットストリームペイロードにより記述された通りの、実際の信号スペクトルに到達し、最終的には、周波数ドメインのスペクトルを時間ドメインへと変換する。最初の再構築とそのスペクトル再構築のスケーリングに続き、より効率的な符号化を可能にするために１つ又は複数のスペクトルを修正する、任意のツールが存在する。

時間ドメイン信号表示が伝送された場合には、復号器は量子化された時間信号を再構築し、その再構築された時間信号をビットストリームペイロード内の活性化しているあらゆるツールを用いて処理することで、入力されたビットストリームペイロードにより記述された通りの、実際の時間ドメイン信号に到達する。

信号データを操作する前記任意の各ツールについて、「通過する」か否かの選択が維持され、かつ処理が省略された全ての場合においては、入力におけるスペクトル又は時間サンプルが、修正されずにそのままそのツールを通過する。

前述のビットストリームの信号表示が、時間ドメインから周波数ドメイン表示へと変化し、或いはＬＰドメインから非ＬＰドメインへと変化し、又はそれらの逆に変化する場合、復号器は、ある適切な遷移オーバーラップ−加算ウインドウ処理を用いて、１つのドメインから他のドメインへ容易に遷移するであろう。

ｅＳＢＲとＭＰＥＧＳの処理は、遷移処理の後に、両方の符号化経路に対して同様に適応される。

ビットストリームペイロード・デマルチプレクサツールへの入力は、ビットストリームペイロードである。このデマチルプレクサは、ビットストリームペイロードを各ツールのための部分に分割し、各ツールに対してそのツールに関連したビットストリームペイロード情報を提供する。

ビットストリームペイロード・デマルチプレクサツールからの出力は、以下の通りである。
（１）現時点のフレームにおけるコア符号化方式に依存して、以下のいずれかの情報：
・量子化されノイズレスに符号化された次で表現されたスペクトル
・スケールファクタ情報
・算術的に符号化されたスペクトルライン
・又は、次のいずれかにより表現された励振信号と共に、線形予測（ＬＰ）パラメータ：
・量子化され算術的に符号化されたスペクトルライン（変換符号化済励振、TCX）又は、
・ＡＣＥＬＰ符号化された時間ドメイン励振
（２）スペクトルノイズ充填情報（任意）
（３）Ｍ／Ｓ決定情報（任意）
（４）時間ノイズ整形（ＴＮＳ）情報（任意）
（５）フィルタバンク制御情報
（６）時間アンワーピング(time unwarping)（ＴＷ）制御情報（任意）
（７）強化されたスペクトル帯域複製（ｅＳＢＲ）制御情報
（８）ＭＰＥＧサラウンド（ＭＰＥＧＳ）制御情報

スケールファクタ・ノイズレス復号化ツールは、ビットストリームペイロード・デマルチプレクサからの情報を引き出し、その情報を解析し、ハフマン符号化及びＤＰＣＭ符号化されたスケールファクタを復号化する。

スケールファクタ・ノイズレス復号化ツールへの入力は、ノイズレスに符号化されたスペクトルのためのスケールファクタ情報である。

スケールファクタ・ノイズレス復号化ツールからの出力は、スケールファクタの復号化された整数表現である。

スペクトル・ノイズレス復号化ツールは、ビットストリームペイロード・デマルチプレクサから情報を取り出し、その情報を解析し、算術的に符号化されたデータを復号化し、その量子化されたスペクトルを再構築する。このノイズレス復号化ツールへの入力は、ノイズレスに符号化されたスペクトルである。

このノイズレス復号化ツールからの出力は、スペクトルの量子化された値である。

逆量子化器ツールは、スペクトルの量子化された値を受け取り、その整数値をスケールされていない再構築されたスペクトルへと変換する。この量子化器は圧伸量子化器であり、その圧伸ファクタは、選択されたコア符号化モードに依存する。

逆量子化器ツールへの入力は、スペクトルの量子化された値である。

逆量子化器ツールからの出力は、スケールされていない逆量子化済スペクトルである。

ノイズ充填ツールは、復号化されたスペクトル内のスペクトルギャップを充填するために使用される。このギャップは、例えば符号器内においてビット要求に対して強い制限があるなどの理由により、スペクトル値がゼロに量子化されたときに発生する。ノイズ充填ツールの使用は任意である。

ノイズ充填ツールへの入力は、以下の通りである：
・スケールされていない逆量子化済スペクトル
・ノイズ充填パラメータ
・スケールファクタの復号化された整数表現。

ノイズ充填ツールへの出力は、以下の通りである：
・事前にゼロへと量子化されたスペクトルラインのための、スケールされていない逆量子化済スペクトル値
・スケールファクタの修正された整数表示。

再スケーリングツールは、スケールファクタの整数表示を実際の値に変換し、かつそのスケールされていない逆量子化済スペクトルを、関連するスケールファクタで乗算する。

上記スケールファクタツールへの入力は、以下の通りである：
・スケールファクタの復号化された整数表示
・スケールされていない逆量子化済スペクトル。

上記スケールファクタツールからの出力は、スケーリングされた、逆量子化済スペクトルである。

Ｍ／Ｓツールに関する説明は、非特許文献４を参照されたい。

時間ノイズ整形（ＴＮＳ）ツールに関する説明も、非特許文献４を参照されたい。

フィルタバンク／ブロック切替ツールは、符号化器内で実行された周波数マッピングの逆を適応する。フィルタバンクツールのために逆の変形離散コサイン変換（ＩＭＤＣＴ）が使用される。このＩＭＤＣＴは１２０，１２８，２４０，２５６，３２０，４８０，５１２，５７６，９６０，１０２４，１１５２のスペクトル係数をサポートするように構成されても良い。

フィルタバンクツールへの入力は、
・（逆量子化された）スペクトルと、
・フィルタバンク制御情報と、である。

フィルタバンクツールからの出力は、時間ドメインの再構築済オーディオ信号である。

時間ワープされたフィルタバンク／ブロック切替ツールは、時間ワーピングモードが活性化された時に、通常のフィルタバンク／ブロック切替ツールと置き換わる。この時間ワープされたフィルタバンクはＩＭＤＣＴに関して通常のフィルタバンクと同じであるが、追加的に、ウインドウ処理された時間ドメインサンプルが、時間変化するリサンプリングにより、ワープされた時間ドメインから線形時間ドメインへとマッピングされる。

時間ワープされたフィルタバンクツールへの入力は、
・逆量子化されたスペクトルと、
・フィルタバンク制御情報と、
・時間ワーピングの制御情報と、である。

このフィルタバンクツールからの出力は、線形時間ドメインの再構築済オーディオ信号である。

強化されたＳＢＲ（ｅＳＢＲ）ツールは、オーディオ信号の高帯域を再構築する。この方法は、符号化の際に省略されたハーモニックスのシーケンスの複製に基づいている。この方法は、生成された高帯域のスペクトル包絡を調整し、逆の濾波を適用し、さらにノイズと正弦波成分を加算することで、オリジナル信号のスペクトル特性を再構築する。

ｅＳＢＲツールへの入力は、
・量子化された包絡データと、
・種々の(Misc.)制御データと、
・ＡＡＣコア復号器からの時間ドメイン信号と、である。

ｅＳＢＲツールからの出力は、
・時間ドメイン信号、又は
・例えばＭＰＥＧサラウンドツールが使用された場合には、信号のＱＭＦ−ドメイン表示、のどちらかである。

ＭＰＥＧサラウンド（ＭＰＥＧＳ）ツールは、１つ又は複数の入力信号から多数の信号を生成する。この生成は、適切な空間パラメータの制御の下で、ある洗練されたアップミックスの処理を入力信号に適用することで達成される。ＵＳＡＣ（統一的なスピーチ及びオーディオ符号化）の文脈において、ＭＰＥＧは、伝送されたダウンミックス済信号と一緒にパラメトリックサイド情報をも伝送する手法で、多チャネル信号の符号化のために使用される。

上記ＭＰＥＧツールへの入力は、
・ダウンミックス済の時間ドメイン信号、又は
・ｅＳＢＲツールからのダウンミックス済信号のＱＭＦ−ドメイン表示、である。

上記ＭＰＥＧツールからの出力は、
・多チャネル時間ドメイン信号である。

信号分類ツールは、オリジナル入力信号を分析し、様々の符号化モードを選択する決め手となる制御情報を、その信号から生成する。入力信号の分析は構成に依存するものであり、与えられた入力信号フレームのために最適なコア符号化モードを選択しようと試みる。この信号分類からの出力は、（任意ではあるが）その他のツールの挙動に影響を与えるためにも使用できる。その他のツールとは、例えばＭＰＥＧサラウンド、強化されたＳＢＲ、時間ワープされたフィルタバンクなどである。

信号分類ツールへの入力は、
・オリジナルの未修正入力信号と、
・構成に依存した追加のパラメータと、である。

信号分類ツールの出力は、
・コアコーデック（ＬＰ濾波されていない周波数ドメイン符号化、ＬＰ濾波済周波数ドメイン又はＬＰ濾波済時間ドメイン符号化）の選択を制御するための制御情報である。

本発明では、図１２ａのブロック４１０の中及び図１２ａの変換器５２３の中における時間／周波数分解能は、オーディオ信号に依存して制御されている。図１３ａは、ウインドウ長と変換長と時間分解能と周波数分解能との間の相関関係を示す。この図から、長いウインドウ長の場合には、時間分解能は低くなるが周波数分解能は高くなることが明らかであり、また、短いウインドウ長の場合には、時間分解能は高くなるが周波数分解能は低くなることが明らかである。

第一符号化分枝、即ち好適には図１２ａにおいて要素４１０，１２０１，１２０２，４０２１によって示すＡＡＣ符号化分枝においては、種々のウインドウを使用することができる。ここで、ウインドウ形状はある信号分析器によって決定され、その信号分析器は、好適には信号分類ブロック３００内で符号化されても良いが、分離したモジュールであってもよい。符号器は、図１３ｂに示す種々の時間／周波数分解能を持つウインドウのうちの１つを選択する。１番目の長いウインドウ、２番目のウインドウ、４番目のウインドウ、５番目のウインドウ及び６番目のウインドウの時間／周波数分解能は、変換長１０２４に対応する２０４８個のサンプリング値に等しい。図１３ｂの３番目のラインに示す短いウインドウは、そのウインドウサイズに応じた２５６個のサンプリング値の時間分解能を有する。この分解能は変換長１２８に対応する。

同様に、最後の二つのウインドウは、２３０４に等しいウインドウ長を持ち、これは上述した１番目のラインのウインドウよりも高い周波数分解能であるが、より低い時間分解能である。これら最後の２つのウインドウの変換長は、１１５２に等しい。

第一符号化分枝においては、図１３ｂ内の変換ウインドウから生成される様々なるウインドウシーケンスが構築可能である。図１３ｃでは短いシーケンスは１つだけ示されており、他の複数の「シーケンス」は単一のウインドウだけから構成されているが、複数のウインドウからなる大きなシーケンスも構築可能である。図１３ｂによれば、小さな数の係数、即ち１０２４の代わりとなる９６０のような係数については、時間分解能もまた、１０２４のような対応する高い係数における時間分解能よりも低くなるという点に留意すべきである。

図１４ａ−１４ｇは、第２符号化分枝における様々な分解能／ウインドウサイズを示す。本発明のある好適な実施例では、第２符号化分枝は、あるＡＣＥＬＰ時間ドメイン符号器５２６である第一の処理分枝と、フィルタバンク５２３を含む第２処理分枝とを含む。この分枝では、例えば２０４８個のサンプルからなる１つのスーパーフレームが、２５６個のサンプルからなるフレームへとサブ分割される。２５６個のサンプルからなる個々のフレームは別々に使用可能であり、その結果、５０％のオーバーラップを持つＭＤＣＴが適用された場合に、各ウインドウが２つのフレームをカバーする４つのウインドウのシーケンスが適用できる。次に、図１４ｄに示すように、ある高い時間分解能が使用される。代替的に、信号が長いウインドウを許可する場合には、図１４ｃに示すようなシーケンスが適用できる。この場合、各ウインドウ（中間長のウインドウ）について１０２４個のサンプルを持つ、あるダブルウインドウサイズが適用され、その結果、１つのウインドウが４つのフレームをカバーし、５０％のオーバーラップとなる。

最後に、長いウインドウを使用できる信号である場合には、その長いウインドウは４０９６個以上のサンプルに渡って延び、オーバーラップはやはり５０％となる。

上述のように、２つの分枝が存在し、１つの分枝はあるＡＣＥＬＰ符号器を持つような好適な実施例においては、図１４ｅに示すような１つのスーパーフレーム内で、「Ａ」で示すＡＣＥＬＰフレームの位置により、「Ｔ」で示す２つの隣接するＴＣＸフレームに対して適用されるウインドウサイズが決定されても良い。基本的に、可能な場合には長いウインドウが使用されるものである。しかし、２つのＡフレームの間に１つのＴフレームがある場合には、短いウインドウを適用しなければならない。中間長のウインドウは、２つのＴフレームが隣接する場合に適用できる。しかし、３つのＴフレームが隣接する場合には、対応する大きなウインドウを適用することは、複雑性が増すという理由で効果的ではない。従って、３番目のＴフレームは、Ａフレームが前に無いにも拘わらず、短いウインドウにより処理されることができる。スーパーフレーム全体がＴフレームだけを持つ場合には、長いウインドウを適用できる。

図１４ｆはウインドウのための幾つかの代替案を示す。ここでは、好適な５０％のオーバーラップに起因して、ウインドウサイズは常に、２×ｌｇ（ｌｇ：スペクトル係数の数）となる。しかし、全ての符号化分枝について他のオーバーラップパーセンテージも適用可能であり、その結果、ウインドウサイズと変換長との間の関係が２とは異なっても良く、時間ドメイン・エイリアシングが適用されない場合のように、１に近づいても良い。

図１４ｇは、図１４ｆに記載の規則に基づいてウインドウを構築するための規則を示す。値ＺＬはウインドウの開始点におけるゼロの個数を示す。値Ｌはエイリアシングゾーンにおけるウインドウ係数の個数を示す。部分Ｍの値は、Ｍに対応する部分にゼロを持つような隣接するウインドウとのオーバーラップにより、エイリアシングを全く導入しない「１」の値である。この部分Ｍの次には、右側のオーバーラップゾーンＲが続き、このＲの後には、後続のウインドウの部分Ｍに対応しても良い、ゼロのＺＲゾーンが続く。

以下に添付する付録を参照されたい。この付録部分は、本発明のオーディオ符号化／復号化スキームの好適かつ詳細な構成を、特に復号化側について記載するものである。

[付録]
１．ウインドウ及びウインドウシーケンス
量子化及び符号化は周波数ドメインで実行される。この目的のため、時間信号は符号器内で周波数ドメインへとマッピングされる。復号器はサブクローズ(subclause)２に記載のような逆マッピングを実行する。信号に依るが、符号器は３つの異なるウインドウサイズ、即ち２３０４，２０４８，２５６を使用して時間／周波数分解能を変化させても良い。ウインドウ間を切り替えるために、遷移ウインドウ(transition window) LONG_START_WINDOW, LONG_STOP_WINDOW, START_WINDOW_LPD,STOP_WINDOW_1152,STOP_START_WINDOW 及び STOP_START_WINDOW_1152 が使用される。表５．１１はウインドウを示すものであり、対応する変換長を特定し、各ウインドウの形状を概略的に示す。３つの変換長、即ち、１１５２と、（長い変換長と呼ぶ）１０２４（又は９６０）と、（短い変換長と呼ぶ）１２８（１２０）個の係数を持つ変換長が使用される。

ウインドウシーケンスは、raw_data_block が常に１０２４（又は９６０）個の出力サンプルを表現するデータを含むという方法で、ウインドウから構成されている。データ要素である window_sequenceは、実際に使用されているウインドウシーケンスを示す。図１３ｃは各ウインドウシーケンスがどのように個別のウインドウから構成されているかを示す。変換とウインドウについての詳細な情報は、サブクローズ(subclause)２に記載する。

１．２スケールファクタ帯域とグルーピング
非特許文献５を参照されたい。

非特許文献５に記載のように、スケールファクタ帯域の幅は人間の聴覚システムの臨界帯域を真似て構築されている。そのため、１つのスペクトルにおけるスケールファクタ帯域の個数とそれらの幅とは、変換長とサンプリング周波数とに依存する。非特許文献６は、変換長１０２４（９６０）及び１２８（１２０）と、サンプリング周波数と、における各スケールファクタ帯域の開始点へのオフセットを示す。元々はLONG_WINDOW,LONG_START_WINDOW 及びLONG_STOP_WINDOW のために設計されたそれらの表は、START_WINDOW_LPD 及びSTOP_START_WINDOWのためにも使用される。表４〜表１０はSTOP_WINDOW_1152 及び STOP_START_WINDOW_1152 のためのオフセット表である。

１．３ lpd_channel_stream() の復号化
lpd_channel_stream()ビットストリーム要素は、「線形予測ドメイン」の符号化済信号からなる１つのフレームを復号化するために必要な全ての情報を含む。この要素は、ＬＰＣドメインで符号化された、即ちＬＰＣ濾波ステップを含む方法で符号化された符号化済信号からなる１つのフレームのためのペイロードを含む。このフィルタの残余（所謂「励振」）は、次にＡＣＥＬＰモジュールを用いて表現されるか、又はＭＤＣＴ変換ドメイン（「変換符号化済励振」，ＴＣＸ）で表現される。信号特性への近しい調整を可能にするため、１つのフレームは同一サイズを持つ４つの小さなユニットへと分割され、各ユニットはＡＣＥＬＰ又はＴＣＸの符号化スキームを用いて符号化される。

上述のプロセスは、非特許文献１に記載の符号化スキームと類似している。この文献から受け継ぐものであるが、僅かに異なる用語使いとして、次のような用語が挙げられる。即ち、１つの「スーパーフレーム」とは１０２４個のサンプルからなる１つの信号文節を表し、1つの「フレーム」とはその正確な４分の１、即ち２５６個のサンプルを持つ。これらの各フレームは、同一の長さを持つ４つの「サブフレーム」へとさらに分割される。本件の説明ではこのような用語使いを採用していることに注意されたい。

１．４定義、データ要素
acelp_core_mode … このビットフィールドは、ＡＣＥＬＰがｌｐｄ符号化モードとして使用された場合の正確なビット割当のスキームを示す。
lpd_mode … このビットフィールドモードは（１つのＡＡＣフレームに対応する）lpd_channel_stream()の１つのスーパーフレーム内の４つの各フレームのための符号化モードを定義する。これらの符号化モードはアレイmod[]内に記憶され、０〜３の値をとることができる。lpd_mode からmod[]へのマッピングは以下の表１から決定できる。
表１−lpd_channel_stream()のための符号化モードのマッピング

mod[0．．3] … アレイmod[]内の値は各フレームにおける各符号化モードを示す。
表２−mod[]により示される符号化モード

acelp_coding() … ＡＣＥＬＰ励振の1フレームを復号化する全てのデータを含むシンタクス要素である。
tcx_coding() … ＭＤＣＴベースの変換符号化済励振（ＴＣＸ）の1フレームを復号化する全てのテータを含むシンタクス要素である。
first_tcx_flag … 現時点に処理されるＴＣＸフレームが１つのスーパーフレーム内の１番目か否かを示すフラグである。
lpc_data() … 現時点のスーパーフレームを復号化するために必要な全てのＬＰＣフィルタパラメータセットを復号化する全てのテータを含むシンタクス要素である。
first_lpd_flag … 現時点のスーパーフレームが、ＬＰＣドメインで符号化されたスーパーフレームの列内の１番目か否かを示すフラグであり、このフラグは次に示す表３に従ってビットストリーム要素 core_mode (channel_pair_element の場合にはcore_mode0 及び core_mode1)の履歴からも決定できる。
表３−first_lpd_flagの定義

last_lpd_mode … 先行して復号化されたフレームのlpd_mode を示す。

１．５復号化のプロセス
lpd_channel_streamにおける復号化の手順は以下の通りである。
acelp_core_modeを取得する。
lpd_modeを取得してそこからhelper variable mod[]のコンテンツを決定する。
helper variable mod[]のコンテンツに依存して、acelp_coding 又は tcx_coding のデータを取得する。
lpc_dataを取得する。

１．６ＡＣＥＬＰ／ＴＣＸ符号化モードの組合せ
非特許文献７の５．２．２章の記載と同様に、lpd_channel_streamペイロードの１つのスーパーフレーム内にはＡＣＥＬＰ又はＴＣＸの許可された組合せが２６通り存在する。これら２６通りのモード組合せの１つが、ビットストリーム要素lpd_modeの中で信号化されている。１つのサブフレーム内の各フレームにおけるlpd_modeから実際の符号化モードへのマッピングは、表１及び表２に示される。
表４−４４．１ｋＨｚ及び４８ｋＨｚにおけるSTOP_START_1152_WINDOW 及び STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

表５−３２ｋＨｚにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

表６−８ｋＨｚにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

表７−１１．０２５ｋＨｚ，１２ｋＨｚ及び１６ｋＨｚにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

表８−２２．０５ｋＨｚ及び２４ｋＨｚにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

表９−６４ｋＨｚにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

表１０−８８．２ｋＨｚ及び９６ｋＨｚにおけるSTOP_START_1152_WINDOW と STOP_1152_WINDOWのためのウインドウ長２３０４のスケールファクタ帯域

１．７スケールファクタ帯域表の参照文献
他の全てのスケールファクタ帯域表については、非特許文献８を参照されたい。

１．８量子化
符号器におけるＡＡＣスペクトル係数の量子化のために、不均一の量子化器が使用される。そのため、復号器は、スケールファクタのハフマン復号化（サブクローズ６．３を参照）とスペクトルデータのノイズレス復号化（サブクローズ６．１を参照）の後で、逆の不均一量子化を実行しなければならない。

ＴＣＸスペクトル係数の量子化のためには、均一の量子化器が使用される。そのため、復号器において、スペクトルデータのノイズレス復号化の後で、逆の量子化は不要となる。

２．フィルタバンクとブロック切替
２．１ツールの説明
信号の時間／周波数表現は、フィルタバンクモジュールへと伝送されることで、時間ドメインへとマッピングされる。このモジュールは、逆の変形離散コサイン変換（ＩＭＤＣＴ）に加え、あるウインドウとあるオーバーラップ−加算の関数を含む。フィルタバンクの時間／周波数分解能を入力信号の特性へと適合させるために、ブロック切替ツールも採用されている。Ｎはウインドウ長を表し、ここで、Ｎはwindow_sequence（サブクローズ１．１を参照）の関数である。各チャネルのために、N／２個の時間−周波数値X_i,k がＮ個の時間ドメイン値x_i,n へとＩＭＤＣＴを介して変換される。ウインドウ関数を適用した後に、各チャネルについて、z_i,n シーケンスの前半が、前のブロックのウインドウ化済シーケンスz_(i-1),n の後半に対して加算され、各チャネルのための出力サンプルout_i,nが再構築される。

２．２定義
window_sequence … ２ビットであり、どのウインドウシーケンス（即ちブロックサイズ）が使用されるかを示す。
window_shape … １ビットであり、どのウインドウ関数が選択されたかを示す。

図１３ｃは８個のwindow_sequence（即ち、ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE, LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE）を示す。

以下においては、LPD_SEQUENCEは、所謂線形予測ドメイン符号化（セクション１．３参照）の中の、許可された全てのウインドウ／符号化モードの組合せを指している。周波数ドメインで符号化済のフレームを復号化する上で、後続のフレームがＬＰドメインの符号化モードで符号化されたか否かを知ることだけでも重要であり、この点はあるLPD_SEQUENCEによって表現される。しかし、そのLPD_SEQUENCE内の正確な構造については、そのＬＰドメイン符号化済フレームを復号化するときに考慮される。

２．３復号化プロセス
２．３．１ＩＭＤＣＴ（逆の変形離散コサイン変換）
ＩＭＤＣＴの分析的な表現を次の式で示す。

ここで、n=サンプル指数
i=ウインドウ指数
k=スペクトル係数の指数
N=window_sequence値に基づくウインドウ長
n₀=(N/2+1)/2である。

逆変換のための合成ウインドウ長Ｎは、シンタクス要素window_sequenceとそのアルゴリズムのコンテクストとの関数である。それは以下のように定義される。
ウインドウ長２３０４の場合：

ウインドウ長２０４８の場合：

有意なブロック遷移は以下の通りである。

２．３．２ウインドウ化とブロック切替
window_sequence と window_shape の要素に依存して、様々な変換ウインドウが使用される。以下に示すような半分のウインドウの組合せにより、可能な全てのwindow_sequenceが提供される。

window_shape == 1 に対しては、ウインドウ係数は次のようなKaiser - Bessel derived （ＫＢＤ）ウインドウにより与えられる。

ここで、Ｗ’はKaiser _ Bessel のカーネル関数であり、非特許文献９も参考となるが、以下のように定義される。

他の方法として、window_shape == 0のとき、サインウインドウは以下のように使用される。

ウインドウ長Ｎは、上記ＫＢＤ及び上記サインウインドウについて、２０４８（１９２０）又は２５６（２４０）になりうる。STOP_1152_SEQUENCE及びSTOP_START_1152_SEQUENCEの場合には、Ｎはやはり２０４８又は２５６になり得るが、ウインドウ勾配は類似するものの、フラットトップ領域はより長くなる。

LPD_START_SEQUENCEの場合にのみ、ウインドウの右側の部分は６４個のサンプルのサインウインドウである。

取得可能なウインドウのシーケンスをどのように取得するかについては、このサブクローズの以下に記載するａ）〜ｈ）の項目にて説明する。

あらゆる種類のwindow_sequencesについて、第一変換ウインドウの左半分のwindow_shapeは、前のブロックのウインドウ形状によって決定される。以下の式が、この事実を示す：

ここで、window_shape_previous_blockは、前のブロック(i-1)のwindow_shapeを示す。
復号化されるべき第一のraw_data_block()について、当該ウインドウの左半分及び右半分のwindow_shapeは同一である。

ａ）ONLY_LONG_SEQUENCE:
window_sequence == ONLY_LONG_SEQUENCEは、２０４８（１９２０）の全体ウインドウ長Ｎ＿ｌを持つ、１つのLONG_WINDOWに等しい。

Window_shape == 1については、ONLY_LONG_SEQUENCEのためのウインドウは以下のように与えられる：

もしwindow_shape == 0であれば、ONLY_LONG_SEQUENCEのためのウインドウは以下のように記述できる：

ウインドウ化の後、時間ドメイン値(z_i,n) は以下のように表現できる。
Ｚ_i,n＝Ｗ（ｎ）・Ｘ_i,n

ｂ）LONG_START_SEQUENCE:
LONG_START_SEQUENCEは、ONLY_LONG_SEQUCEからEIGHT_SHORT_SEQUENCEへのブロック変換のための、正しいオーバーラップ及び加算を得るために必要である。

ウインドウ長Ｎ＿ｌとＮ＿ｓとは２０４８（１９２０）と２５６（２４０）とにそれぞれ設定されている。
window_shape == 1の場合には、LONG_START_SEQUENCEのためのウインドウは以下の式で与えられる：

window_shape == 0の場合には、LONG_START_SEQUENCEのためのウインドウは以下のようになる：

ウインドウ化された時間ドメイン値は、上記項目ａ）で説明した式を使って計算しても良い。

ｃ）EIGHT_SHORT
window_sequence == EIGHT_SHORT は、それぞれが２５６（２４０）の長さＮ＿ｓを持つ、８個のオーバーラップ及び加算されたSHORT_WINDOWsを含む。先頭の０と後続の０とを含むwindow_sequenceの全体の長さは２０４８（１９２０）である。８個の短いブロックそれぞれは、最初は別々にウインドウ化される。短いブロックの番号は、変数j = 0,…, Ｍ−１（Ｍ＝Ｎ＿ｌ／Ｎ＿ｓ）により指標化される。

前のブロックのwindow_shapeは、８個の短いブロック(W₀(n)) の１番目にのみ影響する。window_shape == 1の場合には、ウインドウ関数は以下のように与えられても良い：

他に、window_shape == 0の場合には、ウインドウ関数は以下のように記述できる：

EIGHT_SHORT window_sequenceの間のオーバーラオップ及び加算は、ウインドウ化された時間ドメイン値z_i,n という結果となるが、以下のように記述できる：

ｄ）LONG_STOP_SEQUENCE
このwindow_sequenceはEIGHT_SHORT_SEQUENCEからONLY_LONG_SEQUENCEへの戻り切替を実行するために必要である。

window_shape == 1の場合には、LONG_STOP_SEQUENCEのためのウインドウは以下のように与えられる：

window_shape ==0の場合には、LONG_START_SEQUENCEのためのウインドウは以下により決定される：

ウインドウ化された時間ドメイン値は、項目ａ）で説明した式によって計算しても良い。

ｅ）STOP_START_SEQUENCE:
STOP_START_SEQUENCEは、ONLY_LONG_SEQUENCEだけが必要な場合に、EIGHT_SHORT_SEQUENCEからEIGHT_SHORT SEQUENCEへのブロック変換のための正しいオーバーラップ及び加算を得るために必要となる。

ウインドウ長Ｎ＿ｌ及びＮ＿ｓは、それぞれ２０４８（１９２０）及び２５６（２４０）に設定される。
window_shape == 1の場合には、STOP_START_SEQUENCEのためのウインドウは以下のように与えられる：

window_shape == 0の場合には、STOP_START_SEQUENCEのためのウインドウは以下のようにになる：

ウインドウ化された時間ドメイン値は、ａ）で説明した式によって計算しても良い。

ｆ）LPD_START_SEQUENCE:
LPD_START_SEQUENCEは、ONLY_LONG_SEQUENCEからLPD_SEQUENCEへのブロック変換のための正しいオーバーラップ及び加算を得るために必要となる。

ウインドウ長Ｎ＿ｌ及びＮ＿ｓは、それぞれ２０４８（１９２０）及び２５６（２４０）に設定される。

window_shape == 1の場合には、LPD_START_SEQUECEのためのウインドウは、以下のように与えられる：

window_shape == 0の場合には、LPD_START_SEQUENCEのためのウインドウは次のようになる：

ウインドウ化された時間ドメイン値は、項目ａ）で上述した式を用いて計算されても良い。

ｇ）STOP_1152_SEQUENCE:
STOP_1152_SEQUENCEは、LPD_SEQUENCEからONLY_LONG_SEQUENCEへのブロック変換のための、正しいオーバーラップ及び加算を得るために必要となる。

ウインドウ長Ｎ＿ｌ及びＮ＿ｓは、それぞれ２０４８（１９２０）及び２５６（２４０）に設定される。
window_shape == 1の場合には、STOP_1152_SEQUENCEのためのウインドウは以下のように与えられる：

window_shape == 0の場合には、STOP_1152_SEQUENCEのためのウインドウは以下のように見える：

ウインドウ化された時間ドメイン値は、項目ａ）に上述した式を用いて計算されても良い。

ｈ）STOP_START_1152_SEQUENCE:
STOP_START_1152_SEQEUNCEは、ONLY_LONG_SEQUENCEだけが必要な場合に、LPD_SEQUENCEからEIGHT_SHORT_SQUENCEへのブロック変換のために、正しいオーバーラップと加算を得るために必要となる。

window_shape == 1の場合には、STOP_START_SEQUENCEのためのウインドウは以下のように与えられる：

window_shape == 0の場合には、STOP_START_SEQUENCEのためのウインドウは以下のようになる：

２．３．３．前のウインドウシーケンスとのオーバーラップ及び加算
EIGHT_SHORT window_sequnceの中のオーバーラップ及び加算とは別に、各window_sequenceの第１（左側）部分は、前のwindow_sequenceの第２（右側）部分にオーバーラップ及び加算され、その結果として最終時間ドメイン値out_i,_nをもたらす。この操作を数学的に表現すると、以下のようになる。
ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, LPD_START_SEQUENCEの場合には、以下のようになる：

STOP_1152_SEQUENCE、STOP_START_1152_SEQUENCEの場合には以下のようになる：

LPD_START_SEQUENCEの場合には、次のシーケンスはLPD_SEQUENCEである。良好なオーバーラップ及び加算を得るために、あるＳＩＮ又はＫＢＤウインドウがLPD_SEQUENCEの左側部分に適用される。

ここで、N=128である。

STOP_1152_SEQUENCEとSTOP_START_1152_SEQUENCEの場合には、前のシーケンスはLPD_SEQUENCEである。良好なオーバーラップ及び加算を得るために、あるＴＤＡＣウインドウがLPD_SEQUENCEの左側部分に適用される。

３．ＩＭＤＴ
サブクローズ２．３．１を参照。

３．１ウインドウ化及びブロック切り替え
window_shapeの要素に依存して、オーバーサンプルリングされた様々な変換ウインドウプロトタイプが使用され、オーバーサンプルリングされたウインドウの長さは以下のようになる。

window_shape == 1の場合には、ウインドウ係数は、Kaiser - Bessel derived（ＫＢＤ）ウインドウにより以下のように与えられる：

ここで、Kaiser - Besselカーネルウインドウ関数であるＷ’は以下のように定義されるが、この点に関しては非特許文献９も併せて参照されたい。

他の例として、window_shape == 0の場合には、あるサインウインドウが以下のように使用される：

Window_sequenceのすべての種類において、左側のウインドウ部分のために使用されるプロトタイプは、前のブロックのウインドウ形状によって決定される。以下の式はこの事実を表す：

同様に、右側のウインドウ形状のためのプロトタイプは、以下の式によって決定される：

変換長は既に決定済であるため、EIGHT_SHORT_SEQUENCEとその他すべてとを区別するだけで良い。

ａ）EIGHT SHORT SEQUENCE:
以下に示すc-code状の部分は、あるEIGHT_SHORT_SEQUENCEのウインドウ化及び内部のオーバーラップ−加算を記述する：
tw_windowing_short(X[][],z],first_pos,last_pos,warpe_trans_len_left,warped_trans_len_right,left_window_shape[],right_window_shape[]){

offset = n_long _ 4*n_short _ n_short/2;

tr_scale_1 = 0.5*n_long/warped_trans_len_left*os_factor_win;
tr_pos_l = warped_trans_len_left+(first_pos-n_long/2)+0.5)*tr_scale_l;
tr_scale_r = 8*os_factor_win;
tr_pos_r = tr_scale_r/2;

for ( i = 0 ; i < n_short ; i++ ) {
z[i] = X[0][i];
}

for(i=0;i<first_pos;i++)
z[i] = 0.;

for(i=n_long-1-first_pos;i>=first_pos;i--) {
z[i] *= left_window_shape[floor(tr_pos_l)];
tr_pos_l += tr_scale_l;
}

for(i=0;i<n_short;i++) {
z[offset+i+n_short]=
X[0][i+n_short]*right_window_shape[floor(tr_pos_r)];
tr_pos_r += tr_scale_r;
}

offset += n_short;

for ( k = 1 ; k < 7 ; k++ ) {
tr_scale_l = n_short*os_factor_win;
tr_pos_l = tr_scale_l/2;
tr_pos_r = os_factor_win*n_long-tr_pos_l;
for ( i = 0 ; i < n_short ; i++ ) {
z[i + offset] += X[k][i]*right_window_shape[floor(tr_pos_r)];
z[offset + n_short + i] =
X[k][n_short + i]*right_window_shape[floor(tr_pos_l)];
tr_pos_l += tr_scale_l;
tr_pos_r -= tr_scale_l;
}
offset += n_short;
}

tr_scale_l = n_short*os_factor_win;
tr_pos_l = tr_scale_l/2;

for ( i = n_short - 1 ; i >= 0 ; i-- ) {
z[i + offset] += X[7][i]*right_window_shape[(int) floor(tr_pos_l)];
tr_pos_l += tr_scale_l;
}

for ( i = 0 ; i < n_short ; i++ ) {
z[offset + n_short + i] = X[7][n_short + i];
}

tr_scale_r = 0.5*n_long/warpedTransLenRight*os_factor_win;
tr_pos_r = 0.5*tr_scale_r+.5;

tr_pos_r = (1.5*n_long-(float)wEnd-0.5+warpedTransLenRight)*tr_scale_r;
for(i=3*n_long-1-last_pos ;i<=wEnd;i++) {
z[i] *= right_window_shape[floor(tr_pos_r)];
tr_pos_r += tr_scale_r;
}

for(i=lsat_pos+1;i<2*n_long;i++)
z[i] = 0.;

ｂ）その他すべて：

tw_windowing_long(X[][],z[],first_pos,last_pos,warpe_trans_len_left,warped_trans_len_right,left_window_shape[],right_window_shape[]){

for(i=0;i<first_pos;i++)
z[i] = 0.;
for(i=last_pos+1;i<N;i++)
z[i] = 0.;

tr_scale = 0.5*n_long/warped_trans_len_left*os_factor_win;
tr_pos = (warped_trans_len_left+first_pos-N/4)+0.5)*tr_scale;

for(i=N/2-1-first_pos;i>=first_pos;i--) {
z[i] = X[0][i]*left_window_shape[floor(tr_pos)]);
tr_pos += tr_scale;
}

tr_scale = 0.5*n_long/warped_trans_len_right*os_factor_win;
tr_pos = (3*N/4-last_pos-0.5+warped_trans_len_right)*tr_scale;

for(i=3*N/2-1-last_pos;i<=last_pos;i++) {
z[i] = X[0][i]*right_window_shape[floor(tr_pos)]);
tr_pos += tr_scale;
}
}

４．ＭＤＣＴベースのＴＣＸ
４．１ツールの説明
上記core_modeが１に等しく、３つのＴＣＸモードのうち１つ以上が“線形予測ドメイン”符号化として選択されたとき、即ちmode[]の４つのアレイエントリのうち１つが０より大きいとき、ＭＤＣＴベースのＴＣＸツールが使用される。ＭＤＣＴベースのＴＣＸは、量子化されたスペクトル係数を算術復号器から受信する。量子化された係数は、まずコンフォートノイズによって完成された後、逆ＭＤＣＴ変換が適用され、時間ドメインの重み付き合成信号を得るために、次に重み付け合成ＬＰＣフィルタへと送られる。

４．２定義
lg 算術符号器から出力された、量子化済スペクトル係数の数
noise_factor ノイズレベルの量子化指標
noise level 再構築されたスペクトル中に注入されたノイズのレベル
noise[] 生成されたノイズのベクトル
global_gain 再スケーリングゲインの量子化指標
g 再スケーリングゲイン
rms 合成された時間ドメイン信号x[]の平均二乗根
x[] 合成された時間ドメイン信号

４．３復号化のプロセス
ＭＤＣＴベースのＴＣＸは、算術復号器からいくつかの量子化されたスペクトル係数lgを要求し、このlgはmod[]とlast_lpd_mode値とによって決定される。これら２つの値は、逆ＭＤＣＴ内に適用されるウインドウ長及び形状をも定義する。ウインドウは３つの部分、即ちＬ個のサンプルからなる左側のオーバーラップ部分と、Ｍ個のサンプルの１からなる中央部分と、Ｒ個のサンプルからなる右側のオーバーラップ部分とから構成される。次の表１１又は図１４ｆに対応して図１４ｇで示したように、２^*ｌｇの長さを持つ１つのＭＤＣＴウインドウを得るために、ＺＬ個のゼロが左側部分に、ＺＲ個のゼロが右側部分に加算される。

ＭＤＣＴウインドウは以下のように与えられる。

量子化されたスペクトル係数quant[]は、算術復号器によってもたらされたものであるが、コンフォートノイズによって完成されている。注入されたノイズのレベルは、復号化されたnoise_factorによって以下のように決定される：
noise_level = 0.0625*(8-noise_factor)

ノイズベクトルnoise[]は、次に、−１又は＋１の値を無作為にもたらすあるランダム関数random_sign()を使用して計算される。
noise[i] = random_sign()*noise_level;

quant[]とnoise[]のベクトルは、再構築されたスペクトル係数ベクトルr[]を形成するために、quant[]内における８個の連続したゼロのランがnoise[]の成分によって置き換えられるという方法により、結合される。８個の非ゼロのランは、以下の式に従って検出される：

再構築されたスペクトルは、以下のようにして取得する。

逆ＭＤＣＴを適用する前に、あるスペクトル逆シェーピングが以下のステップに従って適用される。
1. スペクトルの第１四半の各８次元ブロックのために、指標mにおける８次元ブロックE_m のエネルギーを計算する。
2. R_m=sqrt(E_m/E_I)の割合を計算する。ここで、Iは全てのE_mの最大値を持つブロックの指標である。
3. R_m<0.1のときは、R_m=0.1に設定する。
4. R_m<R_m-1のときは、R_m=R_m-1に設定する。

スペクトルの第１四半に属する各８次元ブロックは、次にファクターR_mによって乗算される。

再構築されたスペクトルは、ある逆ＭＤＣＴへと送られる。ウインドウ化されていない出力信号x[]は、ゲインgによって再スケールされる。このゲインgは、次式のように、復号化されたglobal_gain指標の逆量子化によって得られる。

ここで、rmsは以下のように計算される：

上記再スケールされた時間ドメイン合成信号は、以下と等しくなる：

再スケーリングの後で、ウインドウ化及びオーバーラップ加算が適用される。

再構築されたＴＣＸ目標x(n)は、次に、ゼロ状態の逆重み付き合成フィルタ

を介して濾波され、合成フィルタに適用されるべき励振信号が発見される。この濾波にはサブフレーム毎の補間済ＬＰフィルタが使用されることに留意すべきである。励振が一旦決定すると、上述したように、励振を合成フィルタ

を介して濾波し、次にフィルタ１／（１−０．６８ｚ^-1）を介した濾波により逆強化することで、信号が再構築される。

ＡＣＥＬＰ適応型のコードブックを更新し、後続のフレーム内でＴＣＸからＡＣＥＬＰへの切替を可能にするためにも、励振が必要であることに留意すべきである。また、ＴＣＸ合成の長さが、ＴＣＸフレーム長（オーバーラップは除く）によって付与されることにも留意すべきである。このＴＣＸフレーム長は、それぞれ１，２又は３を持つmod[]のための２５６、５１２又は１０２４個のサンプルである。

標準とする参考文献
［１］非特許文献１０
［２］非特許文献１１
［３］非特許文献１２
［４］非特許文献１３
［５］非特許文献９
［６］非特許文献１４
［７］非特許文献１５
［８］非特許文献１６
［９］非特許文献１７
［１０］非特許文献１８

定義

定義は、非特許文献１９及び非特許文献２０において見いだすことができる。

これまでいくつかの態様を装置の文脈において説明して来たが、これらの態様は対応する方法をも表すことは明白である。そこでは、１つのブロック又は装置は、１つの方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明された態様もまた、対応するブロック、又は対応する装置の特徴若しくは項目の説明をも表している。

本発明の符号化された信号は、デジタル記憶媒体に記憶可能であり、又は、インターネットのような無線若しくは有線の伝送媒体を通じて伝送可能である。

本発明の方法の所定の実施条件に依るが、本発明の方法は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読出し可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（或いは協働できる）、デジタル記憶媒体、例えばディスク，ＤＶＤ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ或いはＦＬＡＳＨメモリなどを使用して実行することができる。

本発明に従う幾つかの実施例は、電子的に読出し可能な制御信号を持つデータキャリアを含み、その制御信号は、この明細書に記載した方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働できるものである。

一般的に、本発明は、当該コンピュータプログラムがコンピュータ上で作動するときに、本発明の方法の１つを実行するためのプログラムコードを有する、コンピュータプログラム製品として実現されても良い。そのプログラムコードは、例えば機械読出し可能なキャリアに記憶されても良い。

本発明の他の実施例は、機械読出し可能なキャリアに記憶され、本発明の方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施例は、当該コンピュータプログラムがコンピュータ上で作動するときに、本発明の方法の１つを実行するためのプログラムコードを有する、コンピュータプログラムである。

本発明の方法のさらに他の実施例は、データキャリア（又はデジタル記憶媒体又はコンピュータ読出し可能な媒体）であり、その中に、本発明の方法の１つを実行するためのコンピュータプログラムを含む本発明の方法の１つを実行するためのプログラムコードを有する。

本発明の方法の別の実施例は、データストリーム又は信号のシーケンスであり、本発明の方法の１つを実行するためのコンピュータプログラムを表すものである。

本発明の他の実施例は、例えばコンピュータやプログラム可能な論理回路などの処理手段であって、本発明の方法の１つを実行するように構成されるかあるいは適合する、処理手段を含む。

本発明のさらに他の実施例は、本発明の方法の１つを実行するコンピュータプログラムがその中にインストールされた、コンピュータを含む。

幾つかの実施例においては、本発明の方法の一部或いは全ての機能を実行するために、プログラム可能な論理回路（例えば書換え可能ゲートアレイ）を使用しても良い。幾つかの実施例においては、本発明の方法の１つを実行するために、書換え可能ゲートアレイがマイクロプロセッサと協働しても良い。一般的に、本発明の方法は、任意のハードウエア装置によって実行できることが好ましい。

上述した実施例は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について、修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、以下に添付する特許請求の範囲の技術的範囲によってのみ限定されるものであり、本明細書に実施例の説明及び解説の目的で提示した具体的詳細によって限定されるものではない。

重要な点は、前記信号分析器が第１変換器４１０及び第２変換器５２３のための分解能制御信号を生成するという点である。それにより、一方では低いビットレートを提供し、他方ではその低いビットレートから見た最高品質を提供するような符号化のスキームを達成できるように、両方の符号化分枝において独立した分解能制御が実行される。低いビットレートという目的を達成するためには、長いウインドウ長又は長い変換長が好ましい。しかし、これら長いウインドウ長や長い変換長が、低い時間分解能に起因するアーチファクトを招く場合には、短いウインドウ長や短い変換長が適用され、それらは低い周波数分解能をもたらす。好適には、前記信号分析器は、符号化分枝内の対応するアルゴリズムに適したある統計的分析又は他の任意の分析を適用する。第１符号化分枝がＡＡＣベースの符号器などのような周波数ドメインの符号化分枝であり、第２符号化分枝がＬＰＣ処理器５１０をドメイン変換器として含む、ある実施モードにおいては、信号分析器がスピーチ／音楽の判別を実行し、その結果、オーディオ信号のスピーチ部分が第２符号化分枝へと送られるようにスイッチ２００が制御される。オーディオ信号の音楽部分は、図中にスイッチ制御ラインで示すように、第１符号化分枝４００へと伝送されるようにスイッチ２００が制御される。代替的に、図１Ｃ又は図４Ｂに関して後述するように、このスイッチは出力インターフェイス８００の前に配置されても良い。

この復号器は、時間／周波数分解能情報９９１に従って第１変換器４４０と第２変換器５３４とを制御するための、制御手段９９０をさらに備える。

上記再スケーリングツールへの入力は、以下の通りである：
・スケールファクタの復号化された整数表示
・スケールされていない逆量子化済スペクトル。

上記再スケーリングツールからの出力は、スケーリングされた、逆量子化済スペクトルである。

第一符号化分枝、即ち好適には図１２Ａにおいて要素４１０，１２０１，１２０２，４２１によって示すＡＡＣ符号化分枝においては、種々のウインドウを使用することができる。ここで、ウインドウ形状はある信号分析器によって決定され、その信号分析器は、好適には信号分類ブロック３００内に含まれても良いが、分離したモジュールであってもよい。符号器は、図１３Ｂに示す種々の時間／周波数分解能を持つウインドウのうちの１つを選択する。１番目の長いウインドウ、３番目のウインドウ、４番目のウインドウ、５番目のウインドウ及び６番目のウインドウの時間／周波数分解能は、変換長１０２４に対応する２０４８個のサンプリング値に等しい。図１３Ｂの２番目のラインに示す短いウインドウは、そのウインドウサイズに応じた２５６個のサンプリング値の時間分解能を有する。この分解能は変換長１２８に対応する。

[付録]
１．ウインドウ及びウインドウシーケンス
量子化及び符号化は周波数ドメインで実行される。この目的のため、時間信号は符号器内で周波数ドメインへとマッピングされる。復号器はサブクローズ(subclause)２に記載のような逆マッピングを実行する。信号に依るが、符号器は３つの異なるウインドウサイズ、即ち２３０４，２０４８，２５６を使用して時間／周波数分解能を変化させても良い。ウインドウ間を切り替えるために、遷移ウインドウ(transition window) LONG_START_WINDOW,LONG_STOP_WINDOW, START_WINDOW_LPD,STOP_WINDOW_1152,STOP_START_WINDOW 及び STOP_START_WINDOW_1152 が使用される。図１３Ｂはウインドウを示すものであり、対応する変換長を特定し、各ウインドウの形状を概略的に示す。３つの変換長、即ち、１１５２と、（長い変換長と呼ぶ）１０２４（又は９６０）と、（短い変換長と呼ぶ）１２８（１２０）個の係数を持つ変換長が使用される。

Claims

オーディオ信号を符号化する符号器において、
第１符号化アルゴリズムを使用して前記オーディオ信号を符号化し、第１符号化済信号を得る第１符号化分枝であって、入力信号をスペクトルドメインへと変換する第１変換器（４１０）を含む第１符号化分枝（４００）と、
前記第１符号化アルゴリズムとは異なる第２符号化アルゴリズムを使用して前記オーディオ信号を符号化し、第２符号化済信号を得る第２符号化分枝であって、入力信号を入力ドメインから出力ドメインへと変換するドメイン変換器と、入力信号をスペクトルドメインへと変換する第２変換器（５２３）と、を含む第２符号化分枝（５００）と、
前記第１符号化分枝と前記第２符号化分枝との間で切替を実行し、入力された前記オーディオ信号のある部分について、前記第１符号化済信号又は前記第２符号化済信号のいずれかが符号器出力信号の中に存在するよう切り替えるスイッチ（２００）と、
前記オーディオ信号の前記部分を分析し、前記オーディオ信号の前記部分が前記符号器出力信号において前記第１符号化済信号として表現されるか又は前記第２符号化済信号として表現されるかを決定する信号分析器であって、前記オーディオ信号の前記部分を表現する前記第１符号化済信号又は前記第２符号化済信号が生成されるとき、前記第１変換器と前記第２変換器のそれぞれの時間／周波数分解能を可変的に決定する信号分析器（３００，５２５）と、
前記第１符号化済信号及び前記第２符号化済信号と、前記第１符号化済信号及び前記第２符号化済信号を示す情報と、前記第１符号化済信号を符号化するため及び前記第２符号化済信号を符号化するために適用された時間／周波数分解能を示す情報と、を含む符号器出力信号を生成するための出力インターフェイス（８００）と、
を備える符号器。
請求項１に記載のオーディオ符号器であって、
前記信号分析器（３００，５２５）は、前記オーディオ信号の前記部分をスピーチ状のオーディオ信号又は音楽状のオーディオ信号として分類し、且つ、音楽信号の場合には前記第１変換器（４１０）の時間／周波数分解能を決定するために過渡の検出を実行し、又は前記第２変換器（５２３）の時間／周波数分解能を決定するために合成による分析を実行することを特徴とする、オーディオ符号器。
請求項１又は２に記載のオーディオ符号器であって、
前記第１変換器（４１０）と前記第２変換器（５２３）とは、可変的なウインドウサイズを持つウインドウ関数と可変的な変換長を持つ変換関数とを含む可変的なウインドウ化変換処理器を備え、
前記信号分析器（３００／５２５）は、その信号分析に基づいて、前記ウインドウサイズ及び／又は前記変換長を制御することを特徴とする、オーディオ符号器。
請求項１乃至３のいずれか１項に記載のオーディオ符号器であって、
前記第２符号化分枝は、前記ドメイン変換器（５１０）により決定されたドメインでオーディオ信号を処理する第１処理分枝（５２２）と、前記第２変換器（５２３）を有する第２処理分枝（５２３，５２４）と、を含み、
前記信号分析器は、前記オーディオ信号の前記部分をサブ部分のシーケンスへとサブ分割し、且つ前記第２処理分枝によって処理されたサブ部分の位置に対する前記第１処理分枝によって処理されたサブ部分の位置に依存して、前記第２変換器（５２３）の時間／周波数分解能を決定することを特徴とする、オーディオ符号器。
請求項４に記載のオーディオ符号器であって、
前記第１処理分枝はＡＣＥＬＰ符号器（５２６）を含み、
前記第２処理分枝はＭＤＣＴ−ＴＣＸ処理デバイス（５２７）を含み、
前記信号分析器（３００／５２５）は、前記第２変換器の時間分解能を、１つのサブ部分の長さにより決定された高い値へと設定するか、又はそのサブ部分の長さに１よりも大きい整数値を乗算した長さにより決定されたより低い値へと設定することを特徴とする、オーディオ符号器。
請求項１乃至５のいずれか１項に記載のオーディオ符号器であって、
前記信号分析器（３００／５２５）は、オーディオサンプルの複数の同一サイズのブロックをカバーする一定のラスタの中で信号分類を決定し、前記オーディオ信号に依存して１つのブロックを可変的な個数のブロックへとサブ分割し、そのサブブロックの長さが前記第１の時間／周波数分解能又は前記第２の時間／周波数分解能を決定することを特徴とする、オーディオ符号器。
請求項１乃至６のいずれか１項に記載のオーディオ符号器であって、
前記信号分析器（３００／５２５）は前記時間／周波数分解能を、
２３０４，２０４８，２５６，１９２０，２１６０，２４０のサンプルの内の少なくとも２つである複数の異なるウインドウ長から選択することで決定するか、若しくは
各変換ブロックについて１１５２，１０２４，１０８０，９６０，１２８，１２０の係数からなるグループの内の少なくとも２つを含む複数の異なる変換長を使用し、又は、
前記信号分析器（３００／５２５）は前記第２変換器の時間／周波数分解能を、
６４０，１１５２，２３０４，５１２，１０２４，２０４８のサンプルの内の少なくとも２つである複数の異なるウインドウ長の中の１つとして決定するか、若しくは
各変換ブロックについて３２０，５７６，１１５２，２５６，５１２，１０２４のスペクトル係数からなるグループの内の少なくとも２つを含む複数の異なる変換長を使用することを特徴とする、オーディオ符号器。
請求項１乃至７のいずれか１項に記載のオーディオ符号器であって、
前記第２符号化分枝は、
オーディオ信号を処理する第１処理分枝（５２２）と、
前記第２変換器を含む第２処理分枝と、
前記第１処理分枝（５２２）と第２処理分枝（５２３，５２４）との間で切替を実行し、前記第２符号化分枝に入力された前記オーディオ信号の部分について、第１処理済信号又は第２処理済信号のいずれかが前記第２符号化済信号の中に存在するよう切り替える追加的スイッチ（５２１）と、
を備えることを特徴とするオーディオ符号器。
オーディオ信号を符号化する方法において、
第１符号化分枝（４００）内で第１符号化アルゴリズムを使用してオーディオ信号を符号化し、第１符号化済信号を得るステップであって、前記第１符号化分枝は入力信号をスペクトルドメインへと変換する第１変換器（４１０）を含むステップと、
第２符号化分枝（５００）内で前記第１符号化アルゴリズムとは異なる第２符号化アルゴリズムを使用してオーディオ信号を符号化し、第２符号化済信号を得るステップであって、前記第２符号化分枝は、入力信号を入力ドメインから出力ドメインへと変換するドメイン変換器と、入力信号をスペクトルドメインへと変換する第２変換器（５２３）とを含むステップと、
前記オーディオ入力信号のある部分について、前記第１符号化済信号又は前記第２符号化済信号のいずれかが符号器出力信号の中に存在するように、前記第１符号化分枝と前記第２符号化分枝との間で切替を実行するステップ（２００）と、
前記オーディオ信号の前記部分が前記符号器出力信号において前記第１符号化済信号として表現されるか又は前記第２符号化済信号として表現されるかを決定するために、前記オーディオ信号の前記部分を分析するステップ（３００，５２５）と、
前記オーディオ信号の前記部分を表現する前記第１符号化済信号又は前記第２符号化済信号が生成されるとき、前記第１変換器と前記第２変換器のそれぞれの時間／周波数分解能を可変的に決定するステップと、
前記第１符号化済信号及び前記第２符号化済信号と、前記第１符号化済信号及び前記第２符号化済信号を示す情報と、前記第１符号化済信号を符号化するため及び前記第２符号化済信号を符号化するために適用された時間／周波数分解能を示す情報と、を含む符号器出力信号を生成するステップ（８００）と、
を備える方法。
符号化された信号を復号化するオーディオ復号器であって、前記符号化された信号は、第１符号化済信号と、第２符号化済信号と、前記第１符号化済信号及び前記第２符号化済信号を示す情報と、前記第１符号化済信号及び前記第２符号化済信号を復号化するために使用される時間／周波数分解能情報とを含む、オーディオ復号器において、
制御可能な第１周波数／時間変換器（４４０）を使用して前記第１符号化済信号を復号化し、第１復号化済信号を取得する第１復号化分枝であって、前記第１周波数／時間変換器（４４０）は前記第１符号化済信号のための前記時間／周波数分解能情報を用いて制御される、第１復号化分枝（４３１，４４０）と、
制御可能な第２周波数／時間変換器（５３４）を使用して前記第２符号化済信号を復号化する第２復号化分枝であって、前記第２周波数／時間変換器（５３４）は前記第２符号化済信号のための前記時間／周波数分解能情報を用いて制御される、第２復号化分枝と、
前記時間／周波数分解能情報を使用して、前記第１周波数／時間変換器（４４０）と前記第２周波数／時間変換器（５３４）とを制御する制御器（９９０）と、
前記第２復号化済信号を使用して合成信号を生成する、ドメイン変換器（５４０）と、
前記第１復号化済信号と前記合成信号とを結合し、復号化されたオーディオ信号を取得する結合器（６０４）と、
を備えることを特徴とするオーディオ復号器。
請求項１０に記載のオーディオ復号器であって、前記制御器（９９０）は、
前記第１周波数／時間変換器（４４０）については、前記時間／周波数分解能が、
２３０４，２０４８，２５６，１９２０，２１６０，２４０のサンプルの内の少なくとも２つである複数の異なるウインドウ長から選択されるか、若しくは
各変換ブロックについて１１５２，１０２４，１０８０，９６０，１２８，１２０の係数からなるグループの内の少なくとも２つを含む複数の異なる変換長から選択されるように制御し、又は、
前記第２周波数／時間変換器（５３４）については、前記時間／周波数分解能が、
６４０，１１５２，２３０４，５１２，１０２４，２０４８のサンプルの内の少なくとも２つである複数の異なるウインドウ長の中の１つとして選択されるか、若しくは
各変換ブロックについて３２０，５７６，１１５２，２５６，５１２，１０２４のスペクトル係数からなるグループの内の少なくとも２つを含む複数の異なる変換長から選択されるように制御することを特徴とする、オーディオ復号器。
請求項１０又は１１に記載のオーディオ復号器であって、
前記第２復号化分枝は、前記符号化された信号の中に追加的に含まれた第１処理済信号を逆処理して第１逆処理済信号を取得する第１逆処理分枝（５３１）を備え、
前記制御可能な第２周波数／時間変換器（５３４）は、前記第１逆処理済信号のドメインと同じドメインで前記第２符号化済信号を逆処理して第２逆処理済信号を取得する第２逆処理分枝の中に配置され、
前記第２復号化分枝は、前記第１逆処理済信号と前記第２逆処理済信号とを結合して結合済信号を取得する追加的な結合器（５３２）をさらに備え、
前記結合済信号は前記結合器（６００）へと入力されることを特徴とする、オーディオ復号器。
請求項１０乃至１２のいずれか１項に記載のオーディオ復号器であって、
前記第１周波数／時間変換器（４４０）と前記第２周波数／時間変換器とは、前記第１符号化済信号と前記第２符号化済信号との中に含まれた時間ドメイン・エイリアシングをキャンセルするためのオーバーラップ／加算ユニット（４４０ｃ）を有する時間ドメイン・エイリアシング・キャンセル変換器であることを特徴とする、オーディオ復号器。
請求項１０乃至１３のいずれか１項に記載のオーディオ復号器であって、
前記符号化された信号は、符号化された信号が前記第１符号化済信号であるか前記第２符号化済信号であるかを示す符号化モード情報を含み、
前記符号化モード情報を読み取って、前記符号化された信号を前記第１復号化分枝へ送るか又は前記第２復号化分枝へ送るかを決定する、入力インターフェイス（９００）をさらに含むことを特徴とする、オーディオ復号器。
請求項１乃至１４のいずれか１項に記載のオーディオ復号器であって、
前記第１符号化済信号は算術的に符号化されたものであり、前記第１符号化分枝は算術的復号器を含むことを特徴とする、オーディオ復号器。
請求項１乃至１５のいずれか１項に記載のオーディオ復号器であって、
前記第１符号化分枝は、前記第１符号化済信号を生成する時に適用された不均一な量子化の結果をキャンセルするための不均一な逆量子化特性を有する逆量子化器を備え、
前記第２符号化分枝は、異なる逆量子化特性を使用する逆量子化器を備え、ここで前記第２符号化分枝は逆量子化器を含まないことを特徴とする、オーディオ復号器。
請求項１乃至１６のいずれか１項に記載のオーディオ復号器であって、
前記制御器（９９０）は、複数の使用可能な異なる離散的周波数／時間分解能の内の１つの離散的周波数／時間分解能を適用することにより、前記第１周波数／時間変換器と前記第２周波数／時間変換器とをそれぞれ制御し、前記第２変換器のための前記使用可能な異なる周波数／時間分解能の数は、前記第１変換器のための前記使用可能な異なる周波数／時間分解能の数より大きいことを特徴とする、オーディオ復号器。
請求項１０乃至１７のいずれか１項に記載のオーディオ復号器であって、
前記ドメイン変換器は、ＰＣフィルタ情報を使用して合成信号を生成するＬＰＣ合成処理器（５４４）であり、前記ＬＰＣフィルタ情報は前記符号化された信号に含まれていることを特徴とする、オーディオ復号器。
符号化された信号をオーディオ復号化する方法であって、前記符号化された信号は、第１符号化済信号と、第２符号化済信号と、前記第１符号化済信号及び前記第２符号化済信号を示す情報と、前記第１符号化済信号及び前記第２符号化済オーディオ信号を復号化するために使用される時間／周波数分解能情報とを含む、方法において、
第１復号化分枝（４３１，４４０）により、前記第１符号化済信号のための時間／周波数分解能情報を用いて制御される制御可能な第１周波数／時間変換器（４４０）を使用して、前記第１符号化済信号を復号化し、第１復号化済信号を取得するステップと、
第２復号化分枝により、前記第２符号化済信号のための時間／周波数分解能情報を用いて制御される制御可能な第２周波数／時間変換器（５３４）を使用して、前記第２符号化済信号を復号化するステップと、
前記時間／周波数分解能情報を使用して、前記第１周波数／時間変換器（４４０）と前記第２周波数／時間変換器（５３４）とを制御するステップ（９９０）と、
ドメイン変換器により、前記第２復号化済信号を使用して合成信号を生成するステップ（５４０）と、
前記第１復号化済信号と前記合成信号とを結合（６０４）し、復号化されたオーディオ信号を取得するステップと、
を備えることを特徴とする方法。
オーディオ信号であって、
第１符号化済信号と、
オーディオ信号のある部分が前記第１符号化済信号又は第２符号化済信号のいずれかにより表現される、第２符号化済信号と、
前記第１符号化済信号及び前記第２符号化済信号を示す情報と、
前記第１符号化済信号を復号化するために使用される第１の時間／周波数分解能情報と、
前記第２符号化済信号を復号化するために使用される第２の時間／周波数分解能情報と、を含む信号。
コンピュータ上で作動するときに、請求項９又は１９に記載された方法を実行するためのコンピュータプログラム。