JP5350393B2

JP5350393B2 - オーディオコーディングシステム、オーディオデコーダ、オーディオエンコーディング方法及びオーディオデコーディング方法

Info

Publication number: JP5350393B2
Application number: JP2010541031A
Authority: JP
Inventors: ビスワズ、アリジット; プルンハーゲン、ハイコ; ジェーリング、クリストファー; レッシュ、バーバラ; ヴィレモス、ラーズ・ファルック; ヘデリン、ペール・ヘンリック
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2008-01-04
Filing date: 2008-12-30
Publication date: 2013-11-27
Anticipated expiration: 2028-12-30
Also published as: MX2010007326A; EP2077551B1; US8938387B2; CN101939781B; RU2696292C2; US20130282383A1; ATE500588T1; JP5356406B2; RU2456682C2; JP2011509426A; CA3076068A1; KR20100106564A; EP2573765A3; CA2960862C; WO2009086919A1; US8494863B2; EP2077550B8; RU2012120850A; KR101196620B1; CN101939781A

Description

本発明は、オーディオ信号のコーディングに関し、特に、音声、音楽あるいはそれらの組み合わせのいずれにも限定されないオーディオ信号のコーディングに関する。

従来技術においては、信号の音源モデル、すなわち人間の発声システムにコーディングを基づかせることにより、特に音声信号をコーディングするようになされた音声コーダーがある。このようなコーダーは、音楽、あるいは他の非音声信号のような任意のオーディオ信号を取り扱うことはできない。さらに、従来技術においては、信号の音源モデルではなく、人間の聴覚システムを前提にしたコーディングに基づく、普通オーディオコーダーと呼ばれる音楽コーダーがある。このようなコーダーは、任意の信号を非常によく取り扱うことができ、しかしながら、音声信号用の低ビットレートにおいては、専用音声コーダーの方が優れたオーディオ品質を有する。それゆえ、低ビットレートで操作されるときには、音声については音声コーダーと同様によく、また、音楽については音楽コーダーと同様によく動作する任意のオーディオ信号のコーディングについての一般的なコーディング構造は今まで存在しなかった。

よって、改良されたオーディオ品質および／または低減したビットレートを有する改良オーディオエンコーダおよびデコーダに対する要望がある。

本発明は、特別に特定の信号用に作られたシステムの品質レベルと同等若しくはより優れた品質レベルで任意のオーディオ信号を効率的にコーディングすることに関する。

本発明は、線形予測コーディング（ＬＰＣ）とＬＰＣ処理された信号上で動作する変換コーダー部との両方を含むオーディオコーデックアルゴリズムに向けられる。

本発明は、可変フレームサイズのオーディオエンコーダのビットリザーバを効率的に用いることにさらに関する。

本発明は、可変フレームサイズを有する変換コーダーと一緒の長期間予測の操作にさらに関する。

本発明はさらに、オーディオ信号をエンコードしビットストリームを生成するエンコーダと、そのビットストリームをデコードして入力オーディオ信号と知覚的に区別できない復号オーディオ信号を生成するデコーダとに関する。

本発明は、変換コーダーに基づき、音声コーダーからの基礎的予測と形成モジュールを含むオーディオコーディングシステムを提供する。発明のシステムは、適応フィルタに基づき入力信号にフィルタを掛ける線形予測ユニットと；フィルタされた入力信号のフレームを変換領域に変換する変換ユニットと；変換領域信号を量子化する量子化ユニットと；フィルタされた入力信号の前回のセグメントの復号に基づきフィルタされた入力信号のフレームを推定する長期間予測ユニットと；変換領域で、長期間予測推定と変換された入力信号を組み合わせて、量子化ユニットに入力される変換領域信号を生成する変換領域信号組み合わせユニットとを備える。

オーディオコーディングシステムは、フィルタされた入力信号のフレームの時間領域復号を生成する逆量子化および逆変換ユニットをさらに備えてもよい。さらに、フィルタされた入力信号の前回のセグメントの時間領域復号を保存する長期間予測バッファが提供されてもよい。これらのユニットは、量子化ユニットから長期間予測抽出ユニットへのフィードバックループに配置されてもよく、長期間予測抽出ユニットは、フィルタされた入力信号の現在のフレームに最もよくマッチする復号セグメントを長期間予測バッファで探す。さらに、長期間予測ゲイン推定ユニットが提供され、現在のフレームに最もよくマッチするように長期間予測バッファから選定されたセグメントのゲインを調整してもよい。好適には、長期間予測推定は、変換領域の変換された入力信号から引き取られる。したがって、選定されたセグメントを変換領域に変換する第２の変換ユニットが備えられる。長期間予測ループは、変換領域の長期間予測推定を逆量子化後で時間領域への逆変換前のフィードバック信号に加えることを含む。よって、後退適応長期間予測スキームを用い、前回のフレームに基づいてフィルタされた入力信号の現在のフレームを変換領域で予測する。より効率的にするため、長期間予測スキームは、以下にいくつかの例について説明するように、異なった方法で適応されてもよい。

入力信号にフィルタを掛ける適応フィルタは、白色化入力信号を生成する線形予測コーディング（ＬＰＣ）フィルタを含むＬＰＣ分析に基づくのが好ましい。入力データの現在のフレームのＬＰＣパラメータは、当該分野で周知のアルゴリズムで決定される。ＬＰＣパラメータ推定ユニットが、入力データのフレームに対して、多項式、変換関数、反射係数、線スペクトル周波数等の適切なＬＰＣパラメータ表現を計算してもよい。コーディングや他の処理に用いられるＬＰＣパラメータ表現の特定のタイプは、それぞれの要求に基づく。当業者に周知のように、表現によっては、他のものよりある動作により適しており、よってそのような動作を実行するのに好適である。線形予測ユニットは、たとえば２０ミリ秒の固定された第１のフレーム長で動作する。線形予測フィルタは、歪んだ周波数軸で動作し、特定の周波数範囲、たとえば低周波数を他の周波数より選択的に強調する。

フィルタされた入力信号のフレームに適用される変換は、可変の第２のフレーム長で動作する修正離散コサイン変換（ＭＤＣＴ）であるのが好ましい。オーディオコーディングシステムは、いくつかのフレームを含む入力信号ブロック全体の、コーディングコスト関数、好ましくは単純化知覚エントロピを最小化することにより、入力信号のブロックに対し、オーバーラップするＭＤＣＴウィンドウのフレーム長を決定するウィンドウシーケンスコントロールユニットを備える。よって、第２のフレーム長を有するＭＤＣＴウィンドウへの入力信号ブロックの最適な分割が導かれる。対照的に、変換領域コーディング構造は、音声コーダー要素を含み、ＬＰＣを除くすべての処理で唯一の基本ユニットとして適応長ＭＤＣＴフレームを有して提案される。ＭＤＣＴフレーム長は多くの様々な値を取り得るので、小さなウィンドウサイズと大きなウィンドウサイズとだけが適用される先行技術で一般的なように、最適なシーケンスが見つけられ、急激なフレームサイズの変化を避けることができる。さらに、小さなウィンドウサイズと大きなウィンドウサイズの間の遷移に対する従来技術のアプローチで用いられるところの、シャープなエッジを有する遷移変換ウィンドウは必要ではない。

好ましくは、最大で２の係数である連続的なＭＤＣＴウィンドウ長の変化および／またはＭＤＣＴウィンドウ長は、二項値である。より具体的には、ＭＤＣＴウィンドウ長は、入力信号ブロックの二項区分である。したがって、ＭＤＣＴウィンドウのシーケンスは、少ない数のビットでエンコードするのが容易な所定のシーケンスに限られる。さらにウィンドウシーケンスはフレームサイズの滑らかな遷移を有し、よって、急激なフレームサイズの変化を除外する。

ウィンドウシーケンスでＭＤＣＴウィンドウ長とウィンドウ形状とを一緒にエンコーディングするウィンドウシーケンスエンコーダが備えられる。ジョイントエンコーディングは、冗長性を取り去り、より少ないビットしか必要としない。ウィンドウシーケンスエンコーダは、デコーダで復号される不要な情報（ビット）を省略するように、ウィンドウシーケンスのウィンドウ長とウィンドウ形状をエンコーディングするときにウィンドウサイズの制約を考慮する

ウィンドウシーケンスコントロールユニットは、さらに、入力信号ブロックのコーディングコスト関数を最小化するＭＤＣＴウィンドウ長のシーケンスを探すときに、ウィンドウ長の候補について、長期間予測ユニットにより生成された長期間予測推定を考慮するようになされている。この実施の形態では、エンコーディングに用いられるＭＤＣＴウィンドウの改良したシーケンスとなるＭＤＣＴウィンドウ長を決定するときに長期間予測ループは閉じられる。

さらに、時間歪みカーブによりフィルタされた入力信号を再度サンプリングすることによりフィルタされた信号のフレームのピッチ成分を一定に揃える時間歪みユニットを備えてもよい。時間歪みカーブは、フレーム中のピッチ成分を一定に揃えるように決定されることが好ましい。よって、変換ユニットおよび／または長期間予測ユニットは、一定のピッチを有する時間的に歪んだ信号で動作し、信号分析の精度を改善する。

オーディオコーディングシステムはさらに、線スペクトル周波数または、保存および／またはデコーダに伝達するための線形予測ユニットにより生成された他の適切なＬＰＣパラメータ表現を、可変レートで再帰的にコーディングするためのＬＰＣエンコーダを備えてもよい。実施の形態によれば、線形予測内挿ユニットが提供され、変換領域信号の可変フレーム長に適合するように第１のフレーム長に対応するレートで生成された線形予測パラメータを内挿する。

本発明の態様によれば、オーディオコーディングシステムは、ＬＰＣフレーム用に線形予測ユニットで生成されたＬＰＣ多項式をチャープおよび／または傾斜させることにより適応フィルタの特性を修正する知覚モデリングユニットを備えてもよい。適応フィルタ特性の修正により受信した知覚モデルは、本システムで多くの目的に用いられる。たとえば、量子化または長期間予測の知覚重み関数として用いられる。

本発明の別の独立した態様は、入力信号の高バンド成分をエンコーディングする別の手段を提供することによりオーディオエンコーダのバンド幅を拡張することに関する。実施の形態によれば、入力信号の高バンド成分をエンコーディングする高バンドエンコーダが備えられる。好適には、高バンドエンコーダは、スペクトルバンド複製（ＳＢＲ）エンコーダである。高バンドエンコーダでの高バンドの別のコーディングにより、別の量子化ステップを、入力信号の低バンドに属する成分に対するのと比較して高バンドに属する変換領域信号の成分をエンコーディングするのに、変換領域信号を量子化するときに量子化ユニットで用いることができる。より具体的には、量子化器は、ビットレートを低減する高バンドエンコーダによってもエンコーディングされる高バンド信号成分のより粗い量子化を適用する。

別の実施の形態によれば、入力信号を低バンド成分と高バンド成分に分割する周波数分割ユニットが備えられる。それから、高バンド成分は高バンドエンコーダでエンコーディングされ、低バンド成分は線形予測に入力され上記で提案の変換エンコーダでエンコーディングされる。好適には、周波数分割ユニットは、線形予測ユニットに入力される入力信号をダウンサンプルするようになされた直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットを備える。直交ミラーフィルタバンクからの信号は、高バンドエンコーダに直接入力されてもよい。このことは、高バンドエンコーダが直交ミラーフィルタバンク信号により直接供給されるスペクトルバンド複製エンコーダのときに、特に有効である。さらに、直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットの組み合わせは、低バンド成分用の高品質ダウンサンプラとして機能する。

低バンドと高バンドとの境界は変化し、周波数分割ユニットはダイナミックに低バンドと高バンドとのクロスオーバー周波数を決定する。このことにより、たとえば入力信号特性および／またはエンコーダバンド幅要求に基づいて、適応周波数配分が可能となる。

別の態様によれば、オーディオコーディングシステムは、高バンド成分をローパス信号に変化させる第２の直交ミラーフィルタ合成ユニットを備える。それから、この下方調節した高周波数範囲は、好ましくは低分解能の、すなわちよりおおきな量子化ステップの、第２の変換ベースエンコーダによりエンコーディングされる。このことは、高周波数バンドが同様に、たとえばスペクトルバンド複製エンコーダなど、他の手段で更にエンコーディングされるときに、特に有効である。それから、高周波数バンドをエンコーディングする両方法の組み合わせは、より効果的である。

同じ周波数範囲をカバーする異なった信号表現は、必要なビットレートを低減するために信号表現の相関を利用する信号表現組み合わせユニットにより組み合わされる。信号表現組み合わせユニットは、どのように信号表現が組み合わされるかを指示する信号データをさらに生成する。この信号データは、保存され、または、異なった信号表現からエンコーディングされたオーディオ信号を復号するデコーダに伝達される。

スペクトルバンド複製ユニットが、エネルギを長期間予測推定の高周波数成分に導く長期間予測ユニットにさらに備えられてもよい。このことは、長期間予測の効率を改善するのに役立つ。

実施の形態によれば、左右の入力チャンネルを有するステレオ信号が、入力信号のモノ表現を含めてステレオ信号のパラメトリックステレオ表現を計算するパラメトリックステレオユニットに入力される。それから、モノ表現はＬＰＣ分析ユニットと、その後の変換コーダーに、上記で提案したように、入力される。よって、モノ表現だけが波形コーディングされ、ステレオ効果は低ビットレートのパラメトリックステレオ表現で達成されるときに、ステレオ信号をエンコーディングするための効率的な手段が得られる。

コーディングした信号の品質のさらなる向上は、周波数／ＭＤＣＴ領域で高調波信号成分だけを予測する高調波予測分析ユニットの使用に関係する。

本発明のもう一つの独立したエンコーダ特有の態様は、可変のフレームサイズを処理するビットリザーバに関する。可変長のフレームをコーディングできるオーディオコーディングシステムでは、ビットリザーバはフレーム中のビットを分配することによりコントロールされる。個々のフレームや定義されたサイズのビットリザーバの適当な困難さの尺度が与えられると、所望の一定のビットレートからのあるずれはビットリザーバのサイズにより課せられるバッファの要求に反することなく全体的によりよい品質を可能にする。本発明は、ビットリザーバを使用する概念を、可変フレームサイズの汎用オーディオコーデック用ビットリザーバコントロールに拡張する。したがって、オーディオコーディングシステムは、フレーム長とフレームの困難さの尺度に基づいてフィルタされた信号のフレームをエンコードするのに付与されたビットの数を決定するビットリザーバコントロールユニットを備える。好ましくは、ビットリザーバコントロールユニットは、異なったフレーム困難さの尺度および／または異なったフレームサイズ用の別々のコントロール式を有する。異なったフレームサイズに対する異なった尺度は、それらがより簡単に比較できるように正規化される。可変レートのエンコーダ用にビット配分をコントロールするために、ビットリザーバコントロールユニットは、許容最大フレームサイズに対するビットの平均数に対し付与されたビットコントロールアルゴリズムの許容下限界を設定するのが好適である。

本発明は、変換エンコーダのＭＤＣＴラインを量子化する態様に更に関する。この態様は、エンコーダがＬＰＣ分析あるいは長期間予測を使用するかとは独立して適用できる。提案の量子化方式は、たとえば変換フレームサイズのような入力信号特性が条件とされる。量子化ユニットが、変換ユニットにより適用されるフレームサイズに基づいて、モデルベース量子化器または非モデルベース量子化器で変換領域信号をエンコーディングすることを決めることが推奨される。好適には、量子化ユニットは、モデルベースエントロピ制約量子化により、閾値より小さなフレームサイズのフレームに対し変換領域信号をエンコーディングするようになされる。モデルベース量子化は、様々なパラメータを条件とする。大きなフレームは、例えばＡＡＣコーデックで用いられるように、例えばハフマンベースのエントロピコーディング付スカラ量子化器で量子化される。

ＭＤＣＴラインの異なった量子化方法間の切換は、本発明の好適な実施の形態の別の態様である。異なった変換サイズに対して異なった量子化方式を用いることにより、コーデックは、変換領域コーデックと並行または順番に実行される特定の時間領域音声コーダーを有する必要なしに、ＭＤＣＴ領域でのすべての量子化とコーディングを行うことができる。本発明は、ＬＴＰゲインがある場合に音声状の信号について、短時間変換とモデルベース量子化器を用いて信号をコーディングするのが好ましいことを教示する。モデルベース量子化器は、特に短時間変換向きで、追って概要を記述するように、ＭＤＣＴ領域で実行されながらも、入力信号が音声信号であるとの要件なしで、時間領域音声専用ベクトル量子化器（ＶＱ）の利益を与える。別の表現では、ＬＴＰと組み合わせて短時間変換セグメントにモデルベース量子化器を用いると、専用の時間領域音声コーダーＶＱの効率は一般性の喪失なしに、ＭＤＣＴ領域から離間することなく維持される。

より安定している音楽信号に加えて、オーディオコーデックで普通に用いられているように比較的大きなサイズの変換と、大きな変換により区別されるまばらなスペクトル線を利用する量子化スキームを用いることが好ましい。したがって、本発明は、長い変換にこの種の量子化スキームを用いることを教示する。

よって、フレームサイズの関数として量子化方式を切り替えることにより、コーデックは、単に変換サイズを選択するだけで、専用音声コーデックの特性と専用オーディオコーデックの特性を両方とも維持できる。このことにより従来技術のシステムのすべての問題を回避でき、従来技術のシステムは、時間領域のコーディング（音声コーダー）を周波数領域のコーディング（オーディオコーダー）と効率的に組み合わせる問題や困難に必然的に遭遇するので、これらのシステムは音声信号とオーディオ信号とを低速度で上手く取り扱おうと努力している。

本発明の他の態様によると、量子化は適応ステップサイズを用いる。好ましくは、変換領域信号の成分に対する量子化ステップサイズ（単数または複数）は、線形予測および／または長期間予測パラメータに基づいて適応する。量子化ステップサイズはさらに、周波数依存するようになされてもよい。本発明の実施の形態では、量子化ステップサイズは、適応フィルタの多項式、コーディングレートコントロールパラメータ、長期間予測ゲイン値、および、入力信号分散の少なくとも一つに基づいて決定される。

本発明の他の態様は長期間予測（ＬＴＰ）、特にＭＤＣＴ領域、ＭＤＣＴフレーム適応ＬＴＰおよびＭＤＣＴ重み付きＬＴＰ探索に関する。これらの態様は、ＬＰＣ分析が変換コーダーの上流側に存在するか否かに関わらず適用できる。

実施の形態によれば、長期間予測ユニットは、フィルタされた信号の現在のフレームに最も適合するフィルタされた信号の復号セグメントを特定する遅延値を決定する長期間予測エクストラクタを備える。長期間予測ゲインエスティメータは、フィルタされた信号の選定したセグメントの信号に適用するゲイン値を推定する。好ましくは、遅延値とゲイン値は、知覚領域において長期間予測推定の変換された入力信号に体する差に関係する歪みのクライテリアを最小にするように決定される。歪みのクライテリアは、知覚領域における長期間予測推定の変換された入力信号に対する差に関係する。好ましくは、歪みのクライテリアを知覚領域の遅延値トゲイン値を探索することで最小化する。歪みのクライテリアを最小にするとき、修正線形予測多項式をＭＤＣＴ領域同等化ゲイン曲線として適用することもできる。

長期間予測ユニットは、ＬＴＰバッファからのセグメントの復号信号を変換領域に変換する変換ユニットを備えてもよい。ＭＤＣＴ変換の効果的な実行のため、変換は離散コサイン変換タイプＩＶとするのが好ましい。

遅延値がＭＤＣＴフレーム長より小さいときに、仮想ベクトルを用いて復号信号の拡張セグメントを生成してもよい。仮想ベクトルは、復号信号の生成されたセグメントを改良するのに繰り返しフォールドイン・フォールドアウトプロシージャ（iterative fold-in fold-out procedure）により生成されるのが好ましい。よって、復号信号の未だ存在していないセグメントが、長期間予測の遅延探索プロシージャの間に生成される。

変換ユニットが時間歪み信号で動作するとき、時間歪みカーブに基づいて長期間予測バッファの復号信号が再度サンプリングされる。このことにより、時間歪みＬＰＴ抽出を時間歪みＭＤＣＴに適合させることができる。

実施の形態によれば、長期間予測遅延値およびゲイン値をエンコーディングする可変レートエンコーダが備えられ、低ビットレートを達成する。さらに、長期間予測ユニットはノイズベクトルバッファおよび／またはパルスベクトルバッファを備え、たとえばノイズのある、または、遷移信号の予測精度を向上する。

長期間予測パラメータのようなピッチ関連情報と、調和予測パラメータと時間歪みパラメータを一緒にエンコーディングするジョイントコーディングユニットを備えてもよい。ジョイントコーディングは、これらのパラメータの相関を利用することにより必要なビットレートも低減する。

本発明の別の態様は、上記の実施の形態のエンコーダで生成されたビットストリームをデコーディングするオーディオデコーダに関する。そのオーディオデコーダは、入力ビットストリームのフレームを逆量子化する逆量子化ユニットと；変換領域信号を逆変換する逆変換ユニットと；逆量子化されたフレームの推定を決定する長期間予測ユニットと；変換領域で、長期間予測推定と逆量子化フレームとを組み合わせて変換領域信号を生成する変換領域信号組み合わせユニットと；逆変換された変換領域信号にフィルタを掛ける線形予測ユニットとを備える。

さらに、デコーダは、エンコーダに関して上記した態様の多くを備える。いくつかの動作はエンコーダだけで実行されデコーダには対応する要素はないが、一般的にデコーダは、エンコーダの動作に酷似する。よって、エンコーダについて開示されたものは、特に断らない限り、同様にデコーダにも適用できるものと考えられる。

上記の本発明の態様は、デバイス、装置、方法、あるいはプログラム可能なデバイス上で動作するコンピュータプログラムとして実行される。発明の態様は、さらに信号、データ構造、およびビットストリームで具体化される。

よって、本出願は、オーディオエンコーディング方法とオーディオデコーディング方法をさらに開示する。例示のオーディオエンコーディング方法は、適応フィルタに基づき入力信号にフィルタを掛ける工程と；フィルタされた入力信号のフレームを変換領域に変換する工程と；変換領域信号を量子化する工程と；フィルタされた入力信号の前回のセグメントの復号に基づきフィルタされた入力信号のフレームを推定する工程と；変換領域で、長期間予測推定と変換された入力信号を組み合わせ変換領域信号を生成する工程とを備える。

例示のオーディオデコーディング方法は、入力ビットストリームのフレームを逆量子化する工程と；変換領域信号を逆変換する工程と；逆量子化されたフレームの推定を決定する工程と；変換領域で、長期間予測推定と逆量子化フレームを組み合わせ変換領域信号を生成する工程と；復号されたオーディオ信号を出力する工程とを備える。

本願にて教示され、また、当業者が例示の実施の形態の以下の説明から導き出せるのは、好適なオーディオエンコーディング／デコーディング方法とコンピュータプログラムのほんの一例である。

本発明をここで、添付図面を参照して例を用いて説明するが、本発明の範囲や思想を限定するものではない。

図１は、本発明によるエンコーダとデコーダの好適な実施の形態を示す。図２は、本発明によるエンコーダとデコーダのより詳細な図を示す。図３は、本発明によるエンコーダの別の実施の形態を示す。図４は、本発明によるエンコーダの好適な実施の形態を示す。図５は、本発明によるデコーダの好適な実施の形態を示す。図６は、本発明によるＭＤＣＴラインエンコーディングおよびデコーディングの好適な実施の形態を示す。図７は、ＳＢＲエンコーダと組み合わせた本発明の好適な実施の形態を示す。図８は、ステレオシステムの好適な実施の形態を示す。図９は、本発明によるコアコーダーと高周波数復号コーディングのより複雑な統合の好適な実施の形態を示す。図１０は、本発明によるＳＢＲエンコーディングとコアコーダーの組み合わせの好適な実施の形態を示す。図１１は、本発明による、エンコーダとデコーダの好適な実施の形態と、互いに伝達される関連するコントロールデータを示す。図１１ａは、本発明の実施の形態による、エンコーダの態様の別の図を示す。図１２は、本発明の実施の形態によるウィンドウシーケンスの例とＬＰＣデータとＭＤＣＴデータの関係を示す。図１３は、本発明によるスケールファクタデータとＬＰＣデータの組み合わせを示す。図１４は、本発明によるＬＰＣ多項式のＭＤＣＴゲインカーブへの変換の好適な実施の形態を示す。図１５は、本発明による、一定更新レートＬＰＣパラメータを適応ＭＤＣＴウィンドウシーケンスデータにマッピングする好適な実施の形態を示す。図１６は、本発明による、フレームサイズにより量子化器の変換サイズとタイプに基づき知覚重み付けフィルタ計算を適応することの好適な実施の形態を示す。図１７は、本発明による、フレームサイズにより量子化器を適応することの好適な実施の形態を示す。図１８は、本発明による、フレームサイズにより量子化器を適用させることの好適な実施の形態を示す。図１９は、本発明による、ＬＰＣおよびＬＴＰデータの関数として量子化ステップサイズを適応させることの好適な実施の形態を示す。図１９ａは、差分カーブが差分適応モジュールによりＬＰＣおよびＬＴＰパラメータからどのように導かれるかを示す。図２０は、本発明による、ランダムオフセットを利用するモデルベース量子化器の好適な実施の形態を示す。図２１は、本発明によるモデルベース量子化器の好適な実施の形態を示す。図２１ａは、本発明によるモデルベース量子化器の別の好適な実施の形態を示す。図２２は、本発明によるＬＴＰループでＳＢＲモジュールを用いる好適な実施の形態を示す。図２３ａは、本発明の実施の形態におけるＭＤＣＴ変換の隣接ウィンドウを模式的に示す。図２３ｂは、４つの異なったＭＤＣＴウィンドウ形状を用いる本発明の実施の形態を示す。図２３ｃは、本発明の実施の形態によるウィンドウシーケンスエンコーディング方法の例を示す。図２４は、本発明による、ＭＤＣＴ領域での高調波予測の好適な実施の形態を示す。図２５は、本発明によるＬＴＰ抽出改良プロセスを示す。図２５ａは、ＭＤＣＴ適応ＬＴＰ抽出プロセスを示す。図２５ｂは、初期ＬＴＰ抽出信号の繰り返し改良を示す。図２５ｃは、改良ユニットの代替の実行を示す。図２５ｄは、改良ユニットの別の代替の実行を示す。図２６は、本発明による、高調波予測のためのコントロールデータとＬＴＰと時間歪みを組み合わせる好適な実施の形態を示す。図２７は、本発明による、ノイズとパルスバッファでＬＴＰ探索を拡張する好適な実施の形態を示す。図２８ａは、ビットリザーバコントロールの基本的な概念を示す。図２８ｂは、本発明による、可変フレームサイズ用のビットリザーバコントロールの概念を示す。図２９は、本発明による、ＬＴＰ探索と時間歪みＭＤＣＴの状況での適用を示す。図２９ａは、時間歪みＭＤＣＴ分析の効果を示す。図３０は、本発明による、ＭＤＣＴとＱＭＦ領域中の組み合わされたＳＢＲを示す。

下記に説明する実施の形態は、オーディオエンコーダとデコーダの本発明の原理を単に説明するためのものである。ここで説明する配置や詳細の修正や改変は当業者にとって明きらかであることが理解される。したがって、添付の特許請求の範囲によってのみ限定され、本書における実施の形態の説明によって示された特定の詳細によっては限定されないことを意図する。実施の形態の類似の要素には類似の参照符号で番号付けされる。

図１にエンコーダ１０１とデコーダ１０２を示す。エンコーダ１０１は時間領域入力信号を取り込み、続いてデコーダ１０２に送られるビットストリーム１０３を生成する。デコーダ１０２は、受信したビットストリーム１０３に基づいて出力波形を生成する。出力信号は、心理音響的にオリジナルの入力信号に類似する。

図２にエンコーダ２００とデコーダ２１０の好適な実施の形態を示す。エンコーダ２００の入力信号は、第１のフレーム長を有するＬＰＣフレーム用の白色化した残留信号と対応する線形予測パラメータとを生成するＬＰＣ（Linear Prediction Coding：線形予測コーディング）モジュール２０１を通過する。さらに、ＬＰＣモジュール２０１にはゲイン正規化が含まれる。ＬＰＣからの残留信号は、第２の可変フレーム長で動作するＭＤＣＴ（Modified Discrete Cosine Transform：修正離散コサイン変換）モジュール２０２によって周波数領域に変換される。図２に示すエンコーダ２００では、ＬＴＰ（Long Term Prediction：長期間予測）モジュール２０５が含まれる。ＬＴＰは、本発明の他の実施の形態で詳述する。ＭＤＣＴラインは量子化２０３され、デコーダ２１０で使えるようにデコーディングされた出力のコピーをＬＴＰバッファに提供するように逆量子化２０４もされる。量子化歪みのために、このコピーはそれぞれの入力信号の復号と呼ばれる。図２の下部にデコーダ２１０を示す。デコーダ２１０は、量子化されたＭＤＣＴラインを受け取り、それらを逆量子化２１１し、ＬＴＰモジュール２１４からの寄与を付加し、逆ＭＤＣＴ変換２１２をして、ＬＰＣ合成フィルタ２１３が続く。

上記の実施の形態で重要な態様は、ＬＰＣがそれ自身の（一実施の形態では一定の）フレームサイズを有しＬＰＣパラメータもコーディングされるものの、ＭＤＣＴフレームがコーディング用の唯一の基本ユニットであるということである。実施の形態は、変換コーダーから始まり、音声コーダーから基本的予測および成形モジュールを導入する。追って説明するように、ＭＤＣＴフレームサイズは可変であり、単純化知覚エントロピコスト関数を最小化することによりブロック全体に対する最適ＭＤＣＴウィンドウシーケンスを決定することにより入力信号のブロックに適応する。このことにより、スケーリングが最適な時間／周波数コントロールを維持できる。さらに、提案の一体化した構造は、異なったコーディングパラダイムの切替えや層をなすことによる組合せを回避する。

図３では、エンコーダ３００の部分がより詳細に模式的に説明される。図２のエンコーダのＬＰＣモジュール２０１からの出力である白色化された信号は、ＭＤＣＴのフィルタバンク３０２に入力される。ＭＤＣＴ分析は、オプションとして時間ゆがみＭＤＣＴ分析でもよく、時間ゆがみＭＤＣＴ分析は、信号のピッチ（信号がよく確立されたピッチで周期的なら）がＭＤＣＴ変換ウィンドウで一定であることを確かなものにする。

図３では、ＬＴＰモジュール３１０がより詳細に示される。ＬＴＰモジュール３１０は、前回の出力信号のセグメントの復号された時間領域サンプルを保持するＬＴＰバッファ３１１を備える。ＬＴＰエクストラクタ３１２は、現在の入力セグメントを与えられてＬＴＰバッファ３１１中に最も適合するセグメントを見つけ出す。量子化器３０３に入力されようとしているセグメントから抽出される前に、ゲインユニット３１３によりこのセグメントに適切なゲイン値が適用される。明らかに、量子化の前に抽出するために、ＬＴＰエクストラクタ３１２はまた選択された信号セグメントをＭＤＣＴ領域に変換する。ＬＴＰエクストラクタ３１２は、復号された前回の出力信号セグメントを変換されたＭＤＣＴ領域入力フレームと組み合わせるときに知覚領域の誤差関数を最小化する最適なゲインと遅延値を探す。たとえば、ＬＴＰモジュール３１０からの変換された復号セグメントと変換された入力フレーム（すなわち、抽出後の残留信号）との間の平均二乗誤差（ＭＳＥ）関数が最適化される。この最適化は、周波数成分（すなわちＭＤＣＴライン）が知覚重要性に応じて重み付けされる知覚領域で実行される。ＬＴＰモジュール３１０はＭＤＣＴフレームユニットで動作し、エンコーダ３００は、たとえば量子化モジュール３０３における量子化について、一度に一つのＭＤＣＴフレーム残留を扱う。遅延とゲイン探索は、知覚領域で実行される。オプションとして、ＬＴＰは、周波数選択的、すなわち周波数にわたりゲインおよび／または遅延を適応させてもよい。逆量子化ユニット３０４と逆ＭＤＣＴユニット３０６を説明する。ＭＤＣＴは、追って説明するように、時間で歪んでいる。

図４にエンコーダ４００の別の実施の形態を示す。図３に加え、分かりやすくするためＬＰＣ分析４０１が含まれる。選択された信号セグメントをＭＤＣＴ領域に変換するのに用いられるＤＣＴ−ＩＶ変換４１４が示される。さらに、ＬＴＰセグメント選定の最小誤差を計算するいくつかの方法が図示される。図４に示される残留信号の最小化（図４でＬＴＰ２とされる）に加え、ＬＴＰバッファ４１１での保管のために復号した時間領域信号に逆変換される前に変換入力信号と逆量子化ＭＤＣＴ領域信号との間の差の最小化が示される（ＬＴＰ３とされる）。このＭＳＥ関数の最小化は、ＬＴＰの寄与を変換された入力信号とＬＴＰバッファ４１１に保管するための復号された入力信号との最適な（可能な限り）類似性に仕向ける。他の代替となる誤差関数（ＬＴＰ１とされる）は、時間領域でのこれらの信号の差に基づく。この場合に、ＬＰＣフィルタを掛けられた入力フレームとＬＴＰバッファ４１１の対応する時間領域復号とのＭＳＥは最小化される。好都合なことにＭＳＥはＭＤＣＴフレームサイズに基づいて計算され、ＭＤＣＴフレームサイズはＬＰＣフレームサイズと異なっていてもよい。さらに、量子化器ブロックと逆量子化器ブロックは、量子化とは別の追加のモジュールを含むスペクトルエンコーディングブロック４０３とスペクトルデコーディングブロック４０４（「Spec enc」と「Spec dec」）で置き換えられ、図６にて追って説明する。また、ＭＤＣＴと逆ＭＤＣＴは時間歪みを受ける（ＷＭＤＣＴ、ＩＷＭＤＣＴ）。

図５に、提案するデコーダ５００を示す。受信したビットストリームからのスペクトルデータは、逆量子化５１１され、ＬＴＰエクストラクタによりＬＴＰバッファ５１５から提供されたＬＴＰ寄与に加えられる。デコーダ５００のＬＴＰエクストラクタ５１６およびＬＴＰゲインユニット５１７も示される。合計されたＭＤＣＴラインは、ＭＤＣＴ合成モジュールにより時間領域に合成され、時間領域信号は、ＬＰＣ合成フィルタ５１３によりスペクトルとして形成される。オプションとして、ＭＤＣＴ合成は時間歪みＭＤＣＴでもよく、および／または、ＬＰＣ合成フィルタは周波数歪みしていてもよい。

周波数歪みＬＰＣは周波数軸の非均一サンプリングに基づき、ＬＰＣフィルタパラメータを決めるときにＬＰＣ誤差の寄与の周波数選択コントロールを可能にする。ＬＰＣ多項式がスペクトルのピーク部分で最も精度が高くなるように、標準ＬＰＣは線形周波数軸にわたってＭＳＥを最小化することに基づくが、周波数歪みＬＰＣはＬＰＣフィルタパラメータを決めるときに周波数選択焦点を可能にする。たとえば、１６または２４ｋＨｚのサンプリングレートのような高バンド幅で動作するとき、周波数軸を歪めることにより４ｋＨｚまでのような低周波数バンドでＬＰＣ多項式の精度を合わせることが可能になる。

図６に、図４の「Spec enc」（スペクトルエンコーディング）ブロック４０３と「Spec dec」（スペクトルデコーディング）ブロック４０４をより詳細に示す。図の右に示すスペクトルエンコーディングブロック６０３は、実施の形態では、高調波予測分析モジュール６１０、ＴＮＳ（Temporal Noise Shaping：時間ノイズ形成）分析モジュール６１１、その後にＭＤＣＴラインのスケールファクタスケーリングモジュール６１２、および、最後にエンコーディングラインモジュール６１３の量子化とエンコーディングとを備える。図で左に示されるデコーダ「Spec dec」（スペクトルデコーディング）ブロック６０４は、逆プロセスを行い、すなわち、受信したＭＤＣＴラインはデコーディングラインモジュール６２０で逆量子化され、スケーリングはスケールファクタ（ＳＣＦ）スケーリングモジュール６２１によってなされてはいない。ＴＮＳ合成６２２と高調波予測合成６２３が、追って説明するように、適用される。

図７に本発明の別の好適な実施の形態の概要を示す。既に説明したＬＰＣ７０１、ＭＤＣＴ量子化７０４、およびＬＴＰ７０５に加え、ＳＢＲ（Spectral Band Replication：スペクトルバンド複製）モジュール７１２と共にＱＭＦ分析モジュール７１０とＱＭＦ合成モジュール７１１が追加される。ＱＭＦ（Quadrature Mirror Filter：直交ミラーフィルタ）フィルタバンクはある数のサブバンドを有し、この特定の例では６４のサブバンドを有する。複雑なＱＭＦフィルタバンクにより、サブバンドの独立した操作と、使用されたプロトタイプフィルタに与えられたエイリアシング拒絶レベルを超えた周波数領域エイリアシングを導入することをしないことが可能になる。ある数の、この特定の例では３２の（周波数で）低いサブバンドはそれから時間領域に合成され、よってダウンサンプル信号を、ここでは２の係数で、生ずる。前に説明したように、これはエンコーダモジュールへの入力信号である。リサンプラとしてＱＭＦ分析モジュールおよびＱＭＦ合成モジュールを用いることは、続く変換コーダがコーディングする低減したバンド幅でのみＬＰＣが動作することを確実にする。高い３２のサブバンドがＳＢＲエンコーダモジュール７１２に送られ、高バンドのオリジナル信号から関連するＳＢＲパラメータを抽出する。あるいは、入力信号をＱＭＦ分析モジュールに提供し、ＱＭＦ分析モジュールは順にＳＢＲエンコーダ、および、ダウンサンプリングモジュールに接続され、ダウンサンプリングモジュールは、前述したように変換エンコーダモジュール用のダウンサンプル信号を生成する。

ＳＢＲ（スペクトルバンド複製）は、スペクトルの高周波数部分をコーディングする効果的な方法を提供する。それは、低周波数と少量の追加コントロール情報からオーディオ信号の高周波数を再生する。ＳＢＲ方法は、コアコーダーバンド幅の低減を可能にし、ＳＢＲ技術は周波数範囲をコーディングするのに波形コーダーよりも遥かに低いビットレートを必要とするので、コーディングゲインは、全オーディオバンド幅を維持しつつ波形コアコーダーに割り当てられるビットレートを低減することにより達成できる。このことは、自然と、コアコーダーとＳＢＲ部分との間のクロスオーバー周波数を低くすることにより全データレートをほとんど連続的に低減する可能性を与える。

知覚オーディオコーダーは、信号により常にマスキングされるように量子化ノイズを形成することによりビットレートを低減する。このことにより、多少低い信号ノイズ比となるが、量子化ノイズがマスキングカーブの下にあるならばこのことは問題ではない。量子化が表現する歪みが聞こえなくなる。しかし、低ビットレートで動作すると、マスキング閾値は乱され、歪みが聞こえるようになる。知覚オーディオコーダーが用いる一つの方法は、単に信号の全周波数範囲をコーディングするほど十分なビットがないから、信号に、すなわちスペクトルのコーディングする部分にだけ、ローパスフィルタを掛けることである。この状況で、ＳＢＲアルゴリズムは、低ビットレートで全オーディオバンド幅を可能にするので、とても有益である。

ＳＢＲでコーディングの概念は、下記の態様を備える。
・高バンド再生が、常に低周波数を除外して、低バンドからのバンドパス信号をコピーすることにより行われる。
・スペクトル包絡線情報は、復号された高バンドの粗いスペクトル包絡が正しいことを確実にして、エンコーダからデコーダに送られる。
・高周波数復号の欠点を補うようになされた追加の情報がエンコーダからデコーダに伝達される。
・逆フィルタ、ノイズおよび制限は追加などの追加手段が、それらは全て伝達された情報により同様に導かれるが、低バンドと高バンドの間の時々起こる基本的相違点から生ずるバンド幅拡張方法の欠点を補う。

図８では本発明の実施の形態を、左右のチャンネル用の２つのＱＭＦ分析フィルタバンク８２０、８２１と、パラメトリックステレオ（ＰＳ）モジュールと呼ばれる回転モジュール８３０を追加することによりステレオに拡張し、回転モジュール８３０は、回転パラメータに対応する、ＱＭＦ領域の２つの入力信号からの２つの新しい信号に応答する。その２つの新しい信号は、モノダウンミックス（mono downmix）と残留信号を表わす。それらは、左右ステレオ信号のＭ／Ｓ（Mid/Side）変換として目に見えるようなされ、Ｍ／Ｓステレオ空間を、Ｍｉｄ信号（すなわち、ダウンミックス信号）のエネルギを最大化し、Ｓｉｄｅ信号（すなわち、残留信号）のエネルギを最小化するように回転する。特定の例として、左右どちらかへ４５度回転したモノ音源が、左右両チャンネルに（異なったレベルで）存在するとする。先行技術の波形オーディオコーダーは、独立して左右のチャンネルを、あるいはＭ／Ｓ表現として、コーディングするかを選択するのが普通である。この特定の例では、回転したモノ音源は表現に無関係に両チャンネルで存在するので、左右表現もＭ／Ｓ表現も有益ではない。しかし、Ｍ／Ｓ表現が４５度回転すると、回転したモノ音源は回転したＭｉｄチャンネル（ここでは、ダウンミックスチャンネルと呼ぶ）で完全に終了し、回転したＳｉｄｅチャンネル（ここでは、残留チャンネルと呼ぶ）はゼロとなる。このことにより、通常の左右あるいはＭ／Ｓコーディングよりコーディングでの利点を生ずる。

この２つの新しい信号は、抽出したパラメータと組み合わせてステレオ信号を表わすが、図７に示すように、例えば次にＱＭＦ合成モジュールおよびＳＢＲモジュールに入力される。低ビットレートでは、残留信号はローパスフィルタに掛けれら、完全に除外される。パラメトリックステレオデコーダは、除外された残留信号をダウンミックス信号の相関をなくしたもので置き換える。ステレオ信号のこの提案の処理は、本発明の他の実施の形態とも組み合わされるのは当然である。

より詳細には、ＰＳモジュールは、対応する時間／周波数タイルに対し２つの入力信号（左と右）を比較する。タイルの周波数バンドは、セグメント長が両耳で聴くシステムの既知の制限にかなり一致するが、心理音響的に動機付けされた尺度を概算する。基本的に、時間／周波数タイルあたり３つのパラメータが抽出され、知覚的に最も重要な空間特性を表わす。
（i）ミキシングコンソールの「パンポット（pan pot）」に類似したチャンネル間のレベル差を表わす、チャンネル間レベル差（Inter-channel Level Difference、ＩＬＤ）。
（ii）チャンネル間の位相差を表わす、チャンネル間位相差（Inter-channel Phase Difference、ＩＰＤ）。周波数領域では、この特徴はチャンネル間時間差（Inter-channel Time Difference、ＩＴＤ）とほとんど互換性がある。ＩＰＤを、左右の位相調整の配分を表わす、追加の全体位相差（Overall Phase Difference、ＯＰＤ）により増加する。
（iii）チャンネル間のコヒーレンスまたは相互相関を表わす、チャンネル間コヒーレンス（Inter-channel Coherence、ＩＣ）。始めの２つのパラメータは音源の方向と結合しているが、３番目のパラメータは音源の空間的核酸により関係する。

パラメータ抽出に続いて、入力信号がダウンミックスされ、モノ信号を形成する。ダウンミキシングは、合計処理の普通の手段で行われるが、時間的整合やエネルギ保存技術を組み込んだより進んだ方法を組み込みダウンミキシングで潜在的位相が取り消されることを回避するのが好ましい。デコーダ側では、対応するエンコーダの逆プロセスを備え、ＰＳパラメータに基づきステレオ出力信号を復号するＰＳデコーディングモジュールを備える。

図９に本発明の別の実施の形態を示す。ここで、入力信号は６４サブバンドチャンネルＱＭＦモジュール９２０により再度分析される。しかし、図７に示すシステムとは逆に、コアコーダーとＳＢＲコーダーによりカバーされる範囲の境界は、可変である。それゆえ、次にＬＰＣ、ＭＤＣＴおよびＬＴＰモジュール９０１でコーディングされる時間領域信号のバンド幅をカバーするために必要なだけ多くのサブバンドを、システムはモジュール９１１で合成する。残りの（周波数の高い）サブバンドのサンプルはＳＢＲエンコーダ９１２に入力される。

先に説明した例に加え、高サブバンドサンプルもＱＭＦ合成モジュール９２０に入力され、ＱＭＦ合成モジュール９２０は高周波数範囲をローパス信号に合成し、よって、ダウン変調（down-modulated）された高周波数範囲を含む。この信号は、追加のＭＤＣＴベースＭＤＣＴベースコーダー９３０により続いてコーディングされる。追加のＭＤＣＴベースＭＤＣＴベースコーダー９３０からの出力は、オプションの組み合わせユニット９４０でＳＢＲエンコーダの出力と組み合わされる。信号が生成され、どの部分がＳＢＲでコーディングされ、どの部分がＭＤＣＴベース波形コーダーでコーディングされるかを示すデコーダに送られる。このことにより、ＳＢＲエンコーディングから波形コーディングへのスムースな遷移が可能となる。さらに、別のＭＤＣＴ変換でコーディングされるので、低周波数と高周波数のＭＤＣＴコーディングで用いられる変換サイズに関して選択の自由が与えられる。

図１０に別の実施の形態を示す。入力信号はＱＭＦ分析モジュール１０１０に入力される。ＳＢＲ範囲に対応する出力サブバンドは、ＳＢＲエンコーダ１０１２に入力される。ＬＰＣ分析とフィルタ掛けは信号の全周波数範囲をカバーすることにより行われ、入力信号を直接、または、ＱＭＦ合成モジュール１０１１で生成されたＱＭＦサブバンド信号の合成したもののいずれかを用いて行われる。後者は、図８のステレオ実施と組み合わせるときに有用である。ＬＰＣフィルタされた信号はＭＤＣＴ分析モジュール１００２へ入力され、コーディングされるスペクトル線を提供する。本発明のこの実施の形態では、量子化１００３は、かなり粗い量子化がSBR領域（すなわちＳＢＲエンコーダでカバーされる周波数領域も）で行われ、よって、最も強いスペクトル線をカバーするだけとなるようになされる。この情報は組み合わせユニット１０４０に入力され、組み合わせユニット１０４０は量子化されたスペクトルとＳＢＲエンコーディングされたデータを与えられると、どの信号がＳＢＲ範囲で異なった周波数範囲に用いられるか、すなわちＳＢＲデータか波形コーディングされたデータかの信号をデコーダに発する。

図１１に、発明性のあるコーディングシステムのとても一般的な図を示す。例示のエンコーダは、入力信号を受け取り、特に次のデータを含む、ビットストリームを生成する。
・量子化されたＭＤＣＴライン
・スケールファクタ
・ＬＰＣ多項式表現
・信号セグメントエネルギ（たとえば、信号分散）
・ウィンドウシーケンス
・ＬＴＰデータ

実施の形態によるデコーダは、提供されたビットストリームを読み、オリジナル信号を心理音響的に表すオーディオ出力信号を生成する。

図１１ａは、本発明の実施の形態によるエンコーダ１１００の態様の別の図である。エンコーダ１１００は、ＬＰＣモジュール１１０１、ＭＤＣＴモジュール１１０２、ＬＴＰモジュール１１０５（簡単化して示すのみ）、量子化モジュール１１０３、および、復号した信号をＬＴＰモジュール１１０５に戻す逆量子化モジュール１１０４を備える。入力信号のピッチを推定するピッチ推定モジュール１１５０と、入力信号の比較的大きなブロック（たとえば１秒）用に最適なＭＤＣＴウィンドウシーケンスを決定するウィンドウシーケンス決定モジュール１１５１をさらに備える。この実施の形態では、ＭＤＣＴウィンドウシーケンスは開ループアプローチに基づいて決定され、開ループアプローチでは、たとえば単純化知覚エントロピであるコーディングコスト関数を最小化するＭＤＣＴウィンドウサイズ候補のシーケンスが決定される。ウィンドウシーケンス決定モジュール１１５１で最小化されたコーディングコスト関数に対するＬＴＰモジュール１１０５の寄与は、最適ＭＤＣＴウィンドウシーケンスを探すときにオプションとして考慮されてもよい。好ましくは、評価された各ウィンドウサイズ候補について、ウィンドウサイズ候補に対応するＭＤＣＴフレームへの最適な長期間予測寄与を決定し、各コーディングコストが推定される。一般的に、短いＭＤＣＴフレームサイズは音声入力により適するが、詳細なスペクトル分解能を有する長い変換ウィンドウはオーディオ信号に適する。

知覚重み付けあるいは知覚重み付け関数は、ＬＰＣモジュール１１０１で計算されたＬＰＣパラメータに基づいて決定され、以下に詳細に説明される。知覚重み付けは、ＬＴＰモジュール１１０５と量子化モジュール１１０３に提供され、共にＭＤＣＴ領域で動作し、それぞれの知覚重要性に応じて周波数成分の誤差または歪み寄与を重み付けする。図１１ａは、どのコーディングパラメータがデコーダに、好ましくは追って説明するような適切なコーディングスキームにより、伝達されるかを示す。

次に、共に反作用と実際のフィルタの省略のためであるが、ＬＰＣおよびＭＤＣＴデータの共存とＭＤＣＴでのＬＰＣの効果のエミュレーションを説明する。

実施の形態によれば、ＬＰモジュールは、信号のスペクトル形状を除去し、そして、続くＬＰモジュールの出力がスペクトル的にフラットな信号となるように、入力信号にフィルタを掛ける。このことは、たとえばＬＴＰの動作に利点を有する。しかし、スペクトル的にフラットな信号に動作するコーデックの他の部分は、ＬＰフィルタの前のオリジナル信号のスペクトル形状がどんなものであったのかを知ることにより利益を得る。フィルタの後のエンコーダモジュールはスペクトル的にフラットな信号のＭＤＣＴ変換に動作するので、必要ならば、本発明はＬＰフィルタの前のオリジナル信号のスペクトル形状を、ゲインカーブすなわち量子化カーブに使用したＬＰフィルタの変換関数（すなわち、オリジナル信号のスペクトル包絡線）でマッピングすることによりスペクトル的にフラットな信号のＭＤＣＴ表現に再度掛け、変換関数はスペクトル的にフラットな信号のＭＤＣＴ表現の周波数ビンに適用されることを教示する。反対に、ＬＰモジュールは、実際のフィルタを省略し、変換関数を推定するだけでよく、変換関数は次にゲインカーブにマッピングされ、ゲインカーブは信号のＭＤＣＴ表現に掛けられ、よって入力信号の時間領域フィルタの必要性をなくする。

本発明の実施の形態の一つの顕著な態様は、ＭＤＣＴベースの変換コーダーが、フレキシブルなウィンドウセグメント分けを用いてＬＰＣ白色化信号で動作することである。このことは図１２に示され、図１２では例示のＭＤＣＴウィンドウシーケンスが、ＬＰＣのウィンドウ化と一緒に示される。したがって、図から明らかなように、ＬＰＣは一定のフレームサイズ（たとえば２０ミリ秒）で動作するが、ＭＤＣＴは可変ウィンドウシーケンス（たとえば、４〜１２８ミリ秒）で動作する。このことにより、独立してＬＰＣに対する最適なウィンドウ長とＭＤＣＴに対する最適なウィンドウシーケンスとが選定できる。

図１２は、第１のフレームレートで生成されたＬＰＣデータ、特にＬＰＣパラメータと、第２の可変レートで生成されたＭＤＣＴデータ、特にＭＤＣＴラインとの関係を更に示す。図中、下向き矢印は、対応するＭＤＣＴフレームに適合するようにＬＰＣフレーム（サークル）間に挿入されるＬＰＣデータを表す。たとえば、ＬＰＣで生成された知覚重み付け関数は、ＭＤＣＴウィンドウシーケンスで決められる時間インスタンスに挿入される。上向き矢印は、ＭＤＣＴラインコーディングに用いられる改良データ（すなわちコントロールデータ）を表す。ＡＡＣについてこのデータは典型的にスケールファクタであり、ＥＣＱフレームについてそのデータは典型的に分散補正データなどである。実線対破線は、ある量子化器に与えられたＭＤＣＴラインコーディング用の最も「重要な」データがどちらのデータであるかを表す。二重の下向き矢印は、コーデックスペクトルラインを表す。

エンコーダでのＬＰＣとＭＤＣＴデータの共存は、たとえば、ＬＰＣパラメータから推定した知覚マスキングカーブを考慮することによりＭＤＣＴスケールファクタをエンコーディングすることのビット要求を低減するのに利用される。さらに、量子化歪みを決定するのにＬＰＣ由来知覚重み付けを用いてもよい。図示され以下に説明されるように、量子化器は２つのモードで作動し、受信したデータのフレームサイズに基づき、すなわちＭＤＣＴフレームやウィンドウサイズに対応して、２つのタイプのフレーム（ＥＣＱフレームとＡＡＣフレーム）を生成する。

図１５は一定レートＬＰＣパラメータを適応ＭＤＣＴウィンドウシーケンスデータにマッピングする好適な実施の形態を示す。ＬＰＣマッピングモジュール１５００は、ＬＰＣ更新レートにしたがったＬＰＣパラメータを受信する。さらに、ＬＰＣマッピングモジュール１５００はＭＤＣＴウィンドウシーケンスに関する情報を受信する。そして、たとえば、可変ＭＤＣＴフレームレートで生成されるそれぞれのＭＤＣＴフレームにＬＰＣベースの心理音響データをマッピングするのに、ＬＰＣ−ＭＤＣＴマッピングを生成する。たとえば、ＬＰＣマッピングモジュールは、たとえばＬＴＰモジュールまたは量子化器の知覚重みのように使うために、ＬＰＣ多項式あるいはＭＤＣＴフレームに対応する時間インスタンスの関連データを内挿する。

ここで、図１３を参照してＬＰＣベースの知覚モデルの特徴について説明する。ＬＰＣモジュール１３０１を本発明の実施の形態では、たとえば１６ｋＨｚのサンプリングレート信号用命令１６の線形予測を用いて白色化出力信号を生成するように適応する。たとえば、図２のＬＰＣモジュール２０１からの出力は、ＬＰＣパラメータ推定とフィルタ掛けの後に残留物となる。図１３の左下に模式的に示される、推定したＬＰＣ多項式Ａ（ｚ）は、バンド幅拡張係数によりチャープされ、本発明の実施によっては傾けられ、対応するＬＰＣ多項式の第１の反射率を修正する。チャープは、多項式の極を内側にユニットサークルへ移動することによりＬＰＣ伝達関数のピークのバンド幅を拡張し、その結果柔らかなピークとする。傾けることにより、低周波数と高周波数の影響をバランスするためにＬＰＣ伝達関数をより平らにすることができる。このような修正は、システムのエンコーダとデコーダの両側で利用可能な推定したＬＰＣパラメータから知覚マスキングカーブＡ’（ｚ）を生成することを目的とする。ＬＰＣ多項式の操作の詳細は、以下の図１６に示す。

ＬＰＣ残留に動作するＭＤＣＴコーディングは、本発明の一実施においては、量子化器の分解能あるいは量子化ステップサイズ（および、量子化により導入されるノイズ）をコントロールするスケールファクタを有する。このようなスケールファクタは、オリジナルの入力信号についてスケールファクタ推定モジュール１３６０により推定される。たとえば、スケールファクタはオリジナル信号から推定された知覚マスキング閾値カーブから導かれる。実施の形態では、分割周波数変換（恐らく異なった周波数分解能を有する）を用いてマスキング閾値カーブを決定してもよいが、このことは常に必要なわけではない。あるいは、マスキング閾値カーブは変換モジュールにより生成されたＭＤＣＴラインから推定されてもよい。図１３の右下部分は、スケールファクタ推定モジュール１３６０により生成された、導入される量子化ノイズが不可聴歪みに制限されるように量子化をコントロールするスケールファクタを図示する。

ＬＰＣフィルタがＭＤＣＴ変換モジュールの上流に接続されると、白色化信号はＭＤＣＴ領域に変換される。この信号は白色スペクトルを有するので、知覚マスキングカーブを導くのには適さない。よって、マスキング閾値カーブおよび／またはスケールファクタを推定するには、スペクトルの白色化を相殺するのに生成されたＭＤＣＴ領域量子化ゲインカーブを用いる。これは、知覚マスキングを正確に推定するためには、スケールファクタは、オリジナル信号の完全なスペクトル特性を有する信号で推定する必要があるからである。ＬＰＣ多項式からのＭＤＣＴ領域量子化ゲインカーブの計算は、以下に図１４を参照して詳細に説明する。

上記に概略を説明したアプローチを用いると、エンコーダとデコーダ間で伝達されたデータは、モデルベース量子化器を用いると信号モデルと共に関連した知覚情報も導き出されるＬＰ多項式と、変換コーデックで一般的に用いられるスケールファクタとの両方を含む。

更に詳細には、図１３に戻って、図中のＬＰＣモジュール１３０１は入力信号から信号のスペクトル包絡線Ａ（ｚ）を推定し、それから知覚表現Ａ’（ｚ）を導き出す。さらに、変換ベースの知覚オーディオコーデックで通常用いられるスケールファクタが入力信号について推定され、または、スケールファクタ推定でＬＰフィルタの変換関数が考慮されるならば（以下に図１４の関係で説明されるように）、スケールファクタは、ＬＰフィルタで作られた白色化信号について推定される。それからスケールファクタは、以下に簡単に説明するように、スケールファクタを伝達するのに必要なビットレートを低減するために、ＬＰ多項式を与えられたスケールファクタ適応モジュール１３６１で適応される。

通常、スケールファクタはデコーダに伝達され、ＬＰ多項式もデコーダに伝達される。ここで、それらはオリジナル入力信号から推定され、共にオリジナル入力信号の絶対スペクトル特性に多少相関を有するとすると、それらが別々に伝達されると生ずる冗長性を除去するために、それら２つの間の差分表現をコーディングすることが提案される。実施の形態によれば、この相関は以下のように利用される。ＬＰＣ多項式は正しくチャープされ傾けられたときにマスキング閾値カーブを表そうとするので、伝達された変換コーダーのスケールファクタが所望のスケールファクタと変換されたＬＰＣ多項式から導かれるものとの間の差を表現するように２つの表現が組み合わされる。したがって、図１３に示されるスケールファクタ適応モジュール１３６１は、オリジナル入力信号から生成された所望のスケールファクタとＬＰＣ由来のスケールファクタとの差を計算する。この態様は、ＬＰＣ構造内で、変換コーダーで一般的に用いられるスケールファクタの概念を有するＭＤＣＴベースの量子化器がＬＰＣ残留に作用する能力を維持し、さらに線形予測データからのみ量子化ステップサイズを導くモデルベース量子化器に切り替える可能性も有する。

図１４は、ＬＰＣ多項式をＭＤＣＴゲインカーブに書き換える好適な実施の形態を示す。図２で概略説明したように、ＭＤＣＴは、ＬＰＣフィルタ１００１で白色化された白色化信号について動作する。オリジナル入力信号のスペクトル包絡線を維持するため、ＭＤＣＴゲインカーブは、ＭＤＣＴゲインカーブモジュール１４７０で計算される。ＭＤＣＴ領域等化ゲインカーブは、ＭＤＣＴ変換のビンで表される周波数について、ＬＰＣフィルタで説明されたスペクトル包絡線の強度応答を推定することによって得られる。それから、ゲインカーブは、たとえば図３で示した最小平均自乗誤差信号を計算するときに、または、上記の図１３を参照して説明したようにスケールファクタ決定のために知覚マスキングカーブを推定するときに、ＭＤＣＴデータに適用される。

図１６は、変換サイズおよび／または量子化器のタイプに基づいて知覚重み付けフィルタ計算を適応する好適な実施の形態を示す。ＬＰ多項式Ａ（ｚ）は図１６のＬＰＣモジュール１６０１で推定される。ＬＰＣパラメータ修正モジュール１６７１はＬＰＣ多項式Ａ（ｚ）のようなＬＰＣパラメータを受信し、ＬＰＣパラメータを修正することにより知覚重み付けフィルタＡ’（ｚ）を生成する。たとえば、ＬＰＣ多項式Ａ（ｚ）のバンド幅を拡張し、および／または、多項式を傾斜する。適応チャープ・傾斜モジュール１６７２への入力パラメータは、デフォルトチャープ値ρおよび傾斜値γである。これらは、用いる変換サイズおよび／または用いる量子化方式Ｑに基づいて、所定のルールを考えて修正される。修正されたチャープパラメータρ’と傾斜パラメータγ’は、Ａ（ｚ）で表される入力信号スペクトル包絡線をＡ’（ｚ）で表される知覚マスキングカーブに書き換えるＬＰＣパラメータ修正モジュール１６７1に入力される。

以下では、フレームサイズに条件のある量子化方式および本発明の実施の形態により様々なパラメータに条件のあるモデルベース量子化を説明する。本発明の一態様は、異なった変換サイズやフレームサイズに対して異なった量子化方式を用いることである。このことは図１７に示され、フレームサイズがモデルベース量子化器または非モデルベース量子化器を用いるための選択パラメータとして用いられる。この量子化の態様は、開示されたエンコーダ／デコーダの他の態様とは独立し、別のコーデックにも適用できることは重要である。非モデルベース量子化器の例は、ＡＡＣオーディオコーディング規格で用いられるハフマン表ベースの量子化器である。モデルベース量子化器は、算術符号化を用いるエントロピ制約量子化器（ＥＣＱ）でもよい。しかし、本発明の実施の形態では他の量子化器を同様に用いてもよい。さらに、ここで説明している本発明の実施の形態では、選択した量子化器は、変換サイズによってデコーダに暗に信号を送る。たとえば、特定のフレームサイズに使用された量子化方式で陽にデコーダに情報を送るなどの、信号を送る他の手段も同様に使用できることは明らかであろう。

本発明の独立した態様によれば、特定のフレームサイズを考慮した最適な量子化方式を用いることができるように、フレームサイズの関数として異なった量子化方式間で切り替えることが推奨される。例として、ウィンドウシーケンスは、信号の非常に安定している調性音楽セグメントについて長い変換の使用を決定する。長い変換を用いる、この特定の信号タイプについて、信号スペクトルの「まばらな」特徴（すなわち、よく定義された離散化したトーン）を利用する量子化方式を用いることは大いに有益である。ハフマン表と組み合わせてＡＡＣで用いられ、スペクトル線をグルーピングしてＡＡＣでまた用いられる量子化方法は、とても利益がある。しかし、反対に、音声セグメントについては、ウィンドウシーケンスは、ＬＴＰのコーディングゲインを考慮して、短時間変換の使用を決定する。この信号タイプと変換サイズについて、スペクトルのまばらさを見出したり導入したりしようとせず、代わりに、ＬＴＰを考慮してオリジナル入力信号のパルス的な特徴を保持するブロードバンドエネルギを維持する量子化方式を採用することは利益がある。

この概念のより一般的な概観は図１８に示され、入力信号はＭＤＣＴ領域に変換され、続いてＭＤＣＴ変換に用いられる変換サイズまたはフレームサイズによりコントロールされる量子化器で量子化される。

本発明の他の態様によれば、量子化器のステップサイズは、ＬＰＣおよび／またはＬＴＰデータの関数として適応される。このことによりフレームの困難さによりステップサイズの決定を行うことができ、フレームのエンコーディングに割り当てられるビット数をコントロールする。図１９にモデルベース量子化がＬＰＣおよびＬＴＰデータによりどのようにコントロールされるかが示される。図１９の上部にはＭＤＣＴラインの模式図が示される。下には、周波数の関数としての量子化ステップサイズ差分Δを表す。この特定の例から、周波数と共に量子化ステップサイズが増加すること、すなわち、大きな量子化歪みが高い周波数で生ずることが明らかである。差分カーブは、図１９ａに示す差分適応モジュールによってＬＰＣおよびＬＴＰパラメータから導かれる。差分カーブは、図１３を参照して説明したように、さらに、チャープおよび／または傾斜により予測多項式Ａ（ｚ）から導かれる。

ＬＰＣデータから導かれる好適な知覚重み付け関数は、下記の式で与えられる。

ここで、Ａ（ｚ）はＬＰＣ多項式、τは傾斜パラメータ、ρはチャープをコントロールし、γ_１はＡ（ｚ）多項式から計算した第１の反射率である。Ａ（ｚ）多項式は、その多項式から関連情報を抽出するために、異なった表現の類別にまで再計算されることが重要である。スペクトルの傾斜を無効にする「傾斜」を適用するためにスペクトルの傾斜に興味があれば、第１の反射率はスペクトルの傾斜を表すので、反射率までのＡ（ｚ）多項式の再計算が好ましい。

さらに、差分値Δは、入力信号分散σ、ＬＴＰゲインｇ、および、予測多項式から導く第１の反射率γ_１の関数として適応できる。たとえば、適応は下記式に基づいてもよい。

以下に、本発明の実施の形態によるモデルベース量子化器の態様を説明する。図２０にモデルベース量子化器の態様の一つを図示する。ＭＤＣＴラインを、均一スカラ量子化器を用いて量子化器に入力する。さらに、ランダムオフセットを量子化器に入力し、量子化区間の境界を変更する量子化区間のオフセット値として用いる。提案の量子化器は、スカラ量子化器の検索能力を維持しつつ、ベクトル量子化の長所を提供する。量子化器は異なったオフセット値のセットについて反復し、それらの量子化誤差を計算する。量子化される特定のＭＤＣＴラインの量子化歪みを最小化するオフセット値（またはオフセット値のベクトル）を、量子化に用いる。それからオフセット値は、量子化ＭＤＣＴラインに沿ってデコーダに伝達される。ランダムオフセットの使用により、逆量子化され、デコーディングされた信号にノイズ充填が行われ、そのようにすることにより、量子化スペクトルのスペクトルホールを回避する。このことは、そうしなければ多くのＭＤＣＴラインが復号信号のスペクトルの可聴ホールとなるゼロ値に量子化されてしまう低ビットレートにとっては特に重要である。

図２１は、本発明の実施の形態によるモデルベースＭＤＣＴライン量子化器（ＭＢＭＬＱ）を模式的に示す。図２１の上部は、ＭＢＭＬＱエンコーダ２１００を表わす。ＭＢＭＬＱエンコーダ２１００は入力としてＭＤＣＴフレームのＭＤＣＴラインあるいはＬＴＰがシステムに存在するならＬＴＰ残留のＭＤＣＴラインを受け取る。ＭＢＭＬＱは、ＭＤＣＴラインの統計モデルを用い、ソースコードをＭＤＣＴのフレームごとに基づく信号特性に適応させ、ビットストリームに効率的な圧縮を施す。

ＭＤＣＴラインの局所的ゲインはＭＤＣＴラインのＲＭＳ値、およびＭＢＭＬＱエンコーダ２１００に入力される前にゲイン正規化モジュール２１２０で正規化されたＭＤＣＴラインとして推定される。局所的ゲインはＭＤＣＴラインを正規化し、ＬＰゲイン正規化を補完する。ＬＰゲインはより大きな時間スケールで信号レベルの変化に適応するが、局所的ゲインは、より小さな時間スケールでの変化に適応し、遷移サウンドと音声の出だしの改良した品質を生ずる。局所的ゲインは固定レートあるいは可変レートコーディングでエンコードされ、デコーダに伝達される。

レートコントロールモジュール２１１０を用いてＭＤＣＴフレームをエンコードするのに用いるビット数をコントロールしてもよい。レートコントロールインデックスは、使用されるビット数をコントロールする。レートコントロールインデックスは、公称量子化器ステップサイズのリストに書き込まれる。表は、降順にステップサイズで並べ替えられてもよい。

ＭＢＭＬＱエンコーダは、異なったレートコントロールインデックスのセットで実行され、レートコントロールインデックスはビットリザーバコントロールにより与えられた許容ビット数より低いビットカウントになり、フレームに使用される。レートコントロールインデックスはゆっくりと変化し、このことは、検索の複雑さを低減し、レートコントロールインデックスを効率的にエンコードするのに利用される。テストされたレートコントロールインデックスのセットは、テストが前回のＭＤＣＴフレームのインデックスの周囲で始められるならば、低減できる。同様に、確率がレートコントロールインデックスの前回の値の周囲にピークを有するなら、レートコントロールインデックスの効果的なエントロピコーディングが得られる。たとえば、３２ステップサイズのリストについて、レートコントロールインデックスは、平均でＭＤＣＴフレーム当たり２ビットを用いてコーディングされる。

図２１はさらに、エンコーダ２１００で局所的ゲインが推定されるならばＭＤＣＴフレームをゲインで再正規化するＭＢＭＬＱデコーダ２１５０も模式的に示す。

図２１ａは、モデルベースエントロピ制約エンコーダ２１４０を模式的により詳細に示す。入力されたＭＤＣＴラインは、それらを知覚マスキング曲線、好ましくはＬＰＣ多項式から導かれたもので除すことにより知覚的に重み付けされ、その結果、重み付きＭＤＣＴラインベクトルｙ＝｛ｙ_１，・・・、ｙ_Ｎ｝となる。それに続くコーディングの狙いは、知覚領域のＭＤＣＴラインに白色の量子化ノイズを導入することである。デコーダでは、知覚重み付けの逆が適用され、その結果、知覚マスキングカーブに従う量子化ノイズとなる。

ランダムオフセットは、粗い量子化によるスペクトルホールを回避する手段として量子化器の説明において既に述べた。スペクトルホールを回避する他の方法としては、図２２で示すように、ＳＢＲモジュール２２１２をＬＴＰループに組み込むことがある。

図２２では、ＳＢＲモジュール２２１２はＭＤＣＴ領域で動作し、低周波数から高周波数を再生成する。完全なエンコーダ／デコーダＳＢＲシステムとは反対に、全体の動作がスペクトル的に平坦なＭＤＣＴ領域で行われるので、ＬＴＰループのＳＢＲモジュールは、包絡線調整を必要としない。ＬＴＰモジュールに高周波数復号モジュールを設置する利点は、高周波数再生成信号は量子化の前に抽出され、量子化の後に加えられることである。それゆえ、全体の周波数範囲でビットを使えるならば、量子化器は、オリジナルの高周波数が維持されるように信号をエンコーディングし（ＳＢＲの寄与は量子化の前に抽出され、量子化の後に加えられるから）、ビット制約が厳しすぎるならば、量子化器は高周波数にエネルギを生成することができず、ＳＢＲ再生成高周波数は「フォールバック」として出力に加えられ、よって高周波数範囲でのエネルギを確保する。

本発明の一実施の形態においてＬＴＰループのＳＢＲモジュールは単純コピーされた（すなわち、低周波数ラインが高周波数ラインにコピーされた）メカニズムである。別の実施の形態では、高調波高周波数再生成モジュールを用いる。高調波信号について、低バンドスペクトルに調和した関係を有する高周波数スペクトルを生成するＳＢＲモジュールは好ましく、なぜならば、量子化の前に入力信号から抽出された高周波数は、オリジナルの高周波数とよく一致し、よって量子化器に入る信号のエネルギを低減し、ビットレートの要求を考慮して量子化するのを容易にするからである。３番目の実施の形態では、ＬＴＰループのＳＢＲモジュールは、変換サイズに依存して高周波数、よって、暗黙的に信号特性を再生成するやり方を適応できる。

本発明は、新しいウィンドウシーケンスコーディングフォーマットをさらに組み込む。本発明の実施の形態によれば、図２３ａ、ｂ、ｃに図化されるように、ＭＤＣＴ変換に用いられるウィンドウは、ダイアディックサイズであり、ウィンドウ間で係数２の大きさの変化しかしない。ダイアディック変換サイズは、例えば、１６ｋＨｚのサンプリングレートにおいて４、８、・・・、１２８ミリ秒に対応して６４、１２８、・・・、２０４８である。一般的に、最小ウィンドウサイズと最大ウィンドウサイズ間の複数のウィンドウサイズを取ることができる可変サイズウィンドウが提案される。シーケンスにおいて、連続的なウィンドウサイズは係数２でのみ変化し、急激な変化のないウィンドウサイズのスムースなシーケンスが展開する。実施の形態で画定するようなウィンドウシーケンス、すなわちダイアディックサイズに限定され、ウィンドウ間で係数２の大きさで変化することだけが出許される、ウィンドウシーケンスは、多くの利点を有する。先ず第１に、特別な開始あるいは終了ウィンドウ、すなわちシャープなエッジを有するウィンドウが不要である。このことにより、時間／周波数分解能が良好に維持される。第２に、ウィンドウシーケンスはコーディングするのに、すなわちデコーダにどの特定のウィンドウシーケンスが用いられるか信号を送るのに、非常に効率的になる。実施の形態によれば、シーケンスの次のウィンドウが係数２だけ増大するのか２だけ減少するのかの信号を送るのにたった１ビットだけが必要となる。もちろん、上記の制約を考慮してウィンドウサイズのシーケンス全体を効率的にコーディングする他のコーディング方式を使ってもよい。最後に、ウィンドウシーケンスは、いつでもハイパーフレーム構造によく適合する。

ハイパーフレーム構造は、デコーダを始めることを可能にするためにあるデコーダ構造パラメータが伝達されなければならない現実のシステムでコーダーを操作するのに有用である。このデータは、通常コーディングされたオーディオ信号を記述するビットストリームのヘッダーフィールドに保存される。ビットレータを最小化するために、ヘッダーはコーディングされたデータのすべてのフレームで伝達されず、ＭＤＣＴフレームサイズが極短いものから極長いものまで変化する本発明で提案されるシステムでは特にそうである。したがって、本発明では、ある量のＭＤＣＴフレームをハイパーフレームにグループ化し、そこではヘッダーデータがハイパーフレームの最初で伝達されることを提案する。ハイパーフレームは特定の長さの時間で画定されるのが典型的である。したがって、ＭＤＣＴフレームサイズの変化が一定の長さであらかじめ規定されたハイパーフレーム長に適合するようにする注意が必要である。上記に説明した発明性のあるウィンドウシーケンスは、選定したウィンドウシーケンスがいつでもハイパーフレーム構造に適合することを確実にする。

図２３ａは、ＭＤＣＴ理論により得られる、ＭＤＣＴ変換の隣接ウィンドウについての好適な適合性要求を示す。左のウィンドウは変換サイズＬ_１に適合し、右のウィンドウは変換サイズＬ_２に適合する。ウィンドウのオーバーラップは直径の時間区間、すなわち期間Ｄにサポートされる。本発明の実施の形態により教示されるＭＤＣＴ変換については、変換サイズは、等しい（Ｌ_１＝Ｌ_２）か、係数２で大きさが異なる（Ｌ_１＝２Ｌ_２またはＬ_２＝２Ｌ_１）か、どちらでもよい。図では、後者の状態を示す。さらに、他の好適な制約として、変換サイズ区間の位置は、規則正しい等距離のハイパーフレームシーケンスのダイアディック分割により求められなければならない。すなわち、変換区間位置は、ハイパーフレーム区間から始めて、半分で分割される区間の継続から得られる。変換サイズ区間が与えられる場合であっても、オーバーラップ直径Ｄを選定するのにいくらかの自由度が残されている。本発明の実施の形態によれば、隣接する変換サイズＬ１、Ｌ２より遥かに小さな直径Ｄは、そのようなシャープなエッジは結果として得られるＭＤＣＴ変換の周波数解像度を低くするので、回避される。

図２３ｂは、４つの異なるＭＤＣＴウィンドウ形状を用いる本発明の実施の形態を模式的に示す。４つの形状は、以下のように表示される。
ＬＬ：長い左と長い右がオーバーラップ
ＬＳ：長い左と短い右がオーバーラップ
ＳＬ：短い左と長い右がオーバーラップ
ＳＳ：短い左と短い右がオーバーラップ

使用されるＭＤＣＴウィンドウは、これら４つのウィンドウのタイプを再スケーリングしたものであり、再スケーリングは指数２に等しい係数による。図２３ｂの時間軸上の目盛は、変換サイズ区間を表わし、図示のように、長いオーバーラップの直径は変換サイズに等しいが、短いオーバーラップの直径はそのサイズの半分である。実際的な実行では、最大変換サイズがあり、それは最小変換サイズの２^Ｎ倍であり、Ｎは６より小さな整数に等しいのが典型である。さらに、最小の変換サイズではＬＬウィンドウだけを考慮してもよい。

図２３ｃは、例を用いて、本発明の実施の形態によるウィンドウシーケンスエンコーディング方法を説明する。時間軸のスケールは、最小変換サイズの単位に正規化してある。ハイパーフレームサイズは、その単位でＨ＝１６であり、ハイパーフレームの左縁は時間スケールの原点ｔ＝０を規定する。また、単純化のために、許容される最大変換サイズはＮ＝２として４＝２^２と仮定する。変換サイズ区間は、それぞれ長さ４、２、２、１、１、２、４を有する７つの区間［０，４］，［４，６］，［６，８］，［８，９］，［９，１０］，［１０，１２］，［１２，１６］からなるハイパーフレーム区間［０，１６］のダイアディック部分を形成する。見れば分かるように、これらの長さは、隣同士の間は係数２で最大限変化するサイズの条件に従っている。７つのウィンドウ全てが、図２３ｂの４つの基本形の１つを再スケーリングすることにより得られる。

変換サイズが２倍あるいは半分に維持されるので、それらを再帰的にエンコーディングする最初のアプローチは、ウィンドウシーケンスに沿ったこの選択の道筋を三位のシンボルで保つことである。しかし、このことにより、変換サイズの過度なコーディングや、ウィンドウ形状の不明りょうな記述を生じうる。ダイアディック分割を用いる要求のために、前者は、変換サイズを２倍にすることができないことがある。

たとえば、区間［４，６］の後、２倍にすると区間［６，１０］となり、［０，１６］のダイアディックサブ区間ではなくなる。後者のウィンドウ形状の不明りょうな記述は、同じサイズの隣接区間が長いオーバーラップあるいは短いオーバーラップのどちらでも共有できるので、図２３ｂの例で抑えられる。これらのオーバーラップの要求は、ＭＤＣＴ理論から分かり、フィルタバンクのエイリアシングキャンセル特性を与える。

その代わりに、実施の形態によるコーディングの原理は以下の通りである。
各ウィンドウについて最大の２ビットが次のように規定される。
ｂ_１＝１：変換サイズが左のオーバーラップより大きい場合
０：その他の場合
ｂ_２＝１：右のオーバーラップが変換サイズより小さい場合
０：その他の場合

別の言い方をすると、ビットベクトル（ｂ_１、ｂ_２）から図２３ｂのウィンドウタイプへのマッピングは以下の表で与えられる。

しかし、ビットの１つがダイアディック変換区間の制約あるいは変換サイズの制限から推定されると、そのときにはそれは伝達されない。

図２３ｃの特定の例に戻ると、一番左のオーバーラップのサイズ４単位は、前回のハイパーフレームの最終状態よりあるいは独立したハイパーフレームの場合には絶対的伝達より求められる現在のハイパーフレームの最初の状態である。考慮すべき最初のビットは、一番左のウィンドウのｂ_１である。区間［０，４］の長さは４より大きくないので、このビットの値は０となる。しかし、４はこの例で考えられる最大の変換サイズであるので、この第１のビットは除外される。このことは、最初のウィンドウの上の×印で消された０で表わされる。右のオーバーラップは変換サイズより小さいので、このウィンドウの２番目のビットは上記のようにｂ_２＝２で、オーバーラップポイントｔ＝４である。次に、区間［４，６］はｔ＝４の周囲でオーバーラップに等しいサイズを有し、よって２番目のウィンドウの第１のビットはｂ_１＝０である。ｔ＝６の周囲のオーバーラップは２より小さくないので、次のビットは０となる。３番目のウィンドウの変換サイズビットｂ１は値０であるが、ここで、より長い変換のオプションはダイアディック構造と一致せず、ビットはその状況から推定され、よって、伝達されず、図では×印で消されている。このプロセスは、短いオーバーラップのビット１を有するｔ＝１６にハイパーフレームの終わりが到達するまで続けられる。途中で、［９．１０］上の３つのビットが最短の変換サイズのオーバーラップは役に立たないという理由で×印で消されており、拡大すると間違った位置にある。よって、全部の消していないビットシーケンスは、
０１０００１００００１０１１
であるが、エンコーダとデコーダの両方で利用できる情報を用いた後に次のように低減され、
１００１０１０１１
７つのウィンドウをコーディングするのに９ビットとなる。

ビットレートのさらなる低減が、これらの純粋に記述的なビットのエントロピコーディングにより行えることは、当業者には明らかである。

図２４に発明性のあるエンコーダ／デコーダシステムの追加の特徴を示す。入力信号はＭＤＣＴ分析モジュールに入力され、その信号のＭＤＣＴ表現が高調波予測モジュール２４００に入力される。高調波予測は、パラメトリックフィルタを考慮する、周波数軸に沿ったフィルタ掛けである。ピッチ情報、ゲイン情報および位相情報を考慮して、それから（周波数が）高い方のＭＤＣＴラインは、入力信号が一連の高調波を含むなら、低い方のラインから予測される。高調波予測モジュールのコントロールパラメータは、ピッチ情報、ゲインおよび位相情報である。

実施の形態によれば、ＬＴＰ抽出モジュール２５１２とＬＴＰ改良モジュール２５１８の２つのモジュールを含んで示す図２５で説明するように、ＭＤＣＴ領域における仮想のＬＴＰベクトルを用いる。ＬＴＰの考えは、出力信号の前回のセグメントを現在のセグメントあるいはフレームのデコーディングに用いることである。どの前回のセグメントを使うかは、コーディングされた信号の歪みを最小化する繰り返しプロセスを考慮して、ＬＴＰ抽出モジュール２５１２で決められる。ＬＴＰがＭＤＣＴ領域で実行されるときに、本発明はＭＤＣＴフレームのオーバーラップを考慮する新しい方法を提供し、すなわち、ＭＤＣＴ分析され現在の出力セグメントのデコーディングプロセスで使われる前回の出力信号のセグメントが、オーバーラップのために、未だ生成されてはいない現在の出力信号の部分を含むように、ＬＴＰ遅延が選定される。

この繰り返しプロセスを以下に説明する。
ＬＴＰバッファから信号の第１の抽出がＬＴＰ抽出モジュール２５１２により実行される。この第１の抽出の結果は改良モジュール２５１８により改良されるが、改良モジュール２５１８の目的は、選定した遅延ＴがコーディングされるフレームのＭＤＣＴウィンドウの機関より小さいときにＬＴＰ信号の品質を改良することである。分析されたフレームより小さな時間遅延に対するＬＴＰ寄与を改良する繰り返しプロセスを、図２５ａを参照することでまず簡単に説明する。最初のグラフで、ＬＴＰバッファで選定されたセグメントが、ＭＤＣＴ分析ウィンドウを重ね合わせて、示される。オーバーラップウィンドウの右の部分は、利用できるデータを含んでない（時間信号の破線の部分）。繰り返し改良プロセスは、以下の工程を経る。
１）ＭＤＣＴ分析で一般的に行われるように、オーバーラップ部分でフォールドインする（折り畳む）；
２）オーバーラップ部分をフォールドアウトする（折り畳んだものを開く）（最初にデータを含んでいない右側の部分は、今はフォールドアウトデータを有することに留意すること）；
３）ウィンドウを選定したＬＴＰ遅延だけ右に移動する；
４）オーバーラップ部分をフォールドインし、差分を計算する；
５）上のグラフのオリジナルのＬＴＰセグメントと差分を合計する。
この繰り返しプロセスは２から４回行われるのが好ましい。

ＭＤＣＴ適応ＬＴＰ抽出プロセスを図２５ｂにより詳細に示し、図２５ｂは、ＬＴＰ抽出モジュールで実行される工程を示す。

ａ）様式を合わせた入力信号ｘ（ｔ）を表わす。入力信号ｘ（ｔ）は、有限の時間区間においてのみ、ＬＴＰバッファの範囲もしくは現在のＭＤＣＴフレームウィンドウの範囲で、または、システムの制限により与えられる他の区間で既知である。しかし、操作の定義用には、入力信号は全ての時間で既知であると仮定する。このことは、既知である区間の外側では入力信号をゼロに設定することによりなされる。

ｂ）入力信号に実行される最初の操作は、ＬＴＰ遅延Ｔだけ移動することである。すなわち、
ｘ_１（ｔ）＝ｘ（ｔ−Ｔ）

ｃ）次の工程は、ＭＤＣＴウィンドウｗ（ｔ）を適用することである。そのようなウィンドウは、期間の上昇部分２ｒ_１、期間の下降部分２ｒ_２、および、恐らくその間の一定部分からなる。例示のウィンドウは破線のグラフで示される。ウィンドウの上昇部分及び下降部分のサポートは、それぞれミラーポイントｔ_１、ｔ_２の周囲に集中する。信号ｘ１（ｔ）は、ウィンドウでポイントごとに乗算され、次式が得られる。
ｘ_２（ｔ）＝ｗ（ｔ）・ｘ_１（ｔ）
再度、既知の範囲［ｔ_１−ｒ_１，ｔ_２＋ｒ_２］の外側ではウィンドウｗ（ｔ）はゼロと仮定される。

ｘ（ｔ）からｘ_２（ｔ）への操作に関する別の、しかし同等な見方は、次の工程を実行することであり、

ここで、工程（i）は(ｔ_１−ｒ_１−Ｔ，ｔ_２＋ｒ_２−Ｔ)でサポートされるウィンドウでウィンドウ操作することになり、工程（ii）はその結果をＬＴＰ遅延Ｔだけ移動する。

ｄ）ここでウィンドウ信号ｘ_２（ｔ）は、次式により規定される［ｔ_１，ｔ_２］でサポートされる信号にフォールドインされる。
ｘ_２（ｔ）+ε_１ｘ_１（２ｔ_１−ｔ）ｔ_１≦ｔ≦ｔ_１＋ｒ_１の場合
ｘ_３（ｔ）＝ｘ_２（ｔ）ｔ_１＋ｒ_１＜ｔ＜ｔ_２−ｒ_２の場合
ｘ_２（ｔ）+ε_２ｘ_２（２ｔ_２−ｔ）ｔ_２−ｒ_２≦ｔ≦ｔ_２の場合

説明した例では、信号の値は、ＭＤＣＴ変換の所与の遂行に対応して（ε１，ε２）＝（−１，１）であり、他の可能性としては（１，−１）、（１，１）あるいは（−１，−１）である。

フォールドインされた信号ｘ_３（ｔ）は、続いて区間［ｔ_１−ｒ_１，ｔ_２＋ｒ_２］でサポートされた信号にフォールドアウトされ、次式で与えられる。
ε_１ｘ_３（２ｔ_１−ｔ）ｔ_１−ｒ_１≦ｔ≦ｔ_１の場合
ｘ_４（ｔ）＝ｘ_３（ｔ）ｔ_１＜ｔ＜ｔ_２の場合
ε_２ｘ_３（２ｔ_２−ｔ）ｔ_２≦ｔ≦ｔ_２＋ｒ_２の場合

ｘ_２（ｔ）からｘ_４（ｔ）への操作はまた、区間［ｔ_１−ｒ_１，ｔ_１＋ｒ_１］と［ｔ_２−ｒ_２，ｔ_２＋ｒ_２］の信号部分のミラーイメージを加え、あるいは減じる１つの操作に組み合わせることができる。

ｆ）最後に、信号ｘ_４（ｔ）にＭＤＣＴウィンドウでウィンドウ掛けして、ＬＴＰ抽出操作の結果を作り出す。
ｙ（ｔ）＝ｗ（ｔ）・ｘ_４（ｔ）

ｘ_１（ｔ）からｙ（ｔ）への組み合わせ操作は、ＭＤＣＴ合成が後に続くＭＤＣＴ分析と等価であり、このことは現在のＭＤＣＴフレームサブスペースの直交射影を実現することは、当業者にとっては明らかである。

オーバーラップがない場合、すなわちｒ_１＝ｒ_２＝０の場合に、ｄ）からｆ）の操作によってはｘ_２（ｔ）には何も起こらないということは重要である。すると、ウィンドウ操作は、区間［ｔ_１，ｔ_２］における信号ｘ_１（ｔ）の単なる抽出からなる。この場合、ＬＴＰ抽出モジュール２５１２はまさに、先行技術のＬＴＰエクストラクタが行うことを実行する。

図２５ｃは、最初のＬＴＰ抽出信号ｙ_１（ｔ）の繰り返し改良を説明する。それは、ＬＴＰ抽出操作Ｎ−１回を適用することと、その結果を最初の信号に加えることからなる。ＳがＬＴＰ抽出操作を表わすならば、繰り返しは次式で定義される。
Δ_０＝ｙ_１
Δ_ｋ＝Ｓ（Δ_ｋ−１）、ｋ＝１，・・・，Ｎ−１
ｙ_ｋ＝ｙ_ｋ＋１，ｋ＝２，・・・，ｎ−２

ＬＴＰ遅延Ｔ＞ｍａｘ（２ｒ_１，２ｒ_２）であれば、Δ_Ｎ＝０であるようなＮがあることが、図２５ｂから分かる。Ｔ＞ｒ_１＋ｒ_２＋ｔ_２−ｔ_１であれば、既にΔ_１＝０であり、改良は割愛される。

オーバーラップがない場合は、すなわちｒ_１＝ｒ_２＝０の場合に、本方法は、従来技術の方法の仮想ベクトル生成と一致する。

図２５ｄは、改良ユニットの別の遂行を示し、改良ユニットは下記の繰り返しを実行する。
ｙ_ｋ=ｙ_１+Ｓ（ｙ_ｋ−１），ｋ＝２，・・・，Ｎ

双方の遂行において、繰り返しからの最終的出力は、次式のように記載され、

ここで、ｘはＬＴＰバッファ信号である。

本発明の実施の形態によれば、ＬＴＰ遅延とＬＴＰゲインは可変レートの様式でコーディングされる。このことは、変化しない周期的信号に対するＬＴＰの有効性のために、ＬＴＰ遅延はある程度長いセグメントで同じである傾向があるので、有利である。それゆえ、このことは算術コーディングにより用いられ、結果として可変レートＬＴＰ遅延およびＬＴＰゲインコーディングとなる。

同様に、本発明の実施の形態は、ＬＴＰパラメータのコーディングについてビットリザーバと可変レートコーディングの利益を享受する。さらに、帰納的ＬＰコーディングが本発明により教示される。

前述したように、高調波信号のコーディングを改良するようになされた技術を利用してもよい。そのような技術は、たとえば、高調波予測、ＬＴＰあよび時間歪みである。前記のツールは全て陰にあるいは陽にある種のピッチあるいはピッチに関連する情報に依存する。本発明の実施の形態では、別の技術で必要となるこの別の情報は、依存性あるいは相関性があることを考慮して効率的にコーディングされる。このことは図２６に示され、図２６は、ＬＴＰ遅延や時間歪みからの差分などのピッチ関連データおよびピッチを組み合わせる組み合わせユニット２６００を示し、組み合わせユニット２６００は組み合わされたピッチ信号を生成する。

上記に説明したように、実施の形態によるコーデックは、ＭＤＣＴ領域でＬＴＰを利用してもよい。ＭＤＣＴ領域でＬＴＰのパフォーマンスを改善するために、２つの追加のＬＴＰバッファ２５１２、２５１３を導入してもよい。図２７に示すように、ＬＴＰエクストラクタがＬＴＰバッファ２５１１に最適な遅延を探索するとき、ノイズベクトルとパルスベクトルとも探索に含まれる。ノイズとパルスは、たとえばＬＴＰバッファに保管された前回のセグメントの信号が適切でない遷移などにおいて、予測信号として用いられる。よって、パルスおよびノイズコードブックのエントリを伴う改良されたＬＴＰが提供される。

本発明の他の態様は、エンコーダの可変のフレームサイズ用のビットリザーバの取扱いである。ビットリザーバコントロールユニットを教示する。入力として与えられる困難さの尺度に加え、ビットリザーバコントロールユニットは、現在のフレームのフレーム長の情報も受信する。ビットリザーバコントロールユニットで用いられる困難さの尺度の例は、知覚エントロピ、すなわちパワースペクトルの対数である。ビットリザーバコントロールは、一組の異なったフレーム長についてフレーム長が変化するシステムにおいて重要である。ここで提案するビットリザーバコントロールユニット１８００は、以下に説明するように、コーディングされるフレームに許容されたビットの数を計算するときにフレーム長を考慮する。

ここでは、ビットリザーバは、バッファ中のある固定量のビットとして定義され、所与のビットレートで使用が認められたフレームの平均ビット数より大きくなければならない。同じサイズであると、フレームについてのビット数の変化ができなくなる。ビットリザーバコントロールは、実行中のフレームに認められたビット数としてエンコーディングアルゴリズムに認められるビットを取り出す前に、ビットリザーバのレベルを常に見ている。よって、満杯のビットリザーバとは、ビットリザーバ中で用いられるビット数がビットリザーバサイズに等しいことをいう。フレームをエンコーディングした後、使用されたビットの数はバッファから減じられ、一定のビットレートを表わすビット数を加算されることによりビットリザーバはアップデートされる。したがって、フレームをコーディングする前のビットリザーバのビット数がフレーム当たりの平均ビット数に等しいならば、ビットリザーバは空である。

図２８ａにビットリザーバコントロールの基本概念を示す。エンコーダは、前回のフレームと比較して実行中のフレームをエンコードすることがいかに困難かを計算する手段を提供する。平均の困難さを１．０として、認められたビット数はビットリザーバで使用可能なビット数に依存する。与えられたコントロールのラインによれば、ビットリザーバが本当に満杯であると、平均ビットレートに対応するより多くのビットがビットリザーバから取り出される。空のビットリザーバの場合には、平均ビットに比べて少ないビットがフレームをエンコーディングするのに用いられる。この行動は、平均の困難さを有するフレームの長いシーケンスについては平均ビットリザーバレベルとなる。高い困難さのフレームについては、コントロールのラインは上方にシフトされ、フレームをエンコーディングする困難さは同じビットサーバレベルでより多くのビットを使うことが許されるという効果を有する。したがって、フレームを容易にエンコーディングするため、フレームに認められたビット数は、図２８ａのコントロールラインを平均困難さの場合から容易な困難さの場合にシフトダウンすることだけで低減される。コントロールラインを単純にシフトする以外の修正も可能である。たとえば、図２８ａに示すように、コントロールカーブの傾きをフレームの困難さに応じて変えてもよい。

認められたビット数を計算するときに、許可された以上にバッファからビットを取り出さないようにビットリザーバの下限界には従う必要がある。図２８ａに示すようにコントロールラインにより認められたビットを計算することを含むビットリザーバコントロールスキームは、可能なビットリザーバレベルと認められたビットの関係の困難さの尺度の一例に過ぎない。また、他のコントロールアルゴリズムも一般的にビットリザーバレベルの下限に厳しい限界を有し、その限界はビットリザーバが空のビットリザーバの制限を破ることを防止し、エンコーダにより過小なビット数しか消費されないときにエンコーダがビットを満たすように強制される上限の限界でも同様である。

可変フレームサイズのセットを取り扱うことができるコントロールメカニズムなどでは、この単純なコントロールアルゴリズムを適応すべきである。使用される困難さの尺度は、異なったフレームサイズの困難さの値が比較できるように正規化される。すべてのフレームサイズについて、認められたビットについての異なった許容範囲があり、フレーム当たりの平均ビット数が変化するフレームサイズに対し異なるので、結果としてそれぞれのフレームサイズは、それ自身の限界のあるそれ自身のコントロール式を有する。一例を図２８ｂに示す。固定フレームサイズの場合への重要な修正は、コントロールアルゴリズムの低い許容境界である。固定ビットレートの場合に対応する実行中のフレームサイズの平均ビット数の代わりに、ここでは最大許容フレームサイズに対する平均ビット数が、実行中のフレームについてビットを取り出す前のビットリザーバレベルに対する最低許容値となる。このことは、固定フレームサイズのビットリザーバコントロールに対する主な差異の一つである。この制限は、続いての最大可能フレームサイズのフレームが少なくともこのフレームサイズの平均ビット数を用いることを約束する。

困難さの尺度は、たとえば、ＡＡＣで行われるように心理音響モデルのマスキング閾値から導かれる知覚エントロピ（ＰＥ）計算、または代替として、本発明の実施の形態によるエンコーダのＥＣＱ部で行われるように固定ステップサイズの量子化のビットカウントに基づく。これらの値は、可変フレームサイズに関して正規化され、それはフレーム長で単に除すことによりなされ、その結果はＰＥであり、それぞれサンプル当たりのビットカウントである。別の正規化のステップは、平均困難さに関して行われる。この目的のために、過去のフレームに対して移動平均が用いられ、結果は、困難なフレームに対しては１．０より大きな、容易なフレームに対しては１．０未満の困難値となる。２パスエンコーダまたは大きな先取りの場合、将来フレームの困難値もこの困難さの尺度の正規化に考慮される。

図２９は、提案のエンコーダおよびデコーダの実施の形態で用いられる歪んだＭＤＣＴ領域を示す。図示されるように、時間歪みは時間スケールを再サンプリングして一定ピッチとすることを意味する。図のｘ軸は変化するピッチでの入力信号を示し。図のｙ軸は再サンプリングされた一定ピッチの信号を示す。時間歪みカーブは現在のセグメントについてピッチ検出アルゴリズムを用い、セグメント中のピッチの展開を推定することにより、決定される。するとピッチの展開情報を用いて、セグメント中の信号を再サンプリングし、よって、歪みカーブを生成する。ピッチの展開を決定するのにピッチの差だけが必要で、完全なピッチ情報は不要なので、歪みカーブを作成するアルゴリズムはピッチ検出誤差に影響されにくい。

本発明の態様によれば、時間歪みＭＤＣＴをＬＴＰと組み合わせて用いる。この場合、ＬＴＰ探索は、エンコーダで一定ピッチセグメント領域で行われる。このことは、ピッチの変化のためにＭＤＣＴフレームで等距離に配置されていない多くのピッチパルスを備える長いＭＤＣＴフレームについて、特に有用である。よって、ＬＴＰバッファからの一定ピッチセグメントは複数のピッチパルスに適切には適合しないであろう。実施の形態によれば、ＬＴＰバッファの全セグメントが、現在のＭＤＣＴフレームの歪みカーブに基づいて再サンプリングされる。デコーダにおいても、ＬＴＰバッファで選定されたセグメントは、歪みデータ情報を考慮して、現在フレームの歪みデータに再サンプリングされる。歪みデータは、ビットストリームの一部としてデコーダに伝達される。

図２９の上部に、ウィンドウ、すなわちＬＴＰバッファにおけるセグメントが、現在の、破線のフレームのウィンドウと共に示される。図２９ａには、歪みＭＤＣＴ分析の効果が示される。左側には歪んでいない分析の周波数のプロットが示される。ウィンドウに関するピッチ変化のために、周波数がより高い高調波は、適切には分解されてはいない。図の右側部分には、時間歪みＭＤＣＴ分析で分析された、同じ信号の周波数プロットが示される。ここでは分析ウィンドウでピッチが一定なので、高い高調波はよりよく分解される。

本発明の実施の形態による別の層状ＳＢＲ復号アプローチが図３０に示される。図７によれば、エンコーダとデコーダは二重レートシステムとして遂行され、コアコーダーはサンプリングレートの半分のレートでサンプリングされ、高周波数復号モジュールは、オリジナルのサンプリングレートでサンプリングされて、高周波数を取り扱う。３２ｋＨｚのオリジナルサンプリングレートを仮定すると、ＬＰＣフィルタは１６ｋＨｚで作動し、８ｋＨｚの白色化信号を提供する。しかし、以下のコアコーダーは、課せられたビットレート制約を考慮して８ｋＨｚのバンド幅をコーディングすることはできないかもしれない。本発明は、このことを取り扱う多くの手段を提供する。本発明の実施の形態は、ＬＰＣの下で（すなわち、ＬＰＣフィルタを掛けられた信号に基づいて）ＭＤＣＴ領域で高周波数復号を適用して８ｋＨｚのバンド幅を提供する。このことは図３０に示され、ＬＰＣがゼロから８ｋＨｚの周波数範囲をカバーし、０〜５ｋＨｚの範囲はＭＤＣＴ波形量子化器により処理される。５〜８ｋＨｚの周波数範囲は、ＭＤＣＴ・ＳＢＲアルゴリズムで処理され、最後に８〜１６ｋＨｚの範囲はＱＭＦ・ＳＢＲアルゴリズムで処理される。ＭＤＣＴ・ＳＢＲは、上述したようにＱＭＦベースのＳＢＲで用いられるのと類似したコピーアップ（copy-up）メカニズムに基づく。しかし、変換サイズの関数としてのＭＤＣＴ・ＳＢＲ方法の適応などの、他の方法もまた有利なことに用いることができる。

本発明の別の実施の形態では、ＬＰスペクトルの上方の周波数範囲は、フレームサイズと信号特性に基づいて量子化されコーディングされる。あるフレームサイズと信号では、その周波数範囲は上記に従ってコーディングされ、他のフレームサイズでは、粗い量子化とノイズ充填技法が使われる。

これまでは本発明の特定の実施の形態を参照して開示してきたが、本発明の概念は説明した実施の形態に限定されることはないことは理解されるはずである。反対に、本出願で提供された開示により当業者は本発明を理解し実施することができる。当業者が、添付の特許請求の範囲だけで提示された本発明の思想と範囲から逸脱することなく、多くの改変を行えることは明らかである。

Claims

線形予測フィルタに基づいて入力信号をフィルタリングすることで、線形予測残留信号及び線形予測パラメータを生成する線形予測ユニットと、
前記線形予測残留信号のフレームを周波数領域に変換することで、変換された入力信号を生成する変換ユニットと、
周波数領域信号を量子化する量子化ユニットと、
前記線形予測残留信号の前回のセグメントの復号に基づいて、前記線形予測残留信号の前記フレームの長期間予測推定を行う長期間予測ユニットと、
前記周波数領域において、前記長期間予測推定と前記変換された入力信号を組み合わせて周波数領域信号を生成する周波数領域信号組み合わせユニットと
を備え、前記長期間予測ユニットは、
前記長期間予測ユニットのバッファに保存された前記線形予測残留信号の復号されたセグメントを指定する遅延値を決定する長期間予測決定手段であって、前記セグメントは、前記変換ユニットにより現在変換されている前記線形予測残留信号の前記フレームに最も合致している、長期間予測決定手段と、
前記遅延値が前記現在のフレームの長さより小さかった場合、前記長期間予測決定手段が使用するための前記長期間予測ユニットの前記バッファにまだ存在していない復号信号の部分について復号信号の拡張セグメントを生成する仮想ベクトル生成器と
を有し、当該オーディオコーディングシステムは、前記線形予測パラメータ、量子化された前記周波数領域信号及び前記長期間予測の遅延値を含むビットストリームを出力する、オーディオコーディングシステム。
量子化された前記周波数領域信号から、前記線形予測残留信号の前記フレームの時間領域復号を生成する逆量子化逆変換ユニットを更に備え、
前記長期間予測ユニットのバッファが、前記線形予測残留信号の前回のフレームの時間領域復号を保管する、請求項１に記載のオーディオコーディングシステム。
前記入力信号をフィルタリングする線形予測フィルタは、第１のフレーム長で動作しかつ白色入力信号を生成する線形予測コーディング（ＬＰＣ）分析に基づき、
前記線形予測残留信号の前記フレームに適用される変換は、可変の第２のフレーム長で行われる修正離散化コサイン変換（ＭＤＣＴ）である、請求項１または２に記載のオーディオコーディングシステム。
前記入力信号のブロックに対するコーディングコスト関数である単純化知覚エントロピを最小化することにより、前記入力信号のブロックに対して、オーバーラップするＭＤＣＴウィンドウの前記第２のフレーム長を決定するウィンドウシーケンスコントロールユニットを備える、請求項３に記載のオーディオコーディングシステム。
連続したＭＤＣＴウィンドウ長は最大で２倍変化する、請求項４に記載のオーディオコーディングシステム。
前記ウィンドウシーケンスコントロールユニットは、前記長期間予測ユニットによりなされた長期間予測推定に基づいて、前記入力信号のブロックに対して前記コーディングコスト関数を最小にするＭＤＣＴウィンドウ長のシーケンスを探す、請求項４又は５に記載のオーディオコーディングシステム。
シーケンスのＭＤＣＴウィンドウ長とウィンドウ形状とを一緒にエンコーディングするウィンドウシーケンスエンコーダを備える請求項４ないし６のいずれか１項に記載のオーディオコーディングシステム。
前記ウィンドウシーケンスエンコーダは、ウィンドウサイズの制約に従ってシーケンスのウィンドウ長及び形状をエンコーディングする、請求項７に記載のオーディオコーディングシステム。
前記線形予測ユニットで生成された線スペクトル周波数を可変レートで再帰的にコーディングするＬＰＣエンコーダを備える請求項１ないし８のいずれか１項に記載のオーディオコーディングシステム。
前記第２のフレーム長に対応するレートで生成された前記変換された入力信号のフレームに適合するように、前記第１のフレーム長に対応するレートで生成された線形予測パラメータを内挿する線形予測内挿ユニットを備える請求項１ないし９のいずれか１項に記載のオーディオコーディングシステム。
ＬＰＣフレームについて前記線形予測ユニットで生成されたＬＰＣ多項式をチャープしおよび／または傾けることにより前記線形予測フィルタの特性を調整する知覚モデリングユニットを備える請求項１ないし１０のいずれか１項に記載のオーディオコーディングシステム。
前記線形予測残留信号を時間歪みカーブにより再サンプリングすることにより前記線形予測残留信号の前記フレームでピッチ成分を均一に揃える時間歪みユニットを備え、
前記変換ユニットと前記長期間予測ユニットは時間歪み信号で動作する、請求項１ないし１１のいずれか１項に記載のオーディオコーディングシステム。
前記線形予測フィルタは、歪んだ周波数軸に関して動作する、請求項１ないし１２のいずれか１項に記載のオーディオコーディングシステム。
前記入力信号の高バンド成分をエンコーディングする高バンドエンコーダを備え、
前記周波数領域信号を量子化するときに前記量子化で用いられる量子化ステップは、前記入力信号の低バンドに属する成分をエンコーディングする場合と、前記高バンドに属する前記変換領域信号の成分をエンコーディングする場合とで異なる、請求項１ないし１３のいずれか１項に記載のオーディオコーディングシステム。
前記入力信号を低バンド成分と高バンド成分に分割する周波数分割ユニットと、
前記高バンド成分をエンコーディングする高バンドエンコーダと
を備え、前記低バンド成分は前記線形予測ユニットに入力される、請求項１ないし１３のいずれか１項に記載のオーディオコーディングシステム。
前記周波数分割ユニットは、前記入力信号をダウンサンプルする直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットとを備える、請求項１５に記載のオーディオコーディングシステム。
前記低バンドと前記高バンドの境界は可変であり、前記周波数分割ユニットは、入力信号特性および／またはエンコーダバンド幅要求に基づいてクロスオーバー周波数を決定する、請求項１５または１６に記載のオーディオコーディングシステム。
前記高バンド成分をローパス信号に変換する第２の直交ミラーフィルタ合成ユニットと、
前記ローパス信号をエンコーディングする第２の変換ベースエンコーダと
を備える請求項１５ないし１７のいずれか１項に記載のオーディオコーディングシステム。
同じ周波数範囲をカバーする異なる信号表現を組み合わせ、前記信号表現をどのように組み合わせるかを示す通知データを生成する信号表現組み合わせユニットを備える請求項１５ないし１８のいずれか１項に記載のオーディオコーディングシステム。
前記高バンドエンコーダは、スペクトルバンド複製エンコーダである、請求項１４ないし１９のいずれか１項に記載のオーディオコーディングシステム。
前記長期間予測ユニットは、エネルギを長期間予測推定の高周波数成分に導入するスペクトルバンド複製ユニットを備える、請求項１ないし２０のいずれか１項に記載のオーディオコーディングシステム。
左右の入力チャンネルのパラメトリックステレオ表現を計算するパラメトリックステレオユニットを備える請求項１ないし２１のいずれか１項に記載のオーディオコーディングシステム。
低周波数ラインから高周波数ＭＤＣＴラインを予測する高調波予測分析ユニットを備える請求項１ないし２２のいずれか１項に記載のオーディオコーディングシステム。
線形予測および長期間予測パラメータに基づいて、前記周波数領域信号の成分の量子化ステップサイズを決定する量子化ステップサイズコントロールユニットを備える請求項１ないし２３のいずれか１項に記載のオーディオコーディングシステム。
前記長期間予測ユニットは、前記線形予測残留信号の選定されたセグメントの信号に適用されるゲイン値を推定する長期間予測ゲイン推定器を備え、
前記遅延値及び前記ゲイン値は、前記長期間予測推定及び前記変換された入力信号の間の差分に関する誤差関数を最小化するように決定される、請求項１ないし２４のいずれか１項に記載のオーディオコーディングシステム。
前記誤差関数は、知覚領域における前記長期間予測推定と前記変換された入力信号との間の差分に関連し、前記誤差関数は前記知覚領域における前記遅延値及び前記ゲイン値を探索することにより最小化される、請求項２５に記載のオーディオコーディングシステム。
前記知覚モデリングユニットにより生成された修正線形予測多項式は、前記誤差関数を最小化する際にＭＤＣＴ領域量子化ゲインカーブとして適用される、請求項２５または２６に記載のオーディオコーディングシステム。
前記長期間予測ユニットは、前記選定されたセグメントの復号信号を前記周波数領域に変換する変換ユニットを備え、前記変換はタイプＩＶの離散コサイン変換である、請求項２５ないし２７のいずれか１項に記載のオーディオコーディングシステム。
前記仮想ベクトル生成器は、前記復号信号の生成されたセグメントを改良するために繰り返しフォールドインフォールドアウトプロシージャを適用する、請求項１に記載のオーディオコーディングシステム。
前記長期間予測ユニットは、前記変換ユニットが時間歪み信号で動作する場合、前記時間歪みユニットから受信した時間歪みカーブに基づいて、復号された前記線形予測残留信号を再サンプリングする、請求項２５ないし２９のいずれか１項に記載のオーディオコーディングシステム。
前記長期間予測ユニットは、長期間予測遅延およびゲイン値をエンコーディングする可変レートエンコーダを備える、請求項１ないし３０のいずれか１項に記載のオーディオコーディングシステム。
前記長期間予測ユニットは、ノイズベクトルバッファおよび／またはパルスベクトルバッファを備える、請求項１ないし３１のいずれか１項に記載のオーディオコーディングシステム。
長期間予測パラメータ、高調波予測パラメータあるいは時間歪みパラメータを含むピッチ関連情報を一緒にエンコーディングするジョイントコーディングユニットを備える請求項１ないし３２のいずれか１項に記載のオーディオコーディングシステム。
入力ビットストリームのスペクトルデータを逆量子化する逆量子化ユニットと、
周波数領域信号を時間領域信号に逆変換する逆変換ユニットと、
前記入力ビットストリームで受信した遅延値に基づいて、前記逆量子化されたフレームの長期間予測推定を行う長期間予測ユニットと、
周波数領域において、前記長期間予測推定と逆量子化された前記スペクトルデータを組み合わせて周波数領域信号を生成する周波数領域信号組み合わせユニットと、
前記時間領域信号をフィルタリングする線形予測ユニットと
を備え、フィルタリングされた前記時間領域信号に基づいて、復号されたオーディオ信号が出力され、
前記長期間予測ユニットは、
長期間予測バッファと、
前記遅延値が前記現在のフレームの長さより小さかった場合、前記長期間予測ユニットの前記バッファにまだ存在していない復号信号の部分について、前記長期間予測バッファに保存されている復号信号の拡張セグメントを生成する仮想ベクトル生成器と
を有する、オーディオデコーダ。
オーディオエンコーダが実行するオーディオエンコーディング方法であって、
線形予測フィルタに基づいて入力信号をフィルタリングすることで、線形予測残留信号及び線形予測パラメータを生成するステップと、
前記線形予測残留信号のフレームを周波数領域に変換することで、変換された入力信号を生成するステップと、
周波数領域信号を量子化するステップと、
バッファに保存された前記線形予測残留信号の前回のセグメントの長期捕捉復号に基づいて、前記線形予測残留信号の前記フレームの推定を行うことで、長期間予測推定を行うステップと、
前記周波数領域において、前記長期間予測推定と前記変換された入力信号を組み合わせて周波数領域信号を生成するステップと、
前記線形予測パラメータ、量子化された前記周波数領域信号及び前記長期間予測の遅延値を含むビットストリームを出力するステップと
を有し、前記長期間予測推定を行うステップにおいて、
現在変換されている前記線形予測残留信号の前記フレームに最も合致する前記線形予測残留信号の復号されたセグメントを指定する前記遅延値を決定し、前記遅延値が前記現在のフレームの長さより小さかった場合、前記バッファにまだ存在していない復号信号の部分について復号信号の拡張セグメントを生成する、オーディオエンコーディング方法。
オーディオデコーダが実行するオーディオデコーディング方法であって、
入力ビットストリームのスペクトルデータを逆量子化するステップと、
周波数領域信号を時間領域信号に逆変換するステップと、
前記入力ビットストリームにより受信した遅延値に基づいて、逆量子化されたフレームの長期間予測推定を行うステップと、
前記遅延値が前記フレームの長さより小さかった場合、バッファにまだ存在していない復号信号の部分について復号信号の拡張セグメントを生成するステップと、
周波数領域において、前記長期間予測推定と逆量子化された前記スペクトルデータを組み合わせて周波数領域信号を生成するステップと、
フィルタリングされた前記時間領域信号に基づいて、復号されたオーディオ信号を出力するステップと
を有するオーディオデコーディング方法。
請求項３５に記載のオーディオエンコーディング方法または請求項３６に記載のオーディオデコーディング方法を、プログラム可能なデバイスに実行させるコンピュータプログラム。