JP7123911B2

JP7123911B2 - オーディオコーデックにおける長期予測のためのシステム及び方法

Info

Publication number: JP7123911B2
Application number: JP2019513764A
Authority: JP
Inventors: エリアスネマー; ゾランフェイゾ; ヤセクスタチャースキー; アントニウスカルカー
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2016-09-09
Filing date: 2017-09-08
Publication date: 2022-08-23
Anticipated expiration: 2037-09-08
Also published as: CN110291583B; CN110291583A; EP3510595A4; US20180075855A1; US11380340B2; WO2018049279A1; JP2019531505A; EP3510595A1; KR102569784B1; KR20190045327A

Description

オーディオ信号の冗長性を利用することによって符号化利得を高めることは、オーディオコーデックにおける基本概念である。オーディオ信号は、長期の冗長性（又は周期性）及び短期の冗長性を含む様々な程度の冗長性を示し、これらの冗長性は、主に音声信号において見いだされる。図１は、オーディオ信号の長期予測及び短期予測の背後にある概念を示している。このような冗長性を除去又は低減することは、残留信号を符号化するのに必要なビット数の低減をもたらす（元の信号を符号化するのと比較して）。音声コーデックは、通常、両方のタイプの冗長性を除去して、符号化利得を最大にするための予測器を含む。変換ベースのコーデックは、一般的なオーディオ信号用に設計されており、通常、その発生源について推測するものでない。このコーデックは、主に長期冗長性に焦点を当てている。変換コーデックでは、残留信号は、より低いエネルギーを有し且つより疎である変換ベクトルをもたらす。これにより、量子化法機構が変換係数を効率的に表すことがより容易になる。

この概要は、詳細な説明において以下で更に説明する概念を選択したものを単純な形で紹介するために提示される。この概要は、特許請求される主題の主要な特徴又は必須の特徴を識別するためのものではなく、特許請求される主題の範囲を限定するのに使用されるものでもない。

本明細書に記載される周波数領域長期予測システム及び方法の実施形態は、オーディオコーデックとの関連で最適な長期予測器を推定してこれを適用するための新規の技法を含む。具体的には、本システム及び方法の実施形態は、スペクトル平坦度尺度に基づく最適性基準を有する周波数領域解析を使用して単一タップ予測器のパラメータ（遅延及び利得など）を決定する段階を含む。本システム及び方法の実施形態は更に、様々なサブバンドの量子化におけるベクトル量子化器の性能を考慮することによって、言い換えると、ベクトル量子化誤差をスペクトル平坦度と組み合わせることによって、長期予測器のパラメータを決定する段階を含む。幾つかの実施形態では、他のエンコーダメトリック（信号調性など）が同様に使用される。本システム及び方法の別の実施形態は、予測器及び合成フィルタの再構築誤差などのデコーダ動作の一部を考慮することによって長期予測器の最適パラメータを決定する段階を含む。幾つかの実施形態において、この段階は、合成による完全な解析（幾つかの古典的な手法において見られるような）を行う代わりに行われる。本システム及び方法の更に別の実施形態は、１タップ予測器をプリセットフィルタで畳み込み、最小エネルギー基準に基づいてこのようなプリセットフィルタのテーブルから選択することによって、１タップ予測器をｋ次予測器に拡張する段階を含む。

実施形態は、オーディオ信号を符号化するためのオーディオ符号化システムを含む。本システムは、オーディオ信号をフィルタリングするのに使用される適応フィルタと、該適応フィルタによって使用される適応フィルタ係数とを有する長期線形予測器を含む。適応フィルタ係数は、該オーディオ信号の窓掛けされた時間信号の解析に基づいて決定される。本システムの実施形態は更に、窓掛けされた時間信号を周波数領域で表して、オーディオ信号の周波数変換情報を得る周波数変換ユニットと、該周波数変換情報の解析及び周波数領域における最適性基準に基づいて最適な長期線形予測器を推定する最適長期予測器推定ユニットとを含む。本システムの実施形態は更に、符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する量子化ユニットと、量子化された周波数変換係数を含む符号化された信号とを含む。符号化された信号は、オーディオ信号を表現したものである。

実施形態は更に、オーディオ信号を符号化するための方法を含む。本方法は、適応フィルタである長期線形予測器を使用してオーディオ信号をフィルタリングする段階と、オーディオ信号に関する周波数変換情報を生成する段階とを含む。周波数変換情報は、窓掛けされた時間信号を周波数領域で表したものである。本方法は更に、周波数変換情報の解析及び周波数領域における最適性基準に基づいて最適な長期線形予測器を推定する段階と、符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する段階とを含む。本方法は更に、量子化された周波数変換係数を含む符号化された信号を構築する段階を含み、符号化された信号は、オーディオ信号を表現したものである。

別の実施形態は、オーディオ信号の符号化の際に１タップ予測器フィルタをｋ次予測器フィルタに拡張するための方法を含む。本方法は、事前に計算されたフィルタ形状を含む予測器フィルタ形状テーブルから選択されたフィルタ形状で１タップ予測器フィルタを畳み込み、結果として生じるｋ次予測器フィルタを得る段階を含む。方法は更に、結果として生じるｋ次予測器フィルタをオーディオ信号に対して実行して出力信号を得る段階と、結果として生じるｋ次予測器フィルタの出力信号のエネルギーを計算する段階とを含む。本方法は更に、出力信号のエネルギーを最小にする最適フィルタ形状をテーブルから選択する段階と、最適フィルタ形状を含む結果として生じるｋ次予測器フィルタをオーディオ信号に適用する段階とを含む。

特定の実施形態に応じて、代替の実施形態が可能であり、本明細書に記載されるステップ及び要素は、変更、追加、又は削除することができることに留意されたい。これらの代替の実施形態は、本発明の範囲から逸脱することなく、使用できる代替ステップ及び代替要素、並びに実施できる構造上の変更を含む。

ここで、全体を通して同様の参照符号が対応の要素を示す図面を参照する。

オーディオ信号の長期予測及び短期予測の背後にある概念を示す。開ループ手法の全体的な動作を示すブロック図である。閉ループ手法の全体的な動作を示すブロック図である。変換ベースのオーディオコーデックにおける長期予測器の例示的な使用法を示すブロック図である。閉ループアーキテクチャの例示的な実施例を示す図である。高調波オーディオ信号のセグメントの時間及び周波数変換を示す図である。周波数領域の長期予測システム及び方法の実施形態の全体的ブロック図である。周波数領域長期予測方法の実施形態の全体的なフローチャートである。他のエンコーダメトリックと組み合わせた周波数ベースの基準を使用する周波数領域長期予測方法の別の実施形態の全体的なフローチャートである。周波数ベースのスペクトル平坦度がデコーダにおける再構成誤差を考慮した他の因子と組み合わせることができる場合の代替の実施形態を示す図である。時間内の２つの連続フレームが、図１０に示されている実施形態の一部分の動作を実行することを示す図である。単一タップ予測器を３次予測器に変換することを示す図である。

周波数領域長期予測システム及び方法の実施形態についての以下の説明では、添付図面を参照する。これらの図面は、周波数領域長期予測システム及び方法の実施形態がどのように実施できるかについての具体例を例証として示す。特許請求される主題の範囲から逸脱することなく、別の実施形態が利用でき、構造上の変更が実施できることが理解される。

全体的概要
従来の手法では、予測器の係数は、時間領域解析によって決定される。これは、通常、残留信号のエネルギーを最小にすることを伴う。このことは、所与の解析時間窓にわたって正規化された自己相関関数を最大にする遅延（Ｌ）を探索することにつながる。方程式の行列システムを解くことによって、予測器の利得が得られる。行列のサイズは、フィルタの次数（ｋ）の関数である。行列のサイズを小さくするために、サイドタップが対称であると想定されることが多い。例えば、このことは、行列のサイズをサイズ３からサイズ２に、又はサイズ５からサイズ３に小さくする。

実際のオーディオコーデックでは、時間領域自己相関法に基づいて遅延（又は信号の周期性）を推定することは、特別な配慮を必要とする。これらの技法に共通する幾つかの問題は、ピッチ倍増及び半減である。これらの問題は、知覚性能又は符号化利得に重大な影響を与える場合がある。これらの欠点を軽減するために、幾つかの代替手法及び発見的方法が採用されることが多い。これらの方法は、例えば、ケプストラム解析を使用すること、又は全ての可能性のある倍数を網羅的に探索することを含む。高次の予測器の場合、複数のタップを推定することは、実際には保証されない逆行列演算を必要とする。従って、多くの場合、中心タップ（Ｌ）のみを推定し、次いで、幾つかの最適性基準に基づいて限定されたセットからサイドタップを選択する方法を見つけることが望ましい。

開ループアーキテクチャ対閉ループアーキテクチャ
開ループ手法では、予測器の推定は、元の（符号化されていない）信号を解析することによって行われる。図２は、開ループ手法の全体的な動作を示すブロック図である。この手法は、元のオーディオ信号２００を入力して、元のオーディオ信号の解析を実行する（ボックス２１０）。次に、最適な長期予測器（ＬＴＰ）パラメータが、幾つかの基準に基づいて選択される（ボックス２２０）。これらの選択されたパラメータは、信号に適用され（ボックス２３０）、結果として生じる信号が、符号化されて送出される（ボックス２４０）。結果として生じる信号は、元のオーディオ信号２００の符号化された表現である符号化オーディオ信号２５０である。

閉ループ手法では、エンコーダは、デコーダの動作の一部又は全部を複製し、可能性のあるパラメータ選択肢の各々に対して信号を再合成する。図３は、閉ループ手法の全体的な動作を示すブロック図である。開ループ手法と同様に、閉ループ手法は、元のオーディオ信号２００を入力して、元のオーディオ信号の解析を実行する（ボックス３００）。この解析は、エンコーダに対応するデコーダをシミュレート又は模擬すること（ボックス３１０）を含む。最適な長期予測器（ＬＴＰ）パラメータが、幾つかの基準に基づいて選択され（ボックス３２０）、これらの選択されたパラメータが、信号に適用される（ボックス３３０）。最適な長期予測器パラメータの選択は、「復号された」信号と元のオーディオ信号２００との間の知覚的に重み付けされた誤差をどれが最小にするかに基づいている。結果として生じる信号は、符号化されて送出される（ボックス３４０）。結果として生じる信号は、元のオーディオ信号２００の符号化された表現である符号化オーディオ信号３５０である。

変換ベースのオーディオコーデックにおける長期予測器
変換ベースのオーディオコーデックは、通常、修正離散コサイン変換（ＭＤＣＴ）又は他のタイプの周波数変換を使用して、所与のオーディオフレームを符号化及び量子化する。また、本明細書で使用される「変換ベース」という語句は、サブバンドベース又は重複変換ベースのコーデックを含む。これらの各々は、幾つかの形態の周波数変換を伴うが、当業者には理解されるように、窓重ね合わせを伴う場合もあり、又は伴わない場合もある。

図４は、変換ベースのオーディオコーデックにおける長期予測器の例示的な使用法を示すブロック図である。長期予測器は、窓掛け及び周波数変換の前に時間領域信号に適用される。図４を参照すると、変換ベースのオーディオコーデック４００は、エンコーダ４０５及びデコーダ４１０を含む。オーディオ信号に対応する入力サンプル４１２は、エンコーダ４０５によって受け取られる。時間相関解析ブロック４１５は、オーディオ信号の周期を推定する。ハイパスフィルタリングなどの他の時間領域処理４１７が、信号に対して実行することができる。

長期予測器の最適パラメータは、最適パラメータ推定ブロック４２０により、時間相関解析ブロック４１５の解析結果に基づいて推定される。この推定された長期予測器４２２が出力される。長期予測器はフィルタであり、これらのパラメータは、時間領域処理ブロック４１７から到来するデータに適用することができる。

窓関数４２５及び様々な変換（ＭＤＣＴ４２７など）が信号に適用される。量子化器４３０は、様々なスカラー及びベクトル量子化技法を使用して、予測器パラメータ及びＭＤＣＴ係数を量子化する。この量子化されたデータは準備されて、ビットストリーム４３５としてエンコーダ４０５から出力される。

ビットストリーム４３５は、デコーダ４１０に送信され、ここでエンコーダ４０５と逆の動作が行われる。デコーダは、量子化されたデータを復元する逆量子化器４４０を含む。このデータは、時間領域に変換される逆ＭＤＣＴ係数４５０及び予測パラメータを含む。窓掛け処理４５５が信号に適用されて、エンコーダ４０５側の長期予測器に対する逆フィルタである長期合成器４６０が、信号に適用される。逆時間領域処理ブロック４６５は、エンコーダ４０５において時間領域処理ブロック４１７によって実行される何らかのフィルタリングの逆処理を実行する。デコーダ４１０の出力は、復号された入力オーディオ信号に対応する出力サンプル４７０である。この復号されたオーディオ信号は、ラウドスピーカ又はヘッドホンを通じて再生することができる。

開ループアーキテクチャでは、最適予測器の推定は、時間信号の何らかの解析に基づいて行われ、場合によっては、エンコーダからの他のメトリックを考慮して行われる。遅延（Ｌ）は、元の時間信号の正規化された自己相関の最大化に基づいて推定される。更に、予測器フィルタは、Ｌ及びＬ＋１における自己相関値の関数に基づいて推定される２つのタップ（Ｂ１及びＢ２）を含む。また、時間信号のセンタクリッピングなどの他の様々な詳細を提供することができる。

開ループアーキテクチャの別の実施例は、プレフィルタ及びポストフィルタという用語が、それぞれ長期予測器フィルタと合成フィルタとを指すのに使用される場合のものである。この手法における相違点は、長期予測器（推定並びにフィルタリングの両方）が、エンコーダ及びデコーダの残りの部分から取り除かれることである。従って、パラメータの推定は、エンコーダの動作モードとは無関係であり、元の時間信号の解析にのみ基づいている。長期予測フィルタ（プリフィルタと呼ばれる）の出力は、エンコーダに送られる。エンコーダは、あらゆるタイプのものであり、任意のビットレートで動作することができる。同様に、デコーダの出力は、長期予測合成フィルタ（ポストフィルタと呼ばれる）に送られ、これは、デコーダの動作モードとは無関係に動作する。

閉ループアーキテクチャでは、デコーダ動作の一部（又は全部）が、エンコーダにおいて複製されて、コスト関数又は最適化関数のより正確な推定を提供する。予測器係数は、幾つかの最大化基準に基づいて計算される。加えて、フィードバックループは、合成による解析手法に基づいて選択肢を改良するのに使用される。図５は、閉ループアーキテクチャの一例を示している。このような手法は、時間サンプル（デコーダが生成したであろう）を再合成するために完全な逆量子化及び逆周波数変換がエンコーダにおいて再現される場合のものである。これらのサンプルは、ＬＴＰ係数の最適推定に使用される。

図５を参照すると、閉ループアーキテクチャベースのコーデック５００が示されている。このコーデックは、エンコーダ５１０及びデコーダ５２０を含む。模擬デコーダ５２５は、フィードバックループにおいて、エンコーダ５１０側でデコーダ５２０を複製するのに使用される。この模擬デコーダ５２５は、周波数係数を生成する逆量子化ブロック５３０を含む。次に、これらの係数は、周波数－時間ブロック５３５によって時間領域に変換し戻される。ブロック５３５の出力は、復号された時間サンプルである。最適パラメータ推定ブロック５４０は、復号された時間サンプルを入力された時間サンプル５５０と比較する。次に、ブロック５４０は、入力された時間サンプル５４０と復号された時間サンプルとの間の誤差を最小にする最適な長期予測器パラメータセット５５５を生成する。

窓関数５６０は、時間信号に窓を適用し、時間－周波数ブロック５６５は、この信号を時間領域から周波数領域に変換する。量子化ブロック５７０は、様々なスカラー及びベクトル量子化技法を使用して、予測器パラメータ及び周波数係数を量子化する。この量子化されたデータは準備されて、エンコーダ５１０から出力される。

デコーダ５２０は、量子化されたデータを復元する逆量子化ブロック５８０を含む。この量子化されたデータ（周波数係数及び予測パラメータなど）は、周波数－時間ブロック５８５によって時間領域に変換される。エンコーダ５１０側の長期予測器に対する逆フィルタである長期合成器５９０が、信号に適用される。

システム及び動作概要
本明細書に記載される周波数領域長期予測システム及び方法の実施形態は、オーディオコーデックとの関連で最適な長期予測器を推定してこれを適用するための技法を含む。変換コーデックでは、時間領域サンプルではなく、周波数変換係数（ＭＤＣＴなど）が、ベクトル量子化されるものである。従って、変換領域において、これらの係数の量子化を改善する基準に基づいて最適予測器を探索することが適切である。

周波数領域長期予測システム及び方法の実施形態は、基準又は尺度として様々なサブバンドのスペクトル平坦度を使用することを含む。典型的なコーデックでは、スペクトルは、何らかの対称又は知覚スケールに従って帯域に分割され、各帯域の係数は、最小平均二乗誤差（又は最小ｍｓｅ）基準に基づいてベクトル量子化される。

音調オーディオ信号のスペクトルは、様々な音調周波数にピークを有する顕著な高調波構造を有する。図６は、高調波オーディオ信号のセグメントの時間及び周波数変換を示している。図６を参照すると、第１のグラフ６００は、音調オーディオ信号の窓（又はセグメント）である。第２のグラフ６１０は、第１のグラフ６００に示されている音調オーディオ信号の対応する周波数領域振幅スペクトルを示している。第２のグラフ６１０内の垂直方向の破線は、オーディオ符号化において一般的に使用される知覚スケールに基づく典型的な周波数帯域の境界を示している。

同時に１つの帯域を考慮すると、幾つかの小さな非高調波値に加えて、１又は２以上の主要ピークが存在する可能性がある。従って、当該帯域の平坦度尺度は低い。最小平均二乗誤差に基づくベクトル量子化は、高いピークの方が、より低い値よりも誤差ノルムに対する寄与が大きいので、高いピークを優先することになる。利用可能なビットに応じて、ＶＱは、当該帯域内のより小さい係数を見落とす可能性があるので、結果的として大きな量子化ノイズが生じる。

周波数領域長期予測システム及び方法の幾つかの実施形態は、スペクトル帯域にわたって平坦度尺度を最大にすることに少なくとも基づいて、長期予測器に関する最適な遅延を選択する。同様に、幾つかの実施形態では、所与の最適遅延に対する予測器の利得は、ベクトル量子化器の量子化誤差を考慮に入れる。このことは、大きな予測利得が、より微弱な周波数係数を有意に減衰させる可能性があるという観測に基づいている。低ビットレートにおいて、特に、強い高調波信号に対しては、これは、より微弱な高調波の一部が、ベクトル量子化器によって完全に見落とされことになり、結果として、知覚される高調波歪みが生じる場合がある。従って、予測器の利得は、少なくともベクトル量子化器の量子化誤差の関数となる。

周波数領域長期予測システム及び方法の実施形態は、オーディオコーデックの関連で最適な長期予測器を推定してこれを適用するための技法を含み、以下に詳述される。幾つかの実施形態は、周波数領域解析を使用して単一タップ予測器の遅延及び利得パラメータを決定する。これらの実施形態では、最適性基準は、スペクトル平坦度尺度に基づいている。幾つかの実施形態は、様々なサブバンドの量子化においてベクトル量子化器の性能を考慮することによって長期予測器パラメータを決定する。言い換えると、これらの実施形態は、ベクトル量子化誤差をスペクトル平坦度並びに他のエンコーダメトリック（信号調性など）と組み合わせる。本システム及び方法の幾つかの実施形態は、予測器及び合成フィルタの再構成誤差を含むデコーダ動作の一部を考慮することによって、長期予測器の最適パラメータを決定する。これにより、幾つかの旧知の手法において見られるような、合成による完全な解析を実行することが回避される。幾つかの実施形態は、１タップ予測器をプリセットフィルタで畳み込み、最小エネルギー基準に基づいてこのようなプリセットフィルタのテーブルから選択することによって、１タップ予測器をｋ次予測器に拡張する。

ＩＩＩ．システム及び動作の詳細
ここで、周波数領域長期予測システム及び方法の詳細を説明する。多くの変形形態が可能であり、当業者は、本明細書の開示内容に基づいて同じ結果を達成することができる他の多くの方法を理解するであろうことに留意されたい。

定義
予測誤差信号は、その基本的な形式において、次式で与えられる。

ここで、「ｓ（ｎ）」は入力オーディオ信号、「Ｌ」は信号の周期性（又は遅延（Ｌ））であり、「ｂ」は予測器利得である。

予測器は、その伝達関数が次式で与えられる、フィルタとして表現することができる。

任意の次数（Ｋ）に関する一般化形式は、次式で表すことができる。

周波数ベースの最適性基準
図７は、周波数領域長期予測システム７００及び方法の実施形態の全体的ブロック図である。システム７００は、エンコーダ７０５及びデコーダ７１０の両方を含む。図７に示されるシステム７００は、オーディオコーデックであることに留意されたい。しかしながら、オーディオコーデックでない他のタイプのコーデックを含む、本方法の他の実装形態が可能である。

図７に示されているように、エンコーダ７０５は、長期予測器を生成する長期予測（ＬＴＰ）ブロック７１５を含む。ＬＴＰブロック７１５は、入力オーディオ信号の入力サンプル７２２に対して時間周波数解析を実行する時間周波数解析ブロック７２０を含む。時間周波数解析は、ＯＤＦＴなどの周波数変換を適用すること、次いで、当該スペクトルの何らかのサブバンド分割に基づいてＯＤＦＴ振幅スペクトルの平坦度尺度を計算することを伴う。

また、入力サンプル７２２が第１の時間領域（ＴＤ）処理ブロック７２４によって使用されて、入力サンプル７２２の時間領域処理を実行する。幾つかの実施形態では、時間領域処理は、プリエンファシスフィルタを使用することを伴う。第１のベクトル量子化器７２６は、長期予測器の最適利得を決定するのに使用される。この第１のベクトル量子化器は、最適利得を決定するために第２のベクトル量子化器７３０と並列に使用される。

システム７００は更に、長期予測器の係数を決定する最適パラメータ推定ブロック７３５を含む。この処理について以下に説明する。この推定の結果は、所与の次数Ｋの実際の長期予測器フィルタである長期予測器７４０である。

ビット割り当てブロック７４５は、各サブバンドに割り当てられるビット数を決定する。第１の窓ブロック７５０は、周波数領域への変換の前に様々な窓形状を時間信号に適用する。修正離散コサイン変換（ＭＤＣＴ）ブロック７５５は、時間信号を周波数領域に変換する典型的なコーデックで使用されるタイプの周波数変換のうちの１つの実施例である。第２のベクトル量子化器７３０は、ＭＤＣＴ係数のベクトルをコードブック（又は他の何らかの圧縮された表現）から取り出されたベクトルで表す。

エントロピー符号化ブロック７６０は、これらのパラメータを利用して、これらのパラメータを符号化されたビットストリーム７６５に符号化する。符号化されたビットストリーム７６５は、デコーダ７１０に送信されて復号される。エントロピー復号ブロック７７０は、符号化されたビットストリーム７６５から全てのパラメータを抽出する。逆ベクトル量子化ブロック７７２は、エンコーダ７０５の第１の量子化器７２６及び第２のベクトル量子化器７３０のプロセスの逆の処理を行う。逆ＭＤＣＴブロック７７５は、エンコーダ７０５で使用されるＭＤＣＴブロック７５５に対する逆変換である。

第２の窓ブロック７８０は、エンコーダ７０５で使用される第１の窓ブロック７５０と同様の窓関数を実行する。長期合成器７８５は、長期予測器７４０の逆フィルタである。第２の時間領域（ＴＤ）処理ブロック７９０は、エンコーダ７０５において適用される処理（例えば、デエンファシスなど）の逆を行う。デコーダ７１０の出力は、復号された入力オーディオ信号に対応する出力サンプル７９５である。この復号されたオーディオ信号は、ラウドスピーカ又はヘッドホンを通じて再生することができる。

図８は、周波数領域長期予測方法の実施形態の全体的なフローチャートである。図８は、長期予測器の最適パラメータを生成するために行われる様々な動作を示している。図８を参照すると、本動作は、入力オーディオ信号の入力サンプル８００を受け取ることから始まる。次に、奇数ＤＦＴ（ＯＤＦＴ）変換が、「Ｎ」個の点にわたる、信号の窓掛けセクションに適用される（ボックス８１０）。この変換は、次式で定義される。

（式１）
ここで、「ｋ」及び「ｎ」は、それぞれ周波数及び時間インデックスであり、「Ｎ」は、シーケンス長である。変換を適用する前に、正弦窓（１）が、時間信号に適用される。

（式２）

次に、本方法は、ピークピッキングを実行する（ボックス８２０）。ピークピッキングは、時間信号における正弦波成分の周波数に対応する振幅スペクトルのピークを識別することを含む。単純なピークピッキング機構は、特定の高さを上回る極大値の位置を特定し、隣接ピークとの相対的な関係に特定の条件を設けることを伴う。所与のビン「ｌｏ」は、このビンが、変曲点であり、すなわち、

（式３）
であり、特定の閾値を上回り、すなわち、

（式４）
であり、その次の隣接点よりも大きい、すなわち、

（式５）
である場合に、ピークとみなされる。信号は、［５０Ｈｚ：３ｋＨｚ］の周波数間隔に対応するピークを探索される。「Ｔｈｒ」の値は、Ｘ（ｋ）の最大値に対して選択することができる。

次の動作は、分数周波数推定である（ボックス８３０）。時間領域における遅延「Ｌ」は、周波数領域における対応するピークにより表すことができる。ピーク（ビン単位での「ｌｏ」）が識別されると、分数周波数（「ｄｌ」）を推定する必要がある。これを行うための様々な方法が存在する。一度可能な機構は、このピークを生じさせた正弦波が、時間領域において次式のようにモデル化されると仮定することである。

（式６）
次に、周波数ピーク（ｌｏ）の分数周波数は、次式、すなわち、

（式７）
を使用して、ビン「ｌｏ」の周りの振幅の比を考慮することによって推定され、ここで、Ｇは、固定値に設定するか又はデータに基づいて計算できる定数である。

［５０Ｈｚ：３ｋＨｚ］の周波数間隔に含まれる全ての遅延（ｌｏ＋ｄｌ）が考慮され（ボックス８４０）、これらの正規化された自己相関が計算される。この計算は、時間領域等価遅延（Ｌ）に基づいており、

であり、ここで、

（式８）
であり、ｘ（ｎ）は入力時間信号である。正規化された相関値が所与の閾値より大きいこれらの遅延は、保持されて候補遅延のセットになる。

本方法は、周波数領域における周波数フィルタ（又は予測フィルタ）の構築（ボックス８５０）に進む。フィルタ（所与の時間遅延「Ｌ」及び利得「ｂ」に関する）をＯＤＦＴ振幅点に適用するために、このフィルタの周波数応答関数が導出される。単一タップ予測器のｚ変換、

及び

である状態で

（式９）
を考慮すると、

（式１０）
が得られる。所与の周波数ピーク（ビン単位での「ｌｏ」）及びその分数周波数（ｄｌ）に関して、時間の遅延「Ｌ」は、周波数を単位として次式のように記述でき、

（式１１）
従って、このピークに基づく予測器フィルタの振幅応答は、

（式１２）
である。

次に、フィルタが、ＯＤＦＴスペクトルに適用される（ボックス８６０）。具体的には、次に、上記で計算されたフィルタが、ＯＤＦＴスペクトルＳ（ｋ）点に直接適用されて、新しいフィルタリングされたＯＤＦＴスペクトルＸ（ｋ）が得られる。

（式１３）

本方法は、次に、スペクトル平坦度尺度を計算する（ボックス８７０）。スペクトル平坦度尺度は、候補フィルタを元のスペクトルに適用した後、フィルタリングされたスペクトルのＯＤＦＴ振幅スペクトルに対して計算される。一般に認められている何らかのスペクトル平坦度尺度が使用できる。例えば、エントロピーベースの尺度が使用できる。スペクトルは、知覚帯域に分割され（例えば、バーク尺度に従って）、平坦度尺度は、各帯域（ｎ）に関して次式のように計算され、

（式１４）
ここで、ビン「ｋ」における正規化された振幅値は、

（式１５）
であり、「Ｋ」は、帯域内のビンの総数である。

本方法は、次に、最適化関数を使用し（ボックス８８０）、最適化（又はコスト）関数を最小にする長期予測器（又はフィルタ）を見つけるように反復する。単純な最適化関数は、スペクトル全体に関する単一の平坦度尺度からなる。次に、スペクトル平坦度尺度Ｆ（Ｘ）の線形値が、全ての帯域にわたって平均化されて、単一の尺度、すなわち、

（式１６）
が得られ、ここで、「Ｂ」は帯域数であり、Ｗ_n（Ｘ）は、エネルギーに基づいて、又は単純に周波数軸上でのこれらの帯域の次数に基づいて、ある帯域を他の帯域よりも強調する重み付け関数である。

周波数ベースの基準を他のエンコーダメトリックと組み合わせて使用する実施形態
図９は、周波数ベースの基準を他のエンコーダメトリックと組み合わせて使用する周波数領域長期予測方法の別の実施形態の全体的なフローチャートである。これらの代替の実施形態では、最適化関数を決定する際に、ＶＱ量子化誤差が考慮され、更に場合によっては、フレーム調性のような他のメトリックが考慮される。このことは、長期予測器（ＬＴＰ）がＶＱ演算に与える影響を考慮するために行われる。以下に詳述するように、ＶＱ誤差を平坦度尺度と組み合わせるための幾つかの方法が存在する。

これらの実施形態では、ＯＤＦＴスペクトルは、最初にＭＤＣＴスペクトルに変換される。次に、ＶＱが、このＭＤＣＴスペクトル内の個々の帯域に適用される。使用されるビット割り当ては、エンコーダ内の別のブロックから得られる。

図９を参照すると、ボックス８１０、８２０、８３０、８４０、８５０、８６０、及び８７０の動作は、図８に関して上述されている。ブロック９００は、これらの実施形態における方法への追加内容を概説している。ブロック９００は、実行されるビット割り当て（ボックス９１０）を含み、様々な基準に基づいてサブバンドにわたってビットを割り当てるのにコーデックにおいて使用される様々な機構を含む。

本方法は、次に、ＯＤＦＴから修正離散コサイン変換（ＭＤＣＴ）への変換を実行する（ボックス９２０）。具体的には、ＯＤＦＴスペクトルは、以下の関係式を使用してＭＤＣＴスペクトルに変換され、

（式１７）

（式１８）
ここで、Ｘ₀（ｋ）は、ＯＤＦＴスペクトル値である。

次に、本方法は、エンコーダで計算されたビット割当量を使用して、ＭＤＣＴスペクトルにベクトル量子化を適用する（ボックス９３０）。各サブバンドは、ベクトル又は一連のベクトルとして量子化される。その結果は、量子化誤差である（ボックス９４０）。本方法は、次に、平坦度尺度をＶＱ誤差と組み合わせて最適化関数を適用する（ボックス９５０）。具体的には、最適化関数は、平坦度尺度をＶＱ誤差に基づく重み付けと組み合わせることによって導出される。本方法は、組み合わせた最適化（又はコスト）関数を最小にするフィルタパラメータを見つけるように反復する。

幾つかの実施形態では、各サブバンドに関するＶＱ誤差は、ある帯域を他の帯域よりも強調する重み付け関数として使用される。従って、平坦度は、重み付けされ、次に、平均化され、

（式１９）
であり、ここで、Ｗ_n（ｘ）は、ＭＤＣＴにおけるｎ番目の帯域に関するＶＱ誤差の関数である。

別の実施形態では、ＶＱ誤差は、最適利得を選択するのに使用される。所与の遅延「Ｌ」に関連する利得は、正規化自己相関関数ＮＲ（Ｌ）から計算される。最適な遅延が決定されると（平坦度尺度に基づいて）、対応する利得は、ＶＱ（重み付けされた）量子化誤差を最小にする因子によって反復的に縮小又は拡大される。

代替の実施形態では、ＶＱ誤差は、利得の上限値を生成するのに使用される。この上限値は、非常に高い利得が、スペクトルの特定のセクションに、ＶＱがこのセクションを量子化する下限を下回らせる可能性がある場合の実施形態のためのものである。この状況は、低ビットレート中、ＶＱ誤差が大きい場合、特に、ＶＱ誤差が音調性の高いコンテンツにおいて顕著である場合に、生じる。従って、フレーム「ｎ」における利得の上限は、フレーム調性及び平均ＶＱ誤差の関数として決定される。数学的には、この上限は、次式のように与えられる。

デコーダ再構築を伴う最適化基準を有する実施形態
図１０は、周波数ベースのスペクトル平坦度を、デコーダにおける再構成誤差を考慮に入れた他の因子と組み合わせることができる場合の代替の実施形態を示している。これは、例えば、２又は３以上の遅延が同じ平坦度尺度を有する可能性がある場合に生じる。追加因子、すなわち、以前のフレームにおける以前の遅延から現在のフレームにおける可能性のある遅延の各々への移行コストが考慮される。

図１０に示されている実施形態では、ＬＴＰのフィルタ係数は、フレーム毎に１回推定される。従って、フィルタ（エンコーダ及びデコーダの両方における）には、１０から２０ミリ秒毎に異なる係数セットがロードされる。このことは、可聴不連続性を引き起こす可能性がある。例えばクロスフェード機構などの様々な機構が、フィルタ出力における移行を平滑化するのに使用できる。

図１０を参照すると、最適なパラメータセットを探索する間、フィルタは、時間領域で構築されて入力に適用される（ボックス１０００）。同様に、これらの実施形態では、復号時、デコーダの逆フィルタが模擬され（ボックス１０１０）、出力と入力との間の再構成誤差が、候補遅延の各々に関して計算される。この誤差は次に、平坦度尺度と組み合わされて、最適化関数が得られる（ボックス１０２０）。

より具体的には、図１１は、時間内の２つの連続フレームが、図１０におけるボックス１０００及び１０１０の動作を実行することを示している。図１１に示されているように、各フレーム（フレームＮ－１及びフレームＮ）に関する異なる候補フィルタ係数セットが、セクション１１００に示されている。セクション１１１０に示されるように、移行を平滑化するために、フィルタ出力は、時間Ｄｎの間、クロスフェードされる。選択される可能性のある２つのフィルタセットが、現在のフレーム（フレームＮ）に存在することができる。各セットは、現在のフィルタに適用され、クロスフェード動作は、エンコーダ側（セクション１１１０に図示）及びデコーダ側（セクション１１２０に図示）に対して行われる。結果として生じる出力は、元の出力と比較される。一組の係数セットは、この再構成誤差を最小にすることに基づいて選択される。

Ｋ次予測器への拡張
高次予測器の場合、複数のタップを推定することは、逆行列演算を必要とし、実際には保証されない。従って、多くの場合、中心（又は単一）のタップ（Ｌ）のみを推定し、次に、幾つかの最適性基準に基づいて、限定されたセットからサイドタップを選択する方法を見つけることが望ましい。実用システムにおける一般的な解決策の幾つかは、事前に計算されたフィルタ形状のテーブルを提供して、これらのうちの１つを、上記で計算された単一タップフィルタで畳み込むことである。例えば、フィルタ形状がそれぞれ３タップである場合には、このことは、図１２に示されるように３次予測器をもたらすことになる。

図１２は、単一タップ予測器を３次予測器に変換することを示している。図１２を参照すると、一次予測器は、テーブル１２１０からの可能性のあるフィルタ形状のうちの１つで畳み込まれて（１２００）、三次予測器が得られる。これらの実施形態では、Ｍの可能性のあるフィルタ形状からなるテーブルが使用され、結果として生じる残差の出力エネルギーを最小にすることに基づいて、選択が行われる。Ｍの形状からなるテーブルが、様々なオーディオコンテンツのスペクトルエンベロープのマッチングに基づいて、オフラインで生成される。１タップフィルタが、上述したように決定されると、Ｍのフィルタ形状の各々が畳み込まれて、ｋ次フィルタが生成される。このフィルタが入力信号に適用されて、フィルタの残差（出力）のエネルギーが計算される。エネルギーを最小にする形状が、最適条件として選択される。この決定は、例えばヒステリシスを用いて更に平滑化されて、信号エネルギーの大きな変化が生じないようになる。

ＩＶ．代替の実施形態及び例示的な動作環境
周波数領域長期予測システム及び方法の代替の実施形態が可能である。本明細書で記載されるもの以外の他の多くの変形形態は、本明細書から明らかであろう。例えば、実施形態によっては、本明細書で説明した何らかの方法及びアルゴリズムの特定の動作、事象、又は機能は、異なる順序で実行することができ、追加、統合、又は完全に省略することができる（従って、ここで説明する全ての動作又は事象が、本方法及びアルゴリズムの実施に必要であるとは限らない）。更に、特定の実施形態において、動作又は事象は、連続的ではなく、例えば、マルチスレッド処理、割り込み処理、又はマルチプロセッサ若しくはプロセッサコアによって、或いは他の並列アーキテクチャ上で実行することができる。加えて、様々なタスク又は処理は、一緒に機能することができる異なるマシン及びコンピューティングシステムによって実行することができる。

本明細書で開示する実施形態に関連して説明された様々な例示的な論理ブロック、モジュール、方法、並びにアルゴリズム処理及び手順は、電子ハードウェア、コンピュータソフトウェア、又はこれら両方の組み合わせとして実装することができる。ハードウェア及びソフトウェアのこの互換性について明確に例証するために、上記では、様々な例示的構成要素、ブロック、モジュール、及び処理動作は、これらの機能性に関して一般的に説明されている。このような機能性をハードウェアとして実施するか又はソフトウェアとして実施するか否かは、特定の用途及びシステム全体に課された設計上の制約条件に依存する。記載された機能性は、特定の用途の各々に関して異なる方法で実施できるが、このような実施の決定が、本明細書の範囲からの逸脱を生じさせると解釈すべきではない。

本明細書で開示される実施形態に関連して説明した様々な例示的な論理ブロック及びモジュールは、汎用プロセッサ、処理デバイス、１又は２以上の処理デバイスを有するコンピューティングデバイス、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は他のプログラム可能論理デバイス、離散ゲート若しくはトランジスタ論理回路、離散ハードウェア構成要素、又は本明細書に記載される機能を実行するよう設計されたこれらの何れかの組み合わせなどのマシンによって実施又は実行することができる。汎用プロセッサ及び処理デバイスは、マイクロプロセッサとすることができるが、代替形態では、プロセッサは、コントローラ、マイクロコントローラ、又は状態マシン、これらの組み合わせ、又は同様のものとすることができる。また、プロセッサは、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連動する１又は２以上のマイクロプロセッサ、又は他の何らかのこのような構成などの、コンピューティングデバイスの組み合わせとして実施することもできる。

本明細書に記載の周波数領域長期予測システム及び方法の実施形態は、多くのタイプの汎用又は専用コンピューティングシステム環境又は構成内で動作可能である。一般に、コンピューティング環境は、限定されるものではないが、幾つかの例を挙げると、１又は２以上のマイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯用コンピューティングデバイス、パーソナルオーガナイザ、デバイスコントローラ、電気製品内部の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び組込型コンピュータを備えた電気製品に基づくコンピュータシステムを含むあらゆるタイプのコンピュータシステムを含むことができる。

このようなコンピューティングデバイスは、通常、限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピューティングデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びＰＤＡなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤ、及びその他を含む、少なくとも何らかの最低限の計算能力を有するデバイスに見つけることができる。幾つかの実施形態において、コンピューティングデバイスは、１又は２以上のプロセッサを含むことになる。各プロセッサは、デジタル信号プロセッサ（ＤＳＰ）、超長命令語（ＶＬＩＷ）、又は他のマイクロコントローラなどの特殊なマイクロプロセッサとすること、或いは、マルチコアＣＰＵ内の特殊なグラフィックス処理ユニット（ＧＰＵ）ベースのコアを含む、１又は２以上の処理コアを有する従来型中央処理ユニット（ＣＰＵ）とすることができる。

本明細書で開示する実施形態に関連して説明した方法、プロセス、又はアルゴリズムの処理動作は、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、又はこれら２つの何れかの組み合わせで具現化することができる。ソフトウェアモジュールは、コンピューティングデバイスがアクセスできるコンピュータ可読媒体に含めることができる。コンピュータ可読媒体は、取り外し可能、取り外し不可能の何れかである揮発性及び不揮発性媒体、又はこれらの何らかの組み合わせを含む。コンピュータ可読媒体は、コンピュータ可読命令又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報を格納するのに使用される。限定されるものではなく例として、コンピュータ可読媒体は、コンピュータストレージ媒体及び通信媒体を含むことができる。

コンピュータストレージ媒体は、限定ではないが、Ｂｌｕｒａｙ（登録商標）ディスク（ＢＤ）、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、フロッピーディスク、テープドライブ、ハードドライブ、光学ドライブ、ソリッドステートメモリデバイス、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、或いは所望の情報を格納するのに使用可能で１又は２以上のコンピューティングデバイスによってアクセス可能な何らかの他のデバイスなどの、コンピュータ又はマシン可読媒体又はストレージデバイスを含む。

ソフトウェアは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ－ＲＯＭ、又は当該技術で公知の非一時的コンピュータ可読ストレージ媒体、メディア、又は物理コンピュータストレージの何らかの他の形態で存在することができる。例示的なストレージ媒体は、プロセッサがストレージ媒体から情報を読み出して、この媒体に情報を書き込むことができるように、プロセッサに結合することができる。代替形態では、ストレージ媒体は、プロセッサと一体化することができる。プロセッサ及びストレージ媒体は、特定用途向け集積回路（ＡＳＩＣ）内に存在することができる。ＡＳＩＣは、ユーザ端末内に存在することができる。代替的に、プロセッサ及びストレージ媒体は、ユーザ端末内の個別構成要素として存在することができる。

本明細書で使用される「非一時的」という語句は、「永続的又は長寿命」を意味する。「非一時的コンピュータ可読媒体」という語句は、任意の及び全てのコンピュータ可読媒体を含み、唯一の例外は一時的な伝搬信号である。この語句は、限定ではなく例証として、レジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ（ＲＡＭ）などの非一時的コンピュータ可読媒体を含む。

「オーディオ信号」という語句は、物理的なサウンドを表す信号である。オーディオ信号を構築する一つの方法は、物理的なサウンドを取り込むことによる。オーディオ信号は、リスナーがオーディオコンテンツを聴取できるように、再生デバイス上で再生されて、物理的なサウンドが生成される。再生デバイスは、電子信号を解釈してこの信号を物理的なサウンドに変換することができる任意のデバイスとすることができる。

また、コンピュータ可読命令又はコンピュータ実行可能命令、データ構造、プログラムモジュールなどのような情報の保持は、１又は２以上の変調データ信号、電磁波（搬送波など）、又は他の伝送機構若しくは通信プロトコルを符号化するための様々な通信媒体を使用して実現することもでき、何らかの有線又は無線情報配信機構を含む。一般に、これらの通信媒体は、信号内の情報又は命令を符号化するような方法で設定又は変更される信号特性のうちの１又は２以上を有する信号を参照する。例えば、通信媒体は、１又は２以上の変調データ信号を搬送する有線ネットワーク又は直接有線接続などの有線媒体と、音響、無線周波数（ＲＦ）、赤外線、レーザなどの無線媒体と、１又は２以上の変調データ信号又は電磁波を送信、受信、又は送受信するための他の無線媒体とを含む。上記の何れかの組み合わせは、同様に、通信媒体の範囲内に含まれるはずである。

更に、本明細書に記載のエネルギー平滑化を伴う変換ベースのコーデック及び方法の様々な実施形態の一部又は全部を具現化するソフトウェア、プログラム、コンピュータプログラム製品のうちの１つ又は何れかの組み合わせ、或いはこれの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式で、コンピュータ又はマシン可読媒体又はストレージデバイス及び通信媒体の任意の所望の組み合わせに格納、受信、送信、又はそこから読み出すことができる。

本明細書に記載の、エネルギー平滑化を伴う変換ベースのコーデック及び方法の実施形態は更に、コンピューティングデバイスによって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本明細書で説明した実施形態は、１又は２以上のリモート処理デバイスによって、又は１又は２以上のデバイスのクラウド内でタスクが実行される分散コンピューティング環境で実施することもでき、これらのデバイスは、１又は２以上の通信ネットワークを通じてリンクされる。分散コンピューティング環境では、プログラムモジュールは、メディアストレージデバイスを含む、ローカル及びリモートの両方のコンピュータストレージ媒体内に配置することができる。更に、上述した命令は、プロセッサを含むことがあるか又はプロセッサを含まないこともあるハードウェア論理回路として部分的に又は全体的に実装することができる。

本明細書で使用する条件語、とりわけ、「できる（ｃａｎ）」、「してよい（ｍｉｇｈｔ）」、「できる（ｍａｙ）」、「例えば（ｅ．ｇ．）」、及び同様のものは、別途明確に言及されていない限り、又は使用される文脈でそれ以外に理解されない限り、一般に、特定の実施形態が、特定の特徴、要素、及び／又は状態を含むが、他の実施形態は、これらを含まないことを伝えることを意図している。従って、このような条件語は、一般に、特徴、要素、及び／又は状態が、１又は２以上の実施形態にとって必ず必要であることを示唆するものでなく、作成者の入力又は指示があってもなくても、これらの特徴、要素、及び／又は状態が含まれるか又は何れかの特定の実施形態で実行されるか否かを決定するためのロジックを、１又は２以上の実施形態が必ず含むことを示唆するものでもない。「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」という用語、及び同様のものは、同義であり、包含的にオープンエンド方式で使用され、追加の要素、特徴、動作、操作、及びその他を除外するものではない。また、「又は」という用語は、包括的な意味で（排他的意味ではなく）使用され、従って、例えば、要素のリストを結び付けるのに使用される際に、「又は」という用語は、リスト内の要素のうちの１つ、幾つか、又は全てを意味する。

上記の詳細な説明は、様々な実施形態に適用される新規性のある特徴を示し、説明し、指摘するが、本開示の趣旨から逸脱することなく、様々な省略、置換、及び変更が、例証されたデバイス又はアルゴリズムの形式及び詳細において実施できることが理解されるであろう。認識されるように、一部の特徴は、他の特徴から切り離して使用又は実施することができるので、本明細書に記載される本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供するとは限らない形態の範囲内で具現化することができる。

更に、本主題は、構造的特徴及び方法論的動作に特有の用語で説明してきたが、添付の請求項で規定される主題は、上記で説明した特定の特徴又は動作に必ずしも限定されるものではないことを理解されたい。そうではなく、上記で説明した特定の特徴及び動作は、請求項を実施する例示的な形態として開示される。

Claims

オーディオ信号を符号化するためのオーディオ符号化システムであって、
窓掛けされた時間信号を周波数領域で表して、前記オーディオ信号の周波数変換を得る周波数変換ユニットと、
前記周波数変換の解析及び前記周波数領域における最適性基準に基づいて長期予測器係数を推定する最適長期予測器推定ユニットと、
時間領域において前記オーディオ信号をフィルタリングする長期予測器であって、前記周波数領域において前記最適長期予測器推定ユニットにより実行される解析から推定される前記長期予測器係数である係数を用いる適応フィルタである、長期予測器と、
符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する量子化ユニットと、
前記量子化された周波数変換係数を含み、前記オーディオ信号を表現したものである符号化された信号と、
を備える、ことを特徴とするオーディオ符号化システム。
前記最適長期予測器推定ユニットは更に、前記量子化ユニットからの量子化誤差の解析に基づいて最適長期線形予測器を推定する段階を含む、請求項１に記載のオーディオ符号化システム。
１タップの最適長期線形予測器をｋ次長期線形予測器に拡張するのに使用される所定のフィルタ形状からなるフィルタ形状テーブルと、
前記フィルタ形状テーブルから最適な前記フィルタ形状を選択する推定選択ユニットと、
を更に備える、請求項１に記載のオーディオ符号化システム。
前記ｋ次長期線形予測器の出力のエネルギーを最小にすることによって選択される最適フィルタ形状を更に備える、請求項３に記載のオーディオ符号化システム。
オーディオ信号を符号化するための方法であって、
前記オーディオ信号に関して、窓掛けされた時間信号を周波数領域で表す周波数変換を生成する段階と、
前記周波数変換の解析及び前記周波数領域における最適性基準に基づいて長期予測器係数を推定する段階と、
長期線形予測器を使用して時間領域において前記オーディオ信号をフィルタリングする段階であって、前記長期線形予測器は前記周波数領域における解析から推定される前記長期予測器係数である係数を用いる適応フィルタである、フィルタリングする段階と、
符号化される窓掛けフレームの周波数変換係数を量子化して、量子化された周波数変換係数を生成する段階と、
前記量子化された周波数変換係数を含み、前記オーディオ信号を表現したものである符号化された信号を構築する段階と、
を含む、方法。
前記オーディオ信号の窓掛けされた時間信号の周波数解析に基づいて前記長期線形予測器に関する適応フィルタ係数を決定する段階を更に含む、請求項５に記載の方法。
前記周波数変換の解析及び前記周波数変換係数の量子化からの量子化誤差の両方に基づいて、最適長期線形予測器を推定する段階を更に含む、請求項５に記載の方法。
所定のフィルタ形状を含む予測器フィルタ形状テーブルを使用して、１タップの最適長期線形予測器をｋ次長期線形予測器に拡張する段階と、
前記最適長期線形予測器で使用される最適フィルタ形状を前記予測器フィルタ形状テーブルから選択する段階と、
を更に含む、請求項５に記載の方法。
前記最適フィルタ形状を選択する段階は更に、前記ｋ次長期線形予測器の出力のエネルギーを最小にするフィルタ形状を前記予測器フィルタ形状テーブルから選択する段階を含む、請求項８に記載の方法。
前記長期線形予測器は、１タップ長期線形予測器であり、前記方法は更に、前記１タップ長期線形予測器に関する遅延及び利得パラメータを推定する段階を含む、請求項５に記載の方法。
前記窓掛けされた時間信号における主要高調波成分に対応する、周波数振幅スペクトル内の主要ピークを決定して、前記主要ピークの各々に関する分数周波数を計算する段階と、
前記主要ピーク及び前記分数周波数の正規化された相関値を計算し、前記正規化された相関値が閾値より大きい遅延を候補遅延のセットとする段階と、
をさらに含む、請求項１０に記載の方法。
前記主要ピークのサブセットに基づいて前記周波数領域における候補フィルタのセットを構築して、前記候補フィルタのセットを前記周波数振幅スペクトルに適用して、結果として生じる変換スペクトルを生成する段階と、
前記最適性基準を最大にする最適フィルタ形状を選択する段階と、
周波数解析で決定された前記遅延及び利得パラメータを時間領域の均等物に変換する段階と、
前記遅延及び利得パラメータを含む最適長期線形予測器を前記時間領域で前記オーディオ信号に適用する段階と、
を含み、
周波数ベースの最適性基準が、前記候補フィルタを適用した後の前記結果として生じるスペクトルのスペクトル平坦度尺度であり、
前記最適フィルタ形状は、前記遅延及び利得パラメータを含む、
請求項１１に記載の方法。
前記主要ピークのサブセットに基づいて前記周波数領域における候補フィルタのセットを構築して、前記候補フィルタのセットを前記周波数振幅スペクトルに適用して、結果として生じる変換スペクトルを生成する段階と、
スカラー又はベクトル量子化器を使用して、前記結果として生じる変換スペクトルを量子化する段階と、
選択されたビットレートについて量子化誤差の尺度を生成する段階と、
量子化誤差尺度とスペクトル平坦度尺度との組み合わせに基づいて最適長期線形予測器を推定する段階と、
を更に含む、請求項１１に記載の方法。
前記量子化誤差及びフレーム調性尺度を使用して、前記最適長期線形予測器の利得に上限を設ける段階を更に含む、請求項１３に記載の方法。
デコーダにおける再構成誤差を最小にすることに基づいて前記最適長期線形予測器を推定する段階を更に含む、請求項１４に記載の方法。