JP2011527459A

JP2011527459A - サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ

Info

Publication number: JP2011527459A
Application number: JP2011517027A
Authority: JP
Inventors: イェレミールコンテ; フィリップグルネー; シュテファンバイエル; マルクスマルトラス; ニコラウスレッテルバッハ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ; ヴォイスエイジ・コーポレーション
Priority date: 2008-07-11
Filing date: 2009-07-08
Publication date: 2011-10-27
Anticipated expiration: 2029-07-08
Also published as: RU2498419C2; MY156654A; CO6351832A2; TWI441168B; JP5369180B2; MX2011000369A; BR122021009252B1; AR072556A1; US20110173008A1; BR122021009256B1; KR20110052622A; TW201009815A; AU2009267394B2; CA2730315A1; ZA201100090B; CA2730315C; ES2558229T3; CN102105930A; BRPI0910784B1; CN102105930B

Abstract

符号化されたフレームを得るためにサンプリングされたオーディオ信号のフレームを符号化するために構成されるオーディオエンコーダ（１００）であって、そこにおいて、フレームは多数の時間領域オーディオサンプルを含み、オーディオエンコーダは、オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するための予測符号化分析ステージ（１１０）を含む。オーディオエンコーダ（１００）は、フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するための周波数領域トランスフォーマ（１２０）と、フレームのための符号化されたデータが係数に関する情報および予測領域フレームに関する情報に基づくかそれともフレームスペクトルに基づくかを決定するための符号化領域決定器（１３０）とをさらに含む。さらに、オーディオエンコーダ（１００）は、前のフレームの符号化されたデータが前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが係数に関する情報および予測領域フレームに関する情報に基づくことを符合化領域決定器が決定するときに、切替え係数に関する情報を決定するためのコントローラ（１４０）と、予測領域フレームに関する情報、係数に関する情報、切替え係数に関する情報および／またはフレームスペクトルを符号化するための冗長性低減エンコーダ（１５０）とを含む。
【選択図】図１

Description

本発明は、オーディオ符号化／復号化の分野にあり、特に多重の符号化領域を利用するオーディオ符号化概念の分野にある。

従来技術において、例えばＭＰ３またはＡＡＣなどの周波数領域符号化スキームが公知である。これらの周波数領域エンコーダは、時間領域／周波数領域変換と、量子化誤差が心理音響モジュールからの情報を用いて制御される後の量子化ステージと、量子化されたスペクトル係数および対応するサイド情報がコード表を用いてエントロピー符号化される符合化ステージとに基づく。

一方、３ＧＰＰＴＳ２６．２９０に記載されているように、例えばＡＭＲ−ＷＢ＋などの音声処理に非常によく適しているエンコーダがある。そのような音声符号化スキームは、時間領域信号のＬＰ（ＬＰ＝線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ））フィルタリングを実行する。そのようなＬＰフィルタリングは、入力時間領域信号の線形予測分析から導き出される。そして、結果として生じるＬＰフィルタ係数は、量子化され／符号化され、さらに、サイド情報として送信される。このプロセスは、ＬＰＣ（ＬＰＣ＝線形予測符号化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ））として公知である。フィルタの出力で、励起信号としても公知である予測残留信号または予測誤差信号は、ＡＣＥＬＰエンコーダの合成による分析ステージを用いて符号化され、または、その代わりに、オーバーラップをともなうフーリエ変換を用いる変換エンコーダを用いて符号化される。ＡＣＥＬＰ符号化およびＴＣＸ符号化とも呼ばれるＴｒａｎｓｆｏｒｍＣｏｄｅｄｅＸｃｉｔａｔｉｏｎ符号化のどちらかの決定は、閉ループまたは開ループアルゴリズムを用いて行われる。

ＡＡＣ符号化スキームおよびスペクトルバンド複製技術を結合する例えば高性能ＡＡＣ符号化スキームなどの周波数領域オーディオ符号化スキームは、ジョイントステレオまたは用語「ＭＰＥＧサラウンド（ＭＰＥＧｓｕｒｒｏｕｎｄ）」の下で公知であるマルチチャンネル符号化ツールと結合することもできる。

一方、例えばＡＭＲ−ＷＢ＋などの音声エンコーダも、高周波エンハスメントステージおよびステレオ機能性を有する。

周波数領域符号化スキームは、それらが音楽信号のために低ビットレートで高品質を示すという点で有利である。しかしながら、問題は、低ビットレートで音声信号の品質にある。音声符号化スキームは、低ビットレートでさえ音声信号のために高品質を示すが、低ビットレートで音楽信号のために低品質を示す。

周波数領域符号化スキームは、しばしば、いわゆるＭＤＣＴ（ＭＤＣＴ＝修正離散コサイン変換）を利用する。ＭＤＣＴは、最初に、Ｊ．Ｐｒｉｎｃｅｎ、Ａ．Ｂｒａｄｌｅｙの「時間領域エイリアシングキャンセルに基づく分析／合成フィルタバンク設計（Ａｎａｌｙｓｉｓ／ＳｙｎｔｈｅｓｉｓＦｉｌｔｅｒＢａｎｋＤｅｓｉｇｎＢａｓｅｄｏｎＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇＣａｎｃｅｌｌａｔｉｏｎ）」、ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ、ＡＳＳＰ−３４（５）：１１５３−１１６１、１９８６に記載されている。ＭＤＣＴまたはＭＤＣＴフィルタバンクは、最新のおよび効率的なオーディオコーダにおいて広く用いられる。この種の信号処理は、以下の利点を提供する。

処理ブロック間のスムースなクロスフェード：それぞれの処理ブロックにおいて信号が（例えばスペクトル係数の量子化のため）異なって変えられる場合であっても、ブロックからブロックへの突然の遷移によるブロッキングアーチファクトがウィンドウ化されたオーバーラップ／加算操作のために生じない。

クリティカルなサンプリング：フィルタバンクの出力でスペクトル値の数がその入力で時間領域入力値の数に等しく、さらに、さらなるオーバーヘッド値が送信されなければならない。

ＭＤＣＴフィタバンクは、高い周波数選択性および符号化ゲインを提供する。

それらの優れた特性は、時間領域エイリアシングキャンセルの技術を利用することによって達成される。時間領域エイリアシングキャンセルは、２つの隣接するウィンドウ化された信号をオーバーラップ加算することによる合成で行われる。量子化がＭＤＣＴの分析および合成ステージ間に適用されない場合、元の信号の完全な再構成が得られる。しかしながら、ＭＤＣＴは、音楽信号に特に適する符号化スキームのために用いられる。そのような周波数領域符号化スキームは、前述のように、音声信号のための低ビットレートで低減された品質を有するが、特に適合音声コーダは、周波数領域符号化スキームと比較して、同程度のビットレートでより高品質を有しまたは同じ品質のために著しく低ビットレートさえ有する。

「拡張適合マルチレートワイドバンド（ＡＭＲ−ＷＢ＋）コーデック（ＥｘｔｅｎｄｅｄＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ − Ｗｉｄｅｂａｎｄ（ＡＭＲ−ＷＢ＋）ｃｏｄｅｃ）」、３ＧＰＰＴＳ２６．２９０Ｖ６．３．０、２００５−０６、ＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎに定義されるように、例えばＡＭＲ−ＷＢ＋（ＡＭＲ−ＷＢ＋＝ＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅＢａｎｄｅｘｔｅｎｄｅｄ）コーデックなどの音声符号化技術は、ＭＤＣＴを適用しなく、したがって、特に、クリティカルにサンプリングされた処理においておよび１つのブロックから他のブロックへのクロスオーバーにおいて依存するＭＤＣＴの優れた特性からどんな利点もとることができない。したがって、ビットレートに関してどんなペナルティもなしにＭＤＣＴによって得られる１つのブロックから他のブロックへのクロスオーバー、したがって、ＭＤＣＴのクィティカルなサンプリング特性は、音声コーダにおいてまだ得られていない。

単一のハイブリッド符号化スキーム内で音声コーダおよびオーディオコーダを結合するときに、低ビットレートおよび高品質で１つの符号化モードから他の符号化モードへの切替えをどのように得るかという問題がまだある。

従来のオーディオ符号化概念は、通常、オーディオファイルまたは通信の初めに、起動されるように設計されている。これらの従来の概念を用いることにより、例えば予測フィルタなどのフィルタ構造は、符号化または復号化手順の初めに特定の時間で安定な状態に達する。しかしながら、例えば一方では変換ベースの符号化および他方では入力の前の分析による音声符号化を用いる切替えオーディオ符号化システムのために、それぞれのフィルタ構造が、アクティブにおよび連続的に更新されない。例えば、音声コーダは、短時間にしばしば再起動されることが求められ得る。再起動すると、起動時間が最初から始まり、初期状態がゼロにリセットされる。例えば安定な状態に達するために音声コーダが必要とする時間は、特に遷移の品質のためにクリティカルであり得る。

例えばＡＭＲ−ＷＢ＋としての従来の概念（「拡張適合マルチレートワイドバンド（ＡＭＲ−ＷＢ＋）コーデック（ＥｘｔｅｎｄｅｄＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ − Ｗｉｄｅｂａｎｄ（ＡＭＲ−ＷＢ＋）ｃｏｄｅｃ）」、３ＧＰＰＴＳ２６．２９０Ｖ６．３．０、２００５−０６、Ｔｅｃｈｎｉｃａｌｓｐｅｃｉｆｉｃａｔｉｏｎ参照）は、変換ベースのコーダおよび音声コーダ間で遷移しまたは切替えるときに、音声コーダの完全なリセットを用いる。

ＡＭＲ−ＷＢ＋は、ストップまたはリセットの中間がないと仮定して、信号がフェードインするときに、１回だけ起動するという状態の下で最適化される。そこで、デコーダのすべてのメモリーは、フレームごとに更新することができる。ＡＭＲ−ＷＢ＋が信号の中央に用いられる場合において、リセットは、指示されなければならなく、さらに、符合化または復号化側において用いられるすべてのメモリーは、ゼロに設定される。したがって、従来の概念は、不安定な状態において強い歪みの導入とともに、長すぎる時間が音声コーダの安定な状態に達する前に適用されるという問題を有する。

従来の概念の別の不利な点は、オーバーヘッドを導入する符号化領域を切替えるときに、それらが長いオーバーラップするセグメントを利用するということであり、符号化効率に不利に影響する。

Ｊ．Ｐｒｉｎｃｅｎ、Ａ．Ｂｒａｄｌｅｙの「時間領域エイリアシングキャンセルに基づく分析／合成フィルタバンク設計（Ａｎａｌｙｓｉｓ／ＳｙｎｔｈｅｓｉｓＦｉｌｔｅｒＢａｎｋＤｅｓｉｇｎＢａｓｅｄｏｎＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇＣａｎｃｅｌｌａｔｉｏｎ）」、ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ、ＡＳＳＰ−３４（５）：１１５３−１１６１、１９８６「拡張適合マルチレートワイドバンド（ＡＭＲ−ＷＢ＋）コーデック（ＥｘｔｅｎｄｅｄＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ − Ｗｉｄｅｂａｎｄ（ＡＭＲ−ＷＢ＋）ｃｏｄｅｃ）」、３ＧＰＰＴＳ２６．２９０Ｖ６．３．０、２００５−０６、ＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎ

本発明の目的は、符号化領域切替えを用いてオーディオ符号化のための改良された概念を提供することである。

この目的は、請求項１に記載のオーディオエンコーダ、請求項７に記載のオーディオ符号化するための方法、請求項８に記載のオーディオデコーダ、請求項１４に記載のオーディオ復号化するための方法、および請求項１５に記載のコンピュータプログラムによって達成される。

本発明は、上述の問題がリセットの後の対応するフィルタの状態情報を考慮することによってデコーダにおいて解決することができるという知見に基づく。例えば、リセット後に、特定のフィルタの状態がゼロに設定されたときに、フィルタが最初からすなわちすべての状態またはメモリーがゼロに設定されて起動されないが、それから起動して短い起動またはウォームアップ時間を実現することができる特定の状態に関する情報が送られると、フィルタの起動またはウォームアップ手順を短くすることができる。

本発明の別の知見は、切替え状態に関する前記情報がエンコーダまたはデコーダ側において生成することができることである。例えば、予測ベースの符合化概念および変換ベースの符合化概念を切替えるときに、さらなる情報は、デコーダが実際にその出力を用いなければならない前に安定な状態に予測合成フィルタをとることを可能にするために、切替えの前に提供することができる。

言い換えると、本発明の知見は、特に切替えオーディオコーダにおいて変換領域から予測領域に切替えるときに、予測領域に実際の切替えのすぐ前にフィルタ状態に関するさらなる情報が、切替えアーチファクトを生成する問題を解決することができることである。

本発明の別の知見は、切替えのすぐ前にフィルタまたはメモリーの状態に関する情報を決定するために、切替えに関するそのような情報が、実際の切替えが起こりさらに基本的に前記出力にエンコーダ処理を実行するすぐ前にその出力を考慮することによって、デコーダだけで生成することができることである。いくつかの実施形態は、それとともに従来のエンコーダを用いることができ、さらに、単にデコーダ処理である切替えアーチファクトの問題を低減することができる。前記情報を考慮に入れて、例えば、予測フィルタは、実際の切替えの前に、例えば対応する変換領域デコーダの出力を分析することによって、すでにウォームアップすることができる。

本発明の実施形態は、添付図面を用いて詳述される。

図１は、オーディオエンコーダの実施形態を示す。図２は、オーディオデコーダの実施形態を示す。図３は、実施形態によって用いられるウィンドウ形状を示す。図４ａは、ＭＤＣＴおよび時間領域エイリアシングを示す。図４ｂは、ＭＤＣＴおよび時間領域エイリアシングを示す。図５は、時間領域エイリアシングキャンセルのための実施形態のブロック図を示す。図６ａは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図６ｂは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図６ｃは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図６ｄは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図６ｅは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図６ｆは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図６ｇは、実施形態において時間領域エイリアシングキャンセルのために処理される信号を示す。図７ａは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図７ｂは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図７ｃは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図７ｄは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図７ｅは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図７ｆは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図７ｇは、線形予測デコーダを用いるときに実施形態において時間領域エイリアシングキャンセルのための信号処理チェーンを示す。図８ａは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図８ｂは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図８ｃは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図８ｄは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図８ｅは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図８ｆは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図８ｇは、時間領域エイリアシングキャンセルをともなう実施形態において信号処理チェーンを示す。図９ａは、実施形態においてエンコーダ側における信号処理を示す。図９ｂは、実施形態においてデコーダ側における信号処理を示す。

図１は、オーディオエンコーダ１００の実施形態を示す。オーディオエンコーダ１００は、符号化されたフレームを得るために、サンプリングされたオーディオ信号のフレームを符合化するために構成され、そこにおいて、フレームは、多数の時間領域オーディオサンプルを含む。オーディオエンコーダの実施形態は、オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するための予測符号化分析ステージ１１０を含む。実施形態において、予測領域フレームは、励起フレームまたは励起フレームのフィルタにかけられたバージョンに対応することができる。以下において、それは、オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を符号化するときに、予測領域符号化にゆだねることができる。

さらに、オーディオエンコーダ１００の実施形態は、フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するための周波数領域トランスフォーマ１２０を含む。以下において、それは、フレームスペクトルが符号化されるときに、変換領域符号化にゆだねることができる。さらに、オーディオエンコーダ１００の実施形態は、フレームのための符号化されたデータが係数に関する情報および予測領域フレームに関する情報に基づくかそれともフレームスペクトルに基づくかを決定するための符号化領域決定器１３０を含む。オーディオエンコーダ１００の実施形態は、前のフレームの符号化されたデータが前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが係数に関する情報および予測領域フレームに関する情報に基づくことを符号化領域決定器が決定するときに、切替え係数に関する情報を決定するためのコントローラ１４０を含む。オーディオエンコーダ１００の実施形態は、予測領域フレームに関する情報、係数に関する情報、切替え領域係数に関する情報および／またはフレームスペクトルを符号化するための冗長性低減エンコーダ１５０をさらに含む。言い換えれば、符合化領域決定器１３０は、符合化領域を決定するが、コントローラ１４０は、変換領域から予測領域に切替えるときに、切替え係数に関する情報を提供する。

図１において、破線によって表示されるいくらかの接続がある。これらは、実施形態において異なるオプションを示す。例えば、切替え係数に関する情報は、係数に関する情報および予測領域フレームに関する情報がその出力で常に利用できるように、予測符号化分析ステージ１１０を単に恒久的に実行することによって得ることができる。そして、コントローラ１４０は、予測符号化分析ステージ１１０から出力をいつ符号化するか、および、切替え決定が符号化領域決定器１３０によって行われた後に、周波数領域トランスフォーマ１２０で出力されるフレームスペクトルをいつ符号化するかを、冗長性低減エンコーダ１５０に示すことができる。したがって、コントローラ１４０は、変換領域から予測領域に切替えるときに、切替え係数に関する情報を符号化するために冗長性低減エンコーダ１５０を制御することができる。

切替えが生じる場合、コントローラ１４０は、オーバーラップするフレームを符号化するために、冗長性低減エンコーダ１５０に示すことができ、前のフレームの間、冗長性低減エンコーダ１５０は、ビットストリームが前のフレームのためにフレームスペクトルと同様に係数に関する情報および予測領域フレームに関する情報の両方とも含む方法で、制御装置１４０によって制御することができる。言い換えれば、実施形態において、コントローラは、符号化されたフレームが上述の情報を含むような方法で、冗長性低減エンコーダ１５０を制御することができる。他の実施態様において、符合化領域決定器１３０は、符合化領域を変えて、予測符号化分析ステージ１１０および周波数領域トランスフォーマ１２０を切替えることに決定することができる。

これらの実施形態において、コントローラ１４０は、切替え係数を提供するために、内部でいくらかの分析を行うことができる。実施形態において、切替え係数に関する情報は、フィルタの状態に関する情報、適合コードブックコンテンツ、メモリーの状態、励起信号に関する情報、ＬＰＣ係数などに対応することができる。切替え係数に関する情報は、予測合成ステージ２２０のウォームアップまたは初期化を可能にするどんな情報を含んでもよい。

符合化領域決定器１３０は、図１において破線によっても示されるオーディオ信号のフレームまたはサンプルに基づいて符合化領域をいつ切替えるかに関する決定を決定することができる。他の実施態様において、前記決定は、係数に関する情報、予測領域フレームに関する情報および／またはフレームスペクトルに基づいて行うことができる。

一般に、実施形態は、符合化領域決定器１３０が符合化領域をいつ変えるかについて決定する方法に制限されるべきでなく、上述の問題が生じる間、符合化領域変更が符合化領域決定器１３０によって決定されることがより重要であり、さらに、いくつかの実施形態において、オーディオエンコーダ１００は、上述の不利な影響が少なくとも部分的に補償される方法で調整される。

実施形態において、符合化領域決定器１３０は、信号特性またはオーディオフレームの特性に基づいて決定するために構成することができる。すでに周知のように、オーディオ信号のオーディオ特性は、符号化効率を決定することができ、すなわちオーディオ信号の特定の特性のために、変換ベースの符号化を用いることがより効率的であり、他の特性のために、予測領域符号化を用いることがより有益であり得る。いくつかの実施形態において、符合化領域決定器１３０は、信号が非常に音的または無声音的であるときに、変換ベースの符号化を用いることを決定するために構成され得る。信号が一時的なまたは音声のような信号である場合、符合化領域決定器１３０は、符号化するために述べたように、予測領域フレームを用いることを決定するために構成され得る。

図１において他の破線および矢印によれば、コントローラ１４０には、係数に関する情報、予測領域フレームに関する情報およびフレームスペクトルが提供され、さらに、コントローラ１４０は、前記情報に基づいて切替え係数に関する情報を決定するために構成することができる。他の実施態様において、コントローラ１４０は、切替え係数を決定するために、情報を予測符号化分析ステージ１１０に提供することができる。実施形態において、切替え係数は、係数に関する情報に対応してもよく、さらに、他の実施形態において、それらは異なる方法で決定されてもよい。

図２は、オーディオデコーダ２００の実施形態を示す。オーディオデコーダ２００の実施形態は、サンプリングされたオーディオ信号のフレームを得るために、符号化されたフレームを復号化するために構成され、そこにおいて、フレームは、多数の時間領域オーディオサンプルを含む。オーディオデコーダ２００の実施形態は、予測領域フレームに関する情報、合成フィルタのための係数に関する情報および／またはフレームスペクトルを得るために、符号化されたフレームを復号化するための冗長性読出しデコーダ２１０を含む。さらに、オーディオデコーダ２００の実施形態は、合成フィルタのための係数に関する情報および予測領域フレームに関する情報に基づいてオーディオサンプルの予測されたフレームを決定するための予測合成ステージ２２０と、フレームスペクトルから変換されたフレームを得るためにフレームスペクトルを時間領域に変換するための時間領域トランスフォーマ２３０とを含む。オーディオデコーダ２００の実施形態は、サンプリングされたオーディオ信号のフレームを得るために変換されたフレームおよび予測されたフレームを結合するための結合器２４０をさらに含む。

さらに、オーディオデコーダ２００の実施形態は、切替えプロセスを制御するためのコントローラ２５０を含み、切替えプロセスは、前のフレームが変換されたフレームに基づきさらに現在のフレームが予測されたフレームに基づくときに行われ、コントローラ２５０は、切替えプロセスが行われるときに予測合成ステージ２２０が初期化されるように、予測合成ステージ２２０をトレーニングし、初期化しまたはウォームアップするために、予測合成ステージ２２０に切替え係数を提供するために構成される。

図２に示される破線矢印によれば、コントローラ２５０は、オーディオデコーダ２００のコンポーネントの部分または全体を制御するように構成され得る。コントローラ２５０は、例えば、切替え係数に関する特別な情報または前の予測領域フレームに関する情報などを読出すために、冗長性読出しデコーダ２１０を調整するように構成され得る。他の実施態様において、コントローラ２５０は、それ自体によって、例えば、結合器２４０によって復号化されたフレームを提供することによって、結合器２４０の出力に基づいてＬＰ分析を行うことによって、切替え係数に関する前記情報を導き出すために構成され得る。そして、コントローラ２５０は、上述のオーバーラップするフレーム、タイミング、時間領域分析および時間領域分析キャンセルなどを確立するために、予測合成ステージ２２０および時間領域トランスフォーマ２３０を調整しまたは制御するために構成され得る。

以下において、正確なフィルタ合成を確実にする状態に達する特定の時間を必要とする起動の間、予測子および内部フィルタを含めて、ＬＰＣベースの領域コーデックが考慮される。言い換えれば、オーディオエンコーダ１００の実施形態において、予測符号化分析ステージ１１０は、ＬＰＣ分析に基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するために構成することができる。オーディオデコーダ２００の実施形態において、予測合成ステージ２２０は、ＬＰＣ合成フィルタに基づいて予測フレームを決定するために構成することができる。

最初のＬＰＤ（ＬＰＤ＝線形予測領域（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＤｏｍａｉｎ））フレームの初めに矩形ウィンドウを用いさらにＬＰＤベースのコーデックをゼロ状態にリセットすることによって、明らかにこれらの遷移のための理想オプションを提供しないが、その理由は、充分な時間がブロッキングアーチファクトを導入する良好な信号を確立するためにＬＰＤコーデックのために残されないからである。

実施形態において、非ＬＰＤモードからＬＰＤモードへの遷移を扱うために、オーバラップウィンドウを用いることができる。言い換えれば、オーディオエンコーダ１００の実施形態において、周波数領域トランスフォーマ１２０は、高速フーリエ変換（ＦＦＴ＝高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ））またはＭＤＣＴ（ＭＤＣＴ＝修正離散コサイン変換（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ））に基づいてオーディオサンプルのフレームを変換するために構成することができる。オーディオデコーダ２００の実施形態において、時間領域トランスフォーマ２３０は、逆ＦＦＴ（ＩＦＦＴ＝は、逆ＦＦＴ）または逆ＭＤＣＴ（ＩＭＤＣＴ＝逆ＭＤＣＴ）に基づいてフレームスペクトルを時間領域に変換するために構成することができる。

それとともに、実施形態は、変換ベースのモードとも呼ばれ得る非ＬＰＤモードにおいてまたは予測分析および合成とも呼ばれるＬＰＤモードにおいて実行することができる。一般に、実施形態は、特にＭＤＣＴおよびＩＭＤＣＴを用いるときに、オーバーラップするウィンドウを用いることができる。言い換えれば、非ＬＰＤモードにおいて、時間領域エイリアシング（ＴＤＡ＝ＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇ）をともなうオーバーラップするウィンドウ化を用いることができる。それとともに、非ＬＰＤモードからＬＰＤモードに切替えるときに、最後の非ＬＰＤフレームの時間領域エイリアシングは、補償することができる。実施形態は、ＬＰＤ符号化を行う前に元の信号において時間領域エイリアシングを導入することができるが、時間領域エイリアシングは、例えばＡＣＥＬＰ（ＡＣＥＬＰ＝代数コードブック励起線形予測（ＡｌｇｅｂｒａｉｃＣｏｄｅｂｏｏｋＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ））などの予測ベースの時間領域符号化と互換性がなくてもよい。実施形態は、ＬＰＤセグメントの初めにおいてアーチファクトエイリアシングを導入することができ、さらに、非ＬＰＤ遷移にＡＣＥＬＰに関しては同様に時間領域キャンセルを適用することができる。言い換えれば、予測分析および合成は、実施形態においてＡＣＥＬＰに基づき得る。

いくつかの実施形態において、アーチファクトエイリアシングは、元の信号の代わりに合成信号から生成される。合成信号が特にＬＰＤ起動で不正確であるので、これらの実施形態は、アーチファクトＴＤＡを導入することによってブロックアーチファクトをいくらか補償することができるが、アーチファクトＴＤＡの導入は、アーチファクトの低減とともに不正確の誤差を導入し得る。

図３は、１つの実施形態内で切替えプロセスを示す。図３に表示される実施形態において、切替えプロセスが非ＬＰＤモード例えばＭＤＣＴモードからＬＰＤモードに切替えると仮定される。図３に示すように、２０４８個のサンプルの総ウィンドウ長が考慮される。図３の左側において、ＭＤＣＴウィンドウの立ち上がりは、５１２個のサンプルを通じて広がって示される。ＭＤＣＴおよびＩＭＤＣＴのプロセスの間、ＭＤＣＴウィンドウの立ち上がりのこれらの５１２個のサンプルは、完全な２０４８個のサンプルウィンドウ内で中央に配置された１０２４個のサンプルを含むＭＤＣＴカーネルに図３において割り当てられる次の５１２個のサンプルに折返される。以下においてさらに詳細に説明されるように、ＭＤＣＴおよびＩＭＤＣＴのプロセスによって導入される時間領域エイリアシングは、時間領域エイリアシングがそれぞれの連続的なオーバーラップするＭＤＣＴウィンドウによって本質的に補償できることがＭＤＣＴの有利な特性の１つであるように、先行するフレームが非ＬＰＤモードにおいて符号化されたときにクリティカルでない。

しかしながら、ＬＰＤモードに切替えるときに、すなわち現在、図３に示されるＭＤＣＴウィンドウの右側部分を考慮するとき、そのような時間領域エイリアシングキャンセルは、自動的に行われなく、それは、ＬＰＤモードにおいて復号化される最初のフレームが先行するＭＤＣＴフレームで補償するために時間領域エイリアシングを自動的に有しないからである。したがって、オーバーラップする領域において、実施形態は、ＭＤＣＴカーネルウィンドウの終端に中心がある、すなわち、１５３６個のサンプルの後に中心がある、１２８個のサンプルのエリアにおいて図３に示されるように、アーチファクト時間領域エイリアシングを導入することができる。言い換えれば、図３において、アーチファクト時間領域エイリアシングは、最後のＭＤＣＴフレームの終端に導入される時間領域エイリアシングで補償するために、ＬＰＤモードフレームの初めに、すなわちこの実施形態において最初の１２８個のサンプルに導入されると仮定される。

好適な実施形態において、ＭＤＣＴは、１つの領域における符合化操作から異なる他の領域における符合化操作にクリティカルにサンプリングする切替えを得るために適用され、すなわち、周波数領域トランスフォーム１２０および／または時間領域トランスフォーム２３０の実施形態において行われる。しかしながら、他のすべての変換は、同様に適用することができる。しかしながら、ＭＤＣＴが好適な実施形態であるので、ＭＤＣＴは、図４ａおよび図４ｂに関してさらに詳細に述べられる。

図４ａは、左側に増加する部分および右側に減少する部分を有するウィンドウ４７０を示し、そこにおいて、このウィンドウを４つの部分ａ、ｂ、ｃおよびｄに分割することができる。ウィンドウ４７０は、図から分かるように、示される５０％のオーバーラップ／加算状況においてエイリアシング部分だけを有する。特に、ゼロからＮまでのサンプルを有する第１の部分は先行するウィンドウ４６９の第２の部分に対応し、さらに、ウィンドウ４７０のサンプルＮおよびサンプル２Ｎ間に広がる後半部分は、ウィンドウ４７１の第１の部分にオーバーラップし、ウィンドウ４７１は示された実施形態のウィンドウｉ＋１にあるが、ウィンドウ４７０はウィンドウｉである。

ＭＤＣＴ操作は、ウィンドウ化および折返し操作並びにその後の変換操作特に後のＤＣＴ（ＤＣＴ＝離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ））操作の直列接続とみなすことができ、そこにおいて、タイプＩＶのＤＣＴ（ＤＣＴ−ＩＶ）が適用される。特に、折返し操作は、折返しブロックの第１の部分Ｎ／２を−ｃ_R−ｄとして計算することによって、さらに、折返し出力のＮ／２個のサンプルの第２部分をａ−ｂ_Rとして計算することによって得られ、そこにおいて、Ｒは、逆演算子である。このように、折返し操作は、２Ｎ個の入力値が受信されるが、Ｎ個の出力値をもたらす。

デコーダ側において対応する展開操作は、等式に形で、同様に図４ａにおいて示される。

一般に、（ａ、ｂ、ｃ、ｄ）におけるＭＤＣＴ操作は、図４ａに示されるように、同じ出力値を（−ｃ_R−ｄ、ａ−ｂ_R）のＤＣＴ−ＩＶとして正確にもたらす。

それに対応して、さらに展開操作を用いて、ＩＭＤＣＴ操作は、ＤＣＴ−ＩＶ逆変換の出力に適用される展開操作の出力をもたらす。

したがって、時間エイリアシングは、エンコーダ側において折返し操作を実行することによって導入される。そして、ウィンドウ化および折返し操作の結果は、Ｎ個の入力値を必要とするＤＣＴ−ＩＶブロック変換を用いて周波数領域に変換される。

デコーダ側において、Ｎ個の入力値は、ＤＣＴ−ＩＶ操作を用いて時間領域に逆に変換され、さらに、このため、この逆変換操作の出力は、２Ｎ個の出力値であるがエイリアシング出力値を得るために展開操作に変えられる。

折返し操作によって導入され、さらに、展開操作の後にまだそこにあるエイリアシングを取り除くために、オーバーラップ／加算操作が、時間領域エイリアシングキャンセルを行うことができる。

したがって、展開操作の結果がオーバーラップする半分において前のＩＭＤＣＴの結果とともに加算されるときに、逆にされた項が図４ａの下部の方程式においてキャンセルして、例えばｂおよびｄを簡単に得て、そのため、元のデータを回復する。

ウィンドウ化されたＭＤＣＴのためのＴＤＡＣを得るために、要件が存在し、それは「プリンセンブラッドリー（Ｐｒｉｎｃｅｎ−Ｂｒａｄｌｅｙ）」条件として公知であり、それは、ウィンドウ係数が、サンプルごとにユニティ（１）をもたらすように時間領域エイリアシングキャンセラにおいて結合される対応するサンプルのために２乗にされたことを意味する。

図４ａが、例えば、長ウィンドウまたは短ウィンドウのためのＡＡＣ−ＭＤＣＴ（ＡＡＣ＝ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）において適用されるようなウィンドウシーケンスを示すが、図４ｂは、エイリアシング部分に加えて、同様に非エイリアシング部分を有する異なるウィンドウ関数を示す。

図４ｂは、ゼロ部分ａ１およびｄ２を有し、エイリアシング部分４７２ａ、４７２ｂを有し、さらに、非エイリアシング部分４７２ｃを有する分析ウィンドウ関数４７２を示す。

ｃ２、ｄ１にわたって広がるエイリアシング部分４７２ｂは、４７３ｂで示される後のウィンドウ４７３の対応するエイリアシング部分を有する。それに対応して、ウィンドウ４７３は、非エイリアシング部分４７３ａをさらに含む。図４ｂは、図４ａと比較したときに、ウィンドウ４７２のためのゼロ部分ａ１、ｄ１またはウィンドウ４７３のためのｃ１があるという事実のため、両方のウィンドウが非エイリアシング部分を受信し、さらに、エイリアシング部分においてウィンドウ関数が図４ａにおけるよりも急峻であることを明らかにする。それから見て、エイリアシング部分４７２ａはＬ_kに対応し、非エイリアシング部分４７２ｃは部分Ｍ_kに対応し、さらに、エイリアシング部分４７２ｂは図４ｂのＲ_kに対応する。

折返し操作がウィンドウ４７２によってウィンドウ化されるサンプルのブロックに適用されるときに、状況は、図４ｂにおいて示されるように得られる。第１のＮ／４個のサンプルにわたって広がる左側部分は、エイリアシングを有する。Ｎ／２個のサンプルにわたって広がる第２の部分は、エイリアシングがないが、それは、折返し操作がゼロ値を有するウィンドウ部分に適用されるからであり、さらに、最後のＮ／４個のサンプルは、再び、エイリアシングの影響を受ける。折返し操作のため、折返し操作の出力値の数はＮに等しいが、入力は、実際に、この実施形態におけるＮ／２の値がウィンドウ４７２を用いてウィンドウ化操作のためゼロに設定されたけれども、２Ｎであった。

現在、ＤＣＴ−ＩＶは、折返し操作の結果に適用されるが、重要なことに、１つの符号化モードから別の符号化モードへの遷移であるエイリアシング部分４７２は、両方の部分がオーディオサンプルの同じブロックに属しさらに重要なことに同じブロック変換操作に入力されるけれども、非エイリアシング部分より異なって処理される。

図４ｂは、ウィンドウ４７２、４７３、４７４のウィンドウシーケンスをさらに示し、そこにおいて、ウィンドウ４７３は、非エイリアシング部分が存在する状況からエイリアシング部分だけが存在する状況までの遷移ウィンドウである。これは、ウィンドウ関数を非対称に成形することによって得られる。ウィンドウ４７３の右側部分は、図４ａのウィンドウシーケンスにおいてウィンドウの右側部分と類似するが、左側部分は、非エイリアシング部分および（ｃ１で）対応するゼロ部分を有する。したがって、図４ｂは、ＡＡＣが完全にオーバーラップするウィンドウを用いて実行されるときにＭＤＣＴ−ＴＣＸからＡＡＣへの遷移を示し、または、その代わりに、ウィンドウ４７４がＴＣＸデータブロックを完全にオーバーラップする方法でウィンドウ化するときにＡＡＣからＭＤＣＴ−ＴＣＸへの遷移を示し、それは、１つのモードから他のモードに切替えるための理由がないときに、一方ではＭＤＣＴ−ＴＣＸのためのおよび他方ではＭＤＣＴ−ＡＡＣのための正規の操作である。

したがって、ウィンドウ４７３は、「ストップウィンドウ（ｓｔｏｐｗｉｎｄｏｗ）」であると呼ぶことができ、それは、ブロックがウィンドウ係数として同数、すなわち図４ａまたは図４ｂの例において２Ｎ個のサンプルを有するように設定されるときに、一般のブロックラスターまたはフレームラスターが維持されるように、このウィンドウの長さが少なくとも１つの隣接するウィンドウの長さと同一である好ましい特性をさらに有する。

以下において、アーチファクト時間領域エイリアシングおよび時間領域エイリアシングキャンセルの方法が詳細に述べられる。図５は、信号処理チェーンを表示する実施形態において利用されるブロック図を示す。図６ａ〜図６ｇおよび図７ａ〜図７ｇは、サンプル信号を示し、そこにおいて、図６ａ〜図６ｇは、元の信号が用いられると仮定して時間領域エイリアシングキャンセルの原理プロセスを示し、図７ａ〜図７ｇにおいて、サンプル信号が示され、それらは最初のＬＰＤフレームが完全なリセットの後にどんな適合もなしに生じるという仮定に基づいて決定される。

言い換えれば、図５は、非ＬＰＤモードからＬＰＤモードへの遷移の場合にＬＰＤモードにおいて最初のフレームのためのアーチファクト時間領域エイリアシングおよび時間領域エイリアシングキャンセルを導入するプロセスの実施形態を示す。図５は、最初に、ウィンドウ化がブロック５１０において現在のＬＰＤフレームに適用されることを示す。図６ａ、図６ｂおよび図７ａ、７ｂが示すように、ウィンドウ化は、それぞれの信号のフェードインに対応する。図５においてウィンドウ化ブロック５１０の上の小さいグラフに示されるように、ウィンドウ化がＬ_k個のサンプルに適用されると仮定される。ウィンドウ化５１０の後に折返し操作５２０が続き、それはＬ_k／２個のサンプルをもたらす。折返し操作の結果は、図６ｃおよび図７ｃにおいて示される。低減されたサンプル数のため、それぞれの信号の初めにＬ_k／２個のサンプルにわたって広がるゼロ時間があることが分かる。

ブロック５１０におけるウィンドウ化操作およびブロック５２０における折返し操作は、ＭＤＣＴを通じて導入される時間領域エイリアシングとして要約することができる。しかしながら、ＩＭＤＣＴを通じて逆に変換するときに、さらなるエイリアシングの影響が生じる。ＩＭＤＣＴによって呼び起こされる影響は、図５においてブロック５３０および５４０によって要約され、それは、逆にされた時間領域エイリアシングとしてまた要約することができる。そして、図５に示されるように、展開がブロック５３０において行われ、それは、サンプルの数を２倍にする結果、すなわちＬ_k個のサンプル結果をもたらす。それぞれの信号は、図６ｄおよび図７ｄにおいて表示される。図６ｄおよび図７ｄから、サンプルの数が２倍になり、さらに、時間エイリアシングが導入されたことが分かる。信号をフェードインするために、展開５３０の操作の後に、別のウィンドウ化操作５４０が続く。第２のウィンドウ化５４０の結果は、図６ｅおよび図７ｅにおいて示される。最後に、図６ｅおよび図７ｅにおいて表示されるアーチファクト時間エイリアシング信号が、オーバーラップし、さらに、非ＬＰＤモードにおいて符号化される前のフレームに加算され、それは図５においてブロック５５０によって示され、さらに、それぞれの信号が図６ｆおよび図７ｆにおいて表示される。

言い換えれば、オーディオデコーダ２００の実施形態において、結合器２４０は、図５においてブロック５５０の機能を行うように構成することができる。

結果として生じる信号は、図６ｇおよび図７ｇにおいて示される。要約すると、図６ａ、図６ｂ、図７ａ、および図７ｂによって示される両方の場合において、それぞれのフレームの左側部分がウィンドウ化される。そして、ウィンドウの左側部分が折返され、それが図６ｃおよび図７ｃに示される。展開の後（図６ｄおよび図７ｄ参照）、別のウィンドウ化が適用される（図６ｅおよび図７ｅ参照）。図６ｆおよび図７ｆは、前の非ＬＰＤフレームの形状を有する現在のプロセスフレームを示し、さらに、図６ｇおよび図７ｇは、オーバーラップおよび加算操作の後の結果に示す。図６ａ〜図６ｇから、完全な再構成が、ＬＰＤフレームにおいてアーチファクトＴＤＡを適用しさらに前のフレームにオーバーラップおよび加算を適用した後に実施形態によって達成できることが分かる。しかしながら、第２の場合において、すなわち図７ａ〜図７ｇに示される場合において、再構成は、完全でない。すでに上述のように、第２の場合において、ＬＰＤモードが完全にリセットされ、すなわちＬＰＣの合成の状態およびメモリーがゼロに設定されたと仮定された。これは、最初のサンプルの間、正確でない合成信号をもたらす。この場合、アーチファクトＴＤＡは、完全な再構成よりもむしろ歪みおよびアーチファクトをもたらすオーバーラップ加算を加える（図６ｇおよび図７ｇ参照）。

図６ａ〜図６ｇおよび図８ａ〜図８ｇは、アーチファクト時間領域エイリアシングおよび時間領域エイリアシングキャンセルのための元の信号を用いる場合およびＬＰＤ起動信号を用いるという別の場合間の別の比較を示すが、図８ａ〜図８ｇにおいて、ＬＰＤ起動時間は、図７ａ〜図７ｇにおいて取るよりも長く取ると仮定された。図６ａ〜図６ｇおよび図８ａ〜図８ｇは、図５に関してすでに説明されたように、同じ操作が適用されたサンプル信号のグラフを示す。図６ｇおよび図８ｇを比較して、図８ｇにおいて表示される信号に導入される歪みおよびアーチファクトが図７ｇにおいてのそれらよりもさらに著しいことが分かる。図８ｇにおいて表示される信号は、比較的長い時間の間、多くの歪みを含む。まさに比較のために、図６ｇは、時間領域エイリアシングキャンセルのための元の信号を考慮するときに、完全な再構成を示す。

本発明の実施形態は、それぞれ、予測符号化分析ステージ１１０、予測合成ステージ２２０の実施形態として、例えばＬＰＤコアコーデックの起動時間の速度を上げることができる。実施形態は、元の信号にできるだけ近いように合成された信号の低減を可能にするために、すべての関係したメモリーおよび状態を更新することができ、さらに、図７ｇおよび図８ｇにおいて表示されるような歪みを低減することができる。さらに、実施形態において、より長いオーバーラップおよび加算時間は、それらができる時間領域エイリアシングおよび時間領域エイリアシングキャンセルの改良された導入のために可能である。

すでに上述のように、最初のまたは現在のＬＰＤフレームの初めに矩形ウィンドウを用い、さらに、ＬＰＤベースのコーデックをゼロ状態にリセットすることは、遷移のための理想オプションではなくてもよい。歪みおよびアーチファクトは、充分な時間が良好な信号を確立するためにＬＰＤコーデックのために残されないので、生じ得る。類似の考慮すべき事項が、コーデックの内部状態変数をどんな定義された初期値にも設定するために保持するが、それは、そのようなコーダの安定な状態が多重信号特性に依存し、さらに、どんな定義されているが一定の初期状態から起動時間も長くすることができるからである。

オーディオエンコーダ１００の実施形態において、コントローラ１４０は、ＬＰＣ分析に基づいて合成フィルタのための係数に関する情報および切替え予測領域フレームに関する情報を決定するために構成することができる。言い換えれば、実施形態は、矩形ウィンドウを用いることができ、さらに、ＬＰＤコーデックの内部状態をリセットすることができる。いくつかの実施形態において、エンコーダは、前の非ＬＰＤフレームから符号化されたフレームに合成サンプルについて、フィルタメモリーに関する情報および／またはＡＣＥＬＰによって用いられる適合コードブックを含むことができ、さらに、それらをデコーダに提供することができる。言い換えれば、オーディオエンコーダ１００の実施形態は、前の非ＬＰＤフレームを復号化することができ、ＬＰＣ分析を実行することができ、さらに、ＬＰＣ分析フィルタを、その情報をデコーダに提供するための非ＬＰＤ合成信号に適用することができる。

すでに上述のように、コントローラ１４０は、前記情報が前のフレームにオーバーラップするオーディオサンプルのフレームを表すことができるように、切替え係数に関する情報を決定するために構成することができる。

実施形態において、オーディオエンコーダ１００は、冗長性低減エンコーダ１５０を用いて切替え係数に関するそのような情報を符号化するために構成することができる。実施形態の部分として、再起動手順は、ビットストリームにおいて前のフレームに計算されるＬＰＣのさらなるパラメータ情報を送信しまたは含むことによって強化され得る。ＬＰＣ係数のさらなる設定は、以下においてＬＰＣ０と呼ぶことができる。

実施形態において、コーデックは、フレームごとに推定されまたは決定される４つのＬＰＣフィルタ、すなわちＬＰＣ１〜ＬＰＣ４を用いて、そのＬＰＤコア符号化モードにおいて操作することができる。実施形態において、非ＬＰＤ符号化からＬＰＤ符号化への遷移で、前のフレームの終端に中心があるＬＰＣ分析に対応することができるさらなるＬＰＣフィルタＬＰＣ０が、決定されまたは推定され得る。言い換えれば、実施形態において、前のフレームにオーバーラップするオーディオサンプルのフレームは、前のフレームの終端に中心があり得る。

オーディオデコーダ２００の実施形態において、冗長性読出しデコーダ２１０は、符号化されたフレームから切替え係数に関する情報を復号化ために構成することができる。したがって、予測合成ステージ２２０は、前のフレームにオーバーラップする切替え予測されたフレームを決定するために構成することができる。別の実施形態において、切替え予測されたフレームは、前のフレームの終端に中心があり得る。

実施形態において、非ＬＰＤセグメントまたはフレームの終端に対応するＬＰＣフィルタ、すなわちＬＰＣ０は、ＬＰＣ係数の補間のために、または、ＡＣＥＬＰの場合にゼロ入力応答の計算のために用いることができる。

上述のように、このＬＰＣフィルタは、順方向に推定され、すなわち、入力信号に基づいて推定され、エンコーダによって量子化され、さらに、デコーダに送信され得る。他の実施態様において、ＬＰＣフィルタは、逆方向に、すなわち、過去の合成された信号に基づくデコーダによって推定することができる。順方向推定は、さらなるビットレートを用いることができるが、より効率的で信頼性の高い起動時間を可能にすることもできる。

言い換えれば、他の実施形態において、オーディオデコーダ２００の実施形態内のコントローラ２５０は、合成フィルタのための係数に関する前のフレーム情報および／または予測領域フレームに関する前のフレーム情報を得るために、前のフレームを分析するために構成することができる。コントローラ２５０は、さらに、切替え係数として係数に関する前のフレーム情報を予測合成ステージ２２０に提供するために構成することができる。コントローラ２５０は、さらに、トレーニングするために予測合成ステージ２２０に予測領域フレームに関する前のフレーム情報を提供することができる。

オーディオエンコーダ１００が切替え係数に関する情報を提供する実施形態において、ビットストリームにおいてビットの量は、わずかに増加し得る。デコーダで分析を行うことは、ビットストリームにおいてビットの量を増加しない。しかしながら、デコーダで分析を行うことは、特別な複雑さを導入し得る。したがって、実施形態において、ＬＰＣ分析の分解能は、スペクトルダイナミックを低減することによって強化することができ、すなわち、信号のフレームは、プリエンファシスフィルタを通じて最初に前処理することができる。逆低周波エンファシスは、次のフレームを符号化するために必要な励起信号または予測領域フレームを得ることを可能にするオーディオエンコーダ１００における場合と同様に、デコーダ２００の実施形態に適用することができる。これらのすべてのフィルタは、過去の入力が適用されなかったと想定すれば、すなわちフィルタにおいて状態情報が完全なリセットの後にゼロに設定されると想定すれば、ゼロ状態応答、すなわち現在の入力によるフィルタの出力を与えることができる。一般に、ＬＰＤ符号化モードが通常に実行しているときに、フィルタにおいて状態情報は、前のフレームのフィルタリングの後に最終状態によって更新される。実施形態において、すでに最初のＬＰＤフレームのために、すべてのフィルタおよび予測子値が最初のフレームのための最適なまたは改良されたモードにおいて実行するために初期化される方法で符号化されるＬＰＤの内部フィルタ状態を設定するために、切替え係数／係数に関する情報は、オーディオエンコーダ１００によって提供することができ、または、さらなる処理は、デコーダ２００で行うことができる。

一般に、予測符号化分析ステージ１１０によってオーディオエンコーダ１００において行われるように、分析のためのフィルタおよび予測子は、合成のためのオーディオデコーダ２００において用いられるフィルタおよび予測値と区別される。

例えば予測符号化分析ステージ１１０のように分析のために、これらのフィルタのすべてまたは少なくとも１つは、メモリーを更新するために前のフレームの適切な元のサンプルとともに送ることができる。図９ａは、分析のために用いられるフィルタ構造の実施形態を示す。最初のフィルタは、プリエンファシスフィルタ１００２であり、それは、ＬＰＣ分析フィルタ１００６、すなわち予測符号化分析ステージ１１０の分解能を強化するために用いることができる。実施形態において、ＬＰＣ分析フィルタ１００６は、分析ウィンドウ内で例えばハイパスフィルタにかけられた音声サンプルを用いて短期フィルタ係数を計算しまたは評価することができる。言い換えれば、実施形態において、コントローラ１４０は、前のフレームの復号化されたフレームスペクトルのハイパスフィルタにかけられたバージョンに基づいて切替え係数に関する情報を決定するために構成することができる。同じような方法で、分析がオーディオデコーダ２００の実施形態で行われると仮定して、コントローラ２５０は、前のフレームのハイパスフィルタにかけられたバージョンを分析するために構成することができる。

図９ａに示されるように、ＬＰ分析フィルタ１００６は、知覚的な重み付けフィルタ１００４の後にある。実施形態において、知覚的な重み付けフィルタ１００４は、コードブックの合成による分析検索において使用することができる。フィルタは、例えば音道共振のように、誤差をフォルマント周波数に近い領域において少なくさらにそれらから離れている領域において多く重み付けることによって、フォルマントのノイズマスキング特性を利用することができる。実施形態において、冗長性低減エンコーダ１５０は、それぞれの予測領域フレーム／フレームに適合するコードブックに基づいて符号化するために構成することができる。それに対応して、冗長性導入デコーダ２１０は、フレームのサンプルに適するコードブックに基づいて復号化するために構成することができる。

図９ｂは、合成の場合において信号処理のブロック図を示す。合成の場合、実施形態において、すべてのまたは少なくとも１つのフィルタは、メモリーを更新するために前のフレームの適切な合成されたサンプルとともに送ることができる。オーディオデコーダ２００の実施形態において、これは、前の非ＬＰＤフレームの合成が直接的に利用できるので、直接的であってもよい。しかしながら、オーディオエンコーダ１００の実施形態において、合成は、デフォルトによって行われなくてもよく、さらに、それに対応して、合成されたサンプルは、利用できなくてもよい。したがって、オーディオエンコーダ１００の実施形態において、コントローラ１４０は、前の非ＬＰＤフレームを復号化するために構成することができる。両方の実施形態、すなわちオーディオエンコーダ１００およびオーディオエンコーダ２００において、非ＬＰＤフレームが復号化されると、前のフレームの合成は、図９ｂに従ってブロック１０１２において行うことができる。さらに、ＬＰ合成フィルタ１０１２の出力は、逆知覚的な重み付けフィルタ１０１４に入力することができ、それの後に、デエンファシスフィルタ１０１６が適用される。実施形態において、適合されたコードブックは、用いられさらに前のフレームから合成されたサンプルとともに追加され得る。さらなる実施形態において、適合コードブックは、あらゆるサブフレームに適する励起ベクトルを含むことができる。適合コードブックは、長期フィルタ状態から導き出され得る。遅延値は、インデックスとして適合コードブックに用いることができる。実施形態において、適合コードブックを追加するために、励起信号または残留信号は、ゼロメモリーを有する逆重み付けフィルタに量子化された重み付けられた信号をフィルタリングによって最終的に計算され得る。励起は、長期予測子メモリーを更新するために、エンコーダ１００で特に必要とされ得る。

本発明の実施形態は、さらなるパラメータを提供しおよび／または変換ベースのコーダによって符号化される前のフレームのサンプルとともにエンコーダまたはデコーダの内部メモリーを送ることによって、フィルタの再起動手順を強化しまたは加速することができるという利点を提供することができる。

実施形態は、関係したメモリーの全体または部分を更新することによってＬＰＣコアコーデックの起動手順のスピードアップの利点を提供することができ、特に完全なリセットを用いるときに、従来の概念を用いるよりも元の信号に近い合成された信号をもたらすことができる。さらに、実施形態は、より長いオーバーラップおよび加算ウィンドウを可能にすることができ、さらに、それとともに時間領域エイリアシングキャンセルの改良された使用を可能にすることができる。実施形態は、音声コーダの不安定な状態を短くすることができるという利点を提供することができ、変換ベースのコーダから音声コーダへの遷移の間に生成されたアーチファクトを低減することができる。

本発明の方法の特定の実現要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協動する（または協働することができる）、電子的に可読の制御信号を格納したデジタル記憶媒体、特にディスク、ＤＶＤ、ＣＤを用いて実行することができる。

そのため、本発明は、一般に、機械可読のキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の１つを実行するために作動される。

したがって、言い換えれば、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。

前述のものは、特にその特定の実施形態に関して示されさらに説明されたが、その精神および範囲から逸脱することなく、構造および詳細においてさまざまな他の変更が可能であることは、当業者にとって理解されることである。さまざまな変更が、ここに開示される上位概念から逸脱することなく異なる実施形態に適合する際に可能でありさらに続く請求項によって理解されることは、理解されることである。

この目的は、請求項１に記載のオーディオエンコーダ、請求項６に記載のオーディオ信号のフレームを符号化するための方法、請求項７に記載のオーディオデコーダ、請求項１３に記載のオーディオ信号のフレームを復号化するための方法、および請求項１４に記載のコンピュータプログラムによって達成される。

Claims

符号化されたフレームを得るためにサンプリングされたオーディオ信号のフレームを符合化するために構成されるオーディオエンコーダ（１００）であって、そこにおいて、フレームは多数の時間領域オーディオサンプルを含み、前記オーディオエンコーダは、
オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するための予測符号化分析ステージ（１１０）、
フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するための周波数領域トランスフォーマ（１２０）、
フレームのための符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくかそれとも前記フレームスペクトルに基づくかを決定するための符合化領域決定器（１３０）、
前のフレームの符号化されたデータが前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくことを前記符合化領域決定器が決定するときに、切替え係数に関する情報を決定するためのコントローラ（１４０）、および
前記予測領域フレームに関する前記情報、前記係数に関する前記情報、前記切替え係数に関する前記情報および／または前記フレームスペクトルを符号化するための冗長性低減エンコーダ（１５０）を含む、オーディオエンコータ。
前記予測符号化分析ステージ（１１０）は、ＬＰＣ（ＬＰＣ＝線形予測符号化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ））分析に基づいて前記合成フィルタの前記係数に関する前記情報および前記予測領域フレームに関する前記情報を決定するために構成され、および／または、前記周波数領域トランスフォーマ（１２０）は、高速フーリエ変換（ＦＦＴ）または修正離散コサイン変換（ＭＤＣＴ）に基づいてオーディオサンプルの前記フレームを変換するために構成される、請求項１に記載のオーディオエンコーダ（１００）。
前記コントローラ（１４０）は、ＬＰＣ分析に基づいて合成フィルタのための係数に関する情報および切替え予測領域フレームに関する情報を前記切替え係数に関する情報として決定するために構成される、請求項１または請求項２に記載のオーディオエンコーダ（１００）。
前記コントローラ（１４０）は、前記切替え係数が前記前のフレームにオーバーラップするオーディオサンプルのフレームを表すように、前記切替え係数に関する前記情報を決定するために構成される、請求項１ないし請求項３の１つに記載のオーディオエンコーダ（１００）。
前記前のフレームにオーバーラップするオーディオサンプルの前記フレームは、前記前のフレームの終端に中心がある、請求項４に記載のオーディオエンコーダ（１００）。
前記コントローラ（１４０）は、前記前のフレームの復号化されたフレームスペクトルのハイパスフィルタにかけられたバージョンに基づいて前記切替え係数に関する前記情報を決定するために構成される、請求項１ないし請求項４の１つに記載のオーディオエンコーダ（１００）。
符号化されたフレームを得るためにサンプリングされたオーディオ信号のフレームを符号化するための方法であって、そこにおいて、フレームは多数の時間領域オーディオサンプルを含み、前記方法は、
オーディオサンプルのフレームに基づいて合成フィルタの係数に関する情報および予測領域フレームに関する情報を決定するステップ、
フレームスペクトルを得るためにオーディオサンプルのフレームを周波数領域に変換するステップ、
フレームのための符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくかそれとも前記フレームスペクトルに基づくかを決定するステップ、
前のフレームの符号化されたデータが前のフレームスペクトルに基づいて符号化されたときに、現在のフレームの符号化されたデータが前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づくことを決定するときに、切替え係数に関する情報を決定するステップ、および
前記予測領域フレームに関する前記情報、前記係数に関する前記情報、前記切替え係数に関する前記情報および／または前記フレームスペクトルを符号化するステップを含む、方法。
サンプリングされたオーディオ信号のフレームを得るために符号化されたフレームを復号化するためのオーディオデコーダ（２００）であって、そこにおいて、フレームは多数の時間領域オーディオサンプルを含み、前記オーディオデコーダは、
予測領域フレームに関する情報、合成フィルタのための係数に関する情報および／またはフレームスペクトルを得るために前記符号化されたフレームを復号化するための冗長性読出しデコーダ（２１０）、
前記合成フィルタのための前記係数に関する前記情報および前記予測領域フレームに関する前記情報に基づいてオーディオサンプルの予測されたフレームを決定するための予測合成ステージ（２２０）、
前記フレームスペクトルから変換されたフレームを得るために前記フレームスペクトルを前記時間領域に変換するための時間領域トランスフォーマ（２３０）、
前記サンプリングされたオーディオ信号の前記フレームを得るために前記変換されたフレームおよび前記予測されたフレームを結合するための結合器（２４０）、および
切替えプロセスを制御するためのコントローラ（２５０）であって、前記切替えプロセスは、前のフレームが変換されたフレームに基づきさらに現在のフレームが予測されたフレームに基づくときに行われ、前記コントローラ（２５０）は、前記切替えプロセスが行われるときに前記予測合成ステージ（２２０）が初期化されるように、前記予測合成ステージ（２２０）をトレーニングするために前記予測合成ステージ（２２０）に切替え係数を提供するために構成される、コントローラ（２５０）を含む、オーディオデコーダ。
前記冗長性低減デコーダ（２１０）は、前記符号化されたフレームから前記切替え係数に関する情報を復号化するために構成される、請求項８に記載のオーディオデコーダ（２００）。
前記予測合成ステージ（２２０）は、ＬＰＣ合成に基づいて前記予測フレームを決定するために構成され、および／または、前記時間領域トランスフォーマ（２３０）は、逆ＦＦＴまたは逆ＭＤＣＴに基づいて前記フレームスペクトルを前記時間領域に変換するために構成される、請求項８または請求項９に記載のオーディオデコーダ（２００）。
前記コントローラ（２５０）は、合成フィルタのための係数に関する前のフレーム情報および予測領域フレームに関する前のフレーム情報を得るために前記前のフレームを分析するために構成され、さらに、前記コントローラ（２５０）は、切替え係数として係数に関する前記前のフレーム情報を前記予測合成ステージ（２２０）に提供するために構成され、および／または、前記コントローラ（２５０）は、トレーニングするために前記予測合成ステージ（２２０）に前記予測領域フレームに関する前記前のフレーム情報をさらに提供するために構成される、請求項８ないし請求項１０の１つに記載のオーディオデコーダ（２００）。
前記予測合成ステージ（２２０）は、前記前のフレームの終端に中心がある切替え予測フレームを決定するために構成される、請求項８ないし請求項１１の１つに記載のオーディオデコーダ（２００）。
前記コントローラ（２５０）は、前記前のフレームのハイパスフィルタにかけられたバージョンを分析するために構成される、請求項８ないし請求項１２の１つに記載のオーディオデコーダ（２００）。
サンプリングされたオーディオ信号のフレームを得るために符号化されたフレームを復号化するための方法であって、そこにおいて、フレームは多数の時間領域オーディオサンプルを含み、前記方法は、
予測領域フレームに関する情報、合成フィルタのための係数に関する情報および／またはフレームスペクトルを得るために前記符号化されたフレームを復号化するステップ、
前記合成フィルタのための前記係数の前記情報および前記予測領域フレームに関する前記情報に基づいてオーディオサンプルの予測されたフレームを決定するステップ、
前記フレームスペクトルから変換されたフレームを得るために前記フレームスペクトルを前記時間領域に変換するステップ、
前記サンプリングされたオーディオ信号の前記フレームを得るために前記変換されたフレームおよび前記予測されたフレームを結合するステップ、および
切替えプロセスを制御するステップであって、前記切替えプロセスは、前のフレームが前記変換されたフレームに基づきさらに現在のフレームが前記予測されたフレームに基づくときに行われる、ステップ、
前記切替えプロセスが行われるときに予測合成ステージが初期化されるようにトレーニングするために切替え係数を提供するステップを含む、方法。
コンピュータプログラムがコンピュータまたはプロセッサ上で実行されるときに、請求項７または請求項１４の方法の１つを実行するためのプログラムコードを有するコンピュータプログラム。