JP2019194711A

JP2019194711A - スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム

Info

Publication number: JP2019194711A
Application number: JP2019106415A
Authority: JP
Inventors: エマニュエルラベリ; Ravelli Emmanuel; ギヨームフックス; Guillaume Fuchs; サッシャディスヒ; Sasha Disching; マルクスマルトラス; Multrus Markus; グジェゴジュピェトルズィク; Pietrzyk Grzegorz; ベンヤミンシューベルト; schubert Benjamin
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-28
Filing date: 2019-06-06
Publication date: 2019-11-07
Anticipated expiration: 2035-07-23
Also published as: AR101288A1; JP6538820B2; RU2682025C2; US20220076685A1; US11170797B2; CN112951255A; US20200160874A1; MX2017001244A; EP3175453B1; JP2022174077A; US10325611B2; JP2017528753A; RU2017106091A3; US20170133026A1; TWI588818B; CA2954325A1; TR201815658T4; PT3175453T; PL3175453T3; ES2690256T3

Abstract

【課題】異なるコーディング・モード間のスイッチングのために改善されたオーディオ・デコーダを提供する。【解決手段】オーディオ・デコーダは、第１の復号オーディオ情報１２２を提供する線形予測領域デコーダ１２０と、第２の復号オーディオ情報１３２を提供する周波数領域デコーダ１３０と、遷移処理装置１４０とを備える。遷移処理装置１４０は、線形予測フィルタリングのゼロ入力応答を取得する。線形予測フィルタリングの初期状態は、第１の復号オーディオ情報及び第２の復号オーディオ情報に依存して定義される。遷移処理装置は、第２の復号オーディオ情報を修正１５２し、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームを処理する。【選択図】図１

Description

１．技術分野
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するオーディオ・デコーダに関する。

本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法に関する。

本発明に係るもう一つの実施形態は、上述の方法を実行するコンピュータ・プログラムに関する。

概して、本発明に係る実施形態は、スイッチド・オーディオ・コーディングにおけるＣＥＬＰコーデックからＭＤＣＴに基づくコーデックまでの遷移を取り扱うことに関する。

２．発明の背景
近年、符号化オーディオ情報を伝送すること及び保存することに対する要求が増加してきている。スピーチ及び一般的なオーディオ（例えば、音楽、背景ノイズ等）の両方を備えるオーディオ信号のオーディオ符号化及びオーディオ復号に対する要求もまた増加している。

コーディング品質を改善するために、且つビットレート効率を改善するためにも、例えば、第１の符号化コンセプト（例えば、ＣＥＬＰに基づくコーディング・コンセプト）を用いて第１のフレームが符号化されるように、且つ異なる第２のコーディング・コンセプト（例えば、ＭＤＣＴに基づくコーディング・コンセプト）を用いて後に続く第２のオーディオ・フレームが符号化されるように、スイッチド（又はスイッチング）オーディオ・コーデックは、異なるコーディング体系の間で切り替えられることを導入されてきた。言い換えると、これらは、（例えば、ＣＥＬＰに基づくコーディング・コンセプトを用いる）線形予測コーディング領域における符号化と、周波数領域におけるコーディング（例えば、ＦＦＴ変換、逆ＦＦＴ変換、ＭＤＣＴ変換又は逆ＭＤＣＴ変換等の時間領域−周波数
領域変換又は周波数領域−時間領域変換に基づくコーディング）との間でのスイッチングであり得る。例えば、第１のコーディング・コンセプトは、ＣＥＬＰに基づくコーディング・コンセプト、ＡＣＥＬＰに基づくコーディング・コンセプト、変換コード化励起線形予測領域に基づくコーディング・コンセプト等であり得る。第２のコーディング・コンセプトは、例えば、ＦＦＴに基づくコーディング・コンセプト、ＭＤＣＴに基づくコーディング・コンセプト、ＡＡＣに基づくコーディング・コンセプト、又はＡＡＣに基づくコーディング・コンセプトの後継者のコンセプトとして考慮され得るコーディング・コンセプトであり得る。

以下において、従来のオーディオ・コーダ（エンコーダ及び／又はデコーダ）の幾つかの例が記述されるだろう。

例えば、ＭＰＥＧＵＳＡＣのようなスイッチド・オーディオ・コーデックは、２つの主たるオーディオ・コーディング体系に基づく。１つのコーディング体系は、例えば、ＣＥＬＰコーデックであり、スピーチ信号を目的とする。他のコーディング体系は、例えば、（以下において単純にＭＤＣＴと呼ばれる）ＭＤＣＴに基づくコーデックであり、全ての他のオーディオ信号（例えば、音楽背景ノイズ）を目的とする。混合コンテンツ信号（例えば、音楽を覆うスピーチ）で、エンコーダは、（及びその結果としてデコーダも、）しばしば２つの符号化体系の間で切り替わる。それ故に、１つのモード（又は符号化体系）からもう一つに切り替わるとき、如何なるアーチファクト（例えば、不連続性に起因するクリック）も回避する必要がある。

スイッチド・オーディオ・コーデックは、例えば、ＣＥＬＰ−ＭＤＣＴ変換によって引き起こされる問題を備え得る。

ＣＥＬＰ−ＭＤＣＴ変換は、一般に、２つの問題を導入する。エイリアシングは、欠落した以前のＭＤＣＴフレームに起因して導入され得る。不連続性は、低い／中位のビットレートで操作する（ｏｐｅｒａｔｉｎｇ）２つのコーディング体系の性質をコーディングする完全でない波形に起因して、ＣＥＬＰフレームとＭＤＣＴフレームとの間での境界に導入され得る。

数個のアプローチが、ＣＥＬＰ−ＭＤＣＴ変換によって導入される問題を解決するために既に存在し、且つ以下において議論されるだろう。

考えられるアプローチは、ジェレミー・ルコント、フィリップ・グールネー、ラルフ・ガイガー、ブルーノ・ベセテ及びマックス・ノイエンドルフによって（第１２６回ＡＥＳ会議、２００９年５月、論文７７１で提案された）論説「ＬＰＣに基づく及び非ＬＰＣに基づくオーディオ・コーディングの間での遷移のための効率的なクロスフェード・ウィンドウ」において記述される。この論説は、セクション４．４．２「ＡＣＥＬＰ−非ＬＰＤモード」においてアプローチを記述する。参照は、例えば、上述の論説の図８にもまたなされる。それ故に、重複が減じられるようにＭＤＣＴウィンドウの左部を変更することによって、且つ最終的に、欠落し、エイリアシングし、用いるＣＥＬＰ信号並びに重複及び追加の操作を人工的に導入することによって、ＭＤＣＴ左屈曲点がＣＥＬＰとＭＤＣＴフレームの間の境界の左で動かされるように、エイリアシング問題は、ＭＤＣＴ長さを（ここでは１０２４から１１５２まで）増加させることによってまず初めに解決される。不連続性問題は、重複及び追加の操作によって同時に解決される。

このアプローチは、良好に働くが、ＣＥＬＰデコーダにおける遅延を導入する不利益を有し、その遅延は重複長さに等しい（ここでは１２８サンプル）。

もう一つのアプローチは、ブルーノ・ベセテによる２０１４年５月１３日付け「荷重又は元の信号領域におけるアプリケーションを伴う、転送の時間領域のエイリアシングのキャンセル」という表題のＵＳ８，７２５，５０３Ｂ２において記述される。

このアプローチにおいて、ＭＤＣＴ長さ（及びＭＤＣＴウィンドウ形状）は変更されない。エイリアシング問題は、ここでは、別個の変換に基づくエンコーダを用いてエイリアシング訂正信号を符号化することによって解決される。追加のサイド情報ビットは、ビットストリームへと送信される。デコーダは、エイリアシング訂正信号を再構成し、且つ復号ＭＤＣＴフレームのためにそれを追加する。加えて、ＣＥＬＰ合成フィルタのゼロ入力応答（ＺＩＲ）は、エイリアシング訂正信号の振幅を減じるために、且つコーディング効率を改善するために用いられる。ＺＩＲは、不連続性問題を著しく減じることもまた助ける。

このアプローチは良好に働きもするが、不利益は、それがかなり量の追加のサイド情報を要求し、且つ要求されるビットの数が一定のビットレート・コーデックに適切でない、一般に変化し易いことである。

もう一つのアプローチは、ステファーヌ・ラゴット、バラシ・コベシ（ＢａｌａｚｓＫｏｖｅｓｉ）及びピエール・ベルトエト（ＰｉｅｒｒｅＢｅｒｔｈｅｔ）による２０１３年１０月３１日付け「予測符号化と変換符号化を交互に行う低遅延サウンド符号化」という表題の米国特許出願ＵＳ２０１３／０２８９９８１Ａ１において記述される。上述のアプローチによると、ＭＤＣＴは変更されないが、ＭＤＣＴウィンドウの左部が重複長さを減じるために変更される。エイリアシング問題を解決するために、ＭＤＣＴフレームの開始は、ＣＥＬＰコーデックを用いてコード化され、且つそれ故に、ＣＥＬＰ信号は、ＭＤＣＴ信号を完全に置き換えること、又は（ジェレミー・ルコント及びその他の者による上述した論説と同様に）欠落したエイリアシング・コンポーネントを人工的に導入することのどちらかによって、エイリアシングをキャンセルするために用いられる。不連続性問題は、ジェレミー・ルコント及びその他の者による論説と同様のアプローチが用いられる場合、重複追加操作によって解決され、さもなければ、それは、ＣＥＬＰ信号とＭＤＣＴ信号の間での単純なクロスフェード操作によって解決される。

ＵＳ８，７２５，５０３Ｂ２と同様に、このアプローチは、一般に良好に働くが、不利益は、それが、追加のＣＥＬＰによって導入される、かなりの量のサイド情報を要求することである。

上記した従来の解決策の点から見て、異なるコーディング・モードの間でのスイッチングのために改善された特性（例えば、ビットレート・オーバーヘッド、遅延及び複雑さの間での改善されたトレードオフ）を備えるコンセプトを有することが望まれる。

３．発明の概要
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するためにオーディオ・デコーダを創造する。オーディオ・デコーダは、線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報を提供するように構成される線形予測領域デコーダと、周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報を提供するように構成される周波数領域デコーダとを備える。オーディオ・デコーダは、遷移処理装置をさらに備える。遷移処理装置は、線形予測フィルタリングのゼロ入力応答を取得するように構成され、線形予測フィルタリングの初期状態は、第１の復号オーディオ情報及び第２の復号オーディオ情報に依存して定義される。遷移処理装置は、第２の復号オーディオ情報を修正するようにさ
らに構成され、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される。

線形予測フィルタリングの初期状態が第１の復号オーディオ情報及び第２の復号オーディオ情報の両方を考慮するという条件で、このオーディオ・デコーダは、線形予測領域において符号化されるオーディオ・フレームと周波数領域において符号化される後に続くオーディオ・フレームとの間でのスムーズな遷移が、第２の復号オーディオ情報を修正するために線形予測フィルタのゼロ入力応答を用いることによって達成され得るフィルタリングに基づく。それに応じて、第２の復号オーディオ情報は、修正された第２の復号オーディオ情報の開始が第１の復号オーディオ情報の終了と同様であるように適合され（修正され）得、第１のオーディオ・フレームと第２のオーディオ・フレームとの間での相当な不連続性を減じること又は回避さえすることも助ける。上述したオーディオ・デコーダと比較した場合、たとえ、第２の復号オーディオ情報が如何なるエイリアシングも備えないとしても、コンセプトは一般に適用可能である。その上、用語「線形予測フィルタリング」は、線形予測フィルタの単独のアプリケーション、及び線形予測フィルタの複合的なアプリケーションの両方を示し得ることが留意されるべきである。線形予測フィルタリングの単独のアプリケーションは、典型的には同一の線形予測フィルタの複合的なアプリケーションに等しいことが留意されるべきである。これは、線形予測フィルタが典型的には線形であるためである。

結論として、上述したオーディオ・デコーダは、線形予測領域において符号化される第１のオーディオ・フレームと周波数領域（又は変換領域）において符号化される後に続く第２のオーディオ・フレームとの間でのスムーズな遷移を取得することを許し、遅延が導入されず、且つ計算労力が比較的小さい。

本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するオーディオ・デコーダを創造する。オーディオ・デコーダは、線形予測領域において（又は、同等に、線形予測領域表現において）符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報を提供するように構成される線形予測領域デコーダを備える。オーディオ・デコーダは、周波数領域において（又は、同等に、周波数領域表現において）符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報を提供するように構成される周波数領域デコーダをさらに備える。オーディオ・デコーダは、遷移処理装置をさらに備える。遷移処理装置は、第１の復号オーディオ情報によって定義される線形予測フィルタの第１の初期状態に応答して線形予測フィルタの第１のゼロ入力応答を取得するように、且つ人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報の一部の寄与を備える、第１の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタの第２の初期状態に応答して線形予測フィルタの第２のゼロ入力応答を取得するように構成される。代わりに、遷移処理装置は、第１の復号オーディオ情報と、人工的なエイリアシングを提供され且つ第２の復号オーディオ情報の一部の寄与を備える第１の復号オーディオ情報の修正バージョンとの結合によって定義される線形予測フィルタの初期状態に応答して線形予測フィルタの結合ゼロ入力応答を取得するように構成される。遷移処理装置は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、第１のゼロ入力応答及び第２のゼロ入力応答に依存して、又は結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報を修正するようにさらに構成される。

本発明に係るこの実施形態は、線形予測領域において符号化されるオーディオ・フレームと周波数領域において（又は、一般に、変換領域において）符号化される後に続くオーディオ・フレームとの間でのスムーズな遷移が、線形予測フィルタのゼロ入力応答であり、その初期状態が第１の復号オーディオ情報及び第２の復号オーディオ情報の両方によって定義される信号に基づいて第２の復号オーディオ情報を修正することによって取得され得るということの発見に基づく。（線形予測領域において符号化されるオーディオ・フレームに関連付けられる）第１の復号オーディオ情報と（周波数領域において又は変換領域において符号化されるオーディオ・フレームに関連付けられる）修正された第２の復号オーディオ情報との間でのスムーズな遷移が、第１の復号オーディオ情報を改める必要性なく存在するように、そのような線形予測フィルタの出力信号は、第２の復号オーディオ情報（例えば、第１のオーディオ・フレームと第２のオーディオ・フレームとの間での遷移の直後に続く、第２の復号オーディオ情報の初期部）を適合させるために用いられ得る。

線形予測フィルタのゼロ入力応答は、スムーズな遷移を提供するのに好適であることが発見された。これは、線形予測フィルタの初期状態が第１の復号オーディオ情報及び第２の復号オーディオ情報の両方に基づくためである。第２の復号オーディオ情報において含まれるエイリアシングは、第１の復号オーディオ情報の修正バージョンへと導入される、人工的なエイリアシングによって補われる。

また、復号遅延が、第１のゼロ入力応答及び第２のゼロ入力応答に基づいて、又は結合ゼロ入力応答に依存して、一方で、第１の復号オーディオ情報を変更しないで、第２の復号オーディオ情報を修正することによって要求されないことが発見された。これは、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答が、第１の復号オーディオ情報を変更せずに、線形予測領域において符号化されるオーディオ・フレームと周波数領域（又は変換領域）において符号化される後に続くオーディオ・フレームとの間での遷移をスムーズにすることに非常に良好に適合されるためである。これは、第２の復号オーディオ情報が、少なくとも、線形予測領域において符号化されるオーディオ・フレームと周波数領域において符号化される後に続くオーディオ・フレームとの間の遷移で、第１の復号オーディオ情報と実質的に同様であるように、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答が第２の復号オーディオ情報を修正するためである。

結論として、本発明に係る上記した実施形態は、線形予測コーディング領域において符号化されるオーディオ・フレームと周波数領域（又は変換領域）において符号化される後に続くオーディオ・フレームとの間でのスムーズな遷移を提供することを許す。（周波数領域において符号化される後に続くオーディオ・フレームに関連付けられる）第２の復号オーディオ情報のみが修正されるので、追加遅延の導入が回避される。また、（実質的なアーチファクトなしの）遷移の高品質は、第１の復号オーディオ情報及び第２のオーディオ情報の両方の考慮の結果として生じる、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答の使用によって達成され得る。

好ましい実施形態において、第２の復号オーディオ情報がエイリアシングを備えるように、周波数領域デコーダは逆重複変換を実行するように構成される。上記の発明に関するコンセプトは、周波数領域デコーダ（又は変換領域デコーダ）がエイリアシングを導入する場合においてさえ、特に良好に働くことが発見された。上述のエイリアシングは、第１の復号オーディオ情報の修正バージョンにおける人工的なエイリアシングの提供によって適度な労力及び良好な結果を用いてキャンセルされ得る。

好ましい実施形態において、第２の復号オーディオ情報が、線形予測領域デコーダが第１の復号オーディオ情報を提供するための時間部と時間的に重複する時間部においてエイリアシングを備えるように、且つ第２の復号オーディオ情報が、線形予測領域デコーダが
第１の復号オーディオ情報を提供するための時間部の後に続く時間部のためにエイリアシングがないように、周波数領域デコーダは、逆重複変換を実行するように構成される。本発明に係るこの実施形態は、第１の復号オーディオ情報が提供されず、エイリアシングがないために、重複変換（又は逆重複変換）及び時間部を維持するウィンドウ処理を用いることが有益であるというアイデアに基づく。提供される第１の復号オーディオ情報がないために時間に対するエイリアシング・キャンセル情報を提供する必要性がない場合、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答は、小さい計算労力を提供され得ることが発見された。言い換えると、（例えば、人工的なエイリアシングを用いて）エイリアシングの初期状態が実質的にキャンセルされる初期状態に基づいて、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答を提供することが好ましい。その結果として、線形予測領域デコーダが第１の復号オーディオ情報を提供するために時間周期の後に続く時間周期に対する第２の復号オーディオ情報の中でエイリアシングを有しないことが望ましいように、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答は、実質的にエイリアシングがない。この問題に関して、第２の復号オーディオ情報及び、典型的には、「重複」時間周期のための第２の復号オーディオ情報において含まれるエイリアシングを補う人工的なエイリアシングを考慮して、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答が、実質的に第１の復号オーディオ情報の減衰連続であるので、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答は、線形予測領域デコーダが第１の復号オーディオ情報を提供するための時間周期の後に続く上述の時間周期のために典型的には提供されることが留意されるべきである。

好ましい実施形態において、第１の復号オーディオ情報の修正バージョンを取得するために用いられる、第２の復号オーディオ情報の一部は、エイリアシングを備える。第２の復号オーディオ情報の中で幾つかのエイリアシングを許すことによって、ウィンドウ処理が単純に維持され得、且つ周波数領域において符号化されるオーディオ・フレームを符号化することに必要とされる情報の過度な増加が回避され得る。オーディオ品質の深刻な劣化がないように、第１の復号オーディオ情報の修正バージョンを取得するために用いられる第２の復号オーディオ情報の一部において含まれる、エイリアシングは、上述した人工的なエイリアシングによって補われ得る。

好ましい実施形態において、第１の復号オーディオ情報の修正バージョンを取得するために用いられる人工的なエイリアシングは、第２の復号オーディオ情報の一部において含まれるエイリアシングを少なくとも部分的に備え、第１の復号オーディオ情報の修正バージョンを取得するために用いられる。それに応じて、良好なオーディオ品質が取得され得る。

好ましい実施形態において、遷移処理装置は、第１の復号オーディオのウィンドウ処理（ｗｉｎｄｏｗｅｄ）バージョンを取得するために、第１のウィンドウ処理を第１の復号オーディオ情報に適用するように、且つ第１の復号オーディオ情報の時間鏡映（ｔｉｍｅ−ｍｉｒｒｏｒｅｄ）バージョンのウィンドウ処理バージョンを取得するために、第２のウィンドウ処理を第１の復号オーディオ情報の時間鏡映バージョンに適用するように構成される。この場合において、遷移処理装置は、第１の復号オーディオ情報の修正バージョンを取得するために、第１の復号オーディオ情報のウィンドウ処理バージョンと、第１の復号オーディオ情報の時間鏡映バージョンのウィンドウ処理バージョンとを結合するように構成され得る。本発明に係るこの実施形態は、幾つかのウィンドウ処理がゼロ入力応答の提供のために入力として用いられる、第１の復号オーディオ情報の修正バージョンにおいてエイリアシングの適切なキャンセルを取得するために適用されるべきであるというアイデアに基づく。それに応じて、ゼロ入力応答（例えば、第２のゼロ入力応答又は結合ゼロ入力応答）が、線形予測コーディング領域において符号化されるオーディオ情報と周波数領域において符号化される後に続くオーディオ・フレームとの間での遷移のスムーズさ
にとって非常に好適に達成され得る。

好ましい実施形態において、遷移処理装置は、修正された第２の復号オーディオ情報を取得するために、第１の復号オーディオ情報が線形予測領域デコーダによって提供されない時間部に対して、第２の復号オーディオ情報と、第１のゼロ入力応答及び第２のゼロ入力応答と又は結合ゼロ入力応答とを線形的に結合するように構成される。単純な線形結合（例えば、単純な加算及び／若しくは減算、荷重線形結合又はクロスフェードする線形結合）は、スムーズな遷移の提供にとって好適であることが発見された。

好ましい実施形態において、線形予測領域において符号化されるオーディオ・フレームに提供される復号オーディオ情報が、周波数領域において符号化される後に続くオーディオ・フレームに提供される復号オーディオ情報から独立して提供されるように、遷移処理装置は、線形予測領域において符号化されるオーディオ・フレームのために復号オーディオ情報を提供するとき、第２の復号オーディオ情報によって第１の復号オーディオ情報を変更しないように構成される。本発明に係るコンセプトは、十分にスムーズな遷移を取得するために、第２の復号オーディオ情報に基づいて第１の復号オーディオ情報を変更することを要求しないことが発見された。それ故に、第２の復号オーディオ情報によって第１の復号オーディオ情報を変更しないことによって、遅延が回避され得る。これは、（周波数領域において符号化される後に続くオーディオ・フレームに関連付けられる）第２の復号オーディオ情報の復号が完了する前でさえ、第１の復号オーディオ情報が（例えば、リスナーに対する）レンダリングのためにその結果として提供され得るためである。その一方で、ゼロ入力応答（第１の及び第２のゼロ入力応答、又は結合ゼロ入力応答）は、第２の復号オーディオ情報が利用可能であると直ぐに計算され得る。それ故に、遅延が回避され得る。

好ましい実施形態において、オーディオ・デコーダは、周波数領域において符号化されるオーディオ・フレームの復号よりも前に、（又は復号の完了よりも前に、）周波数領域において符号化されるオーディオ・フレームが後に続く、線形予測領域において符号化されるオーディオ・フレームのために完全な符号化オーディオ情報を提供するように構成される。このコンセプトは、第１の復号オーディオ情報が、第２の復号オーディオ情報に基づいて修正されず、且つ如何なる遅延も回避することを助けるという事実に起因して可能である。

好ましい実施形態において、遷移処理装置は、ウィンドウ処理される第１のゼロ入力応答及びウィンドウ処理される第２のゼロ入力応答に依存して、又はウィンドウ処理される結合ゼロ入力応答に依存して、第２の復号オーディオ情報を修正する前に、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答をウィンドウ処理するように構成される。それに応じて、遷移が特にスムーズになされ得る。また、非常に長いゼロ入力応答から結果として生じるであろう如何なる問題も回避され得る。

好ましい実施形態において、遷移処理装置は、線形的なウィンドウ処理を用いて、第１のゼロ入力応答及び第２のゼロ入力応答、又は結合ゼロ入力応答をウィンドウ処理するように構成される。線形的なウィンドウ処理の使用は、良好なヒアリング印象をもたらすにも拘わらず、単純なコンセプトであることが発見された。

本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法を創造する。方法は、線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報を提供するために線形予測領域の復号を実行するステップをさらに備える。方法は、周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報を提供するために周波数領域の復号を実行するステ
ップをさらに備える。方法は、人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報の一部の寄与を備える、第１の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタリングの第１の初期状態に応答して線形予測フィルタリングの第１のゼロ入力応答を取得するステップと、第１の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタリングの第２の初期状態に応答して線形予測フィルタリングの第２のゼロ入力応答を取得するステップと、をさらに備える。代わりに、方法は、人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報の一部の寄与を備える、第１の復号オーディオ情報と第１の復号オーディオ情報の修正バージョンとの結合によって定義される、線形予測フィルタリングの初期状態に応答して線形予測フィルタリングの結合ゼロ入力応答を取得するステップを備える。方法は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、第１のゼロ入力応答及び第２のゼロ入力応答に依存して、又は結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報を修正するステップをさらに備える。この方法は、上述したオーディオ・デコーダと同様の考慮に基づき、且つ同じ有益をもたらす。

本発明に係るもう一つの実施形態は、コンピュータ・プログラムがコンピュータで動作するとき、上述の方法を実行するコンピュータ・プログラムを創造する。

本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法を創造する。方法は、線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報を提供するステップを備える。方法は、周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報を提供するステップをさらに備える。方法は、線形予測フィルタリングのゼロ入力応答を取得するステップをさらに備える。線形予測フィルタリングの初期状態は、第１の復号オーディオ情報及び第２の復号オーディオ情報に依存して定義される。方法は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報を修正するステップをさらに備える。

この方法は、上述したオーディオ・デコーダと同様の考慮に基づく。

本発明に係るもう一つの実施形態は、上述の方法を実行するコンピュータ・プログラムを備える。

４．図面の簡単な説明
本発明に係る実施形態は、次の添付図面を参照して後に記述されるだろう。

図１は、本発明の一実施形態に係るオーディオ・デコーダの略ブロック図を示す。図２は、本発明のもう一つの実施形態に係る、オーディオ・デコーダの略ブロック図を示す。図３は、本発明のもう一つの実施形態に係る、オーディオ・エンコーダの略ブロック図を示す。図４Ａは、ＭＤＣＴ符号化オーディオ・フレームからもう一つのＭＤＣＴ符号化オーディオ・フレームまでの遷移でのウィンドウの略図を示す。図４Ｂは、ＣＥＬＰ符号化オーディオ・フレームからＭＤＣＴ符号化オーディオ・フレームまでの遷移のために用いられるウィンドウの略図を示す。（Ａ），（Ｂ）及び（Ｃ）は、従来のオーディオ・デコーダにおけるオーディオ信号のグラフ表現を示す。（Ａ），（Ｂ），（Ｃ）及び（Ｄ）は、従来のオーディオ・デコーダにおけるオーディオ信号のグラフ表現を示す。図７Ａは、以前のＣＥＬＰフレームに及び第１のゼロ入力応答に基づいて取得されるオーディオ信号のグラフ表現を示す。図７Ｂは、以前のＣＥＬＰフレームの、及び及び第２のゼロ入力応答の第２のバージョンである、オーディオ信号のグラフ表現を示す。第２のゼロ入力応答が現在のＭＤＣＴフレームのオーディオ信号から減じられる場合、取得されるオーディオ信号のグラフ表現を示す。以前のＣＥＬＰフレームに基づいて取得されるオーディオ信号のグラフ表現を示す。現在のＭＤＣＴフレームの第２のバージョンとして取得される、オーディオ信号のグラフ表現を示す。以前のＣＥＬＰフレームに及びＭＤＣＴフレームの第２のバージョンであるオーディオ信号に基づいて取得されるオーディオ信号の結合である、オーディオ信号のグラフ表現を示す。本発明の実施形態に係る、復号オーディオ情報を提供する方法のフロー・チャートを示す。本発明のもう一つの実施形態に係る、復号オーディオ情報を提供する方法のフロー・チャートを示す。

５．実施形態の詳細な説明
５．１．図１係るオーディオ・デコーダ
図１は、本発明の一実施形態に係る、オーディオ・デコーダ１００の略ブロック図を示す。オーディオ・エンコーダ１００は、例えば、線形予測領域において符号化される第１のフレーム、及び周波数領域において符号化される後に続く第２のフレームを備え得る、符号化オーディオ情報１１０を受信するように構成される。オーディオ・デコーダ１００は、符号化オーディオ情報１１０に基づいて復号オーディオ情報１１２を提供するようにもまた構成される。

オーディオ・デコーダ１００は、線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報１２２を提供するように構成される、線形予測領域デコーダ１２０を備える。オーディオ・デコーダ１００は、周波数領域において（又は変換領域において）符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報１３２を提供するように構成される、周波数領域デコーダ（又は変換領域デコーダ１３０）をさらに備える。例えば、線形予測領域デコーダ１２０は、ＣＥＬＰデコーダ、ＡＣＥＬＰデコーダ、又は音源信号に基づいて且つ線形予測フィルタ特性（又はフィルタ係数）の符号化表現に基づいて線形予測フィルタリングを実行する同様のデコーダであり得る。

周波数領域デコーダ１３０は、例えば、ＡＡＣタイプ・デコーダ又はＡＡＣタイプ復号に基づく如何なるデコーダでもあり得る。例えば、周波数領域デコーダ（又は変換領域デコーダ）は、周波数領域パラメータ（又は変換領域パラメータ）の符号化表現を受信し、且つ、それに基づいて、第２の復号オーディオ情報を提供し得る。例えば、周波数領域デコーダ１３０は、周波数領域係数を復号し（又は領域係数を変換し）、スケール因子（スケール因子は、異なる周波数バンドに提供され得、且つ異なるフォームで表現され得る）に依存して、周波数領域係数を計り（又は領域係数を変換し）、且つ例えば、逆高速フー
リエ変換又は逆修正離散的コサイン変換（逆ＭＤＣＴ）等の周波数領域−時間領域転換（又は変換領域−時間領域転換）を実行し得る。

オーディオ・デコーダ１００は、遷移処理装置１４０をさらに備える。遷移処理装置１４０は、線形予測フィルタリングのゼロ入力応答を取得するように構成される。線形予測フィルタリングの初期状態は、第１の復号オーディオ情報及び第２の復号オーディオ情報に依存して定義される。その上、遷移処理装置１４０は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報１３２を修正するように構成される。

例えば、遷移処理装置１４０は、第１の復号オーディオ情報１２２及び第２の復号オーディオ情報１３２を受信し、且つ、それに基づいて、初期状態情報１４６を提供する、初期状態決定１４４を備え得る。遷移処理装置１４０は、初期状態情報１４６を受信し、且つ、それに基づいて、ゼロ入力応答１５０を提供する、線形予測フィルタリング１４８をさらに備える。例えば、線形予測フィルタリングは、初期状態情報１４６に基づいて初期化され、且つゼロ入力を提供される、線形予測フィルタによって実行され得る。それに応じて、線形予測フィルタリングは、ゼロ入力応答１５０を提供する。遷移処理装置１４０は、遷移処理装置１４０の出力情報を構成する、修正された第２の復号オーディオ情報１４２をそれによって取得するために、ゼロ入力応答１５０に依存して第２の復号オーディオ情報１３２を修正する、修正１５２をさらに備える。修正された第２の復号オーディオ情報１４２は、復号オーディオ情報１１２を取得するために、典型的には第１の復号オーディオ情報１２２に連結される。

オーディオ・デコーダ１００の機能性に関して、その場合は、線形予測領域において符号化されるオーディオ・フレーム（第１のオーディオ・フレーム）が、周波数領域において符号化されるオーディオ・フレーム（第２のオーディオ・フレーム）が後に続くことを考慮されるべきである。線形予測領域において符号化される、第１のオーディオ・フレームは、線形予測領域デコーダ１２０によって復号されるだろう。それに応じて、第１の復号オーディオ情報１２２は、第１のオーディオ・フレームに関連付けられ、取得される。しかしながら、第１のオーディオ・フレームに関連付けられる復号オーディオ情報１２２は、周波数領域において符号化される、第２のオーディオ・フレームに基づいて復号される如何なるオーディオ情報によっても典型的には影響を及ぼされないままである。しかしながら、第２の復号オーディオ情報１３２は、周波数領域において符号化される第２のオーディオ・フレームに基づいて周波数領域デコーダ１３０によって提供される。

不幸にも、第２のオーディオ・フレームに関連付けられる、第２の復号オーディオ情報１３２は、第１の復号オーディオ情報に関連付けられる第１の復号オーディオ情報１２２を伴うスムーズな遷移を典型的には備えない。

しかしながら、第２の復号オーディオ情報は、第１のオーディオ・フレームに関連付けられる時間の周期にさらに重複する時間の周期に提供されることが留意されるべきである。第１のオーディオ・フレームの時間に提供される、第２の復号オーディオ情報の一部（すなわち、第２の復号オーディオ情報１３２の初期部）は、初期状態決定１４４によって評価される。その上、初期状態決定１４４は、第１の復号オーディオ情報の少なくとも一部をさらに評価する。それに応じて、初期状態決定１４４は、（その一部が第１のオーディオ・フレームの時間に関連付けられる）第１の復号オーディオ情報の一部に基づいて、且つ（第２の復号オーディオ情報１３０の一部が第１のオーディオ・フレームの時間にもまた関連付けられる）第２の復号オーディオ情報の一部に基づいて、初期状態情報１４６
を取得する。それに応じて、初期状態情報１４６は、第１の復号情報１３２に依存して、且つ第２の復号オーディオ情報にもまた依存して、提供される。

初期状態情報１４６は、第２の復号オーディオ情報１３２（又は初期状態決定１４４によって要求されるその少なくとも初期部）が利用可能であると直ぐに、提供され得ることが留意されるべきである。線形予測フィルタリング１４８は、初期状態情報１４６が利用可能であると直ぐに、さらに実行され得る。これは、線形予測フィルタリングが、第１のオーディオ・フレームの復号から既知であるフィルタリング係数を用いるためである。それに応じて、ゼロ入力応答１５０は、第２の復号オーディオ情報１３２（又は初期状態決定１４４によって要求されるその少なくとも初期部）が利用可能であると直ぐに、提供され得る。その上、ゼロ入力応答１５０は、（第１のオーディオ・フレームの時間よりもむしろ、）第２のオーディオ・フレームの時間に関連付けられる第２の復号オーディオ情報１３２の一部を修正するために用いられ得る。それに応じて、典型的には第２のオーディオ・フレームに関連付けられる時間の開始に横たわる、第２の復号オーディオ情報の一部は、修正される。その結果として、（典型的には第１のオーディオ・フレームに関連付けられる時間の終了で終了する）第１の復号オーディオ情報１２２と修正された第２の復号オーディオ情報１４２との間でのスムーズな遷移が達成される（第１のオーディオ・フレームに関連付けられる時間を有する第２の復号オーディオ情報１３２の時間部は、好ましくは切り捨てられ、且つ従って、線形予測フィルタリングのための初期状態情報の提供のためにのみ好ましくは用いられる）。それに応じて、全体的な復号オーディオ情報１１２が遅延を提供され得ない。これは、第１の復号オーディオ情報１２２の提供が遅延されないためであり、（なぜならば、第１の復号オーディオ情報１２２が第２の復号オーディオ情報１３２から独立しているためであり、）且つなぜならば、修正された第２の復号オーディオ情報１４２が、第２の復号オーディオ情報１３２が利用可能であると直ぐに、提供され得るためである。それに応じて、たとえ、線形予測領域において符号化されるオーディオ・フレーム（第１のオーディオ・フレーム）から周波数領域において符号化されるオーディオ・フレーム（第２のオーディオ・フレーム）に向かうスイッチングが存在するとしても、異なるオーディオ・フレームの間でのスムーズな遷移は、復号オーディオ情報１１２の中で達成され得る。

しかしながら、オーディオ・デコーダ１００は、ここで記述される特徴及び機能性の何れかによって補足され得ることが留意されるべきである。

５．２．図２に係るオーディオ・デコーダ
図２は、本発明のもう一つの実施形態に係る、オーディオ・デコーダの略ブロック図を示す。オーディオ・デコーダ２００は、符号化オーディオ情報２１０を受信するように構成され、例えば、線形予測領域において（又は同等に、線形予測領域表現において）符号化される１つ以上のフレームと、周波数領域において（又は、同等に、変換領域において、若しくは同等に周波数領域表現において、若しくは同等に変換領域表現において）符号化される１つ以上のオーディオ・フレームとを備える。オーディオ・デコーダ２００は、符号化オーディオ情報２１０に基づいて復号オーディオ情報２１２を提供するように構成される。復号オーディオ情報２１２は、例えば、時間領域表現であり得る。

オーディオ・デコーダ２００は、上記の説明が適用されるように、線形予測領域デコーダ１２０と実質的に同一である、線形予測領域デコーダ２２０を備える。それ故に、線形予測領域デコーダ２１０は、符号化オーディオ情報２１０において含まれる線形予測領域表現において符号化されるオーディオ・フレームを受信し、且つ線形予測領域表現において符号化されるオーディオ・フレームに基づいて、典型的には時間領域オーディオ表現の形式である、（且つ典型的には第１の復号オーディオ情報１２２に対応する、）第１の復号オーディオ情報２２２を提供する。オーディオ・デコーダ２００は、上記の説明が適用
されるように、周波数デコーダ１３０と実質的に同一である、周波数領域デコーダ２３０をさらに備える。それに応じて、周波数領域デコーダ２３０は、周波数領域表現において（又は変換領域表現において）符号化されるオーディオ・フレームを受信し、且つ、それに基づいて、典型的には時間領域表現の形式である、第２の復号オーディオ情報２３２を提供する。

オーディオ・デコーダ２００は、それによって修正された第２の復号オーディオ情報２４２を導き出すために、第２の復号オーディオ情報２３２を修正するように構成される、遷移処理装置２４０をさらに備える。

遷移処理装置２４０は、第１の復号オーディオ情報２２２によって定義される線形予測フィルタの初期状態に応答して線形予測フィルタの第１のゼロ入力応答を取得するように構成される。遷移処理装置は、人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報２３２の一部の寄与を備える、第１の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタの第２の初期状態に応答して線形予測フィルタの第２のゼロ入力応答を取得するようにもまた構成される。例えば、遷移処理装置２４０は、第１の復号オーディオ情報２２２を受信し、且つそれに基づいて第１の初期状態情報２４４を提供する、初期状態決定２４２を備える。例えば、第１の初期状態情報２４４は、第１の復号オーディオ情報２２２の一部、例えば、第１のオーディオ・フレームのために関連付けられる時間部の終了に隣接する一部を単純に反映し得る。遷移処理装置２４０は、初期の線形予測フィルタ状態として第１の初期状態情報２４４を受信するように、且つ第１の初期状態情報２４４に基づいて、第１のゼロ入力応答２４８を提供するように構成される、（第１の）線形予測フィルタリング２４６をさらに備え得る。遷移処理装置２４０は、修正／エイリアシング追加／結合２５０をさらに備える。修正／エイリアシング追加／結合２５０は、第１の復号オーディオ情報２２２、又は少なくともその一部、（例えば、第１のオーディオ・フレームに関連付けられる時間部の終了に隣接する一部、）及び第２の復号情報２３２、又は少なくともその一部（例えば、典型的には第１のオーディオ・フレームに関連付けられる時間部の終了に配置される第２の復号オーディオ情報２３２の時間部。第２の復号オーディオ情報は、例えば、主として第２のオーディオ・フレームに関連付けられる時間部のためにだけでなく、ある程度まで、線形予測領域表現において符号化される第１のオーディオ・フレームに関連付けられる時間部の終了に、提供される）もさらに受信するように構成される。修正／エイリアシング追加／結合は、例えば、第２の初期状態情報２５２をそれによって取得するために、第１の復号オーディオ情報の時間部を修正し、第１の復号オーディオ情報の時間部に基づいて人工的なエイリアシングを追加し、且つ第２の復号オーディオ情報の時間部をさらに追加し得る。言い換えると、修正／エイリアシング追加／結合は、第２の初期状態決定の一部であり得る。第２の初期状態情報は、第２の初期状態情報に基づいて第２のゼロ入力応答２５６を提供するように構成される、第２の線形予測フィルタリング２５４の初期状態を決定する。

例えば、第１の線形予測フィルタリング及び第２の線形予測フィルタリングは、（線形予測領域表現において符号化される）第１のオーディオ・フレームのために線形予測領域デコーダ２２０によって提供される、フィルタ・セッティング（例えば、フィルタ係数）を用い得る。言い換えると、第１及び第２の線形予測フィルタリング２４６，２５４は、第１のオーディオ・フレームに関連付けられる第１の復号オーディオ情報２２２を取得するために線形予測領域デコーダ２２０によってもまた実行される同じ線形予測フィルタリングを実行し得る。しかしながら、第１及び第２の線形予測フィルタリング２４６，２５４の初期状態は、第１の初期状態決定２４４によって、且つ（修正／エイリアシング追加／結合を備える）第２の初期状態決定２５０によって、決定される値にセットされ得る。しかしながら、線形予測フィルタ２４６，２５４の入力信号は、ゼロにセットされ得る。それに応じて、第１のゼロ入力応答２４８及び第２のゼロ入力応答２５６は、第１のゼロ
入力応答及び第２のゼロ入力応答が第１の復号オーディオ情報及び第２の復号オーディオ情報に基づき、且つ線形予測領域デコーダ２２０によって用いられる同じ線形予測フィルタを用いて形成されるように、取得される。

遷移処理装置２４０は、修正された第２の復号オーディオ情報２４２をそれによって取得するために、第１のゼロ入力応答２４８に依存して、且つ第２のゼロ入力応答２５６に依存して、第２の符号化オーディオ情報２３２を受信し、且つ第２の復号オーディオ情報２３２を修正する、修正２５８をさらに備える。例えば、修正２５８は、修正された第２の復号オーディオ情報２４２を取得するために、第２の復号オーディオ情報２３２に又はから第１のゼロ入力応答２４８を加算及び／又は減算し得、且つ第２の復号オーディオ情報に又はから第２のゼロ入力応答２５６を加算及び／又は減算し得る。

例えば、第１のゼロ入力応答及び第２のゼロ入力応答は、第２のオーディオ・フレームの時間周期に関連付けられる第２の復号オーディオ情報の一部のみが修正されるように、第２のオーディオ・フレームに関連付けられる時間周期に提供され得る。その上、第１のオーディオ・フレームに関連付けられる時間部に関連付けられる第２の復号オーディオ情報２３２の値は、（ゼロ入力応答に基づいて）修正された第２の復号オーディオ情報の最終的な提供において切り捨てられ得る。

その上、オーディオ・デコーダ２００は、全体的な復号オーディオ情報２１２をそれによって取得するために、第１の復号オーディオ情報２２２と修正された第２の復号オーディオ情報２４２とを連結するように構成されることが好ましい。

オーディオ・デコーダ２００の機能性に関して、参照は、オーディオ・デコーダ１００の上記の説明になされる。その上、追加の詳細は、他の図を参照して、以下において記述されるだろう。

５．３．図３に係るオーディオ・デコーダ
図３は、本発明の一実施形態に係る、オーディオ・デコーダ３００の略ブロック図を示す。オーディオ・デコーダ３００は、相違のみが詳細において記述されるであろうように、オーディオ・デコーダ２００と同様である。さもなければ、参照は、オーディオ・デコーダ２００に関して提示された上記の説明になされる。

オーディオ・デコーダ３００は、符号化オーディオ信号２１０に対応し得る、符号化オーディオ情報３１０を受信するように構成される。その上、オーディオ・デコーダ３００は、復号オーディオ情報２１２に対応し得る、復号オーディオ情報３１２を提供するように構成される。

オーディオ・デコーダ３００は、線形予測領域デコーダ２２０に対応し得る、線形予測領域デコーダ３２０と、周波数領域デコーダ２３０に対応する、周波数領域デコーダ３３０と、を備える。線形予測領域デコーダ３２０は、例えば、線形予測領域において符号化される第１のオーディオ・フレームに基づいて、第１の復号オーディオ情報３２２を提供する。その上、周波数領域オーディオ・デコーダ３３０は、例えば、周波数領域において（又は変換領域において）符号化される（第１のオーディオ・フレームの後に続く）第２のオーディオ・フレームに基づいて、第２の復号オーディオ情報３３２を提供する。第１の復号オーディオ情報３２２は、第１の復号オーディオ情報２２２に対応し得、且つ第２の復号オーディオ情報３３２は、第２の復号オーディオ情報２３２に対応し得る。

オーディオ・デコーダ３００は、その全体的な機能性の点から、遷移処理装置３４０に対応し得、且つ第２の復号オーディオ情報３３２に基づいて修正された第２の復号オーデ
ィオ情報３４２を提供し得る、遷移処理装置３４０をさらに備える。

遷移処理装置３４０は、人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報の一部の寄与を備える、第１の復号オーディオ情報と第１の復号オーディオ情報の修正バージョンとの結合によって定義される線形予測フィルタの（結合）初期状態に応答して線形予測フィルタの結合ゼロ入力応答を取得するように構成される。その上、遷移処理装置は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報を修正するように構成される。

例えば、遷移処理装置３４０は、第１の復号オーディオ情報３２２及び第２の復号オーディオ情報３３２を受信し、且つ、それに基づいて、結合初期状態情報３４４を提供する、修正／エイリアシング追加／結合３４２を備える。例えば、修正／エイリアシング追加／結合は、初期状態決定として考慮され得る。修正／エイリアシング追加／結合３４２は、初期状態決定２４２の及び初期状態決定２５０の機能性を実行し得ることがさらに留意されるべきである。結合初期状態情報３４４は、例えば、第１の初期状態情報２４４と第２の初期状態情報２５２の合計に等しくなり得る（又は少なくとも対応し得る）。それに応じて、修正／エイリアシング追加／結合３４２は、例えば、第１の復号オーディオ情報３２２の一部と、人工的なエイリアシングと及び第２の復号オーディオ情報３３２の一部とをさらに結合し得る。その上、修正／エイリアシング追加／結合３４２は、下記でより詳細に記述されるだろうように、第１の復号オーディオ情報の一部をさらに修正し、且つ／又は第１の復号オーディオ情報３２２のウィンドウ処理されたコピーを追加し得る。それに応じて、結合初期状態情報３４４が取得される。

遷移処理装置３４０は、結合初期状態情報３４４を受信し、且つそれに基づいて、修正３５０のために結合ゼロ入力応答３４８を提供する、線形予測フィルタリング３４６をさらに備える。線形予測フィルタリング３４６は、例えば、第１の復号オーディオ情報３２２を取得するために線形予測デコーダ３２０によって実行される線形予測フィルタリングと実質的に同一である線形予測フィルタリングを実行し得る。しかしながら、線形予測フィルタリング３４６の初期状態は、結合初期状態情報３４４によって決定され得る。また、結合ゼロ入力応答３４８を提供するための入力信号は、線形予測フィルタリング３４４が結合初期状態情報３４４に基づいてゼロ入力応答を提供するように、ゼロにセットされ得る。（フィルタリング・パラメータ又はフィルタリング係数は、例えば、第１のオーディオ・フレームに関連付けられる第１の復号オーディオ情報３２２を提供するために線形予測領域デコーダ３２０によって用いられるフィルタリング・パラメータ又はフィルタリング係数と同一である。その上、結合ゼロ入力応答３４８は、修正された第２の復号オーディオ情報３４２をそれによって導き出すために、第２の復号オーディオ情報３３２を修正するために用いられる。例えば、修正３５０は、第２の復号オーディオ情報３３２に結合ゼロ入力応答３４８を加算し得、又は第２の復号オーディオ情報から結合ゼロ入力応答を減算し得る。

しかしながら、更なる詳細のために、参照は、オーディオ・デコーダ１００，２００の説明、及び以下における詳細な説明にもまたなされる。

遷移コンセプトの議論
以下において、オーディオ・デコーダ１００，２００，３００において適用可能である、ＣＥＬＰフレームからＭＤＣＴフレームへの遷移に関する幾つかの詳細が議論されるだろう。

また、従来のコンセプトと比較した場合の相違が議論されるだろう。

５．４．ＭＤＣＴ及びウィンドウ処理−概説
本発明に係る実施形態において、エイリアシング問題は、（例えば、逆ＭＤＣＴ変換を用いるＭＤＣＴ係数のセットに基づいて再構成される時間領域オーディオ信号の）左屈曲点がＣＥＬＰとＭＤＣＴフレームの境界の左で動かされるように、（例えば、線形予測領域において符号化されるオーディオ・フレームの後に続くＭＤＣＴ領域において符号化されるオーディオ・フレームのために）ＭＤＣＴ長さを増加させることによって解決される。（例えば、逆ＭＤＣＴ変換を用いるＭＤＣＴ係数のセットに基づいて再構成される時間領域オーディオ信号に適用されるウィンドウの）ＭＤＣＴウィンドウの左部は、重複が減じられるように、（例えば、「標準の」ＭＤＣＴウィンドウと比較した場合、）さらに変更される。

例として、図４Ａ及び４Ｂは、異なるウィンドウのグラフ表現を示す。図４Ａは、第１のＭＤＣＴフレーム（すなわち、周波数領域において符号化される第１のオーディオ・フレーム）からもう一つのＭＤＣＴフレーム（すなわち、周波数領域において符号化される第２のオーディオ・フレーム）までの遷移のためのウィンドウを示す。その一方で、図４Ｂは、ＣＥＬＰフレーム（すなわち、線形予測領域において符号化される第１のオーディオ・フレーム）からＭＤＣＴフレーム（すなわち、以下において、周波数領域において符号化される第２のオーディオ・フレーム）までの遷移のために用いられるウィンドウを示す。

言い換えると、図４Ａは、比較例として考慮され得るオーディオ・フレームのシーケンスを示す。その一方で、図４Ｂは、第１のオーディオ・フレームが線形予測領域において符号化され、且つ周波数領域において符号化される第２のオーディオ・フレームが後に続くシーケンスを示す。図４Ｂに係る場合は、本発明の実施形態によって特に有益な手段で取り扱われる。

ここで図４Ａを参照すると、横軸４１０がミリ秒ごとに時間を記述し、且つ縦軸４１２が任意のユニットにおいてウィンドウの振幅（例えば、ウィンドウの標準化された振幅）を記述することが留意されるべきである。見られ得るように、フレーム長さは、第１のオーディオ・フレームに関連付けられる時間周期がｔ＝−２０ｍｓとｔ＝０の間で広がるように、２０ｍｓに等しい。第２のオーディオ・フレームに関連付けられる時間周期は、時間ｔ＝０からｔ＝２０ｍｓまで広がる。しかしながら、復号ＭＤＣＴ係数に基づいて逆修正離散的コサイン変換によって提供される時間領域オーディオ・サンプルをウィンドウ処理するための第１のウィンドウは、時間ｔ＝−２０ｍｓとｔ＝８．７５ｍｓの間で広がることが見られ得る。それ故に、第１のウィンドウ４２０の長さは、フレーム長さ（２０ｍｓ）よりも長い。それに応じて、たとえ、ｔ＝−２０ｍｓとｔ＝０の間での時間が第１のオーディオ・フレームのために関連付けられるとしても、時間領域オーディオ・サンプルは、ｔ＝−２０ｍｓとｔ＝−８．７５ｍｓの間での時間のために、第１のオーディオ・フレームの復号に基づいて提供される。それ故に、第１の符号化オーディオ・フレームに基づいて提供される時間領域オーディオ・サンプルと、第２の復号オーディオ・フレームに基づいて提供される時間領域オーディオ・サンプルとの間での約８．７５ｍｓの重複が存在する。第２のウィンドウは、４２２で示され、且つ時間ｔ＝０とｔ＝２８．７５ｍｓの間で広がることが留意されるべきである。

その上、第１のオーディオ・フレームに提供され、且つ第２のオーディオ・フレームに提供されるウィンドウ処理された時間領域オーディオ信号は、エイリアシングがある（ｎｏｔａｌｉａｓｉｎｇｆｒｅｅ）ことが留意されるべきである。むしろ、第１のオー
ディオ・フレームに提供されるウィンドウ処理された（第２の）復号オーディオ情報は、時間ｔ＝−２０ｍｓとｔ＝−１１．２５ｍｓの間で、且つ時間ｔ＝０とｔ＝８．７５ｍｓの間でもまたエイリアシングを備える。同様に、第２のオーディオ・フレームに提供されるウィンドウ処理された復号オーディオ情報は、時間ｔ＝０とｔ＝８．７５ｍｓの間で、且つ時間ｔ＝２０ｍｓとｔ＝２８．７５ｍｓの間でもまたエイリアシングを備える。しかしながら、例えば、第１のオーディオ・フレームに提供される復号オーディオ情報において含まれるエイリアシングは、時間ｔ＝０とｔ＝８．７５ｍｓの間の時間部において後に続く第２のオーディオ・フレームに提供される復号オーディオ情報において含まれるエイリアシングと共に取り消される。

その上、ウィンドウ４２０及び４２２のために、ＭＤＣＴ屈曲点の間での時間的な持続は、フレーム長さに等しい、２０ｍｓに等しい。

ここで図４Ｂを参照すると、異なる場合、すなわち、第２の復号オーディオ情報を提供するためにオーディオ・デコーダ１００，２００，３００において用いられ得る、ＣＥＬＰフレームからＭＤＣＴフレームまでの遷移のためのウィンドウが記述されるだろう。図４Ｂにおいて、横軸４３０は、ミリ秒ごとに時間を記述し、且つ縦軸４３２は、任意のユニットにおいてウィンドウの振幅を記述する。

図４Ｂにおいて見られ得るように、第１のフレームは、時間ｔ₁＝−２０ｍｓと時間ｔ₂＝０ｍｓの間で広がる。それ故に、ＣＥＬＰオーディオ・フレームである、第１のオーディオ・フレームのフレーム長さは、２０ｍｓである。その上、第２の、後に続くオーディオ・フレームは、時間ｔ₂とｔ₃＝２０ｍｓの間で広がる。それ故に、ＭＤＣＴオーディオ・フレームである、第２のオーディオ・フレームの長さは、２０ｍｓでもある。

以下において、ウィンドウ４４０に関する幾つかの詳細が記述されるだろう。

ウィンドウ４４０は、時間ｔ₄＝−１．２５ｍｓと時間ｔ₂＝０ｍｓの間で広がる、第１のウィンドウ・スロープ４４２を備える。第２のウィンドウ・スロープ４４４は、時間ｔ₃＝２０ｍｓと時間ｔ₅＝２８．７５ｍｓの間で広がる。第２のオーディオ・フレームのために（又はに関連付けられる）（第２の）復号オーディオ情報を提供する、修正離散的コサイン変換は、時間ｔ₄とｔ₅の間で時間領域サンプルを提供することが留意されるべきである。しかしながら、（周波数領域、例えば、ＭＤＣＴ領域において符号化されるオーディオ・フレームが、線形予測領域において符号化されるオーディオ・フレームの後に続く場合、周波数領域デコーダ１３０，２３０，３３０において用いられ得る）修正離散的コサイン変換（又は、より正確には、逆修正離散的コサイン変換）は、第２のオーディオ・フレームの周波数領域表現に基づいて、時間ｔ₄とｔ₂の間に且つ時間ｔ₃とｔ₅の間にエイリアシングを備える時間領域サンプルを提供する。その一方で、逆修正離散的コサイン変換は、第２のオーディオ・フレームの周波数領域表現に基づいて時間ｔ₂とｔ₃の間での時間周期にエイリアシングがない時間領域サンプルを提供する。それ故に、第１のウィンドウ・スロープ４４２は、幾つかのエイリアシングを備える時間領域オーディオ・サンプルに関連付けられ、且つ第２のウィンドウ・スロープ４４４は、幾つかのエイリアシングを備える時間領域オーディオ・サンプルにさらに関連付けられる。

また、ＭＤＣＴ屈曲点の間での時間は、沢山の符号化ＭＤＣＴ係数が図４Ａにおいて示される状況よりも図４Ｂにおいて示される状況のほうがより大きいべきであることを暗示する、第２のオーディオ・フレームのために２５ｍｓに等しいことが留意されるべきである。

結論として、第１のオーディオ・フレーム及び第１のオーディオ・フレームの後に続く
第２のオーディオ・フレームの両方が、周波数領域において（例えば、ＭＤＣＴ領域において）符号化される場合において、オーディオ・デコーダ１００，２００，３００は、（例えば、周波数領域デコーダにおける逆修正離散的コサイン変換の出力のウィンドウ処理に、）ウィンドウ４２０，４２２を適用し得る。その一方で、線形予測領域において符号化される第１のオーディオ・フレームの後に続く、第２のオーディオ・フレームが、周波数領域において（例えば、ＭＤＣＴ領域において）符号化される場合において、オーディオ・デコーダ１００，２００，３００は、周波数領域デコーダの操作を切り替え得る。例えば、第２のオーディオ・フレームが、ＭＤＣＴ領域において符号化され、且つＣＥＬＰ領域において符号化される以前の第１のオーディオ・フレームの後に続く場合、ＭＤＣＴ係数の増加した数を用いる逆修正離散的コサイン変換が用いられ得る（それは、周波数領域においてもさらに符号化される以前のオーディオ・フレームの後に続く符号化オーディオ・フレームの周波数領域表現と比較した場合、ＭＤＣＴ係数の増加した数が、符号化形式で、線形予測領域において符号化される以前のオーディオ・フレームの後に続くオーディオ・フレームの周波数領域表現において、含まれることを暗示する）。その上、（第２の（現在の）オーディオ・フレームが周波数領域においてさらに符号化される以前のオーディオ・フレームの後に続く場合と比較したとき、）周波数領域において符号化された第２の（現在の）オーディオ・フレームが、線形予測領域において符号化されたオーディオ・フレームの後に続く場合において、第２の復号オーディオ情報１３２を取得するために、異なるウィンドウ、すなわち、ウィンドウ４４０は、逆修正離散的コサイン変換の出力（すなわち、逆修正離散的コサイン変換によって提供される時間領域オーディオ表現）をウィンドウ処理するために適用される。

更なる結果として、（標準の場合と比較したとき、）増加した長さを有する逆修正離散的コサイン変換は、周波数領域において符号化されるオーディオ・フレームが線形予測領域において符号化されるオーディオ・フレームの後に続く場合において、周波数領域デコーダ１３０によって適用され得る。その上、ウィンドウ４４０は、この場合において用いられ得る（一方で、ウィンドウ４２０，４２２は、周波数領域において符号化されるオーディオ・フレームが周波数領域において符号化される以前のオーディオ領域の後に続く、「標準の」場合において用いられ得る）。

本発明に関するコンセプトに関して、ＣＥＬＰ信号は、下記でより詳細に示されるだろうように、如何なる追加の遅延も導入しないために修正されることが留意されるべきである。代わりに、本発明に係る実施形態は、ＣＥＬＰとＭＤＣＴフレームの間の境界で導入され得る如何なる不連続性も取り除くためにメカニズムを創造する。このメカニズムは、（例えば、線形予測領域デコーダによって用いられる）ＣＥＬＰ合成フィルタのゼロ入力応答を用いて不連続性をスムーズにする。詳細は以下において与えられる。

段階的な記述−概説
以下において、短い段階的な記述が提供されるだろう。その後で、更なる詳細が与えられるだろう。

エンコーダ側
１．（「第１のフレーム」で時々示されもする）以前のフレームがＣＥＬＰである（又は、一般に、線形予測領域において符号化される）場合、（周波数領域において又は変換領域において符号化されるフレームの例として考慮され得る）（「第２のフレーム」として時々示されもする）現在のＭＤＣＴフレームは、異なるＭＤＣＴ長さ及び異なるＭＤＣＴウィンドウで符号化される。例えば、ウィンドウ４４０は、（「標準の」ウィンドウ４２２よりもむしろ、）この場合において用いられ得る。

２．ＭＤＣＴ長さは、左屈曲点がＣＥＬＰとＭＤＣＴフレームの間の境界の左で動かさ
れるように、（例えば、図４Ａ及び４Ｂを参照して、２０ｍｓから２５ｍｓまで）増加される。例えば、（ＭＤＣＴ係数の数によって定義され得る）ＭＤＣＴ長さは、ＭＤＣＴ屈曲点の（又は間の）長さが、（図４Ａにおいて示されるように）２０ｍｓのＭＤＣＴ屈曲点の間での「標準の」長さと比較した場合、（図４Ｂにおいて示されるように）２５ｍｓと等しいように、選択され得る。ＭＤＣＴ変換の「左」屈曲点が、図４Ｂにおいて見られ得る、（時間ｔ＝０とｔ＝８．７５ｍｓの間の中間においてよりもむしろ）時間ｔ₄とｔ₂の間で横たわることがまた見られ得る。しかしながら、右ＭＤＣＴ屈曲点の位置は、（例えば、時間ｔ₃とｔ₅の間の中間において、）変更され得ず、それは、図４Ａ及び４Ｂの（又は、より正確には、ウィンドウ４２２及び４４０の）比較から見られ得る。

３．ＭＤＣＴウィンドウの左部は、（例えば、８．７５ｍｓから１．２５ｍｓまで）重複長さが減じられるように、変更される。例えば、エイリアシングを備える一部は、以前のオーディオ・フレームが線形予測領域において符号化される場合において、時間ｔ₄＝−１．２５ｍｓとｔ₂＝０の間に（すなわち、ｔ＝０で開始し、且つｔ＝２０ｍｓで終了する、第２のオーディオ・フレームに関連付けられる時間周期の前に）横たわる。その一方で、エイリアシングを備える信号部は、以前のオーディオ・フレームが周波数領域において（例えば、ＭＤＣＴ領域において）符号化される場合において、時間ｔ＝０とｔ＝８．７５ｍｓの間に横たわる。

デコーダ側
１．（第１のオーディオ・フレームとしてもまた示される）以前のフレームがＣＥＬＰ（又は、一般に、線形予測領域において符号化される）場合、（周波数領域又は変換領域において符号化されるフレームの例である、）（第２のオーディオ・フレームとしてもまた示される）現在のＭＤＣＴフレームは、エンコーダ側において用いられるのと同じＭＤＣＴ長さ及び同じＭＤＣＴウィンドウで復号される。別の言葉で言えば、図４Ｂにおいて示されるウィンドウ処理は、第２の復号オーディオ情報の提供において適用され、且つ（エンコーダの側で用いられる修正離散的コサイン変換の特性に対応する）逆修正離散的コサイン変換に関する上述した特性をさらに適用され得る。

２．ＣＥＬＰとＭＤＣＴフレームの間の境界で（例えば、上述した第１のオーディオ・フレームと第２のオーディオ・フレームの間の境界で）生じ得る如何なる不連続性も取り除くために、以下のメカニズムが用いられる。
ａ）信号の第１部は、ＣＥＬＰ信号を用いる（例えば、第１の復号オーディオ情報を用いる）ＭＤＣＴ信号の（例えば、逆修正離散的コサイン変換によって提供される時間領域オーディオ信号の時間ｔ₄とｔ₂の間の信号部の）重複部の欠落したエイリアシング、並びに重複−及び−追加の操作を人工的に導入することによって構成される。信号の第１部の長さは、例えば、重複長さ（例えば、１．２５ｍｓ）に等しい。
ｂ）信号の第２部は、対応するＣＥＬＰ信号のために信号の第１部（例えば、第１のオーディオ・フレームと第２のオーディオ・フレームの間の、フレーム境界の直前に位置する一部）を減算することによって構成される。
ｃ）ＣＥＬＰ合成フィルタのゼロ入力応答は、複数のゼロ（ｚｅｒｏｅｓ）のフレームをフィルタリングすることによって、且つメモリ状態として（又は初期状態として）信号の第２部を用いて、生成される。
ｄ）ゼロ入力応答は、例えば、それが沢山のサンプル（例えば、６４）の後で複数のゼロに減少するように、ウィンドウ処理される。
ｅ）ウィンドウ処理されたゼロ入力応答は、ＭＤＣＴ信号の開始部（例えば、時間ｔ₂＝０で始まるオーディオ部）に加算される。

段階的な記述−デコーダ機能性の詳細な記述
以下において、デコーダの機能性がより詳細に記述されるだろう。

ステップ１の詳細な記述
（エンコーダ側において用いられるのと同じＭＤＣＴ長さ及び同じＭＤＣＴウィンドウで現在のＭＤＣＴフレームを復号する）デコーダ側のステップ１の後で、我々は、現在の復号ＭＤＣＴフレーム（例えば、上述した第２の復号オーディオ情報を構成する「第２のオーディオ・フレーム」の時間領域表現）を得る。このフレーム（例えば、第２のフレーム）は、如何なるエイリアシングも含まない。なぜならば、左屈曲点は、（例えば、図４Ｂを参照して詳細に記述されるようなコンセプトを用いて、）ＣＥＬＰとＭＤＣＴフレームの間の境界の左で動かされたためである。つまり、我々は、十分に高いビットレートで現在のフレームにおいて、（例えば、時間ｔ₂＝０とｔ₃＝２０ｍｓの間で、）完全な再構成を得ることができる。しかしながら、低いのビットレートで、信号は必ずしも入力信号に合致せず、且つそれ故に、不連続性は、ＣＥＬＰとＭＤＣＴの間の境界で、（例えば、図４Ｂにおいて示されるように、時間ｔ＝０で、）導入され得る。

理解を簡単にするために、この問題は、図５を参照して例示されるだろう。上部のプロット（図５Ａ）は、復号ＣＥＬＰ信号Ｓ_C（ｎ）を示し、中部のプロット（図５Ｂ）は、（ウィンドウ処理された重複信号を含む）復号ＭＤＣＴ信号Ｓ_M（ｎ）を示し、且つ下部のプロット（図５Ｃ）は、ウィンドウ処理された重複信号を切り捨て、且つＣＥＬＰフレームとＭＤＣＴフレームを連結することによって取得される出力信号を示す。２つのフレームの間の境界で（例えば、時間ｔ＝０ｍｓで）（図５Ｃにおいて示される）出力信号において不連続性が明らかに存在する。

更なる処理の比較例
この問題に対する一つの考えられる解決策は、ＭＰＥＧＵＳＡＣにおいて用いられるコンセプトを記述する、上述した参考文献１（Ｊ．ルコント及びその他の者による「ＬＰＣに基づく及び非ＬＰＣに基づくオーディオ・コーディングの間での遷移のための効率的なクロスフェード・ウィンドウ」）において提案されるアプローチである。以下において、上述の参考文献アプローチの簡潔な記述が提供されるだろう。

それ故に、欠落したエイリアシングは、重複領域において人工的に導入される。

最終的に、復号ＣＥＬＰ信号の第２のバージョンは、重複−及び−追加の操作を用いて取得される。

図６Ａ〜６Ｄにおいて見られ得るように、この比較アプローチは、不連続性を取り除く（特に、図６Ｄを参照）。このアプローチを伴う問題は、それが（重複長さに等しい）追加の遅延を導入することである。なぜならば、現在のフレームが復号された後に過去のフレームが修正されるためである。低遅延オーディオ・コーディングのような、幾つかのアプリケーションにおいて、出来るだけ小さい遅延を有することが望まれる（又は要求さえされる）。

処理ステップの詳細な記述
上述した従来のアプローチと比較して、不連続性を取り除くためにここで提案されるアプローチは、如何なる追加の遅延も有しない。それは、（第１のオーディオ・フレームとして示されもする）過去のＣＥＬＰフレームを修正しないが、代わりに、（線形予測領域において符号化される第１のオーディオ・フレームの後に続く周波数領域において符号化される第２のオーディオ・フレームとして示されもする）現在のＭＤＣＴフレームを修正する。

しかしながら、参考文献１（Ｊ．ルコント及びその他の者による「ＬＰＣに基づく及び非ＬＰＣに基づくオーディオ・コーディングの間での遷移のための効率的なクロスフェード・ウィンドウ」）に反して、過去の復号ＡＣＥＬＰ信号は、如何なる追加の遅延も導入しないために、過去のＡＣＥＬＰフレームのこのバージョンに置き換わらない。それは、次のステップにおいて記述されるように、現在のＭＤＣＴフレームを修正するために仲介信号としてただ用いられる。

ステップｂ）
コンセプトは、ＣＥＬＰ合成フィルタのために（初期状態として示されもする）２つの異なるメモリを用いて（線形予測フィルタとして一般に考慮され得る）ＣＥＬＰ合成フィルタのゼロ入力応答（ＺＩＰ）を計算するステップによって２つの信号を生成するステップをさらに備える。

ここで図７を参照して、幾つかの詳細が説明されるだろう。

図７Ａは、以前のＣＥＬＰフレームの及び第１のゼロ入力応答のグラフ表現を示す。横軸７１０は、ミリ秒ごとに時間を記述し、且つ縦軸７１２は、任意のユニットごとに振幅を記述する。

ステップｃ）
現在のＭＤＣＴ信号（例えば、第２の復号オーディオ情報１３２，２３２，３３２）は、現在のＭＤＣＴの（すなわち、現在の、第２のオーディオ・フレームに関連付けられるＭＤＣＴ信号の）第２のバージョン１４２，２４２，３４２に置き換えられる。

例えば、図８Ａは、（例えば、第１の復号オーディオ情報の）以前のＣＥＬＰフレームのために信号のグラフ表現を示す。横軸８１０がミリ秒ごとに時間を記述する。さらに、縦軸８１２が任意のユニットごとに振幅を記述する。見られ得るように、第１の復号オーディオ情報は、時間ｔ₈₁（−２０ｍｓ）とｔ₈₂（０ｍｓ）の間で（例えば、線形予測領域復号によって）提供される。

図８Ｃは、（図８Ａにおいて示されるような）以前のＣＥＬＰフレームと（図８Ｂにおいて示されるような）現在のＭＤＣＴフレームの第２のバージョンとの転結を示す。横軸８３０がミリ秒ごとに時間を記述し、且つ縦軸８３２が任意のユニットの期間ごとに振幅を記述する。見られ得るように、（時間ｔ₈₁とｔ₈₂の間での）以前のＣＥＬＰフレームと、（時間ｔ₈₂で始まり、且つ例えば、図４Ｂにおいて示される、時間ｔ₅で終了する）現在のＭＤＣＴフレームの第２のバージョンとの間での実質的に連続的な遷移が存在する。それ故に、（線形予測領域において符号化される）第１のフレームから（周波数領域において符号化される）第２のフレームまでの遷移で可聴の歪みが回避される。

ステップｄ）
任意で、ウィンドウは、元のままの（ｅｎｔｉｒｅ）現在のＭＤＣＴフレームに影響を及ぼさないために、２つのＺＩＲに適用され得る。これは、例えば、複雑さを減じるために、又はＺＩＲがＭＤＣＴフレームの終了で０に近くない場合に、有用である。

ウィンドウの一例は、長さＰの単純な線形ウィンドウｖ（ｎ）である。
例えば、Ｐ＝６４である。

例えば、ウィンドウは、ゼロ入力応答１５０、ゼロ入力応答２４８，２５６又は結合ゼロ入力応答３４８を処理し得る。

５．８．図９に係る方法
図９は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法のフローチャートを示す。方法９００は、線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報を提供するステップ９１０を備える。方法９００は、周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報を提供するステップ９２０をさらに備える。方法９００は、線形予測フィルタリングのゼロ入力応答を取得するステップ９３０をさらに備える。線形予測フィルタリングの初期状態は、第１の復号オーディオ情報及び第２の復号オーディオ情報に依存して定義される。

方法９００は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報を修正するステップ９４０をさらに備える。

方法９００は、ここで記述される特徴及び機能性の何れかによって、オーディオ・デコーダに関してもまた補足され得る。

５．１０．図１０に係る方法
図１０は、符号化オーディオ情報Ｔに基づいて復号オーディオ情報を提供する方法１０００のフローチャートを示す。

方法１０００は、線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報を提供するために線形予測領域復号を実行するステップ１０１０を備える。

方法１０００は、周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報を提供するために周波数領域復号を実行するステップ１０２０をさらに備える。

方法１０００は、第１の復号オーディオ情報によって定義される線形予測フィルタリングの第１の初期状態に応答して線形予測フィルタリングの第１のゼロ入力応答を取得するステップ１０３０と、人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報の一部の寄与を備える、第１の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタリングの第２の初期状態に応答して線形予測フィルタリングの第２のゼロ入力応答を取得するステップ１０４０と、をさらに備える。

代わりに、方法１０００は、人工的なエイリアシングを提供され、且つ第２の復号オーディオ情報の一部の寄与を備える、第１の復号オーディオ情報と第１の復号オーディオ情報の修正バージョンとの結合によって定義される線形予測フィルタリングの初期状態に応答して線形予測フィルタリングの結合ゼロ入力応答を取得するステップ１０５０を備える。

方法１０００は、第１の復号オーディオ情報と修正された第２の復号オーディオ情報との間でのスムーズな遷移を取得するために、第１のゼロ入力応答及び第２のゼロ入力応答に依存して、又は結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第２の復号オーディオ情報を修正するステップ１０６０をさらに備える。

方法１０００は、ここで記述される特性及び機能性の何れかによって、オーディオ・デコーダに関してもまた、補足され得ることが留意されるべきである。

６．結論
結論として、本発明に係る実施形態は、ＣＥＬＰ−ＭＤＣＴ変換に関係する。これらの変換は、一般に、２つの問題を導入する。
１．欠落した以前のＭＤＣＴフレームに起因するエイリアシング、及び
２．低い／中位のビットレートで操作する２つのコーディング体系の性質をコード化す
る不完全な波形に起因する、ＣＥＬＰフレームとＭＤＣＴフレームの間の境界での不連続性

本発明に係る実施形態において、エイリアシング問題は、左屈曲点がＣＥＬＰとＭＤＣＴフレームの間の境界の左で動かされるように、ＭＤＣＴ長さを増加させることによって解決される。ＭＤＣＴウィンドウの左部は、重複が減じられるように、さらに変更される。従来の解決策に反して、ＣＥＬＰ信号は、如何なる追加の遅延も導入しないために修正されない。代わりに、メカニズムは、ＣＥＬＰとＭＤＣＴフレームの間の境界で導入され得る如何なる不連続性も取り除くために創造される。このメカニズムは、ＣＥＬＰ合成フィルタのゼロ入力応答を用いて不連続性をスムーズにする。追加の詳細がここで記述される。

７．代わりとなる実装
幾つかの態様が装置のコンテキストにおいて記述されたが、これらの態様が対応する方法の記述をさらに表現することは明らかである。そこでは、ブロック又は装置が方法ステップ又は方法ステップの特徴に対応する。類似して、方法ステップのコンテキストにおいて記述される態様は、対応するブロック若しくはアイテム又は対応する装置の特徴の記述をさらに表現する。方法ステップの幾つか又は全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ又は電子回路のようなハードウェア装置によって（又はを用いて）実施され得る。幾つかの実施形態において、最も重要な方法ステップの１つ以上の幾つかは、そのような装置によって実施され得る。

本発明に関する符号化オーディオ信号は、デジタル記録媒体で保存され得、又は無線伝送媒体若しくはインターネットのような有線伝送媒体のような伝送媒体で伝送され得る。

特定の実装要求に依存して、本発明の実施形態は、ハードウェアにおいて又はソフトウェアにおいて実装され得る。実装は、デジタル記憶媒体、例えば、そこに保存される電子的に読み取り可能な制御信号を有する、フロッピー・ディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はＦＬＡＳＨメモリを用いて実行され得、それぞれの方法が実行されるように、プログラム可能なコンピュータ・システムと協働する（又は協働することが可能である）。したがって、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。

本発明に係る幾つかの実施形態は、ここで記述される方法の１つが実行されるように、プログラム可能なコンピュータ・システムと協働することが可能な、電子的に読み取り可能な制御信号を有するデータ・キャリアを備える。

一般に、本発明の実施形態は、プログラム・コードを伴うコンピュータ・プログラム製品として実装され得、プログラム・コードは、コンピュータ・プログラム製品がコンピュータで動作する場合に、方法の１つを実行するために操作される。プログラム・コードは、例えば、機械読み取り可能なキャリアで保存され得る。

他の実施形態は、機械読み取り可能なキャリアで保存される、ここで記述された方法の１つを実行するコンピュータ・プログラムを備える。

言い換えると、したがって、本発明に関する方法の一実施形態は、コンピュータ・プログラムがコンピュータで動作する場合に、ここで記述された方法の１つを実行するプログラム・コードを有するコンピュータ・プログラムである。

したがって、本発明に関する方法の更なる実施形態は、そこに記録される、ここで記述
された方法の１つを実行するコンピュータ・プログラムを備える、データ・キャリア（又はデジタル記憶媒体、若しくはコンピュータ読み取り可能な媒体）である。データ・キャリア、デジタル記憶媒体又は記録媒体は、典型的には有体及び／又は非過渡的である。

したがって、本発明に関する方法の更なる実施形態は、ここで記述された方法の１つを実行するコンピュータ・プログラムを表現するデータ・ストリーム又は信号のシーケンスである。データ・ストリーム又は信号のシーケンスは、データ通信接続を介して、例えば、インターネットを介して、伝達されるように例えば構成され得る。

更なる実施形態は、処理手段、例えば、ここで記述された方法の１つを実行するように構成又は適合される、例えばコンピュータ、又はプログラム可能な論理装置を備える。

更なる実施形態は、ここで記述された方法の１つを実行するコンピュータ・プログラムをそこにインストールされたコンピュータを備える。

本発明に係る更なる実施形態は、レシーバのためにここで記述された方法の１つを実行するコンピュータ・プログラムを（例えば、電子的又は光学的に）伝達するように構成される装置又はシステムを備える。レシーバは、例えば、コンピュータ、モバイル装置、メモリ装置等であり得る。装置又はシステムは、例えば、レシーバのためにコンピュータ・プログラムを伝達するファイル・サーバを備え得る。

幾つかの実施形態において、プログラム可能な論理装置（例えば、フィールド・プログラマブル・ゲート・アレイ）は、ここで記述された方法の機能性の幾つか又は全てを実行するために用いられ得る。幾つかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、ここで記述された方法の１つを実行するために、マイクロプロセッサと協働し得る。概して、方法は、如何なるハードウェア装置によっても実行されることが好ましい。

ここで記述された装置は、ハードウェア装置を用いて、若しくはコンピュータを用いて、又はハードウェア装置とコンピュータの結合を用いて実装され得る。

ここで記述された方法は、ハードウェア装置を用いて、若しくはコンピュータを用いて、又はハードウェア装置とコンピュータの結合を用いて実行され得る。

上述された実施形態は、本発明の原理のための単なる例示である。ここで記述された配置及び詳細の修正及びバリエーションは、他の当業者のために明らかであろうことが理解される。したがって、それは、差し迫った特許請求の範囲によってのみ制限され、且つここでの実施形態の記述及び説明の方法によって提供される具体的な詳細によっては制限されないことを意図する。

Claims

符号化オーディオ情報（１１０；２１０；３１０）に基づいて復号オーディオ情報（１１２；２１２；３１２）を提供するオーディオ・デコーダ（１００；２００；３００）であって、前記オーディオ・デコーダは、
線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報（１２２；２２２；３２２；Ｓ_C（ｎ））を提供するように構成される線形予測領域デコーダ（１２０；２２０；３２０）と、
周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報（１３２；２３２；３３２；Ｓ_M（ｎ））を提供するように構成される周波数領域デコーダ（１３０；２３０；３３０）と、
遷移処理装置（１４０；２４０；３４０）と、を備え、
前記遷移処理装置は、線形予測フィルタリング（１４８；２５４；３４６）のゼロ入力応答（１５０；２５６；３４８）を取得するように構成され、前記線形予測フィルタリングの初期状態（１４６；２５２；３４４）は、前記第１の復号オーディオ情報及び前記第２の復号オーディオ情報に依存して定義され、且つ
請求項１に記載のオーディオ・デコーダであって、
請求項１又は２に記載のオーディオ・デコーダ（１００；２００；３００）であって、前記第２の復号オーディオ情報（１３２；２３２；３３２）がエイリアシングを備えるように、前記周波数領域デコーダ（１３０；２３０；３３０）は、逆重複変換を実行するように構成される、請求項１又は２に記載のオーディオ・デコーダ。
請求項１若しくは２又は３に記載のオーディオ・デコーダ（１００；２００；３００）であって、前記線形予測領域デコーダ（１２０；２２０；３２０）が第１の復号オーディオ情報（１２２；２２２；３２２）を提供するために、前記第２の復号オーディオ情報（１３２；２３２；３３２）が時間部と時間的に重複する時間部においてエイリアシングを備えるように、且つ前記線形予測領域デコーダが第１の復号オーディオ情報を提供するために、前記第２の復号オーディオ情報が時間部の後に続く前記時間部のためにエイリアシングがないように、前記周波数領域デコーダ（１３０；２３０；３３０）は、逆重複変換を実行するように構成される、請求項１若しくは２又は３に記載のオーディオ・デコーダ。
請求項１〜６の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、
ｍは、引き続く（ｒｕｎｎｉｎｇ）変数を示し、
Ｍは、線形予測フィルタのフィルタ長さを示し、
ａ_mは、線形予測フィルタのフィルタ係数を示し、
Ｓ_C（ｎ）は、時間インデックスｎに対する前記第１の復号オーディオ情報（１２２；２２２；３２２）の以前に復号された値を示し、
Ｎは、処理長さを示す、請求項１〜６の１つに記載のオーディオ・デコーダ。
請求項１〜７の１に記載のオーディオ・デコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、前記第１の復号オーディオ情報のウィンドウ処理バージョンを取得するために、第１のウィンドウ処理（（ｗ（−ｎ−１）ｗ（−ｎ−１））を前記第１の復号オーディオ情報（１２２；２２２；３２２；Ｓ_C（ｎ））に適用するように構成され、且つ前記第１の復号オーディオ情報の時間鏡映バージョンのウィンドウ処理バージョンを取得するために、第２のウィンドウ処理（ｗ（ｎ＋Ｌ）ｗ（−ｎ−１））を前記第１の復号オーディオ情報（１２２；２２２；３２２；Ｓ_C（ｎ））の前記時間鏡映バージョン（Ｓ_C（−ｎ−Ｌ−１））に適用するように構成され、且つ
請求項１〜８の１つに記載のオーディオ・デコーダであって、
前記遷移処理装置（１４０；２４０；３４０）は、
ｎは、時間インデックスを示し、
ｗ（−ｎ−１）は、時間インデックス（−ｎ−１）に対するウィンドウ関数の値を示し、
ｗ（ｎ＋Ｌ）は、時間インデックス（ｎ＋Ｌ）に対するウィンドウ関数の値を示し、
Ｓ_C（ｎ）は、時間インデックス（ｎ）に対する前記第１の復号オーディオ情報（１２２；２２２；３２２）の以前に復号された値を示し、
Ｓ_C（−ｎ−Ｌ−１）は、時間インデックス（−ｎ−Ｌ−１）に対する前記第１の復号オーディオ情報の以前に復号された値を示し、
Ｓ_M（ｎ）は、時間インデックスｎに対する前記第２の復号オーディオ情報（１３２；２３２；３３２）の復号された値を示し、且つ
Ｌは、ウィンドウの長さを示す、請求項１〜８の１つに記載のオーディオ・デコーダ。
請求項１〜９の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、
ｍは、引き続く変数を示し、
Ｍは、前記線形予測フィルタ（１４８；２５４；３４６）のフィルタ長さを示し、
ａ_mは、前記線形予測フィルタのフィルタ係数を示し、
Ｎは、処理長さを示す、請求項１〜９の１つに記載のオーディオ・デコーダ。
請求項１〜１０の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、前記修正された第２の復号オーディオ情報を取得するために、第１の復号オーディオ情報（１２２；２２２；３２２）が前記線形予測領域デコーダ（１２０；２２０；３２０）によって提供されないために時間部ごとに、前記第２の復号オーディオ情報（１３２；２３２；３３２）を、前記第１のゼロ入力応答（２４８）及び前記第２のゼロ入力応答（２５６）に、又は前記結合ゼロ入力応答（１５０；３４８）に、線形的に結合するように構成される、請求項１〜１０の１つに記載のオーディオ・デコーダ。
請求項１〜１１の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、
ｎは、時間インデックスを示し、
Ｓ_M（ｎ）は、時間インデックスｎに対する前記第２の復号オーディオ情報の値を示し、
ｖ（ｎ）は、ウィンドウ関数の値を示し、
Ｎは、処理長さを示す、請求項１〜１１の１つに記載のオーディオ・デコーダ。
請求項１〜１２の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、前記線形予測領域において符号化されるオーディオ・フレームに提供される前記復号オーディオ情報が前記周波数領域において符号化される後に続くオーディオ・フレームに提供される復号オーディオ情報から独立して提供されるように、線形予測領域において符号化されるオーディオ・フレームのために復号オーディオ情報を提供するとき、前記遷移処理装置（１４０；２４０；３４０）は、前記第２の復号オーディオ情報（１３２；２３２；３３２）によって前記第１の復号オーディオ情報（１２２；２２２；３２２）を変更しないように構成される、請求項１〜１２の１つに記載のオーディオ・デコーダ。
請求項１〜１３の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、前記オーディオ・デコーダは、前記線形予測領域において符号化されるオーディオ・フレームのために完全な復号オーディオ情報（１２２；２２２；３２２）を提供するように構成され、前記周波数領域において符号化される前記オーディオ・フレームを復号する前に、前記周波数領域において符号化されるオーディオ・フレームが後に続く、請求項１〜１３の１つに記載のオーディオ・デコーダ。
請求項１〜１４の１つに記載のオーディオ・デコーダ（１００；２００；３００）であって、ウィンドウ処理される第１のゼロ入力応答及びウィンドウ処理される第２のゼロ入力応答に依存して、又はウィンドウ処理される結合ゼロ入力応答に依存して、前記第２の復号オーディオ情報（１３２；２３２；３３２）を修正する前に、前記遷移処理装置（１４０；２４０；３４０）は、前記第１のゼロ入力応答（２４８）及び前記第２のゼロ入力応答（２５６）、又は前記結合ゼロ入力応答（１５０；３４８）をウィンドウ処理するように構成される、請求項１〜１４の１つに記載のオーディオ・デコーダ。
請求項１５に記載のオーディオ・デコーダ（１００；２００；３００）であって、前記遷移処理装置は、線形ウィンドウを用いて、前記第１のゼロ入力応答及び前記第２のゼロ入力応答、又は前記結合ゼロ入力応答をウィンドウ処理するように構成される、請求項１５に記載のオーディオ・デコーダ。
符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法（９００）であっ
て、前記方法は、
線形予測領域において符号化されるオーディオ・フレームに基づいて第１の復号オーディオ情報（Ｓ_C（ｎ））を提供するステップ（９１０）と、
周波数領域において符号化されるオーディオ・フレームに基づいて第２の復号オーディオ情報（Ｓ_M（ｎ））を提供するステップ（９２０）と、
線形予測フィルタリングの初期状態が前記第１の復号オーディオ情報及び前記第２の復号オーディオ情報に依存して定義される、前記線形予測フィルタリングのゼロ入力応答を取得するステップ（９３０）と、
コンピュータ・プログラムがコンピュータで動作するとき、請求項１７に記載の前記方法を実行するコンピュータ・プログラム。