JP2022174077A - スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム - Google Patents
スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2022174077A JP2022174077A JP2022130470A JP2022130470A JP2022174077A JP 2022174077 A JP2022174077 A JP 2022174077A JP 2022130470 A JP2022130470 A JP 2022130470A JP 2022130470 A JP2022130470 A JP 2022130470A JP 2022174077 A JP2022174077 A JP 2022174077A
- Authority
- JP
- Japan
- Prior art keywords
- audio information
- audio
- decoder
- decoded audio
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 140
- 230000007704 transition Effects 0.000 title claims abstract description 87
- 238000004590 computer program Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims description 64
- 238000001914 filtration Methods 0.000 claims abstract description 52
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000007792 addition Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
【課題】異なるコーディング・モード間でのスイッチングのために改善されたオーディオ・デコーダ及びコンピュータ・プログラムを提供する。【解決手段】オーディオ・デコーダ100は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供する線形予測領域デコーダ120と、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供する周波数領域デコーダ130と、遷移処理装置140と、を備える。遷移処理装置140は、線形予測フィルタリングのゼロ入力応答を取得する。線形予測フィルタリング148の初期状態情報146は、第1の復号オーディオ情報122及び第2の復号オーディオ情報132に従って定義される。【選択図】図1
Description
1.技術分野
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するオーディオ・デコーダに関する。
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するオーディオ・デコーダに関する。
本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法に関する。
本発明に係るもう一つの実施形態は、上述の方法を実行するコンピュータ・プログラムに関する。
概して、本発明に係る実施形態は、スイッチド・オーディオ・コーディングにおけるCELPコーデックからMDCTに基づくコーデックまでの遷移を取り扱うことに関する。
2.発明の背景
近年、符号化オーディオ情報を伝送すること及び保存することに対する要求が増加してきている。スピーチ及び一般的なオーディオ(例えば、音楽、背景ノイズ等)の両方を備えるオーディオ信号のオーディオ符号化及びオーディオ復号に対する要求もまた増加している。
近年、符号化オーディオ情報を伝送すること及び保存することに対する要求が増加してきている。スピーチ及び一般的なオーディオ(例えば、音楽、背景ノイズ等)の両方を備えるオーディオ信号のオーディオ符号化及びオーディオ復号に対する要求もまた増加している。
コーディング品質を改善するために、且つビットレート効率を改善するためにも、例えば、第1の符号化コンセプト(例えば、CELPに基づくコーディング・コンセプト)を用いて第1のフレームが符号化されるように、且つ異なる第2のコーディング・コンセプト(例えば、MDCTに基づくコーディング・コンセプト)を用いて後に続く第2のオーディオ・フレームが符号化されるように、スイッチド(又はスイッチング)オーディオ・コーデックは、異なるコーディング体系の間で切り替えられることが導入されてきた。言い換えると、これらは、(例えば、CELPに基づくコーディング・コンセプトを用いる)線形予測コーディング領域における符号化と、周波数領域におけるコーディング(例えば、FFT変換、逆FFT変換、MDCT変換又は逆MDCT変換等の時間領域-周波数領域変換又は周波数領域-時間領域変換に基づくコーディング)との間でのスイッチングであり得る。例えば、第1のコーディング・コンセプトは、CELPに基づくコーディング・コンセプト、ACELPに基づくコーディング・コンセプト、変換コード化励起線形予測領域に基づくコーディング・コンセプト等であり得る。第2のコーディング・コンセプトは、例えば、FFTに基づくコーディング・コンセプト、MDCTに基づくコーディング・コンセプト、AACに基づくコーディング・コンセプト、又はAACに基づくコーディング・コンセプトの後継コンセプトとして考慮され得るコーディング・コンセプトであり得る。
以下において、従来のオーディオ・コーダ(エンコーダ及び/又はデコーダ)の幾つかの例が記述されるであろう。
例えば、MPEG USACのようなスイッチド・オーディオ・コーデックは、2つの主たるオーディオ・コーディング体系に基づく。1つのコーディング体系は、例えば、CELPコーデックであり、スピーチ信号を目的とする。他のコーディング体系は、例えば、(以下、単にMDCTと呼ばれる)MDCTに基づくコーデックであり、全ての他のオーディオ信号(例えば、音楽、背景ノイズ)を目的とする。混合コンテンツ信号(例えば、音楽でのスピーチ)で、エンコーダは、(及びその結果としてデコーダも、)しばしば2つの符号化体系の間で切り替わる。それ故に、1つのモード(又は符号化体系)からもう一つに切り替わるとき、如何なるアーチファクト(例えば、不連続性に起因するクリック)も回避する必要がある。
スイッチド・オーディオ・コーデックは、例えば、CELP-MDCT変換によって引き起こされる問題をかかえ得る。
CELP-MDCT変換は、一般に、2つの問題をもたらす。エイリアシングは、欠落した以前のMDCTフレームに起因してもたらされ得る。不連続性は、低い/中位のビットレートで操作する(operating)2つのコーディング体系の性質をコーディングする完全でない波形に起因して、CELPフレームとMDCTフレームとの間での境界にもたらされ得る。
いくつかのアプローチが、CELP-MDCT変換によって導入される問題を解決するために既に存在し、且つ以下において議論されるであろう。
考えられるアプローチは、ジェレミー・ルコント、フィリップ・グールネー、ラルフ・ガイガー、ブルーノ・ベセテ及びマックス・ノイエンドルフによって(第126回AES会議、2009年5月、論文771で提案された)論説「LPCに基づく及び非LPCに基づくオーディオ・コーディング間での遷移のための効率的なクロスフェード・ウィンドウ」において記述される。この論説は、セクション4.4.2「ACELP-非LPDモード」においてアプローチを記述する。例えば、上述の論説の図8もまた参照される。それ故に、重複が減じられるようにMDCTウィンドウの左部を変更することによって、且つ最終的に、欠落し、エイリアシングし、用いるCELP信号並びに重複及び追加の操作を人工的に導入することによって、MDCT左屈曲点がCELPとMDCTフレーム間の境界の左で動かされるように、エイリアシング問題は、MDCT長を(ここでは1024から1152まで)増加させることによってまず初めに解決される。不連続性問題は、重複及び追加の操作によって同時に解決される。
このアプローチは、良好に働くが、CELPデコーダにおける遅延を導入する不利益を有し、その遅延は重複長に等しい(ここでは128サンプル)。
もう一つのアプローチは、ブルーノ・ベセテによる2014年5月13日付け「荷重又は元の信号領域におけるアプリケーションを伴う、転送の時間領域のエイリアシングの消去」というタイトルの米国特許公報US 8,725,503 B2において記述される。
このアプローチにおいて、MDCT長さ(及びMDCTウィンドウ形状)は変更されない。エイリアシング問題は、ここでは、別個の変換に基づくエンコーダを用いてエイリアシング訂正信号を符号化することによって解決される。追加のサイド情報ビットは、ビットストリームへと送信される。デコーダは、エイリアシング訂正信号を再構成し、且つ復号MDCTフレームのためにそれを追加する。加えて、CELP合成フィルタのゼロ入力応答(ZIR)は、エイリアシング訂正信号の振幅を減じるために、且つコーディング効率を改善するために用いられる。ZIRは、不連続性問題を著しく減じることもまた手助けする。
このアプローチは良好に働きもするが、不利益は、それがかなり量の追加のサイド情報を要求し、且つ要求されるビットの数が一定のビットレート・コーデックに適切でない、一般に変化し易いことである。
もう一つのアプローチは、ステファーヌ・ラゴット、バラシ・コベシ(Balazs Kovesi)及びピエール・ベルトエト(Pierre Berthet)による2013年10月31日付け「予測符号化と変換符号化を交互に行う低遅延サウンド符号化」という表題の米国特許公開公報US 2013/0289981 A1において記述される。上述のアプローチによると、MDCTは変更されないが、MDCTウィンドウの左部が重複長を減じるために変更される。エイリアシング問題を解決するために、MDCTフレームの開始は、CELPコーデックを用いてコード化され、且つそれ故に、CELP信号は、MDCT信号を完全に置き換えること、又は(ジェレミー・ルコント及びその他の者による上述した論説と同様に)欠落したエイリアシング・コンポーネントを人工的に導入することのどちらかによって、エイリアシングをキャンセルするために用いられる。不連続性問題は、ジェレミー・ルコント及びその他の者による論説と同様のアプローチが用いられる場合、重複追加操作によって解決され、さもなければ、それは、CELP信号とMDCT信号の間での単純なクロスフェード操作によって解決される。
US 8,725,503 B2と同様に、このアプローチは、一般に良好に働くが、不利益は、それが、追加のCELPによって導入される、かなりの量のサイド情報を要求することである。
上述した従来の解決策(solution)の点から見て、異なるコーディング・モードの間でのスイッチングのために改善された特性(例えば、ビットレート・オーバーヘッド、遅延及び複雑さの間での改善されたトレードオフ)を備えるコンセプトを有することが望まれる。
3.発明の概要
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するためにオーディオ・デコーダを創造する。オーディオ・デコーダは、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するように構成される線形予測領域デコーダと、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するように構成される周波数領域デコーダとを備える。オーディオ・デコーダは、遷移処理装置をさらに備える。遷移処理装置は、線形予測フィルタリングのゼロ入力応答を取得するように構成され、線形予測フィルタリングの初期状態は、第1の復号オーディオ情報及び第2の復号オーディオ情報に依存して定義される。遷移処理装置は、第2の復号オーディオ情報を修正するようにさらに構成され、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される。
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するためにオーディオ・デコーダを創造する。オーディオ・デコーダは、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するように構成される線形予測領域デコーダと、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するように構成される周波数領域デコーダとを備える。オーディオ・デコーダは、遷移処理装置をさらに備える。遷移処理装置は、線形予測フィルタリングのゼロ入力応答を取得するように構成され、線形予測フィルタリングの初期状態は、第1の復号オーディオ情報及び第2の復号オーディオ情報に依存して定義される。遷移処理装置は、第2の復号オーディオ情報を修正するようにさらに構成され、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される。
線形予測フィルタリングの初期状態が第1の復号オーディオ情報及び第2の復号オーディオ情報の両方を考慮するという条件で、このオーディオ・デコーダは、線形予測領域において符号化されるオーディオ・フレームと周波数領域において符号化される後に続くオーディオ・フレームとの間でのスムーズな遷移が、第2の復号オーディオ情報を修正するために線形予測フィルタのゼロ入力応答を用いることによって達成され得る発見に基づく。それに応じて、第2の復号オーディオ情報は、修正された第2の復号オーディオ情報の開始が第1の復号オーディオ情報の終了と同様であるように適合され(修正され)得、第1のオーディオ・フレームと第2のオーディオ・フレームとの間での相当な不連続性を減じること又は回避さえすることも手助けする。上述したオーディオ・デコーダと比較した場合、たとえ、第2の復号オーディオ情報が如何なるエイリアシングも備えないとしても、コンセプトは一般に適用可能である。その上、用語「線形予測フィルタリング」は、線形予測フィルタの単独のアプリケーション、及び線形予測フィルタの複数のアプリケーションの両方を示し得ることが留意されるべきである。線形予測フィルタリングの単独のアプリケーションは、典型的には同一の線形予測フィルタの複数のアプリケーションと等しいことが留意されるべきである。これは、線形予測フィルタが典型的には線形であるためである。
結論として、上述したオーディオ・デコーダは、線形予測領域において符号化される第1のオーディオ・フレームと周波数領域(又は変換領域)において符号化される後に続く第2のオーディオ・フレームとの間でのスムーズな遷移を取得することを許し、遅延が導入されず、且つ計算労力が比較的小さい。
本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供するオーディオ・デコーダを創出する。オーディオ・デコーダは、線形予測領域において(又は、同等に、線形予測領域表現において)符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するように構成される線形予測領域デコーダを備える。オーディオ・デコーダは、周波数領域において(又は、同等に、周波数領域表現において)符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するように構成される周波数領域デコーダをさらに備える。オーディオ・デコーダは、遷移処理装置をさらに備える。遷移処理装置は、第1の復号オーディオ情報によって定義される線形予測フィルタの第1の初期状態に応答して線形予測フィルタの第1のゼロ入力応答を取得するように、且つ人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報の一部の寄与を備える、第1の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタの第2の初期状態に応答して線形予測フィルタの第2のゼロ入力応答を取得するように構成される。代わりに、遷移処理装置は、第1の復号オーディオ情報と、人工的なエイリアシングを提供され且つ第2の復号オーディオ情報の一部の寄与を備える第1の復号オーディオ情報の修正バージョンとの結合によって定義される線形予測フィルタの初期状態に応答して線形予測フィルタの結合ゼロ入力応答を取得するように構成される。遷移処理装置は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、第1のゼロ入力応答及び第2のゼロ入力応答に依存して、又は結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報を修正するようにさらに構成される。
本発明に係るこの実施形態は、線形予測領域において符号化されるオーディオ・フレームと周波数領域において(又は、一般に、変換領域において)符号化される後に続くオーディオ・フレームとの間でのスムーズな遷移が、線形予測フィルタのゼロ入力応答であり、その初期状態が第1の復号オーディオ情報及び第2の復号オーディオ情報の両方によって定義される信号に基づいて第2の復号オーディオ情報を修正することによって取得され得るという発見に基づく。(線形予測領域において符号化されるオーディオ・フレームに関連付けられる)第1の復号オーディオ情報と(周波数領域において又は変換領域において符号化されるオーディオ・フレームに関連付けられる)修正された第2の復号オーディオ情報との間でのスムーズな遷移が、第1の復号オーディオ情報を改める必要性なく存在するように、そのような線形予測フィルタの出力信号は、第2の復号オーディオ情報(例えば、第1のオーディオ・フレームと第2のオーディオ・フレームとの間での遷移の直後に続く、第2の復号オーディオ情報の初期部)を適合させるために用いられ得る。
線形予測フィルタのゼロ入力応答は、スムーズな遷移を提供するのに好適であることが発見された。これは、線形予測フィルタの初期状態が第1の復号オーディオ情報及び第2の復号オーディオ情報の両方に基づくためである。第2の復号オーディオ情報において含まれるエイリアシングは、第1の復号オーディオ情報の修正バージョンへと導入される、人工的なエイリアシングによって補われる。
また、復号遅延が、第1のゼロ入力応答及び第2のゼロ入力応答に基づいて、又は結合ゼロ入力応答に依存して、一方で、第1の復号オーディオ情報を変更しないで、第2の復号オーディオ情報を修正することによって要求されないことが発見された。これは、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答が、第1の復号オーディオ情報を変更せずに、線形予測領域において符号化されるオーディオ・フレームと周波数領域(又は変換領域)において符号化される後に続くオーディオ・フレームとの間での遷移をスムーズにすることに非常に良好に適合されるためである。これは、第2の復号オーディオ情報が、少なくとも、線形予測領域において符号化されるオーディオ・フレームと周波数領域において符号化される後に続くオーディオ・フレームとの間の遷移で、第1の復号オーディオ情報と実質的に同様であるように、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答が第2の復号オーディオ情報を修正するためである。
結論として、本発明に係る上記した実施形態は、線形予測コーディング領域において符号化されるオーディオ・フレームと周波数領域(又は変換領域)において符号化される後に続くオーディオ・フレームとの間でのスムーズな遷移を提供することを可能にする。(周波数領域において符号化される後に続くオーディオ・フレームに関連付けられる)第2の復号オーディオ情報のみが修正されるので、追加遅延の導入が回避される。また、(実質的なアーチファクトなしの)遷移の高品質は、第1の復号オーディオ情報及び第2のオーディオ情報の両方の考慮の結果として生じる、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答の使用によって達成され得る。
好ましい実施形態において、第2の復号オーディオ情報がエイリアシングを備えるように、周波数領域デコーダは逆重複変換を実行するように構成される。上記の発明に関するコンセプトは、周波数領域デコーダ(又は変換領域デコーダ)がエイリアシングを導入する場合においてさえ、特に良好に働くことが発見された。上述のエイリアシングは、第1の復号オーディオ情報の修正バージョンにおける人工的なエイリアシングの提供によって適度な労力及び良好な結果を用いてキャンセルされ得る。
好ましい実施形態において、第2の復号オーディオ情報が、線形予測領域デコーダが第1の復号オーディオ情報を提供するための時間部と時間的に重複する時間部においてエイリアシングを備えるように、且つ第2の復号オーディオ情報が、線形予測領域デコーダが第1の復号オーディオ情報を提供するための時間部の後に続く時間部のためにエイリアシングがないように、周波数領域デコーダは、逆重複変換を実行するように構成される。本発明に係るこの実施形態は、第1の復号オーディオ情報が提供されず、エイリアシングがないために、重複変換(又は逆重複変換)及び時間部を維持するウィンドウ処理を用いることが有益であるというアイデアに基づく。提供される第1の復号オーディオ情報がないために時間に対するエイリアシング・キャンセル情報を提供する必要性がない場合、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答は、小さい計算労力を提供され得ることが発見された。換言すれば、(例えば、人工的なエイリアシングを用いて)エイリアシングの初期状態が実質的にキャンセルされる初期状態に基づいて、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答を提供することが好ましい。その結果として、線形予測領域デコーダが第1の復号オーディオ情報を提供するために時間周期の後に続く時間周期に対する第2の復号オーディオ情報の中でエイリアシングを有しないことが望ましいように、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答は、実質的にエイリアシングがない。この問題に関して、第2の復号オーディオ情報及び、典型的には、「重複」時間周期のための第2の復号オーディオ情報において含まれるエイリアシングを補う人工的なエイリアシングを考慮して、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答が、実質的に第1の復号オーディオ情報の減衰連続であるので、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答は、線形予測領域デコーダが第1の復号オーディオ情報を提供するための時間周期の後に続く上述の時間周期のために典型的には提供されることが留意されるべきである。
好ましい実施形態において、第1の復号オーディオ情報の修正バージョンを取得するために用いられる、第2の復号オーディオ情報の一部は、エイリアシングを備える。第2の復号オーディオ情報の中で幾つかのエイリアシングを許すことによって、ウィンドウ処理が単純に維持され得、且つ周波数領域において符号化されるオーディオ・フレームを符号化することに必要とされる情報の過度な増加が回避され得る。オーディオ品質の深刻な劣化がないように、第1の復号オーディオ情報の修正バージョンを取得するために用いられる第2の復号オーディオ情報の一部において含まれる、エイリアシングは、上述した人工的なエイリアシングによって補われ得る。
好ましい実施形態において、第1の復号オーディオ情報の修正バージョンを取得するために用いられる人工的なエイリアシングは、第2の復号オーディオ情報の一部において含まれるエイリアシングを少なくとも部分的に補償し、第1の復号オーディオ情報の修正バージョンを取得するために用いられる。それに応じて、良好なオーディオ品質が取得され得る。
好ましい実施形態において、遷移処理装置は、第1の復号オーディオのウィンドウ処理(windowed)バージョンを取得するために、第1のウィンドウ処理を第1の復号オーディオ情報に適用するように、且つ第1の復号オーディオ情報の時間鏡映(time-mirrored)バージョンのウィンドウ処理バージョンを取得するために、第2のウィンドウ処理を第1の復号オーディオ情報の時間鏡映バージョンに適用するように構成される。この場合において、遷移処理装置は、第1の復号オーディオ情報の修正バージョンを取得するために、第1の復号オーディオ情報のウィンドウ処理バージョンと、第1の復号オーディオ情報の時間鏡映バージョンのウィンドウ処理バージョンとを結合するように構成され得る。本発明に係るこの実施形態は、幾つかのウィンドウ処理がゼロ入力応答の提供のために入力として用いられる、第1の復号オーディオ情報の修正バージョンにおいてエイリアシングの適切なキャンセルを取得するために適用されるべきであるというアイデアに基づく。それに応じて、ゼロ入力応答(例えば、第2のゼロ入力応答又は結合ゼロ入力応答)が、線形予測コーディング領域において符号化されるオーディオ情報と周波数領域において符号化される後に続くオーディオ・フレームとの間での遷移のスムーズさにとって非常に好適に達成され得る。
好ましい実施形態において、遷移処理装置は、修正された第2の復号オーディオ情報を取得するために、第1の復号オーディオ情報が線形予測領域デコーダによって提供されない時間部に対して、第2の復号オーディオ情報と、第1のゼロ入力応答及び第2のゼロ入力応答と又は結合ゼロ入力応答とを線形的に結合するように構成される。単純な線形結合(例えば、単純な加算及び/若しくは減算、荷重線形結合又はクロスフェードする線形結合)は、スムーズな遷移の提供にとって好適であることが発見された。
好ましい実施形態において、線形予測領域において符号化されるオーディオ・フレームに提供される復号オーディオ情報が、周波数領域において符号化される後に続くオーディオ・フレームに提供される復号オーディオ情報から独立して提供されるように、遷移処理装置は、線形予測領域において符号化されるオーディオ・フレームのために復号オーディオ情報を提供するとき、第2の復号オーディオ情報によって第1の復号オーディオ情報を変更しないように構成される。本発明に係るコンセプトは、十分にスムーズな遷移を取得するために、第2の復号オーディオ情報に基づいて第1の復号オーディオ情報を変更することを要求しないことが発見された。それ故に、第2の復号オーディオ情報によって第1の復号オーディオ情報を変更しないことによって、遅延が回避され得る。これは、(周波数領域において符号化される後に続くオーディオ・フレームに関連付けられる)第2の復号オーディオ情報の復号が完了する前でさえ、第1の復号オーディオ情報が(例えば、リスナーに対する)レンダリングのためにその結果として提供され得るためである。その一方で、ゼロ入力応答(第1の及び第2のゼロ入力応答、又は結合ゼロ入力応答)は、第2の復号オーディオ情報が利用可能であると直ぐに計算され得る。それ故に、遅延が回避され得る。
好ましい実施形態において、オーディオ・デコーダは、周波数領域において符号化されるオーディオ・フレームの復号よりも前に、(又は復号の完了よりも前に、)周波数領域において符号化されるオーディオ・フレームが後に続く、線形予測領域において符号化されるオーディオ・フレームのために完全な復号オーディオ情報を提供するように構成される。このコンセプトは、第1の復号オーディオ情報が、第2の復号オーディオ情報に基づいて修正されず、且つ如何なる遅延も回避することを助けるという事実に起因して可能である。
好ましい実施形態において、遷移処理装置は、ウィンドウ処理される第1のゼロ入力応答及びウィンドウ処理される第2のゼロ入力応答に依存して、又はウィンドウ処理される結合ゼロ入力応答に依存して、第2の復号オーディオ情報を修正する前に、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答をウィンドウ処理するように構成される。それに応じて、遷移が特にスムーズになされ得る。また、非常に長いゼロ入力応答から結果として生じるであろう如何なる問題も回避され得る。
好ましい実施形態において、遷移処理装置は、リニアウィンドウを用いて、第1のゼロ入力応答及び第2のゼロ入力応答、又は結合ゼロ入力応答をウィンドウ処理するように構成される。リニアウィンドウの使用は、良好なヒアリング印象をもたらすにも拘わらず、単純なコンセプトであることが発見された。
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法を創出する。方法は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するために線形予測領域の復号を実行するステップを備える。方法は、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するために周波数領域の復号を実行するステップをさらに備える。方法は、人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報の一部の寄与を備える、第1の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタリングの第2の初期状態に応答して線形予測フィルタリングの第2のゼロ入力応答を取得するステップと、第1の復号オーディオ情報によって定義される線形予測フィルタリングの第1の初期状態に応答して線形予測フィルタリングの第1のゼロ入力応答を取得するステップと、をさらに備える。代わりに、方法は、人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報の一部の寄与を備える、第1の復号オーディオ情報と第1の復号オーディオ情報の修正バージョンとの結合によって定義される、線形予測フィルタリングの初期状態に応答して線形予測フィルタリングの結合ゼロ入力応答を取得するステップを備える。方法は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、第1のゼロ入力応答及び第2のゼロ入力応答に依存して、又は結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報を修正するステップをさらに備える。この方法は、上述したオーディオ・デコーダと同様の考慮に基づき、且つ同じ有益をもたらす。
本発明に係るもう一つの実施形態は、コンピュータ・プログラムがコンピュータで動作するとき、上述の方法を実行するコンピュータ・プログラムを創造する。
本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法を創出する。方法は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するステップを備える。方法は、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するステップをさらに備える。方法は、線形予測フィルタリングのゼロ入力応答を取得するステップをさらに備える。線形予測フィルタリングの初期状態は、第1の復号オーディオ情報及び第2の復号オーディオ情報に依存して定義される。方法は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報を修正するステップをさらに備える。
この方法は、上述したオーディオ・デコーダと同様の考慮に基づく。
本発明に係るもう一つの実施形態は、上述の方法を実行するコンピュータ・プログラムを備える。
4.図面の簡単な説明
本発明に係る実施形態は、次の添付図面を参照して後に記述されるであろう。
本発明に係る実施形態は、次の添付図面を参照して後に記述されるであろう。
5.実施形態の詳細な説明
5.1.図1係るオーディオ・デコーダ
図1は、本発明の一実施形態に係る、オーディオ・デコーダ100の概略ブロック図を示す。オーディオ・デコーダ100は、例えば、線形予測領域において符号化される第1のフレーム、及び周波数領域において符号化される後に続く第2のフレームを備え得る、符号化オーディオ情報110を受信するように構成される。オーディオ・デコーダ100は、符号化オーディオ情報110に基づいて復号オーディオ情報112を提供するようにもまた構成される。
5.1.図1係るオーディオ・デコーダ
図1は、本発明の一実施形態に係る、オーディオ・デコーダ100の概略ブロック図を示す。オーディオ・デコーダ100は、例えば、線形予測領域において符号化される第1のフレーム、及び周波数領域において符号化される後に続く第2のフレームを備え得る、符号化オーディオ情報110を受信するように構成される。オーディオ・デコーダ100は、符号化オーディオ情報110に基づいて復号オーディオ情報112を提供するようにもまた構成される。
オーディオ・デコーダ100は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報122を提供するように構成される、線形予測領域デコーダ120を備える。オーディオ・デコーダ100は、周波数領域において(又は変換領域において)符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報132を提供するように構成される、周波数領域デコーダ(又は変換領域デコーダ130)をさらに備える。例えば、線形予測領域デコーダ120は、CELPデコーダ、ACELPデコーダ、又は音源信号に基づいて且つ線形予測フィルタ特性(又はフィルタ係数)の符号化表現に基づいて線形予測フィルタリングを実行する同様のデコーダであり得る。
周波数領域デコーダ130は、例えば、AACタイプ・デコーダ又はAACタイプ復号に基づく如何なるデコーダでもあり得る。例えば、周波数領域デコーダ(又は変換領域デコーダ)は、周波数領域パラメータ(又は変換領域パラメータ)の符号化表現を受信し、且つ、それに基づいて、第2の復号オーディオ情報を提供し得る。例えば、周波数領域デコーダ130は、周波数領域係数を復号し(又は領域係数を変換し)、スケール因子(スケール因子は、異なる周波数バンドに提供され得、且つ異なるフォームで表現され得る)に依存して、周波数領域係数を計り(又は領域係数を変換し)、且つ例えば、逆高速フーリエ変換又は逆修正離散的コサイン変換(逆MDCT)等の周波数領域-時間領域変換(又は変換領域-時間領域変換)を実行し得る。
オーディオ・デコーダ100は、遷移処理装置140をさらに備える。遷移処理装置140は、線形予測フィルタリングのゼロ入力応答を取得するように構成される。線形予測フィルタリングの初期状態は、第1の復号オーディオ情報及び第2の復号オーディオ情報に依存して定義される。その上、遷移処理装置140は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報132を修正するように構成される。
例えば、遷移処理装置140は、第1の復号オーディオ情報122及び第2の復号オーディオ情報132を受信し、且つ、それに基づいて、初期状態情報146を提供する、初期状態決定144を備え得る。遷移処理装置140は、初期状態情報146を受信し、且つ、それに基づいて、ゼロ入力応答150を提供する、線形予測フィルタリング148をさらに備える。例えば、線形予測フィルタリングは、初期状態情報146に基づいて初期化され、且つゼロ入力を提供される、線形予測フィルタによって実行され得る。それに応じて、線形予測フィルタリングは、ゼロ入力応答150を提供する。遷移処理装置140は、遷移処理装置140の出力情報を構成する、修正された第2の復号オーディオ情報142をそれによって取得するために、ゼロ入力応答150に依存して第2の復号オーディオ情報132を修正する、修正152をさらに備える。修正された第2の復号オーディオ情報142は、復号オーディオ情報112を取得するために、典型的には第1の復号オーディオ情報122に連結される。
オーディオ・デコーダ100の機能性に関して、その場合は、線形予測領域において符号化されるオーディオ・フレーム(第1のオーディオ・フレーム)が、周波数領域において符号化されるオーディオ・フレーム(第2のオーディオ・フレーム)が後に続くことを考慮されるべきである。線形予測領域において符号化される、第1のオーディオ・フレームは、線形予測領域デコーダ120によって復号されるであろう。それに応じて、第1の復号オーディオ情報122は、第1のオーディオ・フレームに関連付けられ、取得される。しかしながら、第1のオーディオ・フレームに関連付けられる復号オーディオ情報122は、周波数領域において符号化される、第2のオーディオ・フレームに基づいて復号される如何なるオーディオ情報によっても典型的には影響を及ぼされないままである。しかしながら、第2の復号オーディオ情報132は、周波数領域において符号化される第2のオーディオ・フレームに基づいて周波数領域デコーダ130によって提供される。
不幸にも、第2のオーディオ・フレームに関連付けられる、第2の復号オーディオ情報132は、第1の復号オーディオ情報に関連付けられる第1の復号オーディオ情報122を伴うスムーズな遷移を典型的には備えない。
しかしながら、第2の復号オーディオ情報は、第1のオーディオ・フレームに関連付けられる時間の周期にさらに重複する時間の周期に提供されることが留意されるべきである。第1のオーディオ・フレームの時間に提供される、第2の復号オーディオ情報の一部(すなわち、第2の復号オーディオ情報132の初期部)は、初期状態決定144によって評価される。その上、初期状態決定144は、第1の復号オーディオ情報の少なくとも一部をさらに評価する。それに応じて、初期状態決定144は、(その一部が第1のオーディオ・フレームの時間に関連付けられる)第1の復号オーディオ情報の一部に基づいて、且つ(第2の復号オーディオ情報130の一部が第1のオーディオ・フレームの時間にもまた関連付けられる)第2の復号オーディオ情報の一部に基づいて、初期状態情報146を取得する。それに応じて、初期状態情報146は、第1の復号情報132に依存して、且つ第2の復号オーディオ情報にもまた依存して、提供される。
初期状態情報146は、第2の復号オーディオ情報132(又は初期状態決定144によって要求されるその少なくとも初期部)が利用可能であると直ぐに、提供され得ることが留意されるべきである。線形予測フィルタリング148は、初期状態情報146が利用可能であると直ぐに、さらに実行され得る。これは、線形予測フィルタリングが、第1のオーディオ・フレームの復号から既知であるフィルタリング係数を用いるためである。それに応じて、ゼロ入力応答150は、第2の復号オーディオ情報132(又は初期状態決定144によって要求されるその少なくとも初期部)が利用可能であると直ぐに、提供され得る。その上、ゼロ入力応答150は、(第1のオーディオ・フレームの時間よりもむしろ、)第2のオーディオ・フレームの時間に関連付けられる第2の復号オーディオ情報132の一部を修正するために用いられ得る。それに応じて、典型的には第2のオーディオ・フレームに関連付けられる時間の開始に横たわる、第2の復号オーディオ情報の一部は、修正される。その結果として、(典型的には第1のオーディオ・フレームに関連付けられる時間の終了で終了する)第1の復号オーディオ情報122と修正された第2の復号オーディオ情報142との間でのスムーズな遷移が達成される(第1のオーディオ・フレームに関連付けられる時間を有する第2の復号オーディオ情報132の時間部は、好ましくは切り捨てられ、且つ従って、線形予測フィルタリングのための初期状態情報の提供のためにのみ好ましくは用いられる)。それに応じて、全体的な復号オーディオ情報112が遅延を提供され得ない。これは、第1の復号オーディオ情報122の提供が遅延されないためであり、(なぜならば、第1の復号オーディオ情報122が第2の復号オーディオ情報132から独立しているためであり、)且つなぜならば、修正された第2の復号オーディオ情報142が、第2の復号オーディオ情報132が利用可能であると直ぐに、提供され得るためである。それに応じて、たとえ、線形予測領域において符号化されるオーディオ・フレーム(第1のオーディオ・フレーム)から周波数領域において符号化されるオーディオ・フレーム(第2のオーディオ・フレーム)に向かうスイッチングが存在するとしても、異なるオーディオ・フレームの間でのスムーズな遷移は、復号オーディオ情報112の中で達成され得る。
しかしながら、オーディオ・デコーダ100は、ここで記述される特徴及び機能性の何れかによって補足され得ることが留意されるべきである。
5.2.図2に係るオーディオ・デコーダ
図2は、本発明のもう一つの実施形態に係る、オーディオ・デコーダの概略ブロック図を示す。オーディオ・デコーダ200は、符号化オーディオ情報210を受信するように構成され、例えば、線形予測領域において(又は同等に、線形予測領域表現において)符号化される1つ以上のフレームと、周波数領域において(又は、同等に、変換領域において、若しくは同等に周波数領域表現において、若しくは同等に変換領域表現において)符号化される1つ以上のオーディオ・フレームとを備える。オーディオ・デコーダ200は、符号化オーディオ情報210に基づいて復号オーディオ情報212を提供するように構成される。復号オーディオ情報212は、例えば、時間領域表現であり得る。
図2は、本発明のもう一つの実施形態に係る、オーディオ・デコーダの概略ブロック図を示す。オーディオ・デコーダ200は、符号化オーディオ情報210を受信するように構成され、例えば、線形予測領域において(又は同等に、線形予測領域表現において)符号化される1つ以上のフレームと、周波数領域において(又は、同等に、変換領域において、若しくは同等に周波数領域表現において、若しくは同等に変換領域表現において)符号化される1つ以上のオーディオ・フレームとを備える。オーディオ・デコーダ200は、符号化オーディオ情報210に基づいて復号オーディオ情報212を提供するように構成される。復号オーディオ情報212は、例えば、時間領域表現であり得る。
オーディオ・デコーダ200は、上記の説明が適用されるように、線形予測領域デコーダ120と実質的に同一である、線形予測領域デコーダ220を備える。それ故に、線形予測領域デコーダ210は、符号化オーディオ情報210において含まれる線形予測領域表現において符号化されるオーディオ・フレームを受信し、且つ線形予測領域表現において符号化されるオーディオ・フレームに基づいて、典型的には時間領域オーディオ表現の形式である、(且つ典型的には第1の復号オーディオ情報122に対応する、)第1の復号オーディオ情報222を提供する。オーディオ・デコーダ200は、上記の説明が適用されるように、周波数デコーダ130と実質的に同一である、周波数領域デコーダ230をさらに備える。それに応じて、周波数領域デコーダ230は、周波数領域表現において(又は変換領域表現において)符号化されるオーディオ・フレームを受信し、且つ、それに基づいて、典型的には時間領域表現の形式である、第2の復号オーディオ情報232を提供する。
オーディオ・デコーダ200は、それによって修正された第2の復号オーディオ情報242を導き出すために、第2の復号オーディオ情報232を修正するように構成される、遷移処理装置240をさらに備える。
遷移処理装置240は、第1の復号オーディオ情報222によって定義される線形予測フィルタの初期状態に応答して線形予測フィルタの第1のゼロ入力応答を取得するように構成される。遷移処理装置は、人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報232の一部の寄与を備える、第1の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタの第2の初期状態に応答して線形予測フィルタの第2のゼロ入力応答を取得するようにもまた構成される。例えば、遷移処理装置240は、第1の復号オーディオ情報222を受信し、且つそれに基づいて第1の初期状態情報244を提供する、初期状態決定242を備える。例えば、第1の初期状態情報244は、第1の復号オーディオ情報222の一部、例えば、第1のオーディオ・フレームのために関連付けられる時間部の終了に隣接する一部を単純に反映し得る。遷移処理装置240は、初期の線形予測フィルタ状態として第1の初期状態情報244を受信するように、且つ第1の初期状態情報244に基づいて、第1のゼロ入力応答248を提供するように構成される、(第1の)線形予測フィルタリング246をさらに備え得る。遷移処理装置240は、修正/エイリアシング追加/結合250をさらに備える。修正/エイリアシング追加/結合250は、第1の復号オーディオ情報222、又は少なくともその一部、(例えば、第1のオーディオ・フレームに関連付けられる時間部の終了に隣接する一部、)及び第2の復号情報232、又は少なくともその一部(例えば、典型的には第1のオーディオ・フレームに関連付けられる時間部の終了に配置される第2の復号オーディオ情報232の時間部。第2の復号オーディオ情報は、例えば、主として第2のオーディオ・フレームに関連付けられる時間部のためにだけでなく、ある程度まで、線形予測領域表現において符号化される第1のオーディオ・フレームに関連付けられる時間部の終了に、提供される)もさらに受信するように構成される。修正/エイリアシング追加/結合は、例えば、第2の初期状態情報252をそれによって取得するために、第1の復号オーディオ情報の時間部を修正し、第1の復号オーディオ情報の時間部に基づいて人工的なエイリアシングを追加し、且つ第2の復号オーディオ情報の時間部をさらに追加し得る。換言すれば、修正/エイリアシング追加/結合は、第2の初期状態決定の一部であり得る。第2の初期状態情報は、第2の初期状態情報に基づいて第2のゼロ入力応答256を提供するように構成される、第2の線形予測フィルタリング254の初期状態を決定する。
例えば、第1の線形予測フィルタリング及び第2の線形予測フィルタリングは、(線形予測領域表現において符号化される)第1のオーディオ・フレームのために線形予測領域デコーダ220によって提供される、フィルタ・セッティング(例えば、フィルタ係数)を用い得る。換言すれば、第1及び第2の線形予測フィルタリング246,254は、第1のオーディオ・フレームに関連付けられる第1の復号オーディオ情報222を取得するために線形予測領域デコーダ220によってもまた実行される同じ線形予測フィルタリングを実行し得る。しかしながら、第1及び第2の線形予測フィルタリング246,254の初期状態は、第1の初期状態決定244によって、且つ(修正/エイリアシング追加/結合を備える)第2の初期状態決定250によって、決定される値にセットされ得る。しかしながら、線形予測フィルタ246,254の入力信号は、ゼロにセットされ得る。それに応じて、第1のゼロ入力応答248及び第2のゼロ入力応答256は、第1のゼロ入力応答及び第2のゼロ入力応答が第1の復号オーディオ情報及び第2の復号オーディオ情報に基づき、且つ線形予測領域デコーダ220によって用いられる同じ線形予測フィルタを用いて形成されるように、取得される。
遷移処理装置240は、修正された第2の復号オーディオ情報242をそれによって取得するために、第1のゼロ入力応答248に依存して、且つ第2のゼロ入力応答256に依存して、第2の符号化オーディオ情報232を受信し、且つ第2の復号オーディオ情報232を修正する、修正258をさらに備える。例えば、修正258は、修正された第2の復号オーディオ情報242を取得するために、第2の復号オーディオ情報232に又はから第1のゼロ入力応答248を加算及び/又は減算し得、且つ第2の復号オーディオ情報に又はから第2のゼロ入力応答256を加算及び/又は減算し得る。
例えば、第1のゼロ入力応答及び第2のゼロ入力応答は、第2のオーディオ・フレームの時間周期に関連付けられる第2の復号オーディオ情報の一部のみが修正されるように、第2のオーディオ・フレームに関連付けられる時間周期に提供され得る。その上、第1のオーディオ・フレームに関連付けられる時間部に関連付けられる第2の復号オーディオ情報232の値は、(ゼロ入力応答に基づいて)修正された第2の復号オーディオ情報の最終的な提供において切り捨てられ得る。
その上、オーディオ・デコーダ200は、全体的な復号オーディオ情報212をそれによって取得するために、第1の復号オーディオ情報222と修正された第2の復号オーディオ情報242とを連結するように構成されることが好ましい。
オーディオ・デコーダ200の機能性に関して、オーディオ・デコーダ100の上記の説明が参照される。その上、追加の詳細は、他の図を参照して、以下において記述されるであろう。
5.3.図3に係るオーディオ・デコーダ
図3は、本発明の一実施形態に係る、オーディオ・デコーダ300の略ブロック図を示す。オーディオ・デコーダ300は、相違のみが詳細において記述されるであろうように、オーディオ・デコーダ200と同様である。さもなければ、オーディオ・デコーダ200に関して提示された上記の説明が参照される。
図3は、本発明の一実施形態に係る、オーディオ・デコーダ300の略ブロック図を示す。オーディオ・デコーダ300は、相違のみが詳細において記述されるであろうように、オーディオ・デコーダ200と同様である。さもなければ、オーディオ・デコーダ200に関して提示された上記の説明が参照される。
オーディオ・デコーダ300は、符号化オーディオ信号210に対応し得る、符号化オーディオ情報310を受信するように構成される。その上、オーディオ・デコーダ300は、復号オーディオ情報212に対応し得る、復号オーディオ情報312を提供するように構成される。
オーディオ・デコーダ300は、線形予測領域デコーダ220に対応し得る、線形予測領域デコーダ320と、周波数領域デコーダ230に対応する、周波数領域デコーダ330と、を備える。線形予測領域デコーダ320は、例えば、線形予測領域において符号化される第1のオーディオ・フレームに基づいて、第1の復号オーディオ情報322を提供する。その上、周波数領域オーディオ・デコーダ330は、例えば、周波数領域において(又は変換領域において)符号化される(第1のオーディオ・フレームの後に続く)第2のオーディオ・フレームに基づいて、第2の復号オーディオ情報332を提供する。第1の復号オーディオ情報322は、第1の復号オーディオ情報222に対応し得、且つ第2の復号オーディオ情報332は、第2の復号オーディオ情報232に対応し得る。
オーディオ・デコーダ300は、その全体的な機能性の点から、遷移処理装置340に対応し得、且つ第2の復号オーディオ情報332に基づいて修正された第2の復号オーディオ情報342を提供し得る、遷移処理装置340をさらに備える。
遷移処理装置340は、人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報の一部の寄与を備える、第1の復号オーディオ情報と第1の復号オーディオ情報の修正バージョンとの結合によって定義される線形予測フィルタの(結合)初期状態に応答して線形予測フィルタの結合ゼロ入力応答を取得するように構成される。その上、遷移処理装置は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報を修正するように構成される。
例えば、遷移処理装置340は、第1の復号オーディオ情報322及び第2の復号オーディオ情報332を受信し、且つ、それに基づいて、結合初期状態情報344を提供する、修正/エイリアシング追加/結合342を備える。例えば、修正/エイリアシング追加/結合は、初期状態決定として考慮され得る。修正/エイリアシング追加/結合342は、初期状態決定242の及び初期状態決定250の機能性を実行し得ることがさらに留意されるべきである。結合初期状態情報344は、例えば、第1の初期状態情報244と第2の初期状態情報252の合計に等しくなり得る(又は少なくとも対応し得る)。それに応じて、修正/エイリアシング追加/結合342は、例えば、第1の復号オーディオ情報322の一部と、人工的なエイリアシングと及び第2の復号オーディオ情報332の一部とをさらに結合し得る。その上、修正/エイリアシング追加/結合342は、下記でより詳細に記述されるであろうように、第1の復号オーディオ情報の一部をさらに修正し、且つ/又は第1の復号オーディオ情報322のウィンドウ処理されたコピーを追加し得る。それに応じて、結合初期状態情報344が取得される。
遷移処理装置340は、結合初期状態情報344を受信し、且つそれに基づいて、修正350のために結合ゼロ入力応答348を提供する、線形予測フィルタリング346をさらに備える。線形予測フィルタリング346は、例えば、第1の復号オーディオ情報322を取得するために線形予測デコーダ320によって実行される線形予測フィルタリングと実質的に同一である線形予測フィルタリングを実行し得る。しかしながら、線形予測フィルタリング346の初期状態は、結合初期状態情報344によって決定され得る。また、結合ゼロ入力応答348を提供するための入力信号は、線形予測フィルタリング344が結合初期状態情報344に基づいてゼロ入力応答を提供するように、ゼロにセットされ得る。(フィルタリング・パラメータ又はフィルタリング係数は、例えば、第1のオーディオ・フレームに関連付けられる第1の復号オーディオ情報322を提供するために線形予測領域デコーダ320によって用いられるフィルタリング・パラメータ又はフィルタリング係数と同一である。その上、結合ゼロ入力応答348は、修正された第2の復号オーディオ情報342をそれによって導き出すために、第2の復号オーディオ情報332を修正するために用いられる。例えば、修正350は、第2の復号オーディオ情報332に結合ゼロ入力応答348を加算し得、又は第2の復号オーディオ情報から結合ゼロ入力応答を減算し得る。
しかしながら、更なる詳細のために、オーディオ・デコーダ100,200の説明、及び以下における詳細な説明もまた参照される。
遷移コンセプトの議論
以下において、オーディオ・デコーダ100,200,300において適用可能である、CELPフレームからMDCTフレームへの遷移に関する幾つかの詳細が議論されるであろう。
以下において、オーディオ・デコーダ100,200,300において適用可能である、CELPフレームからMDCTフレームへの遷移に関する幾つかの詳細が議論されるであろう。
また、従来のコンセプトと比較した場合の相違が議論されるであろう。
MDCT及びウィンドウ処理-概説
本発明に係る実施形態において、エイリアシング問題は、(例えば、逆MDCT変換を用いるMDCT係数のセットに基づいて再構成される時間領域オーディオ信号の)左屈曲点がCELPとMDCTフレームの境界の左で動かされるように、(例えば、線形予測領域において符号化されるオーディオ・フレームの後に続くMDCT領域において符号化されるオーディオ・フレームのために)MDCT長さを増加させることによって解決される。(例えば、逆MDCT変換を用いるMDCT係数のセットに基づいて再構成される時間領域オーディオ信号に適用されるウィンドウの)MDCTウィンドウの左部は、重複が減じられるように、(例えば、「標準の」MDCTウィンドウと比較した場合、)さらに変更される。
本発明に係る実施形態において、エイリアシング問題は、(例えば、逆MDCT変換を用いるMDCT係数のセットに基づいて再構成される時間領域オーディオ信号の)左屈曲点がCELPとMDCTフレームの境界の左で動かされるように、(例えば、線形予測領域において符号化されるオーディオ・フレームの後に続くMDCT領域において符号化されるオーディオ・フレームのために)MDCT長さを増加させることによって解決される。(例えば、逆MDCT変換を用いるMDCT係数のセットに基づいて再構成される時間領域オーディオ信号に適用されるウィンドウの)MDCTウィンドウの左部は、重複が減じられるように、(例えば、「標準の」MDCTウィンドウと比較した場合、)さらに変更される。
例として、図4A及び4Bは、異なるウィンドウのグラフ表現を示す。図4Aは、第1のMDCTフレーム(すなわち、周波数領域において符号化される第1のオーディオ・フレーム)からもう一つのMDCTフレーム(すなわち、周波数領域において符号化される第2のオーディオ・フレーム)までの遷移のためのウィンドウを示す。その一方で、図4Bは、CELPフレーム(すなわち、線形予測領域において符号化される第1のオーディオ・フレーム)からMDCTフレーム(すなわち、以下において、周波数領域において符号化される第2のオーディオ・フレーム)までの遷移のために用いられるウィンドウを示す。
換言すれば、図4Aは、比較例として考慮され得るオーディオ・フレームのシーケンスを示す。その一方で、図4Bは、第1のオーディオ・フレームが線形予測領域において符号化され、且つ周波数領域において符号化される第2のオーディオ・フレームが後に続くシーケンスを示す。図4Bに係る場合は、本発明の実施形態によって特に有益な手段で取り扱われる。
ここで図4Aを参照すると、横軸410がミリ秒ごとに時間を記述し、且つ縦軸412が任意の単位においてウィンドウの振幅(例えば、ウィンドウの規格化された振幅)を記述することに留意すべきである。見られ得るように、フレーム長さは、第1のオーディオ・フレームに関連付けられる時間周期がt=-20msとt=0の間で広がるように、20msに等しい。第2のオーディオ・フレームに関連付けられる時間周期は、時間t=0からt=20msまで広がる。しかしながら、復号MDCT係数に基づいて逆修正離散コサイン変換によって提供される時間領域オーディオ・サンプルをウィンドウ処理するための第1のウィンドウは、時間t=-20msとt=8.75msの間で広がることが見られ得る。それ故に、第1のウィンドウ420の長さは、フレーム長(20ms)よりも長い。それに応じて、たとえ、t=-20msとt=0の間での時間が第1のオーディオ・フレームのために関連付けられるとしても、時間領域オーディオ・サンプルは、t=-20msとt=8.75msの間での時間のために、第1のオーディオ・フレームの復号に基づいて提供される。それ故に、第1の符号化オーディオ・フレームに基づいて提供される時間領域オーディオ・サンプルと、第2の復号オーディオ・フレームに基づいて提供される時間領域オーディオ・サンプルとの間での約8.75msの重複が存在する。第2のウィンドウは、422で示され、且つ時間t=0とt=28.75msの間で広がることが留意されるべきである。
その上、第1のオーディオ・フレームに提供され、且つ第2のオーディオ・フレームに提供されるウィンドウ処理された時間領域オーディオ信号は、エイリアシングがある(not aliasing free)ことに留意すべきである。むしろ、第1のオーディオ・フレームに提供されるウィンドウ処理された(第2の)復号オーディオ情報は、時間t=-20msとt=-11.25msの間で、且つ時間t=0とt=8.75msの間でもまたエイリアシングを備える。同様に、第2のオーディオ・フレームに提供されるウィンドウ処理された復号オーディオ情報は、時間t=0とt=8.75msの間で、且つ時間t=20msとt=28.75msの間でもまたエイリアシングを備える。しかしながら、例えば、第1のオーディオ・フレームに提供される復号オーディオ情報において含まれるエイリアシングは、時間t=0とt=8.75msの間の時間部において後に続く第2のオーディオ・フレームに提供される復号オーディオ情報において含まれるエイリアシングと共に取り消される。
その上、ウィンドウ420及び422のために、MDCT屈曲点の間での時間的な持続は、フレーム長に等しい、20msに等しい。
ここで図4Bを参照すると、異なる場合、すなわち、第2の復号オーディオ情報を提供するためにオーディオ・デコーダ100,200,300において用いられ得る、CELPフレームからMDCTフレームまでの遷移のためのウィンドウが記述されるであろう。図4Bにおいて、横軸430は、ミリ秒ごとに時間を記述し、且つ縦軸432は、任意の単位においてウィンドウの振幅を記述する。
図4Bにおいて見られ得るように、第1のフレームは、時間t1=-20msと時間t2=0msの間で広がる。それ故に、CELPオーディオ・フレームである、第1のオーディオ・フレームのフレーム長さは、20msである。その上、第2の、後に続くオーディオ・フレームは、時間t2とt3=20msの間で広がる。それ故に、MDCTオーディオ・フレームである、第2のオーディオ・フレームの長さは、20msでもある。
以下において、ウィンドウ440に関する幾つかの詳細が記述されるであろう。
ウィンドウ440は、時間t4=-1.25msと時間t2=0msの間で広がる、第1のウィンドウ・スロープ442を備える。第2のウィンドウ・スロープ444は、時間t3=20msと時間t5=28.75msの間で広がる。第2のオーディオ・フレームのために(又はに関連付けられる)(第2の)復号オーディオ情報を提供する、修正離散コサイン変換は、時間t4とt5の間で時間領域サンプルを提供することが留意されるべきである。しかしながら、(周波数領域、例えば、MDCT領域において符号化されるオーディオ・フレームが、線形予測領域において符号化されるオーディオ・フレームの後に続く場合、周波数領域デコーダ130,230,330において用いられ得る)修正離散コサイン変換(又は、より正確には、逆修正離散コサイン変換)は、第2のオーディオ・フレームの周波数領域表現に基づいて、時間t4とt2の間に且つ時間t3とt5の間にエイリアシングを備える時間領域サンプルを提供する。その一方で、逆修正離散コサイン変換は、第2のオーディオ・フレームの周波数領域表現に基づいて時間t2とt3の間での時間周期にエイリアシングがない時間領域サンプルを提供する。それ故に、第1のウィンドウ・スロープ442は、幾つかのエイリアシングを備える時間領域オーディオ・サンプルに関連付けられ、且つ第2のウィンドウ・スロープ444は、幾つかのエイリアシングを備える時間領域オーディオ・サンプルにさらに関連付けられる。
また、MDCT屈曲点の間での時間は、沢山の符号化MDCT係数が図4Aにおいて示される状況よりも図4Bにおいて示される状況のほうがより大きくあるべきであることを暗示する、第2のオーディオ・フレームのために25msに等しいことが留意されるべきである。
結論として、第1のオーディオ・フレーム及び第1のオーディオ・フレームの後に続く第2のオーディオ・フレームの両方が、周波数領域において(例えば、MDCT領域において)符号化される場合において、オーディオ・デコーダ100,200,300は、(例えば、周波数領域デコーダにおける逆修正離散コサイン変換の出力のウィンドウ処理に、)ウィンドウ420,422を適用し得る。その一方で、線形予測領域において符号化される第1のオーディオ・フレームの後に続く、第2のオーディオ・フレームが、周波数領域において(例えば、MDCT領域において)符号化される場合において、オーディオ・デコーダ100,200,300は、周波数領域デコーダの操作を切り替え得る。例えば、第2のオーディオ・フレームが、MDCT領域において符号化され、且つCELP領域において符号化される以前の第1のオーディオ・フレームの後に続く場合、MDCT係数の増加した数を用いる逆修正離散コサイン変換が用いられ得る(それは、周波数領域においてもさらに符号化される以前のオーディオ・フレームの後に続く符号化オーディオ・フレームの周波数領域表現と比較した場合、MDCT係数の増加した数が、符号化形式で、線形予測領域において符号化される以前のオーディオ・フレームの後に続くオーディオ・フレームの周波数領域表現において、含まれることを暗示する)。その上、(第2の(現在の)オーディオ・フレームが周波数領域においてさらに符号化される以前のオーディオ・フレームの後に続く場合と比較したとき、)周波数領域において符号化された第2の(現在の)オーディオ・フレームが、線形予測領域において符号化されたオーディオ・フレームの後に続く場合において、第2の復号オーディオ情報132を取得するために、異なるウィンドウ、すなわち、ウィンドウ440は、逆修正離散的コサイン変換の出力(すなわち、逆修正離散的コサイン変換によって提供される時間領域オーディオ表現)をウィンドウ処理するために適用される。
更なる結果として、(標準の場合と比較したとき、)増加した長さを有する逆修正離散的コサイン変換は、周波数領域において符号化されるオーディオ・フレームが線形予測領域において符号化されるオーディオ・フレームの後に続く場合において、周波数領域デコーダ130によって適用され得る。その上、ウィンドウ440は、この場合において用いられ得る(一方で、ウィンドウ420,422は、周波数領域において符号化されるオーディオ・フレームが周波数領域において符号化される以前のオーディオ領域の後に続く、「標準の」場合において用いられ得る)。
本発明に関するコンセプトに関して、CELP信号は、下記でより詳細に示されるであろうように、如何なる追加の遅延も導入しないために修正されることが留意されるべきである。代わりに、本発明に係る実施形態は、CELPとMDCTフレームの間の境界で導入され得る如何なる不連続性も取り除くためのメカニズムを創出する。このメカニズムは、(例えば、線形予測領域デコーダによって用いられる)CELP合成フィルタのゼロ入力応答を用いて不連続性をスムーズにする。詳細は以下において与えられる。
段階的な記述-概説
以下において、短い段階的な記述が提供されるであろう。その後、更なる詳細が与えられるであろう。
以下において、短い段階的な記述が提供されるであろう。その後、更なる詳細が与えられるであろう。
エンコーダ側
1.(「第1のフレーム」で時々示されもする)以前のフレームがCELPである(又は、一般に、線形予測領域において符号化される)場合、(周波数領域において又は変換領域において符号化されるフレームの例として考慮され得る)(「第2のフレーム」として時々示されもする)現在のMDCTフレームは、異なるMDCT長さ及び異なるMDCTウィンドウで符号化される。例えば、ウィンドウ440は、(「標準の」ウィンドウ422よりもむしろ、)この場合において用いられ得る。
1.(「第1のフレーム」で時々示されもする)以前のフレームがCELPである(又は、一般に、線形予測領域において符号化される)場合、(周波数領域において又は変換領域において符号化されるフレームの例として考慮され得る)(「第2のフレーム」として時々示されもする)現在のMDCTフレームは、異なるMDCT長さ及び異なるMDCTウィンドウで符号化される。例えば、ウィンドウ440は、(「標準の」ウィンドウ422よりもむしろ、)この場合において用いられ得る。
2.MDCT長さは、左屈曲点がCELPとMDCTフレームの間の境界の左で動かされるように、(例えば、図4A及び4Bを参照して、20msから25msまで)増加される。例えば、(MDCT係数の数によって定義され得る)MDCT長さは、MDCT屈曲点の(又は間の)長さが、(図4Aにおいて示されるように)20msのMDCT屈曲点の間での「標準の」長さと比較した場合、(図4Bにおいて示されるように)25msと等しいように、選択され得る。MDCT変換の「左」屈曲点が、図4Bにおいて見られ得る、(時間t=0とt=8.75msの間の中間においてよりもむしろ)時間t4とt2の間に位置することがまた見られ得る。しかしながら、右MDCT屈曲点の位置は、(例えば、時間t3とt5の間の中間において、)変更され得ず、それは、図4A及び4Bの(又は、より正確には、ウィンドウ422及び440の)比較から見られ得る。
3.MDCTウィンドウの左部は、(例えば、8.75msから1.25msまで)重複長が減じられるように、変更される。例えば、エイリアシングを備える一部は、以前のオーディオ・フレームが線形予測領域において符号化される場合において、時間t4=-1.25msとt2=0の間に(すなわち、t=0で開始し、且つt=20msで終了する、第2のオーディオ・フレームに関連付けられる時間周期の前に)横たわる。その一方で、エイリアシングを備える信号部は、以前のオーディオ・フレームが周波数領域において(例えば、MDCT領域において)符号化される場合において、時間t=0とt=8.75msの間に位置する。
デコーダ側
1.(第1のオーディオ・フレームとしてもまた示される)以前のフレームがCELP(又は、一般に、線形予測領域において符号化される)場合、(周波数領域又は変換領域において符号化されるフレームの例である、)(第2のオーディオ・フレームとしてもまた示される)現在のMDCTフレームは、エンコーダ側において用いられるのと同じMDCT長及び同じMDCTウィンドウで復号される。換言すれば、図4Bにおいて示されるウィンドウ処理は、第2の復号オーディオ情報の提供において適用され、且つ(エンコーダの側で用いられる修正離散コサイン変換の特性に対応する)逆修正離散コサイン変換に関する上述した特性をさらに適用され得る。
1.(第1のオーディオ・フレームとしてもまた示される)以前のフレームがCELP(又は、一般に、線形予測領域において符号化される)場合、(周波数領域又は変換領域において符号化されるフレームの例である、)(第2のオーディオ・フレームとしてもまた示される)現在のMDCTフレームは、エンコーダ側において用いられるのと同じMDCT長及び同じMDCTウィンドウで復号される。換言すれば、図4Bにおいて示されるウィンドウ処理は、第2の復号オーディオ情報の提供において適用され、且つ(エンコーダの側で用いられる修正離散コサイン変換の特性に対応する)逆修正離散コサイン変換に関する上述した特性をさらに適用され得る。
2.CELPとMDCTフレームの間の境界で(例えば、上述した第1のオーディオ・フレームと第2のオーディオ・フレームの間の境界で)生じ得る如何なる不連続性も取り除くために、以下のメカニズムが用いられる。
a)信号の第1部は、CELP信号を用いる(例えば、第1の復号オーディオ情報を用いる)MDCT信号の(例えば、逆修正離散コサイン変換によって提供される時間領域オーディオ信号の時間t4とt2の間の信号部の)重複部の欠落したエイリアシング、並びに重複-及び-追加の操作を人工的に導入することによって構成される。信号の第1部の長さは、例えば、重複長さ(例えば、1.25ms)に等しい。
b)信号の第2部は、対応するCELP信号のために信号の第1部(例えば、第1のオーディオ・フレームと第2のオーディオ・フレームの間の、フレーム境界の直前に位置する部分)を減算することによって構成される。
c)CELP合成フィルタのゼロ入力応答は、複数のゼロ(zeroes)のフレームをフィルタリングすることによって、且つメモリ状態として(又は初期状態として)信号の第2部を用いて、生成される。
d)ゼロ入力応答は、例えば、それが沢山のサンプル(例えば、64)の後で複数のゼロに減少するように、ウィンドウ処理される。
e)ウィンドウ処理されたゼロ入力応答は、MDCT信号の開始部(例えば、時間t2=0で始まるオーディオ部)に加算される。
a)信号の第1部は、CELP信号を用いる(例えば、第1の復号オーディオ情報を用いる)MDCT信号の(例えば、逆修正離散コサイン変換によって提供される時間領域オーディオ信号の時間t4とt2の間の信号部の)重複部の欠落したエイリアシング、並びに重複-及び-追加の操作を人工的に導入することによって構成される。信号の第1部の長さは、例えば、重複長さ(例えば、1.25ms)に等しい。
b)信号の第2部は、対応するCELP信号のために信号の第1部(例えば、第1のオーディオ・フレームと第2のオーディオ・フレームの間の、フレーム境界の直前に位置する部分)を減算することによって構成される。
c)CELP合成フィルタのゼロ入力応答は、複数のゼロ(zeroes)のフレームをフィルタリングすることによって、且つメモリ状態として(又は初期状態として)信号の第2部を用いて、生成される。
d)ゼロ入力応答は、例えば、それが沢山のサンプル(例えば、64)の後で複数のゼロに減少するように、ウィンドウ処理される。
e)ウィンドウ処理されたゼロ入力応答は、MDCT信号の開始部(例えば、時間t2=0で始まるオーディオ部)に加算される。
段階的な記述-デコーダ機能性の詳細な記述
以下において、デコーダの機能性がより詳細に記述されるであろう。
以下において、デコーダの機能性がより詳細に記述されるであろう。
ステップ1の詳細な記述
(エンコーダ側において用いられるのと同じMDCT長及び同じMDCTウィンドウで現在のMDCTフレームを復号する)デコーダ側のステップ1の後で、我々は、現在の復号MDCTフレーム(例えば、上述した第2の復号オーディオ情報を構成する「第2のオーディオ・フレーム」の時間領域表現)を得る。このフレーム(例えば、第2のフレーム)は、如何なるエイリアシングも含まない。なぜならば、左屈曲点は、(例えば、図4Bを参照して詳細に記述されるようなコンセプトを用いて、)CELPとMDCTフレームの間の境界の左で動かされたためである。つまり、我々は、十分に高いビットレートで現在のフレームにおいて、(例えば、時間t2=0とt3=20msの間で、)完全な再構成を得ることができる。しかしながら、低いビットレートで、信号は必ずしも入力信号に合致せず、且つそれ故に、不連続性は、CELPとMDCTの間の境界で、(例えば、図4Bにおいて示されるように、時間t=0で、)導入され得る。
(エンコーダ側において用いられるのと同じMDCT長及び同じMDCTウィンドウで現在のMDCTフレームを復号する)デコーダ側のステップ1の後で、我々は、現在の復号MDCTフレーム(例えば、上述した第2の復号オーディオ情報を構成する「第2のオーディオ・フレーム」の時間領域表現)を得る。このフレーム(例えば、第2のフレーム)は、如何なるエイリアシングも含まない。なぜならば、左屈曲点は、(例えば、図4Bを参照して詳細に記述されるようなコンセプトを用いて、)CELPとMDCTフレームの間の境界の左で動かされたためである。つまり、我々は、十分に高いビットレートで現在のフレームにおいて、(例えば、時間t2=0とt3=20msの間で、)完全な再構成を得ることができる。しかしながら、低いビットレートで、信号は必ずしも入力信号に合致せず、且つそれ故に、不連続性は、CELPとMDCTの間の境界で、(例えば、図4Bにおいて示されるように、時間t=0で、)導入され得る。
理解を簡単にするために、この問題は、図5を参照して例示されるであろう。上部のプロット(図5A)は、復号CELP信号SC(n)を示し、中央のプロット(図5B)は、(ウィンドウ処理された重複信号を含む)復号MDCT信号SM(n)を示し、且つ下部のプロット(図5C)は、ウィンドウ処理された重複信号を切り捨て、且つCELPフレームとMDCTフレームを連結することによって取得される出力信号を示す。2つのフレームの間の境界で(例えば、時間t=0msで)(図5Cにおいて示される)出力信号において不連続性が明らかに存在する。
更なる処理の比較例
この問題に対する一つの考えられる解決策は、MPEG USACにおいて用いられるコンセプトを記述する、上述した参考文献1(J.ルコント及びその他の者による「LPCに基づく及び非LPCに基づくオーディオ・コーディングの間での遷移のための効率的なクロスフェード・ウィンドウ」)において提案されるアプローチである。以下において、上述の参考文献アプローチの簡潔な記述が提供されるであろう。
この問題に対する一つの考えられる解決策は、MPEG USACにおいて用いられるコンセプトを記述する、上述した参考文献1(J.ルコント及びその他の者による「LPCに基づく及び非LPCに基づくオーディオ・コーディングの間での遷移のための効率的なクロスフェード・ウィンドウ」)において提案されるアプローチである。以下において、上述の参考文献アプローチの簡潔な記述が提供されるであろう。
図6A~6Dにおいて見られ得るように、この比較アプローチは、不連続性を取り除く(特に、図6Dを参照)。このアプローチを伴う問題は、それが(重複長さに等しい)追加の遅延を導入することである。なぜならば、現在のフレームが復号された後に過去のフレームが修正されるためである。低遅延オーディオ・コーディングのような、幾つかのアプリケーションにおいて、出来るだけ小さい遅延を有することが望まれる(又は要求さえされる)。
処理ステップの詳細な記述
上述した従来のアプローチと比較して、不連続性を取り除くためにここで提案されるアプローチは、如何なる追加の遅延も有しない。それは、(第1のオーディオ・フレームとして示されもする)過去のCELPフレームを修正しないが、代わりに、(線形予測領域において符号化される第1のオーディオ・フレームの後に続く周波数領域において符号化される第2のオーディオ・フレームとして示されもする)現在のMDCTフレームを修正する。
上述した従来のアプローチと比較して、不連続性を取り除くためにここで提案されるアプローチは、如何なる追加の遅延も有しない。それは、(第1のオーディオ・フレームとして示されもする)過去のCELPフレームを修正しないが、代わりに、(線形予測領域において符号化される第1のオーディオ・フレームの後に続く周波数領域において符号化される第2のオーディオ・フレームとして示されもする)現在のMDCTフレームを修正する。
しかしながら、参考文献1(J.ルコント及びその他の者による「LPCに基づく及び非LPCに基づくオーディオ・コーディングの間での遷移のための効率的なクロスフェード・ウィンドウ」)に反して、過去の復号ACELP信号は、如何なる追加の遅延も導入しないために、過去のACELPフレームのこのバージョンに置き換わらない。それは、次のステップにおいて記述されるように、現在のMDCTフレームを修正するために仲介信号としてただ用いられる。
ステップb)
コンセプトは、CELP合成フィルタのために(初期状態として示されもする)2つの異なるメモリを用いて(線形予測フィルタとして一般に考慮され得る)CELP合成フィルタのゼロ入力応答(ZIP)を計算するステップによって2つの信号を生成するステップをさらに備える。
コンセプトは、CELP合成フィルタのために(初期状態として示されもする)2つの異なるメモリを用いて(線形予測フィルタとして一般に考慮され得る)CELP合成フィルタのゼロ入力応答(ZIP)を計算するステップによって2つの信号を生成するステップをさらに備える。
ここで図7を参照して、幾つかの詳細が説明されるであろう。
図7Aは、以前のCELPフレームの及び第1のゼロ入力応答のグラフ表現を示す。横軸710は、ミリ秒ごとに時間を記述し、且つ縦軸712は、任意のユニットごとに振幅を記述する。
ステップc)
現在のMDCT信号(例えば、第2の復号オーディオ情報132,232,332)は、現在のMDCTの(すなわち、現在の、第2のオーディオ・フレームに関連付けられるMDCT信号の)第2のバージョン142,242,342に置き換えられる。
現在のMDCT信号(例えば、第2の復号オーディオ情報132,232,332)は、現在のMDCTの(すなわち、現在の、第2のオーディオ・フレームに関連付けられるMDCT信号の)第2のバージョン142,242,342に置き換えられる。
例えば、図8Aは、(例えば、第1の復号オーディオ情報の)以前のCELPフレームのために信号のグラフ表現を示す。横軸810がミリ秒ごとに時間を記述する。さらに、縦軸812が任意の単位ごとに振幅を記述する。見られ得るように、第1の復号オーディオ情報は、時間t81(-20ms)とt82(0ms)の間で(例えば、線形予測領域復号によって)提供される。
図8Cは、(図8Aにおいて示されるような)以前のCELPフレームと(図8Bにおいて示されるような)現在のMDCTフレームの第2のバージョンとの転結を示す。横軸830がミリ秒ごとに時間を記述し、且つ縦軸832が任意の単位の期間ごとに振幅を記述する。見られ得るように、(時間t81とt82の間での)以前のCELPフレームと、(時間t82で始まり、且つ例えば、図4Bにおいて示される、時間t5で終了する)現在のMDCTフレームの第2のバージョンとの間での実質的に連続的な遷移が存在する。それ故に、(線形予測領域において符号化される)第1のフレームから(周波数領域において符号化される)第2のフレームまでの遷移で可聴の歪みが回避される。
ステップd)
任意で、ウィンドウは、元のままの(entire)現在のMDCTフレームに影響を及ぼさないために、2つのZIRに適用され得る。これは、例えば、複雑さを減じるために、又はZIRがMDCTフレームの終了で0に近くない場合に、有用である。
任意で、ウィンドウは、元のままの(entire)現在のMDCTフレームに影響を及ぼさないために、2つのZIRに適用され得る。これは、例えば、複雑さを減じるために、又はZIRがMDCTフレームの終了で0に近くない場合に、有用である。
例えば、ウィンドウは、ゼロ入力応答150、ゼロ入力応答248,256又は結合ゼロ入力応答348を処理し得る。
5.8.図9に係る方法
図9は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法のフローチャートを示す。方法900は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するステップ910を備える。方法900は、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するステップ920をさらに備える。方法900は、線形予測フィルタリングのゼロ入力応答を取得するステップ930をさらに備える。線形予測フィルタリングの初期状態は、第1の復号オーディオ情報及び第2の復号オーディオ情報に依存して定義される。
図9は、符号化オーディオ情報に基づいて復号オーディオ情報を提供する方法のフローチャートを示す。方法900は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するステップ910を備える。方法900は、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するステップ920をさらに備える。方法900は、線形予測フィルタリングのゼロ入力応答を取得するステップ930をさらに備える。線形予測フィルタリングの初期状態は、第1の復号オーディオ情報及び第2の復号オーディオ情報に依存して定義される。
方法900は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報を修正するステップ940をさらに備える。
方法900は、ここで記述される特徴及び機能性の何れかによって、オーディオ・デコーダに関してもまた補足され得る。
5.10.図10に係る方法
図10は、符号化オーディオ情報Tに基づいて復号オーディオ情報を提供する方法1000のフローチャートを示す。
図10は、符号化オーディオ情報Tに基づいて復号オーディオ情報を提供する方法1000のフローチャートを示す。
方法1000は、線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報を提供するために線形予測領域復号を実行するステップ1010を備える。
方法1000は、周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報を提供するために周波数領域復号を実行するステップ1020をさらに備える。
方法1000は、第1の復号オーディオ情報によって定義される線形予測フィルタリングの第1の初期状態に応答して線形予測フィルタリングの第1のゼロ入力応答を取得するステップ1030と、人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報の一部の寄与を備える、第1の復号オーディオ情報の修正バージョンによって定義される線形予測フィルタリングの第2の初期状態に応答して線形予測フィルタリングの第2のゼロ入力応答を取得するステップ1040と、をさらに備える。
代わりに、方法1000は、人工的なエイリアシングを提供され、且つ第2の復号オーディオ情報の一部の寄与を備える、第1の復号オーディオ情報と第1の復号オーディオ情報の修正バージョンとの結合によって定義される線形予測フィルタリングの初期状態に応答して線形予測フィルタリングの結合ゼロ入力応答を取得するステップ1050を備える。
方法1000は、第1の復号オーディオ情報と修正された第2の復号オーディオ情報との間でのスムーズな遷移を取得するために、第1のゼロ入力応答及び第2のゼロ入力応答に依存して、又は結合ゼロ入力応答に依存して、線形予測領域において符号化されるオーディオ・フレームの後に続く周波数領域において符号化されるオーディオ・フレームに基づいて提供される、第2の復号オーディオ情報を修正するステップ1060をさらに備える。
方法1000は、ここで記述される特性及び機能性の何れかによって、オーディオ・デコーダに関してもまた、補足され得ることが留意されるべきである。
6.結論
結論として、本発明に係る実施形態は、CELP-MDCT変換に関係する。これらの変換は、一般に、2つの問題をもたらす。
1.欠落した以前のMDCTフレームに起因するエイリアシング、及び
2.低い/中位のビットレートで操作する2つのコーディング体系の性質をコード化する不完全な波形に起因する、CELPフレームとMDCTフレームの間の境界での不連続性
結論として、本発明に係る実施形態は、CELP-MDCT変換に関係する。これらの変換は、一般に、2つの問題をもたらす。
1.欠落した以前のMDCTフレームに起因するエイリアシング、及び
2.低い/中位のビットレートで操作する2つのコーディング体系の性質をコード化する不完全な波形に起因する、CELPフレームとMDCTフレームの間の境界での不連続性
本発明に係る実施形態において、エイリアシング問題は、左屈曲点がCELPとMDCTフレームの間の境界の左で動かされるように、MDCT長さを増加させることによって解決される。MDCTウィンドウの左部は、重複が減じられるように、さらに変更される。従来の解決策に反して、CELP信号は、如何なる追加の遅延も導入しないために修正されない。代わりに、メカニズムは、CELPとMDCTフレームの間の境界で導入され得る如何なる不連続性も取り除くために創出される。このメカニズムは、CELP合成フィルタのゼロ入力応答を用いて不連続性をスムーズにする。追加の詳細がここで記述される。
7.代わりとなる実装
幾つかの態様が装置のコンテキストにおいて記述されたが、これらの態様が対応する方法の記述をさらに表現することは明らかである。そこでは、ブロック又は装置が方法ステップ又は方法ステップの特徴に対応する。類似して、方法ステップのコンテキストにおいて記述される態様は、対応するブロック若しくはアイテム又は対応する装置の特徴の記述をさらに表現する。方法ステップの幾つか又は全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ又は電子回路のようなハードウェア装置によって(又は、を用いて)実施され得る。幾つかの実施形態において、最も重要な方法ステップの1つ以上の幾つかは、そのような装置によって実施され得る。
幾つかの態様が装置のコンテキストにおいて記述されたが、これらの態様が対応する方法の記述をさらに表現することは明らかである。そこでは、ブロック又は装置が方法ステップ又は方法ステップの特徴に対応する。類似して、方法ステップのコンテキストにおいて記述される態様は、対応するブロック若しくはアイテム又は対応する装置の特徴の記述をさらに表現する。方法ステップの幾つか又は全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ又は電子回路のようなハードウェア装置によって(又は、を用いて)実施され得る。幾つかの実施形態において、最も重要な方法ステップの1つ以上の幾つかは、そのような装置によって実施され得る。
本発明に関する符号化オーディオ信号は、デジタル記録媒体で保存され得、又は無線伝送媒体若しくはインターネットのような有線伝送媒体のような伝送媒体で伝送され得る。
特定の実装要求に依存して、本発明の実施形態は、ハードウェアにおいて又はソフトウェアにおいて実装され得る。実装は、デジタル記憶媒体、例えば、そこに保存される電子的に読み取り可能な制御信号を有する、フロッピー・ディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM又はFLASHメモリを用いて実行され得、それぞれの方法が実行されるように、プログラム可能なコンピュータ・システムと協働する(又は協働することが可能である)。したがって、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。
本発明に係る幾つかの実施形態は、ここで記述される方法の1つが実行されるように、プログラム可能なコンピュータ・システムと協働することが可能な、電子的に読み取り可能な制御信号を有するデータ・キャリアを備える。
一般に、本発明の実施形態は、プログラム・コードを伴うコンピュータ・プログラム製品として実装され得、プログラム・コードは、コンピュータ・プログラム製品がコンピュータで動作する場合に、方法の1つを実行するために操作される。プログラム・コードは、例えば、機械読み取り可能なキャリアで保存され得る。
他の実施形態は、機械読み取り可能なキャリアで保存される、ここで記述された方法の1つを実行するコンピュータ・プログラムを備える。
換言すれば、したがって、本発明に関する方法の一実施形態は、コンピュータ・プログラムがコンピュータで動作する場合に、ここで記述された方法の1つを実行するプログラム・コードを有するコンピュータ・プログラムである。
したがって、本発明に関する方法の更なる実施形態は、そこに記録される、ここで記述された方法の1つを実行するコンピュータ・プログラムを備える、データ・キャリア(又はデジタル記憶媒体、若しくはコンピュータ読み取り可能な媒体)である。データ・キャリア、デジタル記憶媒体又は記録媒体は、典型的には有体及び/又は非過渡的である。
したがって、本発明に関する方法の更なる実施形態は、ここで記述された方法の1つを実行するコンピュータ・プログラムを表現するデータ・ストリーム又は信号のシーケンスである。データ・ストリーム又は信号のシーケンスは、データ通信接続を介して、例えば、インターネットを介して、伝達されるように例えば構成され得る。
更なる実施形態は、処理手段、例えば、ここで記述された方法の1つを実行するように構成又は適合される、コンピュータ、又はプログラム可能な論理装置を備える。
更なる実施形態は、ここで記述された方法の1つを実行するコンピュータ・プログラムをそこにインストールされたコンピュータを備える。
本発明に係る更なる実施形態は、レシーバのためにここで記述された方法の1つを実行するコンピュータ・プログラムを(例えば、電子的又は光学的に)伝達するように構成される装置又はシステムを備える。レシーバは、例えば、コンピュータ、モバイル装置、メモリ装置等であり得る。装置又はシステムは、例えば、レシーバのためにコンピュータ・プログラムを伝達するファイル・サーバを備え得る。
幾つかの実施形態において、プログラム可能な論理装置(例えば、フィールド・プログラマブル・ゲート・アレイ)は、ここで記述された方法の機能性の幾つか又は全てを実行するために用いられ得る。幾つかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、ここで記述された方法の1つを実行するために、マイクロプロセッサと協働し得る。概して、方法は、如何なるハードウェア装置によっても実行されることが好ましい。
ここで記述された装置は、ハードウェア装置を用いて、若しくはコンピュータを用いて、又はハードウェア装置とコンピュータの結合を用いて実装され得る。
ここで記述された方法は、ハードウェア装置を用いて、若しくはコンピュータを用いて、又はハードウェア装置とコンピュータの結合を用いて実行され得る。
上述された実施形態は、本発明の原理のための単なる例示である。ここで記述された配置及び詳細の修正及びバリエーションは、他の当業者のために明らかであろうことが理解される。したがって、それは、差し迫った特許請求の範囲によってのみ制限され、且つここでの実施形態の記述及び説明の方法によって提供される具体的な詳細によっては制限されないことを意図する。
Claims (18)
- 符号化オーディオ情報(110;210;310)に基づいて復号オーディオ情報(112;212;312)を提供するオーディオ・デコーダ(100;200;300)であって、前記オーディオ・デコーダは、
線形予測領域において符号化されるオーディオ・フレームに基づいて第1の復号オーディオ情報(122;222;322;SC(n))を提供するように構成される線形予測領域デコーダ(120;220;320)と、
周波数領域において符号化されるオーディオ・フレームに基づいて第2の復号オーディオ情報(132;232;332;SM(n))を提供するように構成される周波数領域デコーダ(130;230;330)と、
遷移処理装置(140;240;340)と、を備え、
前記遷移処理装置は、線形予測フィルタリング(148;254;346)のゼロ入力応答(150;256;348)を取得するように構成され、前記線形予測フィルタリングの初期状態(146;252;344)は、前記第1の復号オーディオ情報及び前記第2の復号オーディオ情報に依存して定義され、且つ
- 請求項1又は2に記載のオーディオ・デコーダ(100;200;300)であって、前記第2の復号オーディオ情報(132;232;332)がエイリアシングを含むように、前記周波数領域デコーダ(130;230;330)は、逆重複変換を実行するように構成される、オーディオ・デコーダ。
- 請求項1若しくは2又は3に記載のオーディオ・デコーダ(100;200;300)であって、前記線形予測領域デコーダ(120;220;320)が第1の復号オーディオ情報(122;222;322)を備えるために、前記第2の復号オーディオ情報(132;232;332)が時間部と時間的に重複する時間部においてエイリアシングを備えるように、且つ前記線形予測領域デコーダが第1の復号オーディオ情報を提供するために、前記第2の復号オーディオ情報が時間部の後に続く前記時間部のためにエイリアシングがないように、前記周波数領域デコーダ(130;230;330)は、逆重複変換を実行するように構成される、オーディオ・デコーダ。
- 請求項1~7の1に記載のオーディオ・デコーダ(100;200;300)であって、前記遷移処理装置(140;240;340)は、第1のウィンドウ処理((w(-n-1)w(-n-1))を前記第1の復号オーディオ情報(122;222;322;SC(n))に適用して前記第1の復号オーディオ情報のウィンドウ処理バージョンを取得するように構成され、且つ第2のウィンドウ処理(w(n+L)w(-n-1))を前記第1の復号オーディオ情報(122;222;322;SC(n))の前記時間鏡映バージョン(SC(-n-L-1))に適用して前記第1の復号オーディオ情報の時間鏡映バージョンのウィンドウ処理バージョンを取得するように構成され、且つ
- 請求項1~8の1つに記載のオーディオ・デコーダであって、
前記遷移処理装置(140;240;340)は、
nは、時間インデックスを示し、
w(-n-1)は、時間インデックス(-n-1)に対するウィンドウ関数の値を示し、
w(n+L)は、時間インデックス(n+L)に対するウィンドウ関数の値を示し、
Sc (n)は、時間インデックス(n)に対する前記第1の復号オーディオ情報(122;222;322)の以前に復号された値を示し、
SC(-n-L-1)は、時間インデックス(-n-L-1)に対する前記第1の復号オーディオ情報の以前に復号された値を示し、
SM(n)は、時間インデックスnに対する前記第2の復号オーディオ情報(132;232;332)の復号された値を示し、且つ
Lは、ウィンドウ長を示す、オーディオ・デコーダ。 - 請求項1~10の1つに記載のオーディオ・デコーダ(100;200;300)であって、前記遷移処理装置(140;240;340)は、前記修正された第2の復号オーディオ情報を取得するために、第1の復号オーディオ情報(122;222;322)が前記線形予測領域デコーダ(120;220;320)によって提供されないために時間部ごとに、前記第2の復号オーディオ情報(132;232;332)を、前記第1のゼロ入力応答(248)及び前記第2のゼロ入力応答(256)に、又は前記結合ゼロ入力応答(150;348)に、線形的に結合するように構成される、オーディオ・デコーダ。
- 請求項1~12の1つに記載のオーディオ・デコーダ(100;200;300)であって、前記線形予測領域において符号化されるオーディオ・フレームに提供される前記復号オーディオ情報が前記周波数領域において符号化される後に続くオーディオ・フレームに提供される復号オーディオ情報から独立して提供されるように、線形予測領域において符号化されるオーディオ・フレームのために復号オーディオ情報を提供するとき、前記遷移処理装置(140;240;340)は、前記第2の復号オーディオ情報(132;232;332)によって前記第1の復号オーディオ情報(122;222;322)を変更しないように構成される、オーディオ・デコーダ。
- 請求項1~13の1つに記載のオーディオ・デコーダ(100;200;300)であって、前記オーディオ・デコーダは、前記線形予測領域において符号化されるオーディオ・フレームのために完全な復号オーディオ情報(122;222;322)を提供するように構成され、前記周波数領域において符号化される前記オーディオ・フレームを復号する前に、前記周波数領域において符号化されるオーディオ・フレームが後に続く、オーディオ・デコーダ。
- 請求項1~14の1つに記載のオーディオ・デコーダ(100;200;300)であって、ウィンドウ処理される第1のゼロ入力応答及びウィンドウ処理される第2のゼロ入力応答に依存して、又はウィンドウ処理される結合ゼロ入力応答に依存して、前記第2の復号オーディオ情報(132;232;332)を修正する前に、前記遷移処理装置(140;240;340)は、前記第1のゼロ入力応答(248)及び前記第2のゼロ入力応答(256)、又は前記結合ゼロ入力応答(150;348)をウィンドウ処理するように構成される、オーディオ・デコーダ。
- 請求項15に記載のオーディオ・デコーダ(100;200;300)であって、前記遷移処理装置は、線形ウィンドウを用いて、前記第1のゼロ入力応答及び前記第2のゼロ入力応答、又は前記結合ゼロ入力応答をウィンドウ処理するように構成される、オーディオ・デコーダ。
- コンピュータ・プログラムがコンピュータで動作するとき、請求項17に記載の前記方法を実行するコンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178830.7A EP2980797A1 (en) | 2014-07-28 | 2014-07-28 | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP14178830.7 | 2014-07-28 | ||
JP2019106415A JP7128151B2 (ja) | 2014-07-28 | 2019-06-06 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019106415A Division JP7128151B2 (ja) | 2014-07-28 | 2019-06-06 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022174077A true JP2022174077A (ja) | 2022-11-22 |
Family
ID=51224881
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017504677A Active JP6538820B2 (ja) | 2014-07-28 | 2015-07-23 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
JP2019106415A Active JP7128151B2 (ja) | 2014-07-28 | 2019-06-06 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
JP2022130470A Pending JP2022174077A (ja) | 2014-07-28 | 2022-08-18 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017504677A Active JP6538820B2 (ja) | 2014-07-28 | 2015-07-23 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
JP2019106415A Active JP7128151B2 (ja) | 2014-07-28 | 2019-06-06 | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム |
Country Status (19)
Country | Link |
---|---|
US (4) | US10325611B2 (ja) |
EP (2) | EP2980797A1 (ja) |
JP (3) | JP6538820B2 (ja) |
KR (1) | KR101999774B1 (ja) |
CN (2) | CN106663442B (ja) |
AR (1) | AR101288A1 (ja) |
AU (1) | AU2015295588B2 (ja) |
BR (1) | BR112017001143A2 (ja) |
CA (1) | CA2954325C (ja) |
ES (1) | ES2690256T3 (ja) |
MX (1) | MX360729B (ja) |
MY (1) | MY178143A (ja) |
PL (1) | PL3175453T3 (ja) |
PT (1) | PT3175453T (ja) |
RU (1) | RU2682025C2 (ja) |
SG (1) | SG11201700616WA (ja) |
TR (1) | TR201815658T4 (ja) |
TW (1) | TWI588818B (ja) |
WO (1) | WO2016016105A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
FR3024581A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
EP4243015A4 (en) * | 2021-01-27 | 2024-04-17 | Samsung Electronics Co Ltd | AUDIO PROCESSING APPARATUS AND METHOD |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2177413A1 (en) * | 1995-06-07 | 1996-12-08 | Yair Shoham | Codebook gain attenuation during frame erasures |
JP3707116B2 (ja) | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
JP4121578B2 (ja) * | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
EP0966102A1 (en) * | 1998-06-17 | 1999-12-22 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for signalling program or program source change with a characteristic acoustic mark to a program listener |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
JP4290917B2 (ja) * | 2002-02-08 | 2009-07-08 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、符号化装置、復号方法、及び、符号化方法 |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP4238535B2 (ja) | 2002-07-24 | 2009-03-18 | 日本電気株式会社 | 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体 |
JP2004151123A (ja) | 2002-10-23 | 2004-05-27 | Nec Corp | 符号変換方法、符号変換装置、プログラム及びその記憶媒体 |
EP1657710B1 (en) | 2003-09-16 | 2009-05-27 | Panasonic Corporation | Coding apparatus and decoding apparatus |
DE102005002111A1 (de) * | 2005-01-17 | 2006-07-27 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Steuerung einer Brennkraftmaschine |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
CN101523486B (zh) * | 2006-10-10 | 2013-08-14 | 高通股份有限公司 | 用于编码和解码音频信号的方法和设备 |
CN101197134A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 消除编码模式切换影响的方法和装置以及解码方法和装置 |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
CN101256771A (zh) * | 2007-03-02 | 2008-09-03 | 北京工业大学 | 嵌入式编码、解码方法、编码器、解码器及系统 |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2311034B1 (en) | 2008-07-11 | 2015-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
MX2011000366A (es) | 2008-07-11 | 2011-04-28 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar muestras de audio. |
PL2304723T3 (pl) | 2008-07-11 | 2013-03-29 | Fraunhofer Ges Forschung | Urządzenie i sposób dekodowania zakodowanego sygnału audio |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
AU2013200680B2 (en) * | 2008-07-11 | 2015-01-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and decoder for encoding and decoding audio samples |
KR20100007738A (ko) | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
EP3764356A1 (en) | 2009-06-23 | 2021-01-13 | VoiceAge Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
BR112012007803B1 (pt) * | 2009-10-08 | 2022-03-15 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear |
WO2011048118A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications |
ES2453098T3 (es) | 2009-10-20 | 2014-04-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Códec multimodo de audio |
EP4358082A1 (en) * | 2009-10-20 | 2024-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
WO2011085483A1 (en) * | 2010-01-13 | 2011-07-21 | Voiceage Corporation | Forward time-domain aliasing cancellation using linear-predictive filtering |
KR101858466B1 (ko) | 2010-10-25 | 2018-06-28 | 보이세지 코포레이션 | 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법 |
FR2969805A1 (fr) | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
EP2770503B1 (en) * | 2011-10-21 | 2019-05-29 | Samsung Electronics Co., Ltd. | Method and apparatus for concealing frame errors and method and apparatus for audio decoding |
CN103548080B (zh) | 2012-05-11 | 2017-03-08 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
ES2906062T3 (es) | 2013-11-29 | 2022-04-13 | Proionic Gmbh | Procedimiento para la unión de un material termoplástico por medio de radiación de microondas |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
US10157621B2 (en) * | 2016-03-18 | 2018-12-18 | Qualcomm Incorporated | Audio signal decoding |
US10839814B2 (en) * | 2017-10-05 | 2020-11-17 | Qualcomm Incorporated | Encoding or decoding of audio signals |
-
2014
- 2014-07-28 EP EP14178830.7A patent/EP2980797A1/en not_active Withdrawn
-
2015
- 2015-07-23 TR TR2018/15658T patent/TR201815658T4/tr unknown
- 2015-07-23 CN CN201580041724.3A patent/CN106663442B/zh active Active
- 2015-07-23 MY MYPI2017000029A patent/MY178143A/en unknown
- 2015-07-23 RU RU2017106091A patent/RU2682025C2/ru active
- 2015-07-23 JP JP2017504677A patent/JP6538820B2/ja active Active
- 2015-07-23 TW TW104123861A patent/TWI588818B/zh active
- 2015-07-23 CA CA2954325A patent/CA2954325C/en active Active
- 2015-07-23 WO PCT/EP2015/066953 patent/WO2016016105A1/en active Application Filing
- 2015-07-23 AR ARP150102338A patent/AR101288A1/es active IP Right Grant
- 2015-07-23 AU AU2015295588A patent/AU2015295588B2/en active Active
- 2015-07-23 EP EP15741215.6A patent/EP3175453B1/en active Active
- 2015-07-23 CN CN202110275947.3A patent/CN112951255A/zh active Pending
- 2015-07-23 SG SG11201700616WA patent/SG11201700616WA/en unknown
- 2015-07-23 BR BR112017001143A patent/BR112017001143A2/pt not_active Application Discontinuation
- 2015-07-23 MX MX2017001244A patent/MX360729B/es active IP Right Grant
- 2015-07-23 PT PT15741215T patent/PT3175453T/pt unknown
- 2015-07-23 KR KR1020177004348A patent/KR101999774B1/ko active IP Right Grant
- 2015-07-23 PL PL15741215T patent/PL3175453T3/pl unknown
- 2015-07-23 ES ES15741215.6T patent/ES2690256T3/es active Active
-
2017
- 2017-01-26 US US15/416,052 patent/US10325611B2/en active Active
-
2019
- 2019-05-31 US US16/427,488 patent/US11170797B2/en active Active
- 2019-06-06 JP JP2019106415A patent/JP7128151B2/ja active Active
-
2021
- 2021-09-20 US US17/479,151 patent/US11922961B2/en active Active
-
2022
- 2022-08-18 JP JP2022130470A patent/JP2022174077A/ja active Pending
-
2023
- 2023-10-19 US US18/381,866 patent/US20240046941A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7128151B2 (ja) | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム | |
AU2014343905B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
AU2014343904B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
TWI479478B (zh) | 用以使用對齊的預看部分將音訊信號解碼的裝置與方法 | |
KR20130133816A (ko) | 예측 인코딩 및 변환 인코딩 사이에서 교번하는 낮은―지연 사운드―인코딩 | |
JP2020091496A (ja) | Fd/lpd遷移コンテキストにおけるフレーム喪失管理 | |
US9984696B2 (en) | Transition from a transform coding/decoding to a predictive coding/decoding | |
KR20220066412A (ko) | Lpd/fd 전이 프레임 인코딩의 예산 결정 | |
RU2574849C2 (ru) | Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240410 |