JP5490731B2 - 異なるフィルタバンクドメインの変換方法と装置 - Google Patents

異なるフィルタバンクドメインの変換方法と装置 Download PDF

Info

Publication number
JP5490731B2
JP5490731B2 JP2010549083A JP2010549083A JP5490731B2 JP 5490731 B2 JP5490731 B2 JP 5490731B2 JP 2010549083 A JP2010549083 A JP 2010549083A JP 2010549083 A JP2010549083 A JP 2010549083A JP 5490731 B2 JP5490731 B2 JP 5490731B2
Authority
JP
Japan
Prior art keywords
filter bank
domain
bank domain
subband
subbands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010549083A
Other languages
English (en)
Other versions
JP2011513781A (ja
Inventor
ヤクス,ペーター
コルドン,スヴェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2011513781A publication Critical patent/JP2011513781A/ja
Application granted granted Critical
Publication of JP5490731B2 publication Critical patent/JP5490731B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、異なるフィルタバンクドメインの変換方法と装置とに関する。
通常、フィルタバンクは異なるドメイン信号間、例えば時間ドメイン信号と周波数ドメイン信号間の何らかの変換を行うものである。フィルタバンクの構成や出力信号ドメインは異なることもある。多くの場合、異なるフィルタバンクドメイン間の変換が望まれる。
特許文献1は、時間ドメインを用いずに、異なる時間・周波数分析ドメインを有する符号化フォーマット間のコード変換(transcoding)方法または装置であって、リニアマッピングを用いるものを開示している。したがって、コード変換ステップを1回だけ行えばよく、中間的時間ドメイン信号を用いるシステムより計算の複雑性が低い。特許文献1に開示された最も重要な実施形態の1つは、ロスレスオーディオ圧縮のための、MP3ハイブリッドフィルタバンクから整数MDCTドメインへのマッピングである。コーデックの圧縮率に対するコード変換ステップの影響は大きい。このマッピングの簡単なソリューションは、変換元である、MP3ドメインから求めたフィルタ係数を、完全に時間ドメインサンプルにデコードして、MDCT分析フィルタバンクを用いることであろう。特許文献1に記載されたソリューションは、時間ドメインを省略して、MP3フィルタバンクドメインからMDCTドメインに直接マッピングするものである。この方法では、ほぼ対角化されているが周波数によって変化するマッピング行列を用いる。そのため、この単純なアプローチでは大量のルックアップテーブルが必要となる。
修正離散余弦変換(MDCT)はフーリエ変換の一種であり、離散余弦変換(DCT)に基づく。修正離散余弦変換は、連続するフレームに対して行われ、後続のフレームはオーバーラップするので、ラップ(lap)されるという特徴があり、また信号エネルギーを効率よく圧縮できるという点で好都合である。MP3コーデックでは、32バンドの多位相直交フィルタ(PQF)バンクの出力にMDCTを適用する。通常、MDCTフィルタの出力は、典型的なPQFフィルタバンクのエイリアシングを低減するため、エイリアスリダクション(alias reduction)により後処理される。このような、フィルタバンクのMDCTとの組み合わせは、ハイブリッドフィルタバンクまたはサブバンドMDCTと呼ばれる。
解決すべき問題は、効率的に実施できるように、マッピング行列すなわち対応するルックアップテーブルを小さくすることである。
欧州特許出願第06120969号
本発明は、単一ステップマッピングを、2つの別々のステップに分解して、中間フィルタバンクドメインを用いて、マッピング行列と、対応するルックアップテーブルのサイズの削減を達成する。このようなマッピングの分解により、マッピングテーブルが簡単になり構成が規則的になり、圧縮が非常に効率的になることが分かった。例えば、マッピングテーブルに必要な記憶スペース量を10分の1以下に減らすことができる。他の利点として、計算の複雑性はあまり増大しない。さらに、重み付け手段、フィルタリング手段、及び加算器によりマッピングを実行する装置を実施することができる。
本発明の一態様によると、第1のフィルタバンクドメインの第1のデータフレームを、第2のフィルタバンクドメインの第2のデータフレームに変換する方法は、前記第1のフィルタバンクドメインのサブバンドを、前記第2のフィルタバンクドメインに対応するが、歪んだ位相を有する中間ドメインのサブバンドにコード変換する段階と、前記中間ドメインの前記サブバンドを、前記第2のフィルタバンクドメインのサブバンドにコード変換する段階であって、
前記中間ドメインの前記サブバンドに位相補正を行う段階とを有する。例えば、前記第1のフィルタバンクドメインはMP3ハイブリッドフィルタバンクのフィルタバンクドメインであり、前記第2のフィルタバンクドメインは整数MDCTフィルタバンクのフィルタバンクドメインである、
通常、時間信号を中間フィルタバンクドメインと第2のフィルタバンクドメインのサブバンドにコード変換するステップは、余弦関数を含む変換として表せる。中間フィルタバンクドメインの歪んだ位相は、余弦関数の周波数に依存する付加位相項に対応する。
さらに、本発明の一実施形態では、第1のフィルタバンクドメインのサブバンドを中間フィルタバンクドメインのサブバンドにコード変換する段階は、第1のフィルタバンクドメインのサブバンドから残存エイリアス項を除去する段階を有する。かかる残存エイリアス項は、MP3多位相フィルタバンクなどの第1のフィルタバンクドメインに対応するフィルタバンクにより生じることが多い。一実施形態では、マッピング行列を用い、各マッピング行列は主対角線に沿って別個の、しかし同じ部分行列を有し、他の位置ではゼロを有する。
一実施形態では、前記中間ドメインのサブバンドを前記第2のフィルタバンクドメインのサブバンドにコード変換する段階は、サブバンドグループ符号訂正(ここではサブバンド符号訂正とも呼ぶ)を有する。一グループは1以上のフィルタバンクドメインサブバンドを有する。フィルタバンクドメインサブバンドは「ビン(bin)」とも呼ぶ。サブバンドグループ符号訂正は、ビンのグループを指し、中間ドメイン信号のサブバンドグループの一つおきの符号反転を含み得る。
本発明の他の態様によると、第1のフィルタバンクドメインの第1のデータフレームを、第2のフィルタバンクドメインの第2のデータフレームに変換する装置は、前記第1のフィルタバンクドメインのサブバンドを、前記第2のフィルタバンクドメインに対応するが、歪んだ位相を有する中間ドメインのサブバンドにコード変換する第1のコード変換手段と、前記中間ドメインの前記サブバンドを、前記第2のフィルタバンクドメインのサブバンドにコード変換する第2のコード変換手段とを有し、前記第2のコード変換手段は、前記中間ドメインの前記サブバンドに位相補正を行う位相補正手段を有する。
一実施形態では、前記位相補正はマッピング行列を適用する計算手段(例えば、マイクロプロセッサ、DSP、これらの一部)により行われ、他の実施形態では、前記第2のコード変換手段における位相補正は、重み付けする重み付け手段と、重み付けした中間ドメインのサブバンド係数をフィルタするフィルタ手段とにより行われる。
本発明の有利な実施形態は、従属項、以下の詳細な説明、及び図面に開示した。
添付した図面を参照して、本発明の実施形態例を説明する。
単一ステップマッピングのアーキテクチャの構成を示す図である。 ロングウィンドウに対する位相補正ステップの実施例を示す図である。 本発明によるアーキテクチャの構成またはフローチャートを示す図である。 一般的な実施形態の構成例を示す図である。 レイテンシを下げる実施例を示す図である。 擬似MDCTマッピング(ロングウィンドウ)を仲介する、MP3用の改良エイリアス補正行列の例を示す図である。 図6の改良エイリアス補正行列の例のタイルを示す図である。 サブバンド符号訂正を示す図である。 歪んだ中間フィルタバンクドメイン内の付加位相項の値を示す図である。 MP3フィルタバンクとオリジナルMDCTと歪んだ擬似MDCTとのカーネル関数(ロングウィンドウ)の比較を示す図である。
図1は、特許文献1に開示されている単一ステップマッピング手順を示す。MP3係数を有する各フレームmp3(m)は、MDCT係数の連続する3つのフレームMDCT(m−1)、MDCT(m)、MDCT(m+1)に貢献する。逆に、各MDCTフレームは、3つのMP3フレームからの貢献を組み合わせたものである。マッピングは別々の行列Tp、T、Tnにより行われる。その1つ行列Tpは前のMDCTフレームに貢献し、行列Tnは次のMDCTフレームに貢献する。
各ウィンドウタイプに係わる3つの行列Tp、T、Tnがあり、MP3フィルタバンクドメインとMDCTドメインの両方に4つのウィンドウタイプ(ロングウィンドウ、ショートウィンドウ、スタートウィンドウ、ストップウィンドウ)があるので、全部で12通りの行列を格納しなければならない。すべての行列が異なるわけではない。スタートウィンドウとロングウィンドウのTpは同じであり、ストップウィンドウとロングウィンドウのTnも同じである。それでも、例えば45dBより高い十分なマッピング精度を達成するのに必要なルックアップテーブルを格納するには、約175キロバイトのメモリ量が必要である。留意すべき点として、ウィンドウタイプとブロック長は時間的に変化してもよいし、入力ドメインと出力ドメインとで同じである必要はない。ここで、「フレーム」とは、MP3の用語では「グラニュール(granule)」とも呼んでいる。しかし、以下の説明では、より一般的な用語である「フレーム」を用いる。
以下に示すように、フルマッピング行列には一定の対称性があるので、上記の単一ステップマッピングは一連のサブテップ(sequence of multiple sub-steps)に分解できる。この分解は、以下に導入する、位相が歪んだ擬似MDCTに基づく。
一般的に、フィルタバンクドメインはカーネル関数と余弦関数として表せる。MP3ハイブリッドフィルタバンクとMDCTとのカーネル関数を(または一般的に2つのフィルタバンクドメインを)詳細に比較してみると、「擬似MDCT」の定義に行き着く。これは、通常のMDCTと同じカーネル関数を有するが、余弦関数の引数に周波数に依存する位相項が加わる。この擬似MDCTを、MP3から目的(元)のMDCTフィルタバンクドメインへの2ステップのコード変換アプローチにおける中間ドメインとして用いる。
元のMDCTの定義は次の通りである、
Figure 0005490731
Figure 0005490731
ここで、「n」は時間のインデックスであり、「i」は周波数のインデックスであり、「M」はMDCTの長さを示し、すなわち、変換によってM個の周波数ビン(サブバンド)が作られ、時間ドメインの分析ウィンドウw(n)の長さは2Mである。カーネル関数c(n,i)は、MDCTの時間ドメインエイリアス補正(TDAC)特性のためのものである。
ウィンドウ関数w(n)は、mp3コーデックで用いられる適応的ウィンドウスイッチング手順(adaptive window switching procedure)による「ロング」、「スタート」、「ショート」、「ストップ」の4通りのうちの1つである。ロングウィンドウの場合、
Figure 0005490731
ここで、MDCTの定義における余弦関数項c(n,i)の定義を修正して、余弦関数の引数に、周波数に依存する位相項φiを加える:
Figure 0005490731
MDCTカーネル関数をMP3ハイブリッドフィルタバンクのカーネル関数と比較すると、次のような、区分的にリニアな位相歪み関数(piecewise linear phase warping function)が得られる。これは、インデックスi=1,...,Mが同じ対応するカーネル関数間の相互相関をほぼ最大化するものである。
Figure 0005490731
付加する位相項φiを図9に示す。この位相項はすべてのウィンドウの形に対して同じである。
余弦関数の引数にφiを加えたので、擬似MDCTは完全な再構成特性は有していない。擬似MDCTはTDAC特性を失っているので、真のMDCTではなくなっている。新しいカーネル関数を分析・合成フィルタバンクペアとして適用する場合、時間ドメインのエイリアシングエラーが生じる。しかし、信号対エイリアス比は約50dBに過ぎない。ほとんどのアプリケーションでは、このコード変換精度で十分である。
修正を例示するため、図10は、MP3フィルタバンクと、元の位相のMDCTと、歪んだ位相のMDCTとの最初の54個のカーネル関数(18ビンそれぞれに3サブバンド)を示している。MDCTの位相を修正することにより、その微細構造がMP3フィルタバンクの微細構造と非常に一致することが分かる。さらに、MP3フィルタバンクのサブバンド符号変更を反映している。これについては以下に詳しく説明する。
図3は、本発明の一態様による、少なくともMP3からMDCTへのマッピングに適したフローチャートの一例の構成を示す。しかし、この原理は他のフィルタバンクドメイン間のマッピングにも適用できる。原理的に、マッピングの分解は主要な2つのステップにより実現される。第1に、MP3復号した周波数ビンを(中間ドメインとして機能する)擬似MDCTドメインにコード変換し、次に、位相補正を行って擬似MDCTドメインから目標のMDCTドメインにコード変換する。この2つの主要ステップは、より細かいサブステップで行ってもよいし、具体的に効率的な実装をしてもよい。
図1に示した単一ステップ手順と比較して、多ステップアプローチは複雑そうに見えるし、実際に必要となるアルゴリズム演算は少し多い。しかし、各ステップの数学的演算の構成は、単一ステップ行列より複雑ではない。これにより必要なルックアップテーブルのサイズ(及び必要なメモリ空間)を大幅に小さくできる。各サブステップの詳細は以下に説明する。
擬似MDCTドメインは完全な再構成分析合成フィルタバンクに関するものではなく、2ステップマッピングはこの不完全なフィルタバンクドメイン間のコード変換に該当するので、全体的なマッピング精度はこの中間表現の信号対エイリアス比(signal-to-alias ratio)による制約を受ける。そのため、(行列のクリッピングや量子化をしない)2ステップアプローチにより到達可能な最高マッピング精度は約50−60dBであり、これはほとんどのアプリケーションにとって十分である。
以下、改良エイリアス補正(Enhanced Alias Compensation)(EAC)を説明する。このステップの目的は、(MP3多位相フィルタバンクに由来する)残存エイリアス項を、MP3周波数ビンから除くことである。このように、このステップは、上記の通り、MP3フィルタバンクドメイン(変換元フィルタバンクドメイン)から歪んだ擬似MDCT(中間フィルタバンクドメインとして機能するワープした目標フィルタバンクドメイン)へのマッピング手順である。
マッピング行列EACp、EAC、EACnは、MP3合成行列を擬似MDCTフィルタバンクの分析行列とかけて求められる。前のフレームと次のフレームに、貢献(contributions)に加えて、時間シフトを加える。
その結果得られる全体行列(full matrices)を、一例としてロングウィンドウの場合について、図6に示した。図から分かるように、ほとんどの変換係数はゼロであり、計算はまったく必要ない。具体的に、前のフレームへの貢献行列EACpと、次のフレームへの貢献行列EACnについて、さらに、全体行列(full matrices)は実質的に「タイル」すなわち部分行列(sub-matrices)により構成されていることが分かる。タイルすなわち部分行列は主対角線に沿って31回繰り返されている。
図7に、各改善エイリアス補正行列EACp、EAC、EACnに対して1つずつ、3つの基本的なタイルを、4つのウィンドウタイプtp1、tp2、tp3、tp4すべてについて示した。タイルは、原理的に、MP3ハイブリッドフィルタバンクに対するある種の複雑なエイリアス補正を表している。
上記の例では、tp1は「ロング」に対応し、tp2は「スタート」に対応し、tp3は「ストップ」に対応し、tp4は「ショート」に対応する。上記の部分行列のサイズは、この例では、「ロング」、「スタート」、「ストップ」に対しては18行×18列であり、「ショート」に対しては18行×36列である(しかし、EACnとEACpの場合には、列は一行おきにゼロなので、係数の数は同じであることに留意せよ)。他のフィルタバンクドメインの場合には、大きさは異なり得る。
以下、記憶と計算を効率的にする可能性を説明する。図に示した12枚のタイルには都合のよい類似性がある。最も重要なものは次の通りである:
第1に、EAC(tp1)タイルは、主対角線上と逆対角線上(anti-diagonal)にのみ、非ゼロの係数を有する。それゆえ、このタイルの記憶と計算にはほとんど手間がかからない。
第2に、タイルEAC(tp2)とEAC(tp3)は、タイルEAC(tp1)全体に低レベルの係数を加えて構成されている。それゆえ、EAC(tp2)及びEAC(tp3)と、EAC(tp1)との間の差のみを記憶して、メモリを節約できる。残りの低レベル係数の記憶の精度は非常に低くてもよいので、係数ごとのビット数とそれに必要なメモリエリアは小さくなる。
一実施形態では、真ん中の列のEACタイル(すなわち部分行列)に、対角線上に1を、すなわち単位行列を加えて、図6の行列で用いる実際のEACタイルを求める。すなわち、対角線上の値は正のオフセット「1」を有し、記憶すべき値はより小さくなる。さらに、ショートウィンドウの場合には、不均一なアスペクト比の効果が見られる。
第3に、EACp(tp2)はEACp(tp1)と等しく、EACn(tp3)はEACn(tp1)と等しい。
第4に、和と差を用いて非常に効率的に記憶と計算ができるという意味において、貢献行列EACp(tp1)とEACn(tp1)とは類似している。すなわち、差EACp(tp1)−EACn(tp1)はEAC(tp1)タイルと同様の、対角行列プラス逆対角行列よりなる構成を有する。EACp(tp1)とEACn(tp1)とを同時に(jointly)記憶し、計算することにより、効率的な記憶と計算が可能である。
第5に、タイルEACp(tp4)とEACn(tp4)は、一部の列がゼロかゼロに近いという意味でスパース(sparse)である。これらの列は記憶も計算もする必要がない。
このように、好都合にも、先行技術のマッピング行列の周波数依存性は、改善エイリアス補正行列EAC、EACp、EACn内の18サブバンド(すなわち周波数ビン)ごとに繰り返されるタイル内の小さな変化に変換されている。マッピングにはこれ以上の周波数依存性は残らない。
以下、サブバンド符号訂正(SSC)を説明する。これは、中間ドメインDiから目標フィルタバンクドメインDTへの第2の変換ステップの一サブステップとして用いる。ここで、サブバンド符号訂正とは、フィルタバンクドメインサブバンド(「ビン」)のグループを指す。例えば、図8と図9において、一様な符号訂正を適用したサブバンドは、18フィルタバンクドメインサブバンド、すなわちビンを含む。図3に示すように、サブバンド符号訂正(sub-band sign correction)では、入力として、擬似MDCT等の中間ドメインのサブバンド計数psdo(m−1)、psdo(m)、psdo(m+1)を受け取る。
式4、5の位相修正項φiは、MP3多位相フィルタバンクが一つおきに逆符号になっており、すなわち、18ビンごとに、項φiはπだけジャンプする。これはMP3フィルタバンクの同様のビヘイビア(behaviour)を反映している。このように、サブバンド符号訂正は変換元フィルタバンクの特徴に合わせることである。
擬似MDCTから整数MDCTへのマッピングの場合、第1のステップは、サブバンド符号訂正(SSC)を適用してサブバンドの交替する符号の訂正(correction)を含む。擬似MDCT値は、図8に示したSSC関数と乗算される。
歪んだ擬似MDCTの付加位相項を補正するために、元のMDCTと比較して、さらに別のマッピングステップが必要である。利用する各ウィンドウタイプ(例えば、ロング、スタート、ショート、ストップの場合、tp1−tp4)に対して、及び各トランジション(transition)(ロングからロング、ショートからショート)に対して、個別に位相補正(phase correction)が必要である。例えば、マッピング行列を用いて位相補正が可能である。一実施形態では、これらのマッピング行列の具体的な構成に応じて、周波数ドメインビンに重み付けしてフィルタするアプローチを用いることができる。これは以下に説明する。
適用可能な12個の位相補正行列のすべてに、そのほとんどの部分に大きな冗長性がある。最初に、MP3からMDCTへのマッピング例では、次のトランジション行列は同一である:
PCp(long)=PCp(start)、
PCn(long)=PCn(stop)、
PCn(start)=PCn(short)、
PCp(stop)=PCp(short)。
この特性により、行列の記憶について冗長性削除を用いられるので、位相補正行列のうち異なるものの数が8になる。
さらに、前のフレーム(例えば、PCp(long))に対する貢献と、次のフレーム(例えば、PCn(long))に対する貢献に適用する行列は非常に類似している。これらは、一つおきの係数の符号が異なるだけである。このように、一実施形態では、これらの2つの行列は、2つの部分行列とそれに続く「バタフライ」演算として実現される。これは、図2に示したように、加算器S1と減算器(すなわち加算器及び符号反転器)S2を用いた、2つの値の同時加算と減算として知られている。
第3に、ほとんどの行列は、周波数に依存しない重み付け演算Wと、周波数ビンに適用される付加的畳み込みフィルタとに分解できる。この分解には、周波数ビンごとに1つの重み付けファクタ(factor)と、一定のフィルタインパルス応答のみを記憶すればよいという利点がある。このように、一実施形態では、上記の部分行列は、重み付け演算Wと2つの畳み込みフィルタH1、H2として実現できる。この畳み込みは、周波数ドメインに適用され、時間ドメインにおける乗算に対応する。この畳み込みの理論的基礎は、従来のMP3合成、時間遅れ、MDCT分析のシーケンスに適用できる時間ドメインのウィンドウ化(windowing)である。
上記の実施形態は、図2に示したように、ハードウェアの使用と演算の複雑性に関して、非常に効率的である。特に、ロングウィンドウの場合、上記の冗長化によりシステムアーキテクチャが非常に効率的になる。位相補正ステップPCp(long)とPCn(long)を、周波数ビンごとに重み付けファクタを適用して、その後2つのフィルタH1、H2でフィルタすることにより、同時に(jointly)計算される。これら2つのフィルタは、H1が奇数位置だけに非ゼロ係数を有し、H2が偶数位置だけに非ゼロ係数を有するという意味で、スパース(sparse)である。フィルタ出力を加算すると、前のMDCTフレームへの位相補正貢献(phase correction contribution)となり、減算すると、次のMDCTフレームへの貢献となる。
例えばPC(start)、PC(stop)、PC(long)間の位相補正マッピング行列における具体的な類似性を利用することにより、さらに効率的にすることができる。しかし、原理的には上記と同様である。
以下、2つの実施例を説明する。
図4は、上記の2ステージマッピング手順の簡単な実施形態を示している。各フレームサイクルの始めに、
state.pseudo1<=state.pseudo2、
state.pseudo2<=state.pseudo3、
state.pseudo3<=0
とバッファをシフトする。
同様に、
Bout<=state.out1、
state.out1<=state.out2、
state.out2<=0。
MP3周波数ビンの各入力フレームは、行列EACp、EAC、EACnとの乗算を用いてマッピングされ、その結果はstate.pseudo1、state.pseudo2、state.pseudo3に加算される。次に、サブバンド符号訂正(SSC)と位相補正(PC)をバッファstate.pseudo1に適用する。
その結果得られる3つの貢献PCp*SSC、PC*SSC、PCn*SSCを、3つのバッファBout、state.out1、state.out2にそれぞれ加算される。バッファBoutは出力準備ができた状態である。
上記の実施形態では、出力ベクトルは、入力フレームに対して2フレームサイクルのレイテンシ(latency)を有する。図4に示した構成は、複雑でない実施形態が所望であれば、関心があるだろう。EACpとEACnの貢献を同時に計算でき、PCpとPCnの貢献も同時に計算できるからである。
しかし、レイテンシが小さい実施形態が望ましい場合もある。レイテンシが1フレームサイクルだけの代替的実施形態を図5に示した。この実施形態では、PCp−SSC−EACp(変換元ドメインバッファからEACp、SSC、PCpを経由して目標ドメインバッファBoutまでの経路に対応する)が実質的にゼロであるという事実を利用する。そのため、PCp−SSCの出力ベクトルに対する貢献は、バッファstate.pseudo2からすでに計算できているが、このバッファは現在の入力MP3ベクトルのEACpを経由した貢献を含んでいない。
このアプローチは、記憶する1ベクトルを節約できるので、レイテンシが1フレームしか発生しないという利点がある。一方、この代替的実施形態は、PCpとPCnを同時に計算(jointly computing)することによる位相補正行列の対称性をもはや利用できない。
上記の2ステップアプローチの利点は、すべてのルックアップテーブルのサイズが、先行技術として知られているアーキテクチャよりも非常に小さいことである。上記のMP3から整数MDCTへのマッピングの例では、ルックアップテーブルは、12664バイトまで合計され、これは従来の直接マッピングアルゴリズムで用いられる174348バイトと対照的である。
いうまでもなく、本発明を例示によって説明した。本発明の範囲から逸脱することなく細かい点で修正を加えることは可能である。
明細書、特許請求の範囲、及び図面に開示した各特徴は、独立に設けることもできるし、適切に組み合わせて設けることもできる。必要に応じて、ハードウェア、ソフトウェア、またはこれらの組み合わせで本発明の特徴を実現することができる。接続は場合に応じて無線接続でも有線接続でもよく、必ずしも直接的または専用の接続でなくてもよい。特許請求の範囲に示す参照符号は例示であり、請求項の範囲を限定するものではない。

Claims (16)

  1. 第1のフィルタバンクドメインの第1のデータフレームを、第2のフィルタバンクドメインの第2のデータフレームに変換する方法であって、
    前記第1のフィルタバンクドメインのサブバンドを、前記第2のフィルタバンクドメインに対応するが、歪んだ位相を有する中間フィルタバンクドメインのサブバンドにコード変換する段階であって、少なくとも前記第2のフィルタバンクドメインと前記中間フィルタバンクドメインとは余弦関数を含む変換により時間ドメイン信号から生成でき、前記歪んだ位相は前記余弦関数の周波数に依存した付加的位相項に対応し、複数のマッピング行列が用いられ、各マッピング行列は主対角線に沿って別個のしかし同じ部分行列を有し他の位置ではゼロを有する、段階と、
    前記中間フィルタバンクドメインの前記サブバンドを、前記第2のフィルタバンクドメインのサブバンドにコード変換する段階であって、前記中間フィルタバンクドメインの前記サブバンドに位相補正を行う段階とを有する方法。
  2. 第2のデータフレームは少なくとも3つの連続した第1のデータフレームよりなり、少なくとも3つの連続した第2のデータフレームの符号化に第1のデータフレームを用いる、請求項1に記載の方法。
  3. 前記第1のフィルタバンクドメインのサブバンドを前記中間フィルタバンクドメインのサブバンドにコード変換する段階は、前記第1のフィルタバンクドメインの前記サブバンドから、MP3多位相フィルタバンクから発する残存エイリアス項を除去する段階を有する、
    請求項1または2に記載の方法。
  4. 前記中間フィルタバンクドメインのサブバンドを前記第2のフィルタバンクドメインのサブバンドにコード変換する段階は、サブバンド符号訂正を有する、
    請求項1ないしいずれか一項に記載の方法。
  5. 前記サブバンド符号訂正はサブバンドの符号の一つおきの反転を有する、請求項に記載の方法。
  6. 前記中間フィルタバンクドメインのサブバンドを前記第2のフィルタバンクドメインのサブバンドにコード変換する段階は、前記中間フィルタバンクドメインの付加的位相項の補償に適している、請求項1ないしいずれか一項に記載の方法。
  7. 前記第1、第2、及び中間フィルタバンクドメインは変換時間ウィンドウを用い、前記変換時間ウィンドウに対して、複数の異なるウィンドウ形状が予め定められ、前記第1と第2のデータフレームは異なるウィンドウ形状を用い、各ウィンドウ形状に対して、及び前記中間フィルタバンクドメインと前記第2のフィルタバンクドメインのウィンドウ形状間のトランジションに対して、それぞれの位相補正を行う、請求項1ないしいずれか一項に記載の方法。
  8. 前記中間フィルタバンクドメインのサブバンド係数を重み付けてフィルタして、前記位相補正を行う、請求項1ないしいずれか一項に記載の方法。
  9. 前記重み付けは周波数に依存し、異なる周波数サブバンドの重みは異なり、前記フィルタすることには畳み込みフィルタを用いる、請求項に記載の方法。
  10. 前記フィルタすることには2つのフィルタを用い、一方のフィルタは奇数位置のみに非ゼロ係数を有し、他方のフィルタは偶数位置にのみ非ゼロ係数を有するという意味で前記2つのフィルタはスパースである、請求項に記載の方法。
  11. 前記フィルタすることに用いられる2つのフィルタの出力の加算により前記第2のフィルタバンクドメインの前のフレームへの位相補正貢献が得られ、前記出力の減算により前記第2のフィルタバンクドメインの次のフレームへの貢献が得られる、請求項10に記載の方法。
  12. 前記フレームはオーディオ信号フレームであり、前記第1のフィルタバンクドメインはMP3ハイブリッドフィルタバンクのフィルタバンクドメインであり、前記第2のフィルタバンクドメインはMDCTフィルタバンクのフィルタバンクドメインである、請求項1ないし11いずれか一項に記載の方法。
  13. 第1のフィルタバンクドメインの第1のデータフレームを、第2のフィルタバンクドメインの第2のデータフレームに変換する装置であって、
    前記第1のフィルタバンクドメインのサブバンドを、前記第2のフィルタバンクドメインに対応するが、歪んだ位相を有する中間フィルタバンクドメインのサブバンドにコード変換する第1のコード変換手段であって、少なくとも前記第2のフィルタバンクドメインと前記中間フィルタバンクドメインとは余弦関数を含む変換により時間ドメイン信号から生成でき、前記歪んだ位相は前記余弦関数の周波数に依存した付加的位相項に対応し、複数のマッピング行列が用いられ、各マッピング行列は主対角線に沿って別個のしかし同じ部分行列を有し他の位置ではゼロを有する、第1のコード変換手段と、
    前記中間フィルタバンクドメインの前記サブバンドを、前記第2のフィルタバンクドメインのサブバンドにコード変換する第2のコード変換手段とを有し、
    前記第2のコード変換手段は、前記中間フィルタバンクドメインの前記サブバンドに位相補正を行う位相補正手段を有する装置。
  14. マッピング行列を適用する計算手段により前記位相補正を行う、請求項13に記載の装置。
  15. 前記中間フィルタバンクドメインのサブバンド係数を重み付ける重み付け手段と、重み付けられたサブバンド係数をフィルタするフィルタ手段とにより、前記第2のコード変換手段における前記位相補正を行う、請求項13または14に記載の装置。
  16. 前記フィルタ手段は、前記第2のフィルタバンクドメインの前と後のフレームに関する2つのマッピング行列に対応する2つの位相補正サブステップを同時に行う、請求項15に記載の装置。
JP2010549083A 2008-03-05 2009-02-19 異なるフィルタバンクドメインの変換方法と装置 Expired - Fee Related JP5490731B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08102308.7 2008-03-05
EP08102308A EP2099027A1 (en) 2008-03-05 2008-03-05 Method and apparatus for transforming between different filter bank domains
PCT/EP2009/051989 WO2009109468A1 (en) 2008-03-05 2009-02-19 Method and apparatus for transforming between different filter bank domains

Publications (2)

Publication Number Publication Date
JP2011513781A JP2011513781A (ja) 2011-04-28
JP5490731B2 true JP5490731B2 (ja) 2014-05-14

Family

ID=39428017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010549083A Expired - Fee Related JP5490731B2 (ja) 2008-03-05 2009-02-19 異なるフィルタバンクドメインの変換方法と装置

Country Status (9)

Country Link
US (1) US8620671B2 (ja)
EP (2) EP2099027A1 (ja)
JP (1) JP5490731B2 (ja)
KR (1) KR101589709B1 (ja)
CN (1) CN101960515B (ja)
AU (1) AU2009221366B2 (ja)
BR (1) BRPI0907840A2 (ja)
CA (1) CA2717226A1 (ja)
WO (1) WO2009109468A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2875351A1 (fr) * 2004-09-16 2006-03-17 France Telecom Procede de traitement de donnees par passage entre domaines differents de sous-bandes
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
FR2969804A1 (fr) * 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
EP2963646A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
CN112336380A (zh) * 2020-10-29 2021-02-09 成都信息工程大学 一种基于Golay码的超声弹性成像应变估计方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890106A (en) * 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
GB0003954D0 (en) * 2000-02-18 2000-04-12 Radioscape Ltd Method of and apparatus for converting a signal between data compression formats
US6731690B2 (en) * 2000-12-01 2004-05-04 Motorola, Inc. Methods and apparatus for transmultiplexing a multi-channel signal
US6757648B2 (en) * 2001-06-28 2004-06-29 Microsoft Corporation Techniques for quantization of spectral data in transcoding
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US6982377B2 (en) * 2003-12-18 2006-01-03 Texas Instruments Incorporated Time-scale modification of music signals based on polyphase filterbanks and constrained time-domain processing
JP2008511852A (ja) * 2004-08-31 2008-04-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ トランスコードのための方法および装置
FR2875351A1 (fr) * 2004-09-16 2006-03-17 France Telecom Procede de traitement de donnees par passage entre domaines differents de sous-bandes
PL1810281T3 (pl) * 2004-11-02 2020-07-27 Koninklijke Philips N.V. Kodowanie i dekodowanie sygnałów audio z wykorzystaniem banków filtrów o wartościach zespolonych
US20070083377A1 (en) * 2005-10-12 2007-04-12 Steven Trautmann Time scale modification of audio using bark bands
US7676374B2 (en) * 2006-03-28 2010-03-09 Nokia Corporation Low complexity subband-domain filtering in the case of cascaded filter banks
FR2901433A1 (fr) * 2006-05-19 2007-11-23 France Telecom Conversion entre representations en domaines de sous-bandes pour des bancs de filtres variant dans le temps
US8700387B2 (en) * 2006-09-14 2014-04-15 Nvidia Corporation Method and system for efficient transcoding of audio data
EP1903559A1 (en) * 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
US8185381B2 (en) * 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치

Also Published As

Publication number Publication date
US20110004478A1 (en) 2011-01-06
KR20100134635A (ko) 2010-12-23
US8620671B2 (en) 2013-12-31
CN101960515A (zh) 2011-01-26
EP2250642B1 (en) 2015-10-21
AU2009221366A1 (en) 2009-09-11
KR101589709B1 (ko) 2016-01-28
BRPI0907840A2 (pt) 2015-07-21
JP2011513781A (ja) 2011-04-28
AU2009221366B2 (en) 2011-09-29
WO2009109468A1 (en) 2009-09-11
CN101960515B (zh) 2012-07-18
EP2099027A1 (en) 2009-09-09
EP2250642A1 (en) 2010-11-17
CA2717226A1 (en) 2009-09-11

Similar Documents

Publication Publication Date Title
KR101341365B1 (ko) 부분 복소 변조 필터 뱅크
JP5265682B2 (ja) デジタルコンテンツの符号化および/または復号
JP4942793B2 (ja) 時間ドメインから周波数ドメインへ及びそれとは逆にデジタル信号を変換する方法
JP4439522B2 (ja) 離散値のシーケンスを有する信号を処理するための装置および方法
JP5490731B2 (ja) 異なるフィルタバンクドメインの変換方法と装置
KR20070001115A (ko) 복소수 값 데이터를 이용하는 오디오 신호 디코딩
JP2001184080A (ja) 圧縮オーディオデータへの電子透かし方法およびそのシステム
RU2323469C2 (ru) Устройство и способ для обработки, по меньшей мере, двух входных значений
TW200836492A (en) Device and method for postprocessing spectral values and encoder and decoder for audio signals
TW201832226A (zh) 從高階保真立體音響信號之係數領域表示產生該高階保真立體音響信號之混合空間或係數領域表示之方法及裝置
JP2004531151A (ja) 時間離散オーディオサンプル値を処理する方法と装置
JP3796432B2 (ja) フィルタ処理装置およびフィルタ処理方法
JP6089878B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
JP2794842B2 (ja) 符号化方法とその復号化方法
JP4729505B2 (ja) デジタルオーディオ信号の変換及び変換されたデジタルオーディオ信号の逆変換の方法並びに装置
WO2023118138A1 (en) Ivas spar filter bank in qmf domain
JP2004226742A (ja) 量子化装置及び逆量子化装置、並びにそれらの装置を利用可能なオーディオ及び画像の符号化装置及び復号装置
CN118077000A (zh) 使用复数数据的音频处理方法及用于执行该方法的装置
US20100014764A1 (en) Image encoding/decoding devices and image band decomposing/composing devices
JPH05199507A (ja) シフト計算回路および動画符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140106

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140226

R150 Certificate of patent or registration of utility model

Ref document number: 5490731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees