JP2007524300A - Mdct係数から導かれた推定スペクトル強度と位相を使用する改良型コーディングテクニック - Google Patents

Mdct係数から導かれた推定スペクトル強度と位相を使用する改良型コーディングテクニック Download PDF

Info

Publication number
JP2007524300A
JP2007524300A JP2006551194A JP2006551194A JP2007524300A JP 2007524300 A JP2007524300 A JP 2007524300A JP 2006551194 A JP2006551194 A JP 2006551194A JP 2006551194 A JP2006551194 A JP 2006551194A JP 2007524300 A JP2007524300 A JP 2007524300A
Authority
JP
Japan
Prior art keywords
spectral
spectral component
components
source signal
applying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006551194A
Other languages
English (en)
Other versions
JP2007524300A5 (ja
JP4787176B2 (ja
Inventor
チェン、コリー・アイ
スミザーズ、マイケル・ジェイ
ラスロップ、デイビッド・エヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2007524300A publication Critical patent/JP2007524300A/ja
Publication of JP2007524300A5 publication Critical patent/JP2007524300A5/ja
Application granted granted Critical
Publication of JP4787176B2 publication Critical patent/JP4787176B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

スペクトルの強度と位相の推定は、修正型離散コサイン変換などの解析フィルタバンクからのスペクトル情報を使用する推定プロセスによって得られる。推定プロセスはインパルス応答に対する畳込みのような演算で実行される。インパルス応答の部分は、計算量と推定精度をトレードオフする畳込みのような演算での使用のために選択される。フィルタ構造とインパルス応答に関する解析式の数学的誘導を開示する。

Description

発明の詳細な説明
技術分野
本発明は、修正型離散コサイン変換と修正型離散サイン変換を実行する解析フィルタバンクを含む様々なタイプの解析フィルタバンクから得られたスペクトル情報からスペクトル強度と位相を正確に推定する効率的なプロセスを提供する。これらの正確な推定はオーディオコード化や画像コード化などの様々な信号処理応用に使用されうる。
以下の議論において、特定の修正型離散コサイン変換を実行するフィルタバンクを使用する特定のオーディオコード化応用に言及するが、本発明は、また、他の応用や他のフィルタバンクの実行にも使用できる。
背景技術
多くのコード化応用は、適切にソース信号を表すのに必要な情報量を減少させることを試みている。情報所要量を小さくすることで、表示信号をより小さなバンド幅を持つチャンネルを介して転送でき、あるいは、より少ない空間を使用するメディアに保存することができる。
コード化は、信号の冗長成分か無関係の成分のどちらかを排除することによって、ソース信号の情報量所要量を減らすことができる。いわゆる知覚コード化方法とシステムはしばしばフィルタバンクを使用して、スペクトル成分の基礎セットを用いてソース信号を非相関化することで冗長度を減少させ、また、精神知覚基準に従いスペクトル成分の適応量子化で無関係性を減少させる。よりきめを粗くして量子化解像性を適合させるコード化プロセスは情報所要量を大きく減少させることができるが、また、それは信号に高レベルの量子化誤差又は「量子化雑音」を発生させる。知覚コード化システムは、量子化雑音に「マスクをかけ(隠し)」、あるいは、信号の他のスペクトルコンテントによって量子化雑音を知覚できないように、量子化雑音レベルを制御することを試みる。これらのシステムは、与えられた信号によって隠すことができる量子化雑音レベルを予測する知覚モデルを通常使用する。
知覚オーディオコーディングシステムでは、例えば、量子化雑音は、E. Zwickerによる「心理音響学(1981年)」に説明されるような心理音響の研究に基づく知覚モデルから得られた可聴性の予測に従う量子化解像性を適用することによってしばしば制御される。信号中のスペクトル成分の可聴性を予測する知覚モデルの一例は、「J. Acoust. Soc. Am. 1979年12月」のページ1647-1652のM.シュローダー他による「人間の耳のマスキング特性を利用することによるデジタルスピーチコーダの最適化」で議論されている。
知覚できないと予想されるために無関係であると考えられるスペクトル成分はコード化された信号に含まれる必要はない。関連があると考えられる他のスペクトル成分は、量子化雑音がソース信号の他のスペクトル成分によって正に確実に知覚されないくらいに細やかに適合される量子化解像性を使用することで量子化される。知覚モデルによって知覚性の正確な予測を行うことにより、知覚コード化システムがより最適に量子化解像性を適用することができ、これにより、可聴であるアーティファクトをより少なくすることができる。
不正確な知覚予測を与えることが知られているモデルを使用するコーディングシステムは、別の方法により、より正確な予測を利用可能にするために必要とされるよりもよりきめ細やかな量子化解像性を使用しない限り、量子化雑音を直ちに確実に知覚不可にすることができない。シュローダー(Schroeder)他によって議論される多くの知覚モデルはスペクトル成分強度に基づいており、それ故に、これらのモデルによる正確な予測はスペクトル成分強度の正確な測定に依存する。
また、スペクトル成分強度の正確な測定は量子化に加えて他のタイプのコード化プロセスの性能に影響を及ぼす。スペクトル再生結合として知られている2つのタイプのコード化プロセスにおいて、エンコーダはソース信号のコード化された表示から選択されたスペクトル成分を排除することによってソース信号の情報所要量を減少させ、そして、デコーダは排除されたスペクトル成分の代替物を合成する。スペクトル再生では、エンコーダはソース信号のベースバンド部分の表示を生成し、これはスペクトルの他の部分を除くものである。デコーダは、ベースバンドの部分と、なくなった部分のスペクトルレベルの何らかの測度を伝える副情報を使用することでスペクトルのなくなった部分を合成して、オリジナルソース信号の不完全なレプリカを得るために2つの部分を結合する。スペクトル再生を使用するオーディオコーディングシステムの1例が2003年3月21日出願の国際特許出願番号PCT/US03/08895(2003年10月9日公開の国際公開番号WO03/083034)で説明される。結合において、エンコーダはソース信号のマルチチャネルのためのスペクトル成分の合成表示を生成し、デコーダは、その合成表示と、それぞれのソース信号通信路のスペクトルレベルの何らかの測度を伝える副情報とを使用することで、マルチチャネルのためのスペクトル成分を合成する。結合を用いるオーディオコーディングシステムの1例は、高品位テレビシステム委員会(Advanced Television Systems Committee (ATSC))により2001年8月20日に発行され「ディジタルオーディオ圧縮(AC-3)基準リビジョンA」と呼ばれるA/52Aドキュメントにおいて説明されている。
デコーダがオリジナルソース信号中の対応スペクトル成分の強度を保存するスペクトル成分を合成できるなら、これらのコーディングシステムの性能を向上できる。また、結合位相はずれ信号により生じるひずみを避け、あるいは、それを補償するように位相の正確な測定が可能であるならば、結合能力も改良される。
残念ながら、いくつかのコーディングシステムは、スペクトル成分強度又は位相の正確な測定を得ることを難しくするスペクトル成分表示を引き出す特定のタイプのフィルタバンクを使用する。2つの一般タイプのコーディングシステムはサブバンドコード化と変換コード化と呼ばれる。サブバンドコード化システムと変換コード化システムの両方においてフィルタバンクは、種々の時間領域変換から周波数領域変換に渡るものを含みさまざまな信号処理技法によって実行される。1979年10月の「IEEE Trans. Acoust., Speech, and Signal Proc.」ASSP-27、第512乃至530ページのJ.Tribolet他による「スピーチの周波数領域コード化」を参照されたい。
離散フーリエ変換(DFT)又はその効果的な実現である高速フーリエ変換(FFT)などのいくつかの変換は、1セットのスペクトル成分、または、スペクトル成分強度と位相が容易に計算できる変換係数を提供する。例えば、DFTのスペクトル成分はソース信号の多次元表示である。特に、オーディオコード化と画像コード化に適用できるDFTは、実数部と虚数部がニ次元空間座標として表される1セットの複素数値係数を提供する。よく知られている計算を使用することで、そのような変換で提供される各スペクトル成分の強度を多次元スペースにおける各成分の座標から容易に得ることができる。
しかしながら、離散コサイン変換などのいくつかの変換はスペクトル成分強度又は位相の正確な測度を得ることを難しくするスペクトル成分を提供する。DCTのスペクトル成分は、例えば、スペクトル強度と位相を正確に伝えるのに必要である多次元空間の副空間のみにおけるソース信号のスペクトル成分を表す。典型的なオーディオコード化と画像コード化応用において、例えば、DCTは1セットの実数値スペクトル成分、又は、前記の2次元の実数/虚数空間の1つの一次元副空間において表される変換係数を提供する。DCTのような変換で提供されるそれぞれのスペクトル成分の強度は関連副空間における各成分の座標から容易に得られない。
DCTのこの特性は、1987年5月の「ICASSP 1987Conf. Proc.」の第2161乃至2164ページにおけるジェイ・プリンセン(J. Princen)他による「時間領域エイリアシング消去に基づくフィルタバンク設計を用いるサブバンド/変換コード化」において説明される特定の修正型離散コサイン変換(MDCT)で共有される。このMDCTとその補足的な逆修正型離散コサイン変換(IMDCT)は多くのコーディングシステムにおいて広範囲に使用されるようになった。その理由は、それらのコーディングシステムがソース信号のオーバラッピングセグメントの完全再構築を提供することのできる重要なサンプリング(Critical Sampling)がなされた解析/合成フィルタバンクシステムを実行するからである。完全再構築は、有限精度計算によって生じるエラーが存在しないときにソース信号を完全に再建するための解析/合成フィルタバンク組の性質について言及する。重要なサンプリングは、ソース信号を伝えるのに使用されるサンプルの数以下である数のスペクトル成分を生成するための解析フィルタバンクの性質について言及する。これらの性質は多くのコード化応用で非常に魅力的である。なぜならば、重要なサンプリングは、コード化されなければならずかつコード化された信号で伝えられなければならないスペクトル成分の数を減少させるからである。
重要なサンプリングの概念は何らかのコメントに値する。DFT又はDCTは、例えば、ソース信号セグメントの各サンプルあたり1つのスペクトル成分を生成するが、多くのコード化応用におけるDFTとDCT解析/合成システムは重要なサンプリングを与えない。なぜならば、解析変換がオーバラッピング信号セグメントのシーケンスに適用されるからである。オーバラップは、解析フィルタバンク周波数応答特性を改良しかつブロッキングアーティファクトを排除する非長方形のウィンドウ関数の使用を可能にするが、また、重要なサンプリングでの完全再構築を妨げる。なぜならば、解析フィルタバンクがソース信号のサンプルの数よりも多くの数の係数を生成しなければならないからである。重要なサンプリングのこの損失はコード化された信号の情報所要量を増す。
以上のように、MDCTとIMDCTが実行するフィルタバンクは多くのコーディングシステムにおいて魅力的である。なぜならば、それらのフィルタバンクは重要なサンプリングでのソース信号のオーバラッピングセグメントの完全再構築を提供するからである。残念ながら、これらのフィルタバンクは、正確にスペクトル強度と位相を伝えるのに必要である多次元空間の副空間だけにおいてMDCTのスペクトル成分がソース信号のスペクトル成分を表すという点においてDCTと同様である。スペクトル強度又は位相の正確な測度をスペクトル成分又はMDCTによって生成した変換係数から容易に得ることができない。したがって、MDCTフィルタバンクを使用する多くのシステムのコード化性能は最適以下である。なぜならば、知覚モデルの予測精度が低下し、合成プロセスによるスペクトル成分強度の保存が損なわれるからである。
MDCTとDCTフィルタバンクのような様々なフィルタバンクのこの欠陥を避ける従来の試みはさまざまな理由で満足できるものではない。1つのテクニックが「ISO/IEC JTC1/SC29/WG11、パートIIIオーディオ」の「ISO/IEC11172-3: 1993(E) 約1.5Mbit/sまでのデジタル記憶メディアのための映画及び関連オーディオのコード化」に開示されている。このテクニックによると、いくつかのMDCTベースのフィルタバンクを含む1セットのフィルタバンクを使用してコード化のためにスペクトル成分を生成し、追加のFFTベースのフィルタバンクを使用してスペクトル成分強度の正確な測度を引き出す。このテクニックは少なくとも2つの理由で魅力的でない。
(1) 強度の測度を引き出すのに必要である前記追加のFFTフィルタバンクを実行するためにエンコーダにかなりの演算リソースが必要であること。
(2) 強度の正確な測度を得るための処理がエンコーダでなされること。
したがって、これらのスペクトル成分強度の測定をデコーダまで運ぶためにコード化された信号によって追加バンド幅が必要とされる。
別のテクニックは、スペクトル成分強度の測度を伝えるために、デコーダでこれらの測度を計算することに必要である追加バンド幅が生じること避ける。これは、復号化されたスペクトル成分に合成フィルタバンクを適用してソース信号のレプリカを回復し、次に、この回復された信号に解析フィルタバンクを適用して復号化されたスペクトル成分を持つ矩象の第2セットのスペクトル成分を得、かつ、これらの2セットのスペクトル成分からスペクトル成分強度を計算することによりなされる。このテクニックも魅力的でない。なぜならば、第2セットのスペクトル成分を得るために必要である解析フィルタバンクを実行するのにデコーダがかなりの演算リソースを必要とするからである。
2003年9月にロンドンで行われたデジタル・オーディオ・エフェクト(DAFx-03)に関する第6回国際会議の会報においてMerdjani他による「MCTコード化ファイルからの周波数の直接推定」で説明されるさらに別のテクニックは、MDCT係数から得られた「調整された(regularized)スペクトル」からの正弦波ソース信号の周波数、強度、および位相を推定している。このテクニックは前記欠点を克服するが、典型的なコード化応用に関して満足できるものではない。なぜならば、それは、1つの正弦波のみを持つ非常に簡単なソース信号だけにしか適用できないからである。
米国特許出願番号09/948,053(2003年5月15日公開のUS2003/0093282A1)で開示される別のテクニックはMDCT係数からDFT係数を得ることができるが、開示されたテクニックはMDCT係数自体によって表されたスペクトル成分の強度又は位相の測度を得ていない。その上、開示されたテクニックは、MDCT係数を表す情報をコード化又は復号化するようにプロセスを適合させるために強度又は位相の測度を使用しない。
MDCTなどの解析フィルタバンクによって生成したスペクトル成分から強度又は位相の正確な推定を与え、かつ、公知テクニックの欠陥を避け又は克服するテクニックが必要とされている。
人間が知覚することを意図するコンテントを伝えるソース信号に解析フィルタバンクを適用することにより生成した第1スペクトル成分を受け;第1スペクトル成分の少なくともいくつかから1つ以上の第1中間成分を引き出し;1つ以上のインパルス応答の少なくとも一部に従い1つ以上の第1中間成分のその組合せを形成して1つ以上の第2中間成分を得;1つ以上の第2中間成分から第2スペクトル成分を引き出し;第1スペクトル成分と第2スペクトル成分を使用して強度又は位相の推定測度を得;第1スペクトル成分に適応過程を適用して処理された情報を生成することによって、本発明は先行技術の欠陥を克服する。適応過程は強度又は位相の推定測度に対応して適合する。
本発明の様々な特徴とその好ましい実施の態様は以下の説明及び添付図面を参照することにより、よりよく理解されるであろう。いくつかの図において、同様な要素には同様な参照番号が用いられている。以下の説明及び図は単に例示的なものであり、本発明の範囲を限定するものではない。
発明の好ましい実施の態様
A.序論
本発明は、上述の修正型離散コサイン変換(MDCT)などの解析フィルタバンクによって生成したスペクトル成分から得られる強度又は位相の正確な測度を得ることを可能にする。本発明の種々の局面はオーディオコード化と画像コード化を含む多くの応用に使用されうる。図1と2は、それぞれ、本発明の種々の局面を取り入れるコーディングシステムにおける送信機と受信機の略ブロック図を示す。図示の送信機と受信機の特徴について以下のセクションで簡単に説明する。この説明の後に、強度と位相の測度計算に適切な何らかの解析フィルタバンクと合成フィルタバンクの特徴について説明する。
1.送信機
図1に示す送信機は、通信路1から受けたソース信号に解析フィルタバンク3を適用してソース信号のスペクトルコンテントを表すスペクトル成分を生成し、該スペクトル成分にエンコーダ5を適用してコード化された情報を生成し、該コード化された情報にフォーマッタ8を適用して伝送に適した出力信号を生成して通信路9に送り出す。出力信号は直ちに関連受信機に提供されるか、またはその後のデリバリのために記録される。解析フィルタバンク3は、無限インパルス応答(IIR)フィルタ、有限インパルス応答(FIR)フィルタ、格子フィルタ、およびウェーブレット変換を含む多様な方法で実行される。
本発明の具現を以下にMDCTに密接に関連する実施に関して説明するが、本発明はこれらの特定の実施に制限されない。
本発明において、「エンコーダ」と「コード化」のような用語はいかなる特定種類の情報処理を意味することを意図しない。例えば、コード化は情報容量を減らすのにしばしば使用される。しかしながら、本発明においてこれらの用語はこのタイプの処理について必ずしも言及するというわけではない。エンコーダ5は、望まれるどんなタイプの処理も本質的に実行することができる。1実施の形態では、コード化された情報は、知覚モデルに従いスペクトル成分を量子化することによって生成される。別の実施の形態では、エンコーダ5は、スペクトル成分のマルチチャネルに結合プロセスを適用して合成表示を生成する。さらに別の実施の形態では、信号帯域幅の一部に関するスペクトル成分が捨てられ、そして、捨てられた部分のスペクトル包絡線の推定はコード化された情報に含まれている。本発明では特定のタイプのコード化は重要でない。
2.受信機
図2に示す受信機は、通信路21から受けた入力信号にデフォーマッタ23を適用してコード化された情報を得、該コード化された情報にデコーダ25を適用してソース信号のスペクトルコンテントを表すスペクトル成分を得、該スペクトル成分に合成フィルタバンク27を適用してソース信号のレプリカであるが正確なレプリカではない出力信号を生成する。合成フィルタバンク27は解析フィルタバンク3の態様を補足するさまざまな方式による態様とされる。
この開示では、「デコーダ」と「復号化」のような用語はどんな特定種類の情報処理を意味することを意図しない。デコーダ25は必要な、または望まれるいかなるタイプの処理も本質的に実行する。上で説明したコード化プロセスの逆の1実施の態様では、量子化されたスペクトル成分は逆量子化されたスペクトル成分に複号化される。別の実施の態様では、スペクトル成分のマルチチャネルはスペクトル成分の合成表示から合成される。さらに別の実施の態様では、デコーダ25はスペクトル包絡線情報から信号帯域幅のなくなった部分を合成する。本発明ではいかなる特定タイプの復号化も重要でない。
3. 強度と位相の測度
Odd離散フーリエ変換(ODFT)による1実施の態様では、解析フィルタバンク3は、複素数係数、即ち、実数部と虚数部を持ちニ次元空間で表される「スペクトル成分」を生成する。この変換は以下のように表現される。
式1
Figure 2007524300
これは実数と虚数部に分離される。
式2
Figure 2007524300
以下のように書くことができる。
式3
Figure 2007524300
ここで、
ODFT(k)はスペクトル成分kのODFT係数、
x(n)は時間nにおけるソース信号振幅、
Re [X]はXの実数部、そして、
Im[X]はXの虚数部である。
それぞれのスペクトル成分kの強度と位相は以下の通り計算される。
式4
Figure 2007524300
ここで、Mag [X]はXの強度、Phs[X]はXの位相である。
多くのコード化応用は、解析ウィンドウ関数で変調されるソース信号のオーバラッピングセグメントに上述の修正型離散コサイン変換(MDCT)を適用することによって、解析フィルタバンク3を実行する。この変換は以下のように表される。
式5
Figure 2007524300
ここで、XMDCT(k)はスペクトル成分kのMDCT係数である。MDCTによって生成されるスペクトル成分はODFT係数の実数部に等しいことがわかるであろう。
MDCT(k)=Re [XODFT(k)] (7)
MDCTの係数によって表されるスペクトル成分を備え矩象(直角位相)で表されるスペクトル成分を表す係数を生成する特定の修正型離散サイン変換(MDST)は以下のように表される。
式6
Figure 2007524300
ここで、XMDST(k)はスペクトル成分kのMDST係数である。MDSTによって生成されるスペクトル成分はODFT係数の負の虚数部に等しいことがわかるであろう。
MDST(k)=Re [XODFT(k)] (9)
強度と位相の正確な測度はMDCT係数から直接計算できないが、それらはMDCTとMDST係数の組合せから計算することができ、式4と5に式7と9を代入することによって得ることができる。
式7
Figure 2007524300
上記プリンセン論文は、MDCTを正しく使用するためには、ある設計基準を満たす解析ウィンドウ関数を適用する必要があることを示す。開示のこのセクションにおける変換式の表現は解析ウィンドウ関数の明示参照を省略するが、解析ウィンドウ関数はこれらの基準を満たさない長方形解析ウィンドウ関数を含む。このことは式10と11の妥当性に影響しない。
以下で説明される本発明の実施の形態は、MDCT係数と、MDCT係数から得られたMDST係数からスペクトル成分強度と位相の測度を得る。これらの実施の形態は、数学的基礎の説明の後に、以下で説明される。
B. 数学的構成の誘導
このセクションはMDCT係数から正確なMDST係数を計算するための解析表示の誘導について論ずる。この解析表示は以下に式41aと41bで示される。また、2つの特定のウィンドウ関数に関するより簡単な解析表示の誘導についても議論する。誘導についての議論の後に、実際の例についての考察も提示される。
以下で説明する本発明の1実施の形態はMDCT係数から正確なMDST係数を計算するプロセスから得られる。このプロセスは、別のプロセスであって、逆修正型離散コサイン変換(IMDCT)合成フィルタバンクをMDCT係数のブロックに適用して時間領域のサンプルのウィンドウ化セグメントを生成し、該サンプルのウィンドウ化セグメントをオーバラップして加えてオリジナルソース信号のレプリカを再構築し、該回復された信号のセグメントにMDST解析フィルタバンクを適用してMDST係数を生成するプロセスと同等である。
1. 任意のウィンドウ関数
正確なMDST係数は、MDCT係数の単一ブロックにIMDCT合成フィルタバンクを適用することによって回復されるウィンドウ化サンプルの単一セグメントからは計算できない。なぜならば、セグメントが解析ウィンドウ関数によって変調され、かつ、回復されたサンプルが時間領域エイリアシングを含んでいるからである。前後のセグメントのMDCT係数に関する追加知識を持ってして初めて正確なMDST係数を計算できる。例えば、セグメントが互いに半セグメント長重なる場合、任意のセグメントIIに関するウィンドウィング効果と時間領域エイリアシングは、合成フィルタバンクと関連合成ウィンドウ関数をソース信号の3つの連続したオーバラッピングセグメント、即ち、セグメントI、セグメントII、セグメントIIIを表すMDCT係数の3つのブロックに適用することによってキャンセルされる。各セグメントは、隣接するセグメントにセグメント長の半分と等しい量だけ、オーバラップする。セグメントIIの第1半分におけるウィンドウィング効果と時間領域エイリアシングは、セグメントIの第2半分にオーバラップして加えることによりキャンセルされ、セグメントIIの第2半分におけるこれらの効果は、セグメントIIIの第1半分にオーバラップして加えることによってキャンセルされる。
MDCT係数からMDST係数を計算する式はソース信号のセグメントの数と、これらのセグメントのオーバラップ構造及び長さと、解析及び合成ウィンドウ関数の選択に依存する。これらの特徴のいずれも原則として本発明にとって重要でない。しかしながら、例示を容易にするために、以下で説明する実施例において次のことを採用する。
3つのセグメントは等しい同じ長さNを持ち、セグメント長の半分に等しい量互いにオーバラップする。
解析及び合成ウィンドウ関数は互いに同じである。
ソース信号のすべてのセグメントに同じウィンドウ関数が適用される。
ウィンドウ関数はすべて、そのオーバラップ付加性質が以下の基準を満たすものである。この基準はプリンセン論文で説明されるように、ソース信号の完全再構築に必要である。
式8
Figure 2007524300
ここで、w(r)は解析及び合成ウィンドウ関数、Nはそれぞれのソース信号セグメントの長さである。
それぞれのセグメントiのソース信号x(n)のMDCT係数Xは次のように表される。
式9
Figure 2007524300
IMDCT合成フィルタバンクをMDCT係数のそれぞれのブロックに適用することにより得られるウィンドウ化時間領域サンプル
式10
Figure 2007524300
は以下のように表される。
式11
Figure 2007524300
セグメントIIのソース信号のサンプルs(r)は、上で説明される3つのウィンドウ化セグメントをオーバラップさせ加えることにより再構築され、その結果、ソース信号xから時間領域エイリアシングを取り除く。これは以下に表される。
式12
Figure 2007524300
MDST係数S(k)のブロックは、以下に表されるように、再構築されたセグメントIIにおける時間領域サンプルにMDST解析フィルタバンクを適用することにより、セグメントIIに関して計算される。
式13
Figure 2007524300
s(r)に関する式18を式19に代入して、式19を以下のように表すことができる。
式14
Figure 2007524300
式15乃至17を時間領域サンプルに代入することによって、この式をMDCT係数の項で表すことができる。
式15
Figure 2007524300
開示のこのセクションの残りの部分は、下に示す式41aと41bで示すように、どのようにしてこの式を簡素化できるかを示す。
三角関数の公式sinα・cosβ=1/2[sin (α+β)+sin (α-β)]を使用して、項を集めかつ累和計算の順番を変えることにより、式21を次のように書き直すことができる。
式16
Figure 2007524300
この式は、互いに等しい項の組を組み合わせることで簡素化される。第1項と第2項は互いに等しい。第3及び第4項は互いに等しい。第5と第6項は互いに等しく、第7と第8項は互いに等しい。例えば、第3と第4項が互いに等しいことは以下の補題を立証することによって示される。
式17
Figure 2007524300
この補題は、以下のように式23の左辺及び右辺をpの関数として書き直すことによって立証される。
式18
Figure 2007524300
ここで、
式19
Figure 2007524300
pの関数である式Gは次のように(N−1−p)の関数として書き直すことができる。
式20
Figure 2007524300
MDCT係数は奇対称であることが知られているので、次式が成り立つ。
式21
Figure 2007524300
(k−(N−1−p))を(k+1+p)−Nと書き直すことによって、(k−(N−1−p))・(r+no)=(k+1+p)・(r+no)−N・(r+no)となる。これらの2つにより、式26は次のように表される。
式22
Figure 2007524300
プリンセン論文に言及すると、n0の場合の値は1/2(N/2+1)であり、これは2つの整数の中間である。rが整数であるので、式27の被加数における最終項2π(r+n0)は、πの奇数倍に等しく、したがって、式27を次のように書くことができる。
式23
Figure 2007524300
これは式23に示す補題を立証する。同じように式22中の他の組の項同士が等しいことを示すことができる。
式22の第1項、第3項、第5項、および第7項を省略し、第2項、第4項、第6項、および第8項を2倍にすることにより、第2項と第8項を簡素化した後に、式22を以下の通り書き直すことができる。
式24
Figure 2007524300
次の公式、
式25
Figure 2007524300
を使用として式29を以下のように書くことができる。
式26
Figure 2007524300
第3項と第4項の範囲がr=0からr=(N/2−1)なるように、次の代入を行うことによって第3項と第4項の内和を変える。
式27
Figure 2007524300
これにより、式31は以下となる。
式28
Figure 2007524300
ソース信号の完全な再構成に必要である上記ウィンドウ関数に制限を課すことによって式32を簡素化できる。この制限は次式で示される。
式29
Figure 2007524300
この制限により、式31は次のように簡素化される。
式30
Figure 2007524300
項を集めて、式33を次のように書くことができる。
式31
Figure 2007524300
第3項の内部累和計算がゼロに等しいことを認識することによって、式34を簡素化できる。これを2つの補題を立証することによって示すことができる。1つの補題は次の等式が成り立つことである。
式32
Figure 2007524300
この等式は被加数を指数関数で記載し、以下のように、項を再配置し簡素化し結合することによって立証される。
式33
Figure 2007524300
もう1つの補題は以下の式が成り立つというものである。
式34
Figure 2007524300
このことは、式35のaにn0を代入し、以下を得ることにより証明される。
式35
Figure 2007524300
式35のqに(k−p)を代入し、かつ、前記2つの補題を使用して、式34の第3項の内和は以下に示すようにゼロに等しいことがわかる。
式36
Figure 2007524300
この等式を使用して、式34は以下のように簡素化される。
式37
Figure 2007524300
実数値信号のMDST係数S(k)は以下の式に従って対称である。
式38
Figure 2007524300
この性質を使用して、すべての偶数の係数は以下のように表される。
式39
Figure 2007524300
Nと2(ν+1)は両方とも偶数であるので、数量(N−(2(ν+1)+1)は奇数である。これから、偶数の係数を奇数の係数の項で表すことができることがわかる。係数のこの性質を使用して、式38を以下の通り書き表すことができる。
式40
Figure 2007524300
この式の第2項は、すべての偶数値pに関してゼロである。第2項は、奇数値のpに関してのみ、または、
式41
Figure 2007524300
の場合に関してのみ評価される必要がある。
式42
Figure 2007524300
以下のように、ソース信号の3つのセグメントに関するMDCT係数XI、XII、およびXIIIから導びかれる2セットの中間スペクトル成分mI,IIIおよびmIIを持つ2つの関数hI,IIIとhIIの2つの変更畳込み演算の和として式40を書き表すことができる。
式43
Figure 2007524300
変更畳込み演算の結果は、IMDCT合成フィルタバンクと、それに続くMDST解析フィルタバンクと、解析及び合成ウィンドウ関数の組み合わされた効果に関連する仮想フィルタのインパルス応答である前記関数hI,IIIとhIIの特性に依存する。この変更畳込みは偶数の整数に関してのみ評価される必要がある。
それぞれのインパルス応答は対称である。それは、hI,III(τ)=hI,III(−τ)及びhII(τ)=−hII(−τ)を検査することから分かる。これらの対称性質は、それぞれのインパルス応答の表示を保存するのに必要であるメモリの量を減少させるのに実用的なデジタル実現で利用されるだろう。また、インパルス応答の対称性質が中間スペクトル成分mI,IIIとmIIの対称性質とどのように相互作用するかに関する理解は、計算量を減少させるための実用的な例において利用されるであろう。
インパルス応答hI,III(τ)とhII(τ)を上に示す累和計算から計算することができるが、インパルス応答に関するより簡単な解析表示を引き出すことによってこれらの計算を簡素化することも可能である。インパルス応答はウィンドウ関数w(r)に依存するので、より簡単な解析式を誘導することはウィンドウ関数に関する追加仕様を必要とする。2つの特定のウィンドウ関数、即ち、レクタンギュラウィンドウ関数とサインウィンドウ関数のインパルス応答に関するより簡単な解析式の誘導の例について以下に説明する。
2. レクタンギュラウィンドウ関数
レクタンギュラウィンドウ関数は比較的拙劣な周波数選択性性質をもつのでコード化応用でしばしば使用されるわけではないが、その簡単さは特定の実行を誘導するのに必要である解析の複雑さを減少させる。この誘導のために、次のレクタンギュラウィンドウ関数が使用される。
式44
Figure 2007524300
この特定のウィンドウ関数の場合、式41aの第2項はゼロである。MDST係数の計算は第2セグメントに関してMDCT係数に依存しない。その結果、式41aは次のように表される。
式45
Figure 2007524300
Nが4の倍数値であるように制限されるなら、次の等式が成り立つことを仮定する別の補題をさらに使用することによってこの式を簡素化できる。
式46
Figure 2007524300
この式は以下の通り立証される。
式47
Figure 2007524300
a=N0+(N/4q)と共に式35に示す補題を使用することによって、式44を以下のように表すことができる。
式48
Figure 2007524300
これを簡素化して以下の式を得ることができる。
式49
Figure 2007524300
qがNの整数倍(q=mNのように)であるなら、式46の商の分子と分母は共にゼロであり、商の値が不定となる。L'Hospitalの規則を使用して式をさらに簡素化することができる。qに関して分子と分母を差別化して、q=mNを代入すると、次の式を得る。
式50
Figure 2007524300
Nが4の整数倍であるため、分子が常にNに等しく、分母は2・(−1)m=2(−1)q/Nである。これは式43で表された補題の証明を完成する。
この等式をインパルス応答hI, IIIを得るために使用することができる。インパルス応答hI, III(τ)を評価するために異なるケースが考慮される。τがNの整数倍(τ=mNのように)であるならば、hI, III(τ)=(−1)m・N/4である。τがNの整数倍以外の偶数であるとき、インパルス応答はゼロである。なぜならば、式46の商の分子がゼロであるからである。τの奇数値の場合のインパルス応答hI, IIIの値は検査によってわかる。インパルス応答は以下のように表される。
式51
Figure 2007524300
レクタンギュラウィンドウ関数及びN=128のときのインパルス応答hI, IIIは図6に示される。これらの式を式42に代入することによって、式41aと41bは以下のように表される。
式52
Figure 2007524300
式49aと49bを使用して、セグメントIIのMDST係数は、レクタンギュラウィンドウ関数を使用すると、セグメントIとIIIのMDCT係数から計算される。この式の計算量は、インパルス応答hI, IIIが多くの奇数値の場合にゼロであるという事実を利用することによって減少される。
3. サインウィンドウ関数
サインウィンドウ関数は、レクタンギュラウィンドウ関数よりも良い周波数選択性を持ち、いくつかの実用的なコーディングシステムで使用される。以下の誘導は、次式で定義されるサインウィンドウ関数を用いる。
式53
Figure 2007524300
インパルス応答hI, IIIの簡素化された式は、以下の式が成り立つという補題を用いて立証することができる。
式54
Figure 2007524300
この補題は、w(r)w(r+N/2)に関する式を次のように最初に簡素化することで得られる。
式55
Figure 2007524300
この簡素化された式を式51に代入して以下を得る。
式56
Figure 2007524300
次の三角関数の公式を用いると、
式57
Figure 2007524300
式53を以下のように表すことができる。
式58
Figure 2007524300
式35によるI(τ)の両項に代入することにより、即ち、第1項に
式59
Figure 2007524300
を代入し、第2項にq=(−τ+1)と、
式60
Figure 2007524300
を代入することで式55を簡素化できる。これにより以下を得る。
式61
Figure 2007524300
式58は、どちらかの商の分母がゼロでない限り有効である。どちらかの分母がゼロである条件を特定するために式57を点検することによって、これらの特別な場合を解析できる。τ=mN+1かつ及びτ=mN−1のとき(但し、mは整数である)、特異性が起こることが式57からわかる。以下は、Nが4の整数倍であると仮定する。
τ=mN+1のとき、式57は次のように表される。
式62
Figure 2007524300
分子と分母がともにゼロであるので、商の値は不定である。その値を決定するのにL'Hospitalの規則を使用できる。mに関して分子と分母を微分して以下を得る。
式63
Figure 2007524300
τ=mN−1のとき、式57は次のように表される。
式64
Figure 2007524300
分子と分母がとものゼロであるから、この式の値は不定である。値を決定するのにL'Hospitalの規則を使用できる。mに関して分子と分母を微分して以下を得る。
式65
Figure 2007524300
式51で示す補題は式58と、60と62を結合することで立証される。
インパルス応答hIIの簡素化された式は次式が成り立つという補題を使用することによって導かれる。
式66
Figure 2007524300
この補題の証明は前の証明と同様である。この証明はw(r)w(r)の式を簡素化することによって始まる。sinα=1/2−1/2cos(2α)であるので、以下の式が成り立つ。
式67
Figure 2007524300
この式を使用して、式63を以下のように表すことができる。
式68
Figure 2007524300
式37と関連補題から、式65の第1項はゼロであることがわかる。第2項は三角関数の公式cosu・sinν=1/2[sin(u+ν)−sin(u−ν)]を用いて簡素化され、次式を得る。
式69
Figure 2007524300
式66に言及すると、第1項は55の第1項の符号をマイナスにしたものに等しく、第2項は式55の第2項と等しい。式63に示す補題の証明は、式51に示す補題を立証するのに使用される方法と同様の方法で立証される。証明の主要な違いは式59と式61の特異性解析である。この証明のために、I(mN−1)に−1の追加要素を掛ける。故に、I(mN−1)=(N/8)・(−1)m+1である。式55の第1項に先行するマイナス符号と共にこの違いを考慮して、式63に示す補題は立証される。
インパルス応答hII(τ)の正確な式はこの補題によって与えられるが、該式は、式41aにおけるhIIの変更畳込みがτ=(2ν(2l+1))に関してのみ評価されるので、τの奇数値のみに関してのためだけに評価される必要がある。式63によると、τ=mN+1及びτ=mN−1を除いて、τが奇数の場合、hII(τ)=0である。τの2値の場合だけ、hII(τ)はゼロでないので、このインパルス応答は以下のように表される。
式70
Figure 2007524300
サインウィンドウ関数で、N=128の場合のインパルス応答hI,III(τ)とhII(τ)をそれぞれ図7と8に示す。
式51と67によって与えられたインパルス応答hI,IIIとhIIの解析式を用いて式41aと41bを以下のように書くことができる。
式71
Figure 2007524300
式68aと68bを使用し、サインウィンドウ関数を使用すれば、セグメントI、II、およびIIIのMDCT係数からセグメントIIのMDST係数を計算できる。τの多くの奇数値において、インパルス応答hI,III(τ)がゼロであることを利用して、この式の計算量をさらに減少できる。
C.スペクトル成分の推定
式41aと41bは任意のウィンドウ関数の場合に、MDCT係数から正確なMDST係数を計算する。式49a、49b、68a及び68bは、レクタンギュラウィンドウ関数とサインウィンドウ関数をそれぞれ使用して、MDCT係数から正確なMDST係数を計算する。これらの計算はインパルス応答の畳込みと同様の演算を含む。インパルス応答の値がゼロであることが知られているものをこの演算から除くことによって、この畳込みのような演算の計算量を減少させることができる。
完全な応答の中のより少ない意味の部分をその計算から除くことによって計算量をさらに減少できる。しかしながら、この結果の計算は、厳密計算がもはや可能でないので、MDST係数の推定だけを提供する。計算から除かれるインパルス応答の量を制御することによって、計算量と推定精度の適切なバランスを得ることができる。
インパルス応答自体は採用されるウィンドウ関数の形に依存している。その結果、ウィンドウ関数の選択は、係数推定精度を何らかの必要なレベル以下に損なうことなく計算から除くことができるインパルス応答の部分に影響を与える。
レクタンギュラウィンドウ関数の場合の式49aを検査すると、それは、インパルス応答hI,IIIがτ=0に関して対称であり、適度に急速に減衰することを示している。このインパルス応答のN=128のときの一例を図6に示す。インパルス応答hIIは、すべてのτの値に対してゼロである。
サインウィンドウ関数の場合の式68aを検査すると、それは、インパルス応答hI,IIIがτ=0に関して対称であり、レクタンギュラウィンドウ関数の場合の対応する応答より、より急速に減衰することを示している。
サインウィンドウ関数の場合、インパルス応答hIIはτの2つの値のときだけゼロでない。サインウィンドウ関数のN=128のときのインパルス応答hI,IIIとhIIの例を図7と8にそれぞれ示す。
これらの観測に基づいて、式41aと41bの変更形態であって、いかなる解析又は合成ウィンドウ関数の場合のMDST係数の推定を与える変更形態は以下の2つのフィルタ構造(filter structure)の項として表される。
式72
Figure 2007524300
そして、napstot, τtrunc1、τtrunc2は、以下を満足するように選択される。
式73
Figure 2007524300
式69に従いMDST係数を推定する装置30の例を図3の略ブロック図で示す。この実施の形態では、中間成分ジェネレータ32は、通信路31からMDCT係数を受け式71に示す演算を行うことによって、それぞれセグメントI、IIIのMDCT 係数XI、XIIIから第1中間成分mI,IIIを引き出し、式74に示す演算を行うことによってセグメントIIのMDCT係数XIIから第1中間成分mIIを引き出す。中間成分ジェネレータ34は、式70に示す演算を行うことによってインパルス応答33から受け取ったインパルス応答の部分hI,IIIに従って第1中間成分の組合せを形成することによって第2中間成分を引き出し、式73に示す演算を行うことによってインパルス応答33から受け取ったインパルス応答の部分hIIに従って第1中間成分mIIの組合せを形成することによって第2中間成分を引き出す。2つのインパルス応答のいかなる部分も全体の応答を含みτtrunc1とτtrunc2として表示されるように使用される。より長いインパルス応答を使用すると計算量が増し、一般にMDST係数の推定精度を増す。スペクトル成分ジェネレータ35は、式69と76に示す演算を行うことによって、第2中間成分からMDST係数を得る。
強度及び位相エスティメータ36は、計算されたMDST係数と、通信路31から受け取られたMDCT係数から強度と位相の測度を計算し、これらの測度を通信路38,39に渡す。また、MDST係数はまた通信路37に渡されてもよい。スペクトル強度と位相の測度を例えば、上式10と11に示す演算を行うことによって得ることができる。得られる測度の他の例はスペクトルフラックス(これはスペクトル強度の1階微係数から得られるだろう)と、瞬時周波数(これはスペクトル位相の1階微係数から得られるだろう)を含む。
例えば、図6乃至8に示すインパルス応答について言及すると、2つのフィルタ構造の畳込みタイプの演算で得られた係数値がτ=0に近い応答部分によって支配されることが分かるであろう。特定の形態に関して計算量と推定精度のバランスは、2つのフィルタ構造を実行するのに使用されるフィルタタップの総数ntapstotを選択することによって達成される。フィルタタップの総数ntapstotは、MDST係数の推定を特定応用のニーズに適合させるために、それぞれτtrunc1の値とτtrunc2の値に従って必要な第1フィルタ構造と第2第1フィルタ構造の間に分配されるであろう。2つのフィルタ構造間でのタップの分配は推定精度に影響するが、計算量には影響しない。
各フィルタ構造に関するタップの数とタップの選り抜きはいかなる所望の基準を使用することで選択できる。例えば、2つのインパルス応答hI,IIIとhIIを点検すれば、より重要な応答部分を明らかにできるであろう。より重要な部分だけに関してタップを選ぶことができる。さらに、1つ以上の周波数領域の係数などの選択されたMDST係数だけを得ることによって、計算量を減すことができる。
本発明の適応型の形態は、知覚モデルによって知覚的により重要であると判断されるスペクトル成分に関するMDST係数を推定するインパルス応答のより大きい部分を使用することができるであろう。例えば、スペクトル成分のための知覚的意味の測度を知覚モデルによって計算される知覚的マスキング敷居を超える量から導くことができるであろう。インパルス応答のより短い部分を知覚的により重要でないスペクトル成分に関するMDST係数を推定するのに使用することができる。最も重要でないスペクトル成分に関するMDST係数の推定に必要な計算を避けることができる。
非適応型の形態は、信号の様々な周波数サブバンドにおけるMDST係数の推定を模範信号の解析によって事前に決定される前記サブバンドの知覚的意味に従って長さが異なるインパルス応答の部分を使用することで得ることができるであろう。多くのオーディオコード化応用において、より低い周波数サブバンドのスペクトル成分は、一般に、より高い周波数サブバンドにおけるスペクトル成分より重要な知覚的意味を持つ。これらの応用では、例えば、非適応型の形態は、サブバンドにおけるMDST係数を該サブバンドの周波数に対して逆比例的に長さが変化するインパルス応答の部分を使用することで推定できるであろう。
D 追加考察
上に説明した開示は、本発明のほんの少ないいくつかの実施の形態を説明する例を定めるものである。本発明の原理は多種多様な方法で適用されて実施されうる。以下に追加考察を述べる。
1. 他の変換
上で説明した例示的な形態は、セグメント長の半分の長さだけ互いにオーバラップするソース信号の固定長セグメントに適用されるODFTの項として表されるMDCTから導かれる。上で説明した例の変形例と、以下に説明する代替例の変形例は、ODFTの項として表されるMDCTから形態を導くことのよって得られるであろう。
本発明の追加の形態は、DFT、FFT、および上で引用したプリンセン論文において説明されるMDCTフィルタバンクの一般化式を含む他の変換式から得られるであろう。この一般化式は1998年3月10日に発行されたU.S.特許第5,727、119号で説明される。
本発明の形態もまた、可変長信号セグメントに適用される変換の式と、オーバラップしていない又はセグメント長の半分以外のオーバラップ量を持つセグメントに適用される変換の式から引き出されるであろう。
2. 適応推定
いくつかの実証的な結果は、特定のレベルの計算量を持つ本発明の形態が単一のシヌソイド又は周波数が互いに分離しているいくつかのシヌソイドを表すスペクトル成分に関してよりもスペクトルエネルギーのバンドを表すスペクトル成分に関してより正確なスペクトル成分強度の測度をしばしば引き出すことができることを示唆する。スペクトル成分強度を推定するプロセスは、隔離したスペクトル成分を持つ信号に関して推定精度を改善するために、少なくとも2つの方法で適合されるであろう。
プロセスを適合させる1つの方法は、1つ以上の隔離したスペクトル成分に関連する制限されたセットのMDST係数に関してより正確な演算ができるように式69に示す2つのフィルタ構造に関するインパルス応答の長さを適応的に大きくすることによる。
このプロセスを適合させる別の方法は、隔離したスペクトル成分のスペクトル成分強度を引き出す代替方法を適応的に実行することである。この代替方法は、MDCT係数から追加セットのスペクトル成分を引き出し、この追加セットのスペクトル成分は強度及び/又は位相の測度を得るのに使用される。この適合は、ソース信号のセグメントに関してより適切な方法を選択することによってなすことができるし、特定のセグメントのスペクトルの部分に関する適切な方法を使用することによってもなされる。上で引用したMerdjani論文で説明される方法は1つの可能な代替方法である。それが使用されるなら、この方法は、望ましくは、単一シヌソイド以上に関する強度推定を提供するように拡張される。これは、各バンドが単一の優性スペクトル成分を持つ周波数のバンド内にMDCT係数を動的に配置し、かつ、係数の各バンドにMerdjani法を適用することによってなされるであろう。
1つの優性スペクトル成分又はいくつかの隔離した優性スペクトル成分を持つソース信号の存在はさまざまなテクニックを使用して検出されるだろう。1つのテクニックは、隣接かつ近位の係数の強度をいくらかの敷居量を超える強度を有し、かつ、局部最大の数を計数し又は局部最大値間のスペクトル距離を決定するMDCT係数中の局部最大値を検出する。別のテクニックは、ソース信号の近似のスペクトル偏平測度 (SFM)を計算することによってソース信号のスペクトル形を決定する。SFMは、Prentice-Hall,
1984年版の第57頁においてN. Jayant他による「波形のデジタルコード化」で説明されており、信号のパワースペクトル密度のサンプルの幾何平均と算術平均との比であると定義される。
3. 実施の形態
本発明はさまざまな応用で有利に使用されるだろう。本発明の種々の具現を取り入れた送信機と受信機の略ブロック図をそれぞれ図4と、図5に示す。
図4に示す送信機は図1に示す送信機と同様であり、エスティメータ30を含む。エスティメータ30は本発明の種々の具現を取り入れており、強度と位相の測度をそれぞれ通信路38と39に提供する。エンコーダ6はこれらの測度を使用し、解析フィルタバンク3から受けたスペクトル成分を表すコード化された情報を生成する。エンコーダ6で使用されるプロセスの実施例(これらは強度又は位相の測度に依存するだろう)は、適応量子化レベルと、結合と、後にスペクトル再生復号化プロセスにおいて使用されるスペクトル包絡線推定とを決定するために使用される知覚モデルとを含む。
図5に示す受信機は図2に示す受信機と同様であり、エスティメータ30を含む。エスティメータ30は本発明の種々の具現を取り入れており、強度と位相の測度をそれぞれ通信路38と39に提供する。エスティメータ30はまた、通信路37にMDST係数を供給することができる。デコーダ26はこれらの測度を使用し、デフォーマッタ23から受けたコード化された情報からスペクトル成分を得る。デコーダ26で使用されるプロセスの実施例(これらは強度又は位相の測度に依存するだろう)は、適応型の量子化レベルと、合成又は結合された表示からのスペクトル成分合成と、スペクトル成分再生とを決定するために使用される知覚モデルを含んでいる。
本発明の種々の具現を取り入れた装置は、コンピュータ又は、汎用計算機で見いだされる構成要素と同様の構成要素に結合されたデジタル信号プロセッサ(DSP)サーキットリーなどのより特定の構成要素を含んでいる他の装置によって実行されるソフトウェアを含み、さまざまな方法で実行される。図9は本発明の態様を実施するのに使用されるデバイス70の略ブロック図である。DSP72は演算リソースを提供する。RAM73は、信号処理のためにDSP72で使用されるシステムランダム・アクセス・メモリ(RAM)である。ROM74は、デバイス70の操作及び本発明の種々の態様を実行するのに必要であるプログラムを保存するための、読み取り専用メモリ(ROM)などの永続的なストレージの形態をとる。入出力制御75は、通信チャネル76、77を介して信号を送受するインタフェース回路である。アナログ信号の受信及び/又は送信に望まれるように、アナログデジタル変換器とデジタルアナログ変換器を入出力制御75に含むことができる。図示の実施の形態において、システムのすべての主要な構成要素はバス71に接続されており、このバスは1つの物理的なバス以上のものである。しかしながら、バスアーキテクチュアーは、本発明を実施するのに必要ではない。
汎用計算機システムで実行される実施の形態において、キーボード又はマウス及びディスプレイのようなデバイスとインタフェースを成す追加の構成要素と、磁気テープ若しくは磁気ディスク又は光学メディアなどのストレージメディアを持つストレージデバイスを制御する追加の構成要素を含むこととしても良い。ストレージメディアは、オペレーティングシステム、ユーティリティソフト、および応用ソフトのための命令プログラムを記憶するのに使用され、本発明の種々の具現を実行するプログラムの実施の態様を含むことができる。
本発明の種々の具現を実施するのに必要である機能は、離散論理要素、集積回路、1つ以上のASIC及び/又はプログラムによって制御されるプロセッサを含み多種多様な方法で実行できる構成要素によって果たされる。これらの構成要素が使用される方法は本発明には重要でない。
本発明のソフトウェアは、超音波から紫外線領域波数までを含むスペクトルに渡るベースバンド又は変調された通信路などの、マシンでの読み込み可能な多様なメディア、あるいは、磁気テープ、磁気カード若しくは磁気ディスク又は光学カード若しくは光学ディスクと、紙のようなメディアに設けた検出可能なマークを含むいかなる記録技術を本質的に使用することで情報を伝達する記憶メディアによって実装される。
コーディングシステムで使用する送信機の略ブロック図である。 コーディングシステムで使用する受信機の略ブロック図である。 本発明の種々の局面に従った、スペクトル成分の強度又は位相の測定値を得る装置の略ブロック図である。 本発明の種々の局面を取り入れた送信機の略ブロック図である。 本発明の種々の局面を取り入れた受信機の略ブロック図である。 本発明の例示的な実装と共に使用されるインパルス応答を示すグラフである。 本発明の例示的な実装と共に使用されるインパルス応答を示すグラフである。 本発明の例示的な実装と共に使用されるインパルス応答を示すグラフである。 本発明の種々の局面を実装するのに使用されるデバイスの略ブロック図である。

Claims (44)

  1. 人間が知覚することを意図するコンテントを伝えるソース信号を表す情報を処理する方法であって:
    ソース信号に解析フィルタバンクを適用して生成した第1スペクトル成分を受け、該第1スペクトル成分は前記ソース信号のスペクトル成分を多次元空間の第1副空間において表し;
    前記第1スペクトル成分の少なくともいくつかから1つ以上の第1中間成分を引き出し、但し、前記第1中間成分の少なくともいくつかは前記第1中間成分が引き出された前記第1スペクトル成分とは異なり;
    1つ以上の第2中間成分を得るために1つ以上のインパルス応答の少なくとも一部に従い前記1つ以上の第1中間成分の組合せを形成し;
    前記1つ以上の第2中間成分から1つ以上の第2スペクトル成分を引き出し、但し、該 第2スペクトル成分は、前記多次元空間の前記第1副空間に含まれていない部分を含んでいる前記多次元空間の第2副空間において前記ソース信号のスペクトル成分を表すものであり;
    前記第1スペクトル成分と前記第2スペクトル成分を使用して強度又は位相の推定測度を得;
    前記強度又は位相の推定測度に応答する適応過程を前記第1スペクトル成分に適用して処理済情報を生成する:
    ことを含んでなる方法。
  2. 請求項1の方法であって:前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を与えることによって生成された1つ以上のブロックの変換係数として配置された変換係数であり;かつ、前記1つ以上のインパルス応答の前記少なくとも一部は前記1つ以上の変換の周波数応答特性に基づく;方法。
  3. 請求項2の方法であって、前記1つ以上の変換の前記周波数応答特性は、前記1つ以上の変換と共にソース信号の前記1つ以上のセグメントに適用された1つ以上の解析ウィンドウ関数の特性に依存する方法。
  4. 請求項3の方法であって、 前記1つ以上の変換の前記少なくともいくつかは、時間領域エイリアシングを持つ前記第1スペクトル成分を生成する解析フィルタバンクを実行する方法。
  5. 請求項3の方法であって、 前記1つ以上の変換の前記少なくともいくつかは前記第1副空間において表される実数値を含む第1スペクトル成分を生成し、かつ、前記第2スペクトル値が前記第2副空間で表される虚数値を含む方法。
  6. 請求項5の方法であって、前記第1副空間で表される前記実数値を有する前記第1スペクトル成分を生成する前記変換は離散コサイン変換又は修正型離散コサイン変換である方法。
  7. 請求項1の方法であって:
    第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用して生成した1つ以上のブロックの変換係数として配置された変換係数であり;
    前記1つ以上のインパルス応答の一部に従って前記1つ以上の第1中間成分を組み合わせることにより前記1つ以上の第2中間成分を得、前記1つ以上の各インパルス応答が順番に配置された要素の各セットを含み;
    前記1つ以上の各インパルス応答の前記一部は前記要素の各セットの他のあらゆる要素を除く;
    方法。
  8. 請求項1の方法であって、前記1つ以上の第1スペクトル成分の少なくともいくつかから引き出される1つ以上の第3スペクトル成分を使用して強度又は位相の推定測度を得ることをさらに含む方法。
  9. 請求項8の方法であって、
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用して生成した1つ以上のブロックの変換係数として配置された変換係数であり;
    2つ以上の前記第1スペクトル成分の組合せから第3スペクトル成分を得;
    適応的に第3スペクトル成分を使用しあるいは第1及び第2スペクトル成分を使用して前記ソース信号の前記各セグメントの強度又は位相の推定測度を得る;
    方法。
  10. 請求項8の方法であって、
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用して生成した1つ以上のブロックの変換係数として配置された変換係数であり;

    2つ以上の第1前記スペクトル成分の組合せから第3スペクトル成分を得;
    前記第3スペクトル成分を使用することで前記ソース信号の各セグメントの少なくともいくつかのスペクトル成分の強度又は位相の推定測度を得、かつ、前記第1成分及び第2スペクトル成分を使用することで前記ソース信号の前記各セグメントの前記スペクトルコンテントの少なくともいくつかの強度又は位相の推定測度を得る;
    方法。
  11. 請求項8又は10に記載の方法であって、適応的に第前記3スペクトル成分を使用しあるいは前記第1及び第2スペクトル成分を使用することで強度又は位相の測度を得ることを含む方法。
  12. 請求項1の方法であって、スペクトル成分意味の測度に応答して前記1つ以上のインパルス応答の前記一部を適合させることを含む方法。
  13. 請求項12の方法であって、 前記スペクトル成分意味測度を前記ソース信号の前記スペクトルコンテントの知覚意味を評価する知覚モデルによって提供する方法。
  14. 請求項12の方法であって、前記スペクトル成分意味測度は、1つ以上のスペクトル成分の周波数の分離を反映する方法。
  15. 請求項1の方法であって:
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用して生成した1つ以上のブロックの変換係数として配置された第1変換係数であり、前記各ブロックは第1数の第1変換係数を含み;
    前記第2スペクトル成分は第2変換係数であり;
    第2数の第2変換係数が引き出されて前記各ブロックにおける前記第1変換係数のいくつかによって表されるスペクトルコンテントを表し;
    前記第2数は前記第1数より少ない;
    方法。
  16. 請求項1、2、9、10または12のいずれか1つに記載の方法であって、
    前記第1スペクトル成分に適応過程を適用して合成スペクトル成分を生成し;
    前記第1及び/又は第2スペクトル成分と、前記合成スペクトル成分から1つ以上の第3中間成分を引き出し;
    前記1つ以上の第3中間成分に1つ以上の合成フィルタバンクを適用することによって人間が知覚することを意図するコンテントを伝える1つ以上の出力信号を生成する;
    ことを含む方法。
  17. 請求項16の方法であって、 前記合成スペクトル成分の少なくともいくつかをスペクトル成分再生によって生成する方法。
  18. 請求項16の方法であって、前記合成スペクトル成分の少なくともいくつかは第1スペクトル成分及び/又は第2スペクトル成分の分解によって生成され、複数のソース信号のスペクトルコンテントの複合を表す方法。
  19. 請求項16の方法であって、前記合成スペクトル成分の少なくともいくつかは第1スペクトル成分及び/又は第2スペクトル成分を結合することによって生成され、複数のソース信号スペクトルコンテントの合成表示を提供する方法。
  20. 請求項1、2、9、10または12のいずれか1つに記載の方法であって、
    前記ソース信号に前記解析フィルタバンクを適用することによって前記第1スペクトル成分を生成し;
    前記第1スペクトル成分に前記適応過程を適用して、前記第1スペクトル成分の少なくともいくつかを表すコード化された情報を生成し;
    前記コード化された情報を伝える出力信号を生成する;
    ことを含んでなる方法。
  21. 人間が知覚できることを意図するコンテントを伝えるソース信号を表す情報を処理する方法を実行する装置によって実行可能な命令プログラムを含むメディアであって、前記方法は:
    前記ソース信号に解析フィルタバンクを適用することにより発生させた第1クトル成分を受け、但し、前記第1スペクトル成分は多次元空間の第1副空間において表された前記ソース信号のスペクトル成分を表し;
    前記第1スペクトル成分の少なくともいくつかから1つ以上の第1中間成分を引き出し、但し、 前記第1中間成分の少なくともいくつかは前記中間成分が引き出され多第1スペクトル成分とは異なり;
    1つ以上のインパルス応答の少なくとも一部に従い前記1つ以上の第1中間成分の組合せを形成して1つ以上の第2中間成分を得;
    前記1つ以上の第2中間成分から1つ以上の第2スペクトル成分を引き出し、但し、前記第2スペクトル成分は、前記第1副空間に含まれていない前記多次元空間の一部を含む前記多次元空間の第2副空間において表された前記ソース信号のスペクトルコンテントを表し;
    前記第1スペクトル成分と前記第2スペクトル成分を使用することで強度又は位相の推定測度を得;。
    前記強度又は位相の推定測度に応答する適応過程を前記第1スペクトル成分に適用して処理済情報を生成する;
    ことを含むメディア。
  22. 請求項21のメディアであって:
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用して発生させた1つ以上のブロックの変換係数として配置された変換係数であり;
    前記1つ以上のインパルス応答の前記一部は前記1つ以上の変換の周波数応答特性に基づき、該周波数応答特性は前記1つ以上の変換と共に前記ソース信号の前記1つ以上のセグメントに適用された1つ以上の解析ウィンドウ関数の特性に依存する;
    メディア。
  23. 請求項21のメディアであって、前記方法は、前記1つ以上の第1スペクトル成分の少なくともいくつかから引き出された1つ以上の第3のスペクトル成分を使用することで強度又は位相の推定測度を得ることをさらに含むメディア。
  24. 請求項23のメディアであって:
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用することにより発生させた1つ以上のブロックの変換係数として配置された変換係数であり;

    前記第1スペクトル成分の2つ以上の組合せから第3スペクトル成分を得;
    適応的に第3スペクトル成分を使用しあるいは第1及び第2スペクトル成分を使用することで前記ソース信号の前記各セグメントの強度又は位相の推定測度を得る;
    メディア。
  25. 請求項23のメディアであって:
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用することにより発生させた1つ以上のブロックの変換係数として配置された変換係数であり;
    前記第1スペクトル成分の2つ以上の組合せから第3スペクトル成分を得;
    前記第3スペクトル成分を使用することで前記ソース信号の各セグメントの少なくともいくつかのスペクトル成分の強度又は位相の推定測度を得、かつ、前記第1及び第2スペクトル成分を使用することで前記ソース信号の前記各セグメントの前記スペクトルコンテントの少なくともいくつかに関する強度又は位相の推定測度を得る;
    メディア。
  26. 請求項23のメディアであって、前記方法は、適応的に前記第3スペクトル成分あるいは前記第1及び第2スペクトル成分を使用して強度又は位相の測度を得ることを含むメディア。
  27. 請求項21のメディアであって、前記方法は、スペクトル成分意味の測度に対応して前記1つ以上のインパルス応答の前記一部を適合させることを含むメディア。
  28. 請求項27のメディアであって、前記ソース信号の前記スペクトル成分の知覚意味を評価する知覚モデルによって前記スペクトル成分意味の測度を提供するメディア。
  29. 請求項27のメディアであって、前記スペクトル成分意味の測度が1つ以上のスペクトル成分の周波数の分離を反映するメディア。
  30. 請求項21のメディアであって:
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用することにより生成された1つ以上のブロックの変換係数として配置された第1変換係数であり、前記各ブロックが第1数の第1変換係数を有し;
    前記第2スペクトル成分は第2変換係数であり;
    第2数の第2変換係数は引き出されて前記各ブロックにおける前記第1変換係数のいくつかによって表されるスペクトル成分を表し;
    前記第2数は前記第1数より少ない;
    メディア。
  31. 請求項21のメディアであって、前記方法は:
    前記第1スペクトル成分に適応過程を適用して合成スペクトル成分を生成し;
    前記第1及び/又は第2スペクトル成分と、前記合成スペクトル成分から1つ以上の第3中間成分を引き出し;
    前記1つ以上の第3中間成分に1つ以上の合成フィルタバンクを適用することによって、人間が知覚することを意図するコンテントを伝える1つ以上の出力信号を生成する;
    ことを含んでなるメディア。
  32. 請求項21のメディアであって、前記方法は:
    前記ソース信号に解析フィルタバンクを適用することによって前記第1スペクトル成分を生成し;
    前記第1スペクトル成分に前記適応過程を適用して、前記第1スペクトル成分の少なくともいくつかを表すコード化された情報を生成し;
    前記コード化された情報を伝える出力信号を生成する;
    ことを含んでなるメディア。
  33. 人間が知覚することを意図するコンテントを伝えるソース信号を表す情報を処理する装置であって:
    前記ソース信号に解析フィルタバンクを適用することにより発生させた第1スペクトル成分を受ける手段であって、前記第1スペクトル成分は多次元空間の第1副空間において表された前記ソース信号のスペクトル成分を表す手段と;
    前記第1スペクトル成分の少なくともいくつかから1つ以上の第1中間成分を引き出す手段であって、前記第1中間成分の前記少なくともいくつかは、前記第1スペクトル成分から引き出されるものと異なる手段と;
    1つ以上の第2中間成分を得るために1つ以上のインパルス応答の少なくとも一部に従って前記1つ以上の第1中間成分の組合せを形成する手段と;
    前記1つ以上の第2中間成分から1つ以上の第2スペクトル成分を引き出す手段であって、前記第2スペクトル成分は、前記第1副空間に含まれていない部分を含んでいる前記多次元空間の第2副空間において前記ソース信号のスペクトル成分を表すものである手段と;
    前記第1スペクトル成分と前記第2スペクトル成分を使用して強度又は位相の推定測度を得る手段と;
    前記強度又は位相の推定測度に応答する適応過程を前記第1スペクトル成分に適用して処理済情報を生成する手段と;
    を含んでなる装置。
  34. 請求項33の装置であって:前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用することにより生成した1つ以上のブロックの変換係数として配置された変換係数であり;かつ、前記1つ以上のインパルス応答の前記少なくとも一部は前記1つ以上の変換の周波数応答特性に基づき、該周波数応答特性は、前記1つ以上の変換と共に前記ソース信号の前記1つ以上のセグメントに適用された1つ以上の解析ウィンドウ関数の特性に依存する;装置。
  35. 請求項33の装置であって、前記第1スペクトル成分の少なくともいくつかから引き出される1つ以上の第3スペクトル成分を使用して強度又は位相の推定測度を得る手段をさらに含む装置
  36. 請求項35の装置であって:前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用することにより生成した1つ以上のブロックの変換係数として配置された変換係数であり;前記第1スペクトル成分の2つ以上の組合せから前記第3スペクトル成分を得;かつ、適応的に前記第3スペクトル成分を使用しあるいは前記第1及び第2スペクトル成分を使用してソース信号の各セグメントの強度又は位相の推定測度を得る;装置。
  37. 請求項35の装置であって:前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を適用して生成した1つ以上のブロックの変換係数として配置された変換係数であり;前記第1スペクトル成分の2つ以上の組合せから前記第3スペクトル成分を得;かつ、前記第3スペクトル成分を使用して前記ソース信号の各セグメントの少なくともいくつかのスペクトル成分の強度又は位相の指定測度を得、前記第1及び第2スペクトル成分を使用して前記ソース信号の前記各セグメントスペクトル成分の少なくともいくつかの強度又は位相の推定測度を得る;装置。
  38. 請求項35の装置であって、適応的に前記第3スペクトル成分を使用しあるいは前記第1及び第2スペクトル成分を使用して強度又は位相の測度を得る手段を含む装置。
  39. 請求項33の装置であって、スペクトル成分意味の測度に応答して前記1つ以上のインパルス応答の前記一部を適合させる手段を含む装置。
  40. 請求項39の装置であって、前記ソース信号の前記スペクトル成分の知覚意味を評価する知覚モデルによって前記スペクトル成分意味の測度を提供する装置。
  41. 請求項39の装置であって、スペクトル成分意味の前記測度は1つ以上のスペクトル成分の周波数の分離を反映する装置。
  42. 請求項33の装置であって、
    前記第1スペクトル成分は、前記ソース信号の1つ以上のセグメントに1つ以上の変換を与えることにより生成した1つ以上のブロックの変換係数として配置された変換係数であり、前記各ブロックは第1数の第1変換係数を有し;
    前記第2スペクトル成分は第2変換係数であり;
    第2数の第2変換係数は引き出されて、前記各ブロックにおける前記第1変換係数のいくつかによって表されるスペクトル成分を表し;
    前記第2数は前記第1数より少ない;
    装置。
  43. 請求項33の装置であって:
    前記第1スペクトル成分に適応過程を適用して合成スペクトル成分を生成する手段と;
    第1及び/又は第2スペクトル成分と前記合成スペクトル成分から1つ以上の第3中間成分を得る手段と;
    前記1つ以上の第3中間成分に1つ以上の合成フィルタバンクを適用することによって人間が知覚することを意図するコンテントを伝える1つ以上の出力信号を生成する手段と;
    を含んでなる装置。
  44. 請求項33の装置であって、
    前記ソース信号に解析フィルタバンクを適用することによって前記第1スペクトル成分を生成する手段と;
    前記第1スペクトル成分に前記適応過程を適用して前記第1スペクトル成分の少なくともいくつかを表すコード化された情報を生成する手段と;
    前記コード化された情報を伝達する出力信号を生成する手段と;
    を含んでなる装置。
JP2006551194A 2004-01-27 2005-01-14 Mdct係数から導かれた推定スペクトル強度と位相を使用する改良型コーディングテクニック Active JP4787176B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/766,681 2004-01-27
US10/766,681 US6980933B2 (en) 2004-01-27 2004-01-27 Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
PCT/US2005/001499 WO2005073960A1 (en) 2004-01-27 2005-01-14 Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients

Publications (3)

Publication Number Publication Date
JP2007524300A true JP2007524300A (ja) 2007-08-23
JP2007524300A5 JP2007524300A5 (ja) 2008-03-06
JP4787176B2 JP4787176B2 (ja) 2011-10-05

Family

ID=34795716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006551194A Active JP4787176B2 (ja) 2004-01-27 2005-01-14 Mdct係数から導かれた推定スペクトル強度と位相を使用する改良型コーディングテクニック

Country Status (15)

Country Link
US (6) US6980933B2 (ja)
EP (1) EP1709627B1 (ja)
JP (1) JP4787176B2 (ja)
KR (1) KR101184992B1 (ja)
CN (1) CN1918633B (ja)
AT (1) ATE532174T1 (ja)
AU (1) AU2005208287B2 (ja)
CA (1) CA2553784C (ja)
DK (1) DK1709627T3 (ja)
ES (1) ES2375285T3 (ja)
HK (1) HK1091309A1 (ja)
IL (1) IL176477A (ja)
PL (1) PL1709627T3 (ja)
TW (1) TWI374612B (ja)
WO (1) WO2005073960A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
JP2015513117A (ja) * 2012-02-24 2015-04-30 ドルビー・インターナショナル・アーベー 部分複素処理のための重複フィルタバンクにおける低遅延の実複素変換
JP2017521705A (ja) * 2014-07-01 2017-08-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のための位相訂正データを決定するための計算器および方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
WO2005073959A1 (en) * 2004-01-28 2005-08-11 Koninklijke Philips Electronics N.V. Audio signal decoding using complex-valued data
US9055298B2 (en) * 2005-07-15 2015-06-09 Qualcomm Incorporated Video encoding method enabling highly efficient partial decoding of H.264 and other transform coded information
US20070118361A1 (en) * 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
ES2940283T3 (es) * 2006-01-27 2023-05-05 Dolby Int Ab Filtración eficiente con un banco de filtros modulado complejo
WO2007148461A1 (ja) * 2006-06-19 2007-12-27 Panasonic Corporation エンコーダ信号の位相補正回路
US8214200B2 (en) * 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN101552006B (zh) * 2009-05-12 2011-12-28 武汉大学 加窗信号mdct域的能量及相位调整方法及其装置
CN102460574A (zh) * 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
WO2011013980A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
BR122020007866B1 (pt) 2009-10-21 2021-06-01 Dolby International Ab Sistema configurado para gerar um componente de alta frequência de um sinal de áudio, método para gerar um componente de alta frequência de um sinal de áudio e método para projetar um transpositor de harmônicos
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
EP4254951A3 (en) 2010-04-13 2023-11-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoding method for processing stereo audio signals using a variable prediction direction
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06508731A (ja) * 1991-06-05 1994-09-29 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 低計算複雑性デジタルフィルタバンク
JPH11503240A (ja) * 1995-03-27 1999-03-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション フェーザ測定用単一側波帯フィルタバンクの効率的実施装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5451954A (en) * 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
ATE191107T1 (de) * 1994-12-20 2000-04-15 Dolby Lab Licensing Corp Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6035177A (en) * 1996-02-26 2000-03-07 Donald W. Moses Simultaneous transmission of ancillary and audio signals by means of perceptual coding
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5945940A (en) * 1998-03-12 1999-08-31 Massachusetts Institute Of Technology Coherent ultra-wideband processing of sparse multi-sensor/multi-spectral radar measurements
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
JP4099608B2 (ja) 1998-07-29 2008-06-11 ソニー株式会社 信号処理装置、記録媒体及び信号処理方法
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6862326B1 (en) * 2001-02-20 2005-03-01 Comsys Communication & Signal Processing Ltd. Whitening matched filter for use in a communications receiver
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
US6963842B2 (en) 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06508731A (ja) * 1991-06-05 1994-09-29 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 低計算複雑性デジタルフィルタバンク
JPH11503240A (ja) * 1995-03-27 1999-03-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション フェーザ測定用単一側波帯フィルタバンクの効率的実施装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
COREY I. CHENG: "Method for estimating magnitude and phase in the MDCT domain", AUDIO ENGINEERING SOCIETY CONVENTION PAPER 6091, JPN7010003913, 8 May 2004 (2004-05-08), pages 1 - 30, ISSN: 0001951540 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
JP2015513117A (ja) * 2012-02-24 2015-04-30 ドルビー・インターナショナル・アーベー 部分複素処理のための重複フィルタバンクにおける低遅延の実複素変換
JP2017521705A (ja) * 2014-07-01 2017-08-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のための位相訂正データを決定するための計算器および方法

Also Published As

Publication number Publication date
HK1091309A1 (en) 2007-01-12
AU2005208287A1 (en) 2005-08-11
CN1918633B (zh) 2011-01-05
PL1709627T3 (pl) 2012-03-30
CA2553784C (en) 2013-07-30
IL176477A (en) 2010-04-15
AU2005208287B2 (en) 2010-02-18
EP1709627A1 (en) 2006-10-11
CA2553784A1 (en) 2005-08-11
IL176477A0 (en) 2006-10-05
TWI374612B (en) 2012-10-11
ES2375285T3 (es) 2012-02-28
USRE48271E1 (en) 2020-10-20
USRE42935E1 (en) 2011-11-15
ATE532174T1 (de) 2011-11-15
USRE44126E1 (en) 2013-04-02
US6980933B2 (en) 2005-12-27
US20050165587A1 (en) 2005-07-28
EP1709627B1 (en) 2011-11-02
CN1918633A (zh) 2007-02-21
TW200525899A (en) 2005-08-01
KR101184992B1 (ko) 2012-10-02
WO2005073960A1 (en) 2005-08-11
KR20060131797A (ko) 2006-12-20
JP4787176B2 (ja) 2011-10-05
DK1709627T3 (da) 2012-02-13
USRE48210E1 (en) 2020-09-15
USRE46684E1 (en) 2018-01-23

Similar Documents

Publication Publication Date Title
JP4787176B2 (ja) Mdct係数から導かれた推定スペクトル強度と位相を使用する改良型コーディングテクニック
KR100253136B1 (ko) 저계산 복잡도의 디지탈 필터뱅크
US7707030B2 (en) Device and method for generating a complex spectral representation of a discrete-time signal
JP4689625B2 (ja) 信号解析及び合成のための適応型混合変換
US8195730B2 (en) Apparatus and method for conversion into a transformed representation or for inverse conversion of the transformed representation
TWI550600B (zh) 使用一多重疊部分來產生一編碼過的信號或用於解碼一編碼過的音頻信號之設備、電腦程式及方法
US7512539B2 (en) Method and device for processing time-discrete audio sampled values
RU2616863C2 (ru) Сигнальный процессор, формирователь окон, кодированный медиа-сигнал, способ обработки сигнала и способ формирования окон
Britanak et al. Cosine-/Sine-Modulated Filter Banks
CN109863555A (zh) 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低
RU2409874C2 (ru) Сжатие звуковых сигналов
Schuller Filter Banks and Audio Coding: Compressing Audio Signals Using Python
EP0827647B1 (en) Analysis/synthesis filtering system with efficient oddly-stacked single-sideband filter bank using time-domain aliasing cancellation
KR101411297B1 (ko) 저주파 효과 채널에 대한 복잡성 감소 변환
MXPA06008474A (es) Tecnicas de codificacion mejoradas que utilizan magnitud y fase espectrales estimadas derivadas a partir de coeficientes de mdct
Hossen et al. Different approximate cepstra using subband-transforms: Theory and applications
Schuller Filter Banks and Audio Coding

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110228

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110307

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110328

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110714

R150 Certificate of patent or registration of utility model

Ref document number: 4787176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250